Usando Python em Data Science

Se você estiver pensando em aprender Python como sua linguagem de programação para Data Science, uma pergunta pode ajudar neste processo: “Quais são as diferentes bibliotecas Python disponíveis para realizar a análise de dados?”

Existem muitas bibliotecas disponíveis para realizar a análise de dados em Python. Pode não ser necessário ter que aprender todas essas bibliotecas, mas algumas são de grande importância para a maioria das tarefas de análise de dados. Vou dar uma breve introdução a cada uma destas bibliotecas.

A melhor forma de começar é pelo SciPy, onde é possível fazer o download de cada biblioteca individualmente. Estas bibliotecas fornecem apoio para a matemática, ciência, estatística e engenharia. Entre as principais bibliotecas estão: NumPy, SciPy, Matplotlib, IPython, SimPy, Pandas, Scikit-learn e Beautiful Soup.

NumPy – Computação Científica

NumPy é o pacote fundamental para computação científica com Python. Ele permite, entre outras coisas:

Manipulação de matriz n-dimensional (uma matriz multidimensional rápida e eficiente que permite a vetorização de operações aritméticas), que é fundamental para o trabalho em Ciência de Dados.
Ferramentas para a integração de código C / C++ e Fortran, permitindo transferir dados para bibliotecas externas escritas nestas linguagens.
Utilitários de álgebra linear e capacidade de gerar números aleatórios.

Além das suas utilizações científicas óbvias, NumPy também pode ser utilizado como um recipiente multidimensional de dados genéricos. Tipos de dados arbitrários podem ser definidos. Isso permite que NumPy, de forma transparente e rápida, se integre com uma ampla variedade de bancos de dados.

NumPy não fornece a funcionalidade de análise de dados de alto nível, mas fornece operações com matrizes, que tornam o trabalho de análise de dados com o Pandas, muito mais eficiente.

SciPy – Operações Matemáticas

A biblioteca SciPy depende da biblioteca NumPy, que fornece manipulação de matriz n-dimensional de forma prática e rápida. A biblioteca SciPy foi construída para trabalhar com matrizes e fornece muitas rotinas numéricas de fácil utilização e eficientes, como rotinas de integração e otimização numérica. SciPy possui módulos para otimização, álgebra linear, integração e outras tarefas comuns na Ciência de Dados.

Pandas – Análise de Dados

Pandas é uma biblioteca de alto desempenho que fornece suporte para estruturas de dados e ferramentas de análise de dados. A biblioteca é otimizada para executar tarefas de Ciência de Dados de forma rápida e eficiente. O princípio básico do Pandas é fornecer análise de dados e suporte a modelagem para Python de forma semelhante a outras línguas, como o R.

Scikit-learn – Machine Learning

Scikit-learn é um módulo Python para Machine Learning. Ele fornece um conjunto de algoritmos de aprendizagem de máquina comum aos usuários através de uma interface consistente. Scikit-learn ajuda a implementar rapidamente algoritmos em seu conjunto de dados. Dê uma olhada na lista de algoritmos disponíveis em scikit-learn, e você pode rapidamente perceber que inclui ferramentas para muitas tarefas de aprendizagem de máquina padrão (como clustering, classificação, regressão, etc).

Matplotlib – Visualização de dados

Matlplotlib é um módulo Python para visualização de dados. Matplotlib permite que você crie facilmente gráfico, histogramas e outras figuras profissionais. Usando Matplotlib você pode personalizar cada aspecto de uma figura. Quando usado no IPython, Matplotlib tem recursos interativos, como zoom e visão panorâmica. Ele possui suporte em todos os sistemas operacionais e também pode exportar gráficos para vetor comum e formatos gráficos: pdf, svg, jpg, png, bmp, gif, etc.

SymPy – Computação Simbólica

SymPy é uma biblioteca Python para a matemática. Destina-se a tornar-se um sistema de álgebra computacional full-featured, mantendo o código tão simples quanto possível, a fim de ser compreensível e facilmente extensível. SymPy é inteiramente escrito em Python e não requer nenhuma biblioteca externa.

Beautiful Soup – Análise HTML e XML

A biblioteca Beautiful Soup fornece os meios para análise de dados HTML ou XML de uma maneira que Python possa compreender. Ele permite que você trabalhe com dados baseados em tags, como os encontrados em arquivos html e xml.

IPython-Notebook

Esta é simplesmente uma grande ferramenta. Você pode executar múltiplas linhas / blocos de código em diferentes células, você pode brincar com os dados, movê-los para cima ou para baixo e você ainda pode obter seus resultados logo abaixo da célula. É realmente como um organizador mágico que cientistas de dados (e as pessoas que executam código) sempre sonharam. Você também pode escrever em R, SQL, Scala, e outras línguagens em IPython-Notebook o que faz com que o fluxo de trabalho seja muito mais fácil e eficiente.

David Matos

Relacionado

8 thoughts on “Usando Python em Data Science”

Artigo breve, porém, muito bom!

Responder

David Matos disse:

26 de dezembro de 2016 às 8:39 PM

Obrigado Douglas.

Responder

Realmente muito bom, bem objetivo e esclarecedor.

Responder

David Matos disse:

11 de dezembro de 2017 às 2:45 PM

Valeu Erick. Muito obrigado.

Responder

Faço curso de engenharia e o professor de programação pediu trabalho sobre o qual estou perdida em encontrar material sobre o mesmo.
Ele pede sobre a biblioteca Pandas vincula ao Python, ele quer:

Conceitos
Instalação
Importação
Estrutura (data structure)
Criação de Objetos (Series e DataFrame)
Visualização de Dados
Seleção de dados
Operações
Trabalhando com dados categoricos no DataFrame
Trabalhando com arquivos (Leitura e Escrita [csv, excel])

Nem sou da área da computação, tenho disciplinas Programação I e II, estou na I. Nunca tive contato com isso antes. Enfim, não estou conseguindo encontrar claramente esses tópicos. Nunca passei por uma situação dessas. Se alguém puder me ajudar, agradeço. Não quero trabalho pronto, mas onde encontrar os materiais para ler e entender. Encontrei muitos em inglês, mas a tradução fica muito estranha. Desde já, obrigada.

Responder

David Matos disse:

13 de janeiro de 2018 às 1:29 AM

Olá Juliana. Acho que aqui tem o que você precisa: https://www.datascienceacademy.com.br/course?courseid=python-fundamentos. Abs. David

Responder
1. Juliana Luz disse:
  
  15 de janeiro de 2018 às 8:14 PM
  
  Muito obrigada David Matos.
  Ajudou muito, bjos e felicidades.
  Nossa, muito feliz!!
  
  Responder

Olá meu nome e césar sou do BR estou acompanhando seu artigos no blog estou gostando muito minha pos graduação e em banco de dados tenho 46 anos ainda não trabalho na aréa mas tenho estudado muito e buscado conhecimento, gostei muito dos seu artigos, parabéns pelos seu trabalho e muito sucesso.

Responder

Relacionado

8 thoughts on “Usando Python em Data Science”

Deixe um comentário Cancelar resposta