Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
Menu
Usando Python em Data Science

Usando Python em Data Science

Posted on 21 de outubro de 201527 de dezembro de 2017 by David Matos

Se você estiver pensando em aprender Python como sua linguagem de programação para Data Science, uma pergunta pode ajudar neste processo: “Quais são as diferentes bibliotecas Python disponíveis para realizar a análise de dados?”

Existem muitas bibliotecas disponíveis para realizar a análise de dados em Python. Pode não ser necessário ter que aprender todas essas bibliotecas, mas algumas são de grande importância para a maioria das tarefas de análise de dados. Vou dar uma breve introdução a cada uma destas bibliotecas.

A melhor forma de começar é pelo SciPy, onde é possível fazer o download de cada biblioteca individualmente. Estas bibliotecas fornecem apoio para a matemática, ciência, estatística e engenharia. Entre as principais bibliotecas estão: NumPy, SciPy, Matplotlib, IPython, SimPy, Pandas, Scikit-learn e Beautiful Soup.

Python em Data Science

NumPy – Computação Científica

NumPy é o pacote fundamental para computação científica com Python. Ele permite, entre outras coisas:

  • Manipulação de matriz n-dimensional (uma matriz multidimensional rápida e eficiente que permite a vetorização de operações aritméticas), que é fundamental para o trabalho em Ciência de Dados.
  • Ferramentas para a integração de código C / C++ e Fortran, permitindo transferir dados para bibliotecas externas escritas nestas linguagens.
  • Utilitários de álgebra linear e capacidade de gerar números aleatórios.

Além das suas utilizações científicas óbvias, NumPy também pode ser utilizado como um recipiente multidimensional de dados genéricos. Tipos de dados arbitrários podem ser definidos. Isso permite que NumPy, de forma transparente e rápida, se integre com uma ampla variedade de bancos de dados.

NumPy não fornece a funcionalidade de análise de dados de alto nível, mas fornece operações com matrizes, que tornam o trabalho de análise de dados com o Pandas, muito mais eficiente.

SciPy – Operações Matemáticas

A biblioteca SciPy depende da biblioteca NumPy, que fornece manipulação de matriz n-dimensional de forma prática e rápida. A biblioteca SciPy foi construída para trabalhar com matrizes e fornece muitas rotinas numéricas de fácil utilização e eficientes, como rotinas de integração e otimização numérica. SciPy possui módulos para otimização, álgebra linear, integração e outras tarefas comuns na Ciência de Dados.

Pandas – Análise de Dados

Pandas é uma biblioteca de alto desempenho que fornece suporte para estruturas de dados e ferramentas de análise de dados. A biblioteca é otimizada para executar tarefas de Ciência de Dados de forma rápida e eficiente. O princípio básico do Pandas é fornecer análise de dados e suporte a modelagem para Python de forma semelhante a outras línguas, como o R.

Scikit-learn – Machine Learning

Scikit-learn é um módulo Python para Machine Learning. Ele fornece um conjunto de algoritmos de aprendizagem de máquina comum aos usuários através de uma interface consistente. Scikit-learn ajuda a implementar rapidamente algoritmos em seu conjunto de dados. Dê uma olhada na lista de algoritmos disponíveis em scikit-learn, e você pode rapidamente perceber que inclui ferramentas para muitas tarefas de aprendizagem de máquina padrão (como clustering, classificação, regressão, etc).

Matplotlib – Visualização de dados

Matlplotlib é um módulo Python para visualização de dados. Matplotlib permite que você crie facilmente gráfico, histogramas e outras figuras profissionais. Usando Matplotlib você pode personalizar cada aspecto de uma figura. Quando usado no IPython, Matplotlib tem recursos interativos, como zoom e visão panorâmica. Ele possui suporte em todos os sistemas operacionais e também pode exportar gráficos para vetor comum e formatos gráficos: pdf, svg, jpg, png, bmp, gif, etc.

SymPy – Computação Simbólica

SymPy é uma biblioteca Python para a matemática. Destina-se a tornar-se um sistema de álgebra computacional full-featured, mantendo o código tão simples quanto possível, a fim de ser compreensível e facilmente extensível. SymPy é inteiramente escrito em Python e não requer nenhuma biblioteca externa.

Beautiful Soup – Análise HTML e XML

A biblioteca Beautiful Soup fornece os meios para análise de dados HTML ou XML de uma maneira que Python possa compreender. Ele permite que você trabalhe com dados baseados em tags, como os encontrados em arquivos html e xml.

IPython-Notebook 

Esta é simplesmente uma grande ferramenta. Você pode executar múltiplas linhas / blocos de código em diferentes células, você pode brincar com os dados, movê-los para cima ou para baixo e você ainda pode obter seus resultados logo abaixo da célula. É realmente como um organizador mágico que cientistas de dados (e as pessoas que executam código) sempre sonharam. Você também pode escrever em R, SQL, Scala, e outras línguagens em IPython-Notebook o que faz com que o fluxo de trabalho seja muito mais fácil e eficiente.

David Matos

Relacionado

8 thoughts on “Usando Python em Data Science”

  1. Douglas disse:
    25 de dezembro de 2016 às 6:20 PM

    Artigo breve, porém, muito bom!

    Responder
    1. David Matos disse:
      26 de dezembro de 2016 às 8:39 PM

      Obrigado Douglas.

      Responder
  2. Erick disse:
    11 de dezembro de 2017 às 12:52 AM

    Realmente muito bom, bem objetivo e esclarecedor.

    Responder
    1. David Matos disse:
      11 de dezembro de 2017 às 2:45 PM

      Valeu Erick. Muito obrigado.

      Responder
  3. Juliana Luz disse:
    12 de janeiro de 2018 às 2:34 PM

    Faço curso de engenharia e o professor de programação pediu trabalho sobre o qual estou perdida em encontrar material sobre o mesmo.
    Ele pede sobre a biblioteca Pandas vincula ao Python, ele quer:

    Conceitos
    Instalação
    Importação
    Estrutura (data structure)
    Criação de Objetos (Series e DataFrame)
    Visualização de Dados
    Seleção de dados
    Operações
    Trabalhando com dados categoricos no DataFrame
    Trabalhando com arquivos (Leitura e Escrita [csv, excel])

    Nem sou da área da computação, tenho disciplinas Programação I e II, estou na I. Nunca tive contato com isso antes. Enfim, não estou conseguindo encontrar claramente esses tópicos. Nunca passei por uma situação dessas. Se alguém puder me ajudar, agradeço. Não quero trabalho pronto, mas onde encontrar os materiais para ler e entender. Encontrei muitos em inglês, mas a tradução fica muito estranha. Desde já, obrigada.

    Responder
    1. David Matos disse:
      13 de janeiro de 2018 às 1:29 AM

      Olá Juliana. Acho que aqui tem o que você precisa: https://www.datascienceacademy.com.br/course?courseid=python-fundamentos. Abs. David

      Responder
      1. Juliana Luz disse:
        15 de janeiro de 2018 às 8:14 PM

        Muito obrigada David Matos.
        Ajudou muito, bjos e felicidades.
        Nossa, muito feliz!!

        Responder
  4. cesar disse:
    4 de setembro de 2024 às 8:56 PM

    Olá meu nome e césar sou do BR estou acompanhando seu artigos no blog estou gostando muito minha pos graduação e em banco de dados tenho 46 anos ainda não trabalho na aréa mas tenho estudado muito e buscado conhecimento, gostei muito dos seu artigos, parabéns pelos seu trabalho e muito sucesso.

    Responder

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Buscar

Tags Mais Comuns nos Posts

Agentes de IA Analytics Análise de Negócios Apache Spark AWS Big Data Blockchain Business Intelligence ChatGPT Cientista de Dados Cientistas de Dados Ciência de Dados Cloud Computing Data Lake Data Mesh Data Science Data Scientist Data Warehouse Deep Learning Deploy Engenharia de Dados Estatística GPU GraphRAG Hadoop IA Generativa Inteligência Artificial Internet of Things Linguagem Python Linguagem R LLM LLMs Machine Learning MCP (Model Context Protocol) Metadados Normalização NVIDIA Oracle Pipeline de Dados Predictive Analytics Probabilidade PySpark Python RAG Storytelling

Histórico de Posts

  • maio 2025 (5)
  • abril 2025 (2)
  • março 2025 (4)
  • fevereiro 2025 (8)
  • janeiro 2025 (5)
  • dezembro 2024 (4)
  • novembro 2024 (1)
  • outubro 2024 (1)
  • setembro 2024 (1)
  • agosto 2024 (1)
  • julho 2024 (3)
  • junho 2024 (1)
  • maio 2024 (1)
  • abril 2024 (2)
  • março 2024 (1)
  • fevereiro 2024 (1)
  • janeiro 2024 (1)
  • dezembro 2023 (1)
  • outubro 2023 (2)
  • setembro 2023 (1)
  • agosto 2023 (4)
  • julho 2023 (2)
  • junho 2023 (4)
  • maio 2023 (2)
  • abril 2023 (2)
  • março 2023 (3)
  • fevereiro 2023 (3)
  • janeiro 2023 (3)
  • dezembro 2022 (7)
  • novembro 2022 (6)
  • outubro 2022 (2)
  • setembro 2022 (3)
  • agosto 2022 (2)
  • julho 2022 (2)
  • junho 2022 (3)
  • maio 2022 (1)
  • abril 2022 (3)
  • março 2022 (1)
  • fevereiro 2022 (3)
  • janeiro 2022 (2)
  • dezembro 2021 (1)
  • novembro 2021 (5)
  • outubro 2021 (2)
  • setembro 2021 (3)
  • agosto 2021 (1)
  • junho 2021 (1)
  • fevereiro 2021 (2)
  • janeiro 2021 (1)
  • dezembro 2020 (1)
  • novembro 2020 (1)
  • outubro 2020 (2)
  • agosto 2020 (1)
  • abril 2020 (1)
  • março 2020 (1)
  • fevereiro 2020 (2)
  • agosto 2019 (1)
  • abril 2019 (1)
  • setembro 2018 (2)
  • julho 2018 (1)
  • junho 2018 (3)
  • abril 2018 (1)
  • março 2018 (1)
  • fevereiro 2018 (2)
  • janeiro 2018 (1)
  • dezembro 2017 (1)
  • novembro 2017 (1)
  • outubro 2017 (1)
  • setembro 2017 (1)
  • julho 2017 (1)
  • junho 2017 (1)
  • maio 2017 (2)
  • abril 2017 (1)
  • janeiro 2017 (1)
  • novembro 2016 (1)
  • outubro 2016 (1)
  • setembro 2016 (1)
  • julho 2016 (1)
  • junho 2016 (1)
  • maio 2016 (1)
  • abril 2016 (1)
  • fevereiro 2016 (1)
  • janeiro 2016 (3)
  • dezembro 2015 (4)
  • novembro 2015 (6)
  • outubro 2015 (9)
  • setembro 2015 (9)
  • agosto 2015 (9)
©2025 Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
 

Carregando comentários...