Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
Menu
3 Principais Pacotes Python Para Aprender Estatística Para Data Science

3 Principais Pacotes Python Para Aprender Estatística Para Data Science

Posted on 31 de março de 20226 de abril de 2022 by David Matos

Os Cientistas de Dados são conhecidos por terem melhores habilidades de programação do que um estatístico e melhor conhecimento estatístico do que um programador. Embora aprender programação não seja uma tarefa fácil, às vezes os novos especialistas em dados negligenciam a habilidade estatística.

Eu sei que estatística não é trivial, especialmente para pessoas que não são formalmente educadas nela. No entanto, é possível aprender estatística do zero – com a ajuda da tecnologia moderna. Aprender estatística se torna mais fácil do que nunca com todos os pacotes estatísticos desenvolvidos em linguagens de programação. E em Python temos muitas opções à disposição.

Claro que você deve usar a linguagem R em vez de Python; mas, a linguagem Python oferece atualmente excelentes pacotes estatísticos que estão em pleno desenvolvimento e evolução.

Neste artigo veremos os 3 Principais Pacotes Python Para Aprender Estatística Para Data Science!

1- Scipy.Stats

Scipy é um pacote Python para computação científica, de código aberto. O próprio Scipy também é uma coleção de algoritmos numéricos e caixas de ferramentas específicas usadas em muitas pesquisas matemáticas, de engenharia e de dados.

Uma das APIs disponíveis no Scipy é a API estatística chamada Stats. De acordo com a página inicial do Scipy, Scipy.Stats é um módulo que contém um grande número de distribuições de probabilidade e uma biblioteca crescente de funções estatísticas, especialmente para o estudo da função de probabilidade.

Para obter uma melhor compreensão do trabalho estatístico, Scipy.Stats também fornece um tutorial que você pode experimentar. O tutorial é abrangente e fácil de seguir (em inglês).

Se você estiver usando Python da distribuição Anaconda, o pacote Scipy já está embutido no ambiente. Se você optar por instalar o Scipy independentemente, precisará instalar o pacote de dependência.

Acesse a documentação e tutoriais aqui.

2- Pingouin

Pingouin é um pacote estatístico de código aberto. Este pacote oferece muitas classes e funções para aprender estatísticas básicas e testes de hipóteses. De acordo com o desenvolvedor, o Pingouin é projetado para usuários que desejam funções estatísticas simples, mas que ajudem no dia a dia.

O Pingouin é simples, mas exaustivo porque o pacote fornece mais explicações sobre os dados. Em Scipy.Stats, eles retornam apenas o valor T e o valor p quando às vezes queremos mais explicações sobre os dados.

No pacote Pingouin, o cálculo é executado algumas etapas acima. Por exemplo, em vez de retornar apenas o valor T e o valor p, o teste t do pacote Pingouin também retorna os graus de liberdade, o tamanho do efeito (d de Cohen), os intervalos de confiança de 95% da diferença nas médias, os dados estatísticos potência e o Fator de Bayes (BF10) do teste.

Cada teste estatístico no Pengouin fornece todas as pontuações necessárias que você espera do teste. Para uma melhor interpretação do resultado, você deve consultar a documentação da API aqui.

3- Statsmodel

Statsmodels é um pacote Python para modelagem estatística que fornece muitas classes e funções para criar uma estimativa estatística. O pacote Statsmodel costumava fazer parte do módulo Scipy, mas atualmente o pacote statsmodel é desenvolvido separadamente.

Qual a diferença entre Scipy.Stats e statsmodel? O módulo Scipy.Stats concentra-se no teorema estatístico, como função probabilística e distribuição, enquanto o pacote Statsmodels concentra-se na estimativa estatística com base nos dados.

Statsmodel fornece API frequentemente usada em modelagem estatística. O pacote Statsmodel divide as APIs em três modelos principais:

  • statsmodels.api que fornece muitos modelos e métodos transversais, incluindo regressão e GLM.
  • statsmodels.tsa.api que fornecem modelos e métodos de séries temporais.
  • statsmodels.formula.api que fornece uma interface para especificar modelos usando fórmulas e DataFrames – em termos mais simples, você pode criar seu próprio modelo.

Statsmodel é um ótimo pacote inicial para qualquer pessoa que queira entender a modelagem estatística em maior profundidade. O guia do usuário fornece uma explicação detalhada do conceito de que você precisa para entender a estimativa estatística. Por exemplo, os termos endógenos e exógenos retirados do guia do usuário Statsmodel são explicados na passagem abaixo:

Algumas definições informais dos termos são:

endógeno: causado por fatores dentro do sistema
exógeno: causado por fatores externos ao sistema

Variáveis ​​endógenas designam variáveis ​​em um modelo econômico / econométrico que são explicadas ou previstas por esse modelo. Referência: http://stats.oecd.org/glossary/detail.asp?ID=794

Variáveis ​​exógenas designam variáveis ​​que aparecem em um modelo econômico / econométrico, mas não são explicadas por esse modelo (ou seja, são consideradas como fornecidas pelo modelo). Referência: http://stats.oecd.org/glossary/detail.asp?ID=890

O Statsmodels vem com o Anaconda Python. Aqui o link para a documentação.

David Matos

Referências:

Análise Estatística Para Data Science

3 Top Python Packages to Learn Statistic for Data Scientist

Compartilhar

  • Clique para compartilhar no Twitter(abre em nova janela)
  • Clique para compartilhar no Facebook(abre em nova janela)
  • Clique para compartilhar no LinkedIn(abre em nova janela)
  • Clique para compartilhar no WhatsApp(abre em nova janela)
  • Clique para compartilhar no Telegram(abre em nova janela)
  • Clique para compartilhar no Tumblr(abre em nova janela)
  • Clique para compartilhar no Pinterest(abre em nova janela)

Relacionado

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Buscar

Twitter

Meus Tuítes

Tags Mais Comuns nos Posts

Anaconda Analytics Análise de Negócios Apache Spark AWS Big Data Blockchain Business Intelligence ChatGPT Chief Data Officer Cientista de Dados Cientistas de Dados Ciência de Dados Cloud Computing Data Lake Data Mesh Data Science Data Scientist Data Warehouse Deep Learning Deploy Descriptive Analytics Diagnostic Analytics Engenharia de Dados Engenheiro de Dados Estatística GPU Hadoop Inteligência Artificial Internet of Things Linguagem Python Linguagem R Machine Learning MapReduce Metadados NoSQL NVIDIA Open Data Oracle Predictive Analytics Prescriptive Analytics Probabilidade Python Salários Data Science Visualização

Histórico de Posts

  • março 2023 (3)
  • fevereiro 2023 (3)
  • janeiro 2023 (5)
  • dezembro 2022 (8)
  • novembro 2022 (7)
  • outubro 2022 (2)
  • setembro 2022 (3)
  • agosto 2022 (2)
  • julho 2022 (2)
  • junho 2022 (3)
  • maio 2022 (1)
  • abril 2022 (3)
  • março 2022 (1)
  • fevereiro 2022 (3)
  • janeiro 2022 (2)
  • dezembro 2021 (1)
  • novembro 2021 (5)
  • outubro 2021 (2)
  • setembro 2021 (3)
  • agosto 2021 (1)
  • junho 2021 (1)
  • fevereiro 2021 (2)
  • janeiro 2021 (1)
  • dezembro 2020 (1)
  • novembro 2020 (1)
  • outubro 2020 (2)
  • agosto 2020 (1)
  • abril 2020 (1)
  • março 2020 (1)
  • fevereiro 2020 (2)
  • agosto 2019 (1)
  • abril 2019 (1)
  • setembro 2018 (2)
  • julho 2018 (1)
  • junho 2018 (3)
  • abril 2018 (1)
  • março 2018 (1)
  • fevereiro 2018 (2)
  • janeiro 2018 (1)
  • dezembro 2017 (1)
  • novembro 2017 (1)
  • outubro 2017 (1)
  • setembro 2017 (1)
  • julho 2017 (1)
  • junho 2017 (1)
  • maio 2017 (2)
  • abril 2017 (1)
  • janeiro 2017 (1)
  • novembro 2016 (1)
  • outubro 2016 (1)
  • setembro 2016 (1)
  • julho 2016 (1)
  • junho 2016 (1)
  • maio 2016 (1)
  • abril 2016 (1)
  • fevereiro 2016 (1)
  • janeiro 2016 (3)
  • dezembro 2015 (4)
  • novembro 2015 (6)
  • outubro 2015 (9)
  • setembro 2015 (9)
  • agosto 2015 (9)
©2022 Ciência e Dados