3 Principais Pacotes Python Para Aprender Estatística Para Data Science

Os Cientistas de Dados são conhecidos por terem melhores habilidades de programação do que um estatístico e melhor conhecimento estatístico do que um programador. Embora aprender programação não seja uma tarefa fácil, às vezes os novos especialistas em dados negligenciam a habilidade estatística.

Eu sei que estatística não é trivial, especialmente para pessoas que não são formalmente educadas nela. No entanto, é possível aprender estatística do zero – com a ajuda da tecnologia moderna. Aprender estatística se torna mais fácil do que nunca com todos os pacotes estatísticos desenvolvidos em linguagens de programação. E em Python temos muitas opções à disposição.

Claro que você deve usar a linguagem R em vez de Python; mas, a linguagem Python oferece atualmente excelentes pacotes estatísticos que estão em pleno desenvolvimento e evolução.

Neste artigo veremos os 3 Principais Pacotes Python Para Aprender Estatística Para Data Science!

1- Scipy.Stats

Scipy é um pacote Python para computação científica, de código aberto. O próprio Scipy também é uma coleção de algoritmos numéricos e caixas de ferramentas específicas usadas em muitas pesquisas matemáticas, de engenharia e de dados.

Uma das APIs disponíveis no Scipy é a API estatística chamada Stats. De acordo com a página inicial do Scipy, Scipy.Stats é um módulo que contém um grande número de distribuições de probabilidade e uma biblioteca crescente de funções estatísticas, especialmente para o estudo da função de probabilidade.

Para obter uma melhor compreensão do trabalho estatístico, Scipy.Stats também fornece um tutorial que você pode experimentar. O tutorial é abrangente e fácil de seguir (em inglês).

Se você estiver usando Python da distribuição Anaconda, o pacote Scipy já está embutido no ambiente. Se você optar por instalar o Scipy independentemente, precisará instalar o pacote de dependência.

Acesse a documentação e tutoriais aqui.

2- Pingouin

Pingouin é um pacote estatístico de código aberto. Este pacote oferece muitas classes e funções para aprender estatísticas básicas e testes de hipóteses. De acordo com o desenvolvedor, o Pingouin é projetado para usuários que desejam funções estatísticas simples, mas que ajudem no dia a dia.

O Pingouin é simples, mas exaustivo porque o pacote fornece mais explicações sobre os dados. Em Scipy.Stats, eles retornam apenas o valor T e o valor p quando às vezes queremos mais explicações sobre os dados.

No pacote Pingouin, o cálculo é executado algumas etapas acima. Por exemplo, em vez de retornar apenas o valor T e o valor p, o teste t do pacote Pingouin também retorna os graus de liberdade, o tamanho do efeito (d de Cohen), os intervalos de confiança de 95% da diferença nas médias, os dados estatísticos potência e o Fator de Bayes (BF10) do teste.

Cada teste estatístico no Pengouin fornece todas as pontuações necessárias que você espera do teste. Para uma melhor interpretação do resultado, você deve consultar a documentação da API aqui.

3- Statsmodel

Statsmodels é um pacote Python para modelagem estatística que fornece muitas classes e funções para criar uma estimativa estatística. O pacote Statsmodel costumava fazer parte do módulo Scipy, mas atualmente o pacote statsmodel é desenvolvido separadamente.

Qual a diferença entre Scipy.Stats e statsmodel? O módulo Scipy.Stats concentra-se no teorema estatístico, como função probabilística e distribuição, enquanto o pacote Statsmodels concentra-se na estimativa estatística com base nos dados.

Statsmodel fornece API frequentemente usada em modelagem estatística. O pacote Statsmodel divide as APIs em três modelos principais:

statsmodels.api que fornece muitos modelos e métodos transversais, incluindo regressão e GLM.
statsmodels.tsa.api que fornecem modelos e métodos de séries temporais.
statsmodels.formula.api que fornece uma interface para especificar modelos usando fórmulas e DataFrames – em termos mais simples, você pode criar seu próprio modelo.

Statsmodel é um ótimo pacote inicial para qualquer pessoa que queira entender a modelagem estatística em maior profundidade. O guia do usuário fornece uma explicação detalhada do conceito de que você precisa para entender a estimativa estatística. Por exemplo, os termos endógenos e exógenos retirados do guia do usuário Statsmodel são explicados na passagem abaixo:

Algumas definições informais dos termos são:

endógeno: causado por fatores dentro do sistema
exógeno: causado por fatores externos ao sistema

Variáveis endógenas designam variáveis em um modelo econômico / econométrico que são explicadas ou previstas por esse modelo. Referência: http://stats.oecd.org/glossary/detail.asp?ID=794

Variáveis exógenas designam variáveis que aparecem em um modelo econômico / econométrico, mas não são explicadas por esse modelo (ou seja, são consideradas como fornecidas pelo modelo). Referência: http://stats.oecd.org/glossary/detail.asp?ID=890

O Statsmodels vem com o Anaconda Python. Aqui o link para a documentação.

David Matos

Referências:

Análise Estatística Para Data Science

3 Top Python Packages to Learn Statistic for Data Scientist

3 Principais Pacotes Python Para Aprender Estatística Para Data Science

1- Scipy.Stats

2- Pingouin

3- Statsmodel

Relacionado

Deixe um comentário Cancelar resposta

1- Scipy.Stats

2- Pingouin

3- Statsmodel

Compartilhar

Relacionado

Deixe um comentário Cancelar resposta