Conceitos Fundamentais de Estatística

Conceitos Fundamentais de Estatística

Vamos abrir uma série de artigos sobre conceitos básicos de Estatística, que são fundamentais no universo da Ciência de Dados. Neste primeiro artigo, vamos falar sobre Descriptive statistics vs Inferential statistics (Estatística Descritiva vs Estatística Inferencial).

Probabilidade é um dos conceitos mais básicos e fundamentais na Estatística. Até mesmo para começar a entender o sentido dos seus dados por meio de estatísticas, você precisa ser capaz de identificar algo tão básico como se você está tratando estatísticas descritivas ou inferenciais. Além do mais, você precisa compreender o básico de variáveis aleatórias (random variables), expectativas (expectations) e distribuições de probabilidade (probability distributions). Vamos cobrir todos esses conceitos nesta série de artigos.

A Estatística é um resultado de uma operação matemática em dados numéricos. Em geral, estatísticas são usadas na tomada de decisões. Basicamente, é possível encontrar 2 tipos de estatísticas:

Estatística Descritiva (Descriptive statistics): Como o nome indica, estatística descritiva concentra-se em fornecer uma descrição que realça alguma característica de um conjunto de dados numéricos.

Estatística Inferencial (Inferential statistics): Ao invés de focar em descrições pertinentes do seu conjunto de dados, inferential statistics visa analisar uma seção menor do conjunto de dados e tentar deduzir algo significativo sobre o conjunto de dados maior. Usa-se este tipo de estatística para obter informações sobre alguma medida do mundo real em que se está interessado.

É fato que as estatísticas descritivas descrevem as características de um conjunto de dados numéricos, mas que realmente não dizem muito sobre porque os dados são importantes. Na verdade, a maioria dos cientistas de dados está interessado apenas em estatísticas descritivas por causa do que elas revelam sobre as medidas do mundo real que descrevem. Por exemplo, uma estatística descritiva é frequentemente associada com um grau de precisão, indicando o valor da estatística como uma estimativa da medida no mundo real.

Para entender melhor este conceito, imagine que um empresário quer estimar os lucros do próximo trimestre. Ele pode ter uma média de lucros nos últimos trimestres para usar como uma estimativa de quanto será o lucro durante o trimestre seguinte. Mas se os lucros dos trimestres anteriores variaram muito, uma estatística descritiva, que estimou a variação deste valor previsto de lucro, indicaria o quão longe o valor previsto poderia ser do real (o que aliás, pode ser uma informação útil).

Como estatística descritiva, estatística inferencial também revela algo sobre a medida do mundo real em que você está interessado. Em contraste com a estatística descritiva, no entanto, estatística inferencial fornece informações sobre uma pequena seleção de dados, assim você pode usar esta informação para inferir algo sobre o conjunto de dados maior do qual ela foi coletada. Em estatística, esta seleção de dados menor é conhecido como uma amostra (sample), e o conjunto de dados maior a partir do qual é retirada a amostra é chamado população (population).

Se o conjunto de dados é muito grande para analisar em sua totalidade, começamos coletando uma amostra menor deste conjunto de dados, analisamos e em seguida fazemos inferências sobre todo o conjunto de dados com base na análise da amostra. Você também pode usar estatística inferencial em situações em que não é possível coletar dados para toda a população. Outras vezes, você pode encontrar-se em situações em que as informações completas para a população simplesmente não estão disponíveis. Nesses casos, você pode usar estatística inferencial para estimar valores para os dados faltantes, com base no que você analisou a partir da amostra.

Resumindo

A estatística descritiva descreve as características de seu conjunto de dados numéricos, enquanto estatística inferencial é usada para fazer inferências a partir de subconjuntos de dados para que se possa compreender melhor os dados da população, a partir da amostra. Para entender melhor esta distinção, imagine que você tem um conjunto de dados socioeconômicos que descreve os homens, de 19 a 35 anos, que vivem na cidade de Belo Horizonte, no estado de Minas Gerais no Brasil. A estatística descritiva permitiria a você compreender as características da população de homens deste subconjunto. Com a estatística inferencial seria possível fazer inferências sobre a população de homens de 19 a 35 anos, mas que estão vivendo em todas as cidades do estado de Minas Gerais (e não apenas em Belo Horizonte).

Para uma inferência seja válida, você deve selecionar sua amostra com cuidado para que você obtenha uma verdadeira representação da população. Mesmo que a sua amostra seja representativa, os números no conjunto de dados da amostra sempre apresentarão algum ruído (variação aleatória – random variables). Em outras palavras estatística da amostra não é exatamente idêntica a estatística de população correspondente.

David Matos

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *