Probabilidade e Estatística – Os Fundamentos Para Cientistas de Dados – Parte 3

Probabilidade e Estatistica - Os Fundamentos Para Cientistas de Dados

Este é o terceiro artigo da série. O primeiro artigo pode ser encontrado aqui.

Antes de explicar o que são variância e covariância, vamos compreender dois outros conceitos: mediana e expectativa (ou média).

Mediana e Expectativa

A mediana de um intervalo de valores é o valor do meio quando os dados estão ordenados.

A expectativa é a média. É calculado somando a probabilidade pelos eventos:

∑ ₓ pₓ (x)

Se a variável aleatória for contínua, a expectativa é:

∫ xf (x) dx

Se multiplicarmos um observável por uma constante, a nova expectativa será a constante multiplicada pela Expectativa original:

Se adicionarmos dois eventos observáveis juntos, a expectativa conjunta deles é:

Dois observáveis são independentes se sua interseção não contiver nenhum elemento. Portanto, os dois observáveis não se correlacionam e suas expectativas conjuntas estão simplesmente multiplicando suas expectativas:

Se os dois observáveis não são independentes, precisamos levar em consideração sua covariância.

O Que São Variância e Covariância?

Uma variável aleatória pode se mover em qualquer direção. O desvio padrão mede o desvio da variável aleatória em relação à sua média ou expectativa. A variância é o quadrado do desvio padrão.

Se os dois observáveis são independentes, então não há co-movimento e sua covariância é 0. A variância de uma constante é 0. Podemos calcular a variância como:

A covariância das duas variáveis aleatórias X e Y é:

Também podemos calcular a covariância como:

Há algumas observações importantes a saber sobre covariância:

Se pegarmos dois observáveis, X e Y, e adicionar uma constante a cada um deles e multiplicá-los por uma constante, a covariância mudará da seguinte forma:

Observe que b e d desapareceram completamente, pois não modificaram a variância de X ou Y.

Se os dois observáveis não forem independentes, então, quando somarmos os dois observáveis, sua variação conjunta se tornará:

Aqui, a covariância é usada, pois as duas variáveis eram dependentes e correlacionadas entre si.

Agora podemos estudar o conceito de distribuição de probabilidade na próxima parte desta série de artigos.

Referências:

Análise Estatística Para Data Science

Probability and Statistics – The Science of Uncertainty

Understanding Probability And Statistics: The Essentials Of Probability For Data Scientists

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *