Probabilidade e Estatística – Os Fundamentos Para Cientistas de Dados – Parte 2

Probabilidade e Estatistica - Os Fundamentos Para Cientistas de Dados

As Regras de Probabilidade

Este capítulo fornecerá uma visão geral das regras de probabilidade, conceitos fundamentais de diversas tarefas em Ciência de Dados. Estou considerando que você leu a Parte 1.

Considere que eu tenho uma moeda justa padrão com dois lados: cara e coroa.

Portanto, se eu jogar uma moeda no ar, talvez veja cara ou coroa quando ela cair na minha mão. Para uma moeda justa, a probabilidade de obter uma cara, P(cara), é 0,5 e a probabilidade de receber uma coroa, P(coroa), também é 0,5.

Podemos ver que cara e coroa são os dois resultados possíveis, o que permite definir 2 regras da probabilidade:

  • Se jogarmos uma moeda duas vezes, a probabilidade de ver cara nas duas vezes é P(cara) x P(cara). Este é o princípio da multiplicação.
  • Se jogarmos uma moeda duas vezes, a probabilidade de ver cara ou coroa é 1 pois, P (cara) U P (coroa) = (0,5 + 0,5) = 1. Este é o princípio aditivo. O símbolo U representa União.

Esses dois eventos são independentes um do outro, porque jogar uma moeda uma vez não afeta o resultado de nosso próximo teste.

Agora, considere um exemplo um pouco mais complexo. Suponha que estamos ao lado de uma estrada e contando as cores e tamanhos dos carros que passam por nós. Este exemplo deve nos ajudar a compreender melhor as regras de probabilidade.

Este círculo representa todos os carros que passaram por nós na estrada. Este é o nosso conjunto de amostras S:

O mini círculo vermelho abaixo representa todos os carros vermelhos. O complemento de R é escrito como Rᶜ. O complemento de A é o conjunto que não é A.

Nesse caso, qualquer coisa fora de R é Rᶜ:

A probabilidade de um carro ser vermelho é P(R).
A probabilidade de um carro não ser vermelho é 1 – P(R).

O mini círculo azul representa todos os carros azuis:

A probabilidade de carros serem vermelhos e azuis é 0 porque são eventos disjuntos, ou seja, não podem ocorrer ao mesmo tempo.

A probabilidade de um carro ser vermelho ou azul é P(R) U P(B) = P(R) + P(B)

Todos os carros grandes (Large) são desenhados no círculo verde:

Na imagem acima, imagine apenas carros vermelhos grandes. Isso está marcado como amarelo na imagem e mostra a seção em que o círculo vermelho cruza o círculo verde.

A probabilidade de um carro ser vermelho e grande é:

P(R e L) = P(R) x P(L | R)

Isso é conhecido como Regra de Bayes, que é uma das regras fundamentais a serem lembradas na Ciência de Dados.

O “|” aqui significa “dado isso”. O que implica que a probabilidade de um carro ser vermelho e grande é a probabilidade de um carro ser vermelho multiplicado pela probabilidade de um carro ser grande, uma vez que é vermelho. P(L | R) é a probabilidade condicional.

Essa é uma fórmula muito poderosa que podemos usar para criar inferência estatística em algoritmos de Machine Learning.

Referências:

Análise Estatística Para Data Science

Probability and Statistics – The Science of Uncertainty

Understanding Probability And Statistics: The Essentials Of Probability For Data Scientists

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *