As Regras de Probabilidade
Este capítulo fornecerá uma visão geral das regras de probabilidade, conceitos fundamentais de diversas tarefas em Ciência de Dados. Estou considerando que você leu a Parte 1.
Considere que eu tenho uma moeda justa padrão com dois lados: cara e coroa.
Portanto, se eu jogar uma moeda no ar, talvez veja cara ou coroa quando ela cair na minha mão. Para uma moeda justa, a probabilidade de obter uma cara, P(cara), é 0,5 e a probabilidade de receber uma coroa, P(coroa), também é 0,5.
Podemos ver que cara e coroa são os dois resultados possíveis, o que permite definir 2 regras da probabilidade:
- Se jogarmos uma moeda duas vezes, a probabilidade de ver cara nas duas vezes é P(cara) x P(cara). Este é o princípio da multiplicação.
- Se jogarmos uma moeda duas vezes, a probabilidade de ver cara ou coroa é 1 pois, P (cara) U P (coroa) = (0,5 + 0,5) = 1. Este é o princípio aditivo. O símbolo U representa União.
Esses dois eventos são independentes um do outro, porque jogar uma moeda uma vez não afeta o resultado de nosso próximo teste.
Agora, considere um exemplo um pouco mais complexo. Suponha que estamos ao lado de uma estrada e contando as cores e tamanhos dos carros que passam por nós. Este exemplo deve nos ajudar a compreender melhor as regras de probabilidade.
Este círculo representa todos os carros que passaram por nós na estrada. Este é o nosso conjunto de amostras S:
O mini círculo vermelho abaixo representa todos os carros vermelhos. O complemento de R é escrito como Rᶜ. O complemento de A é o conjunto que não é A.
Nesse caso, qualquer coisa fora de R é Rᶜ:
A probabilidade de um carro ser vermelho é P(R).
A probabilidade de um carro não ser vermelho é 1 – P(R).
O mini círculo azul representa todos os carros azuis:
A probabilidade de carros serem vermelhos e azuis é 0 porque são eventos disjuntos, ou seja, não podem ocorrer ao mesmo tempo.
A probabilidade de um carro ser vermelho ou azul é P(R) U P(B) = P(R) + P(B)
Todos os carros grandes (Large) são desenhados no círculo verde:
Na imagem acima, imagine apenas carros vermelhos grandes. Isso está marcado como amarelo na imagem e mostra a seção em que o círculo vermelho cruza o círculo verde.
A probabilidade de um carro ser vermelho e grande é:
P(R e L) = P(R) x P(L | R)
Isso é conhecido como Regra de Bayes, que é uma das regras fundamentais a serem lembradas na Ciência de Dados.
O “|” aqui significa “dado isso”. O que implica que a probabilidade de um carro ser vermelho e grande é a probabilidade de um carro ser vermelho multiplicado pela probabilidade de um carro ser grande, uma vez que é vermelho. P(L | R) é a probabilidade condicional.
Essa é uma fórmula muito poderosa que podemos usar para criar inferência estatística em algoritmos de Machine Learning.
Referências:
Análise Estatística Para Data Science
Probability and Statistics – The Science of Uncertainty
Understanding Probability And Statistics: The Essentials Of Probability For Data Scientists