Probabilidade e Estatística – Os Fundamentos Para Cientistas de Dados – Parte 1

Probabilidade e Estatistica - Os Fundamentos Para Cientistas de Dados

Data Science é uma área multidisciplinar, que envolve conhecimentos de Matemática, Estatística, Ciência da Computação e Área de Negócio. Iniciaremos aqui no Blog uma sequência de artigos sobre cada disciplina e Probabilidade e Estatística – Os Fundamentos Para Cientistas de Dados, é a primeira.

Ao final de cada artigo você encontrará diversas referências para explorar os temos em mais detalhes, se desejar. Boa leitura.

Por Que Começar com Probabilidade?

A probabilidade está em todo lugar!

Probabilidade é a ciência da incerteza. Portanto, sempre que houver alguma dúvida sobre um evento, os conceitos de probabilidade são envolvidos para estimar a probabilidade de um evento. Se queremos prever um resultado de uma variável que pode assumir um dos muitos valores disponíveis, precisamos envolver a matemática da probabilidade. 

Portanto, podemos usar a teoria da probabilidade em diversas situações, seja em nossas vidas pessoais ou profissionais. A incerteza sempre estará lá, mas ela pode ser medida, pode ser gerenciada..

Será que realmente vai fazer sol amanhã? O preço das ações permanecerá o mesmo até amanhã? Quão certos estamos? Qual a probabilidade de recebermos uma ligação dentro de uma hora?

Por se tratar de um assunto extremamente importante, decidi iniciar a série de artigos com o assunto probabilidade. O meu objetivo é explicar os conceitos complexos de uma maneira simplificada. Posteriormente, também explicarei o assunto Estatística. Isso deve formar uma base para ajudar quem está começando em Ciência de Dados.

Conceitos Fundamentais

Vamos definir alguns conceitos fundamentais da Probabilidade:

  1. O Que é Espaço de Probabilidade?
  2. O Que é Uma Variável Aleatória?
  3. As Regras de Probabilidade
  4. O Que é Expectativa?
  5. O Que São Variância e Covariância?
  6. O Que São Distribuições de Probabilidade?

1- O Que é Espaço de Probabilidade?

O conceito de espaço de probabilidade forma a base da teoria das probabilidades, portanto é importante entendê-lo. Um espaço de probabilidade é usado para modelar experimentos. Existem três componentes em um espaço de probabilidade: espaço de amostra, eventos e medidas de probabilidade.

1.1. Espaço de Amostra

É um conjunto de todos os resultados possíveis. Um conjunto na matemática é uma coleção única de elementos. Por exemplo, o espaço de amostra ao jogar um dado é: S = {1, 2, 3, 4, 5 e 6}, pois o dado com 6 faces oferece 6 resultados possíveis sempre que o dado é jogado.

O espaço de amostra de um movimento do preço das ações pode ser S = {Aumenta, Igual, Diminui}. Como Aumenta é um elemento de S, podemos escrever como Aumenta ∈ S.

Agora, a chave a lembrar é que o espaço de amostra pode ser um conjunto infinito. Por exemplo, a população de um país está mudando constantemente e é um número aleatório com um número infinito de possibilidades. Desde que você começou a ler este artigo a população do Brasil, por exemplo, já aumentou em algumas unidades.

1.2. Eventos

Em teoria das probabilidades, um evento é um conjunto de resultados (um subconjunto do espaço amostral) ao qual é associado um valor de probabilidade. Habitualmente, quando o espaço amostral é finito, qualquer subconjunto seu é um evento (i.e., todos os elementos do conjunto de partes do espaço amostral são definidos como eventos). Porém, esta abordagem não é a mais feliz quando se dá o caso em que o espaço amostral é infinito, particularmente quando o resultado é um número real. Assim, ao definir-se um espaço de probabilidade, é possível e muitas vezes necessário excluir certos subconjuntos do espaço amostral da associação a eventos.

Um baralho de 52 cartas tem um espaço amostral de 52 elementos, um associado a cada uma das 52 cartas. Um evento, todavia, é qualquer subconjunto do espaço amostral, incluindo qualquer singular elemento (um evento elementar, do qual há 52, representando as 52 possíveis cartas), o conjunto vazio (definido como tendo probabilidade 0) e o conjunto inteiro de 52 cartas, o espaço amostral inteiro (com probabilidade 1). Outros eventos são subconjuntos próprios do espaço amostral que contêm múltiplos elementos. Por exemplo, os potenciais eventos incluem:

  • “O 5 de Copas” (1 elemento),
  • “Um Rei” (4 elementos),
  • “Uma carta de Espadas” (13 elementos),
  • “Uma carta” (52 elementos).

Como todos os eventos são conjuntos, são escritos habitualmente entre chaves (ex: {1, 2, 3}).

1.3. Medidas de Probabilidade

Cada evento tem uma probabilidade atribuída a ele. A probabilidade pode ser qualquer valor de 0 a 1. A chave a ser observada é que é um número não negativo que não pode ser maior que 1. O valor de 1 implica que o evento é garantido, enquanto o valor de 0 significa que o evento nunca ocorrerá.

Como exemplo, jogar um dado justo e imparcial pode resultar em um dos 6 resultados possíveis e, portanto, cada resultado tem uma probabilidade de 1/6. Portanto, a probabilidade de obter 4 é P (4) = 1/6

Quanto maior a probabilidade de ocorrência de um evento, maior a medida de probabilidade.

A soma da probabilidade de todo o espaço amostral é 1. A probabilidade de um conjunto vazio é 0. Isso significa que nenhum resultado pode ocorrer.

Agora, um conceito importante é que a medida de probabilidade também é aditiva. Isso implica que, se quisermos calcular a probabilidade de um evento complicado, podemos adicionar as probabilidades de eventos simples que compõem o evento complicado.

Por exemplo, a probabilidade de um dado mostrar 1 ou 4 é 2/6 (1/6 para obter 1 mais 1/6 de obter 4).

2. O Que é Uma Variável Aleatória?

Geralmente encontramos os termos “mensuráveis” ou “observáveis” ao ler documentos financeiros. O termo observável representa uma variável aleatória em um experimento que pode ser medido.

Uma variável aleatória em si é uma função. Ele mapeia um espaço de estado para um conjunto de números; portanto, uma variável aleatória é um resultado de natureza aleatória. Cada resultado tem uma probabilidade associada a ele.

Para ilustrar, considere que o PIB de um país é uma variável aleatória. Pode ser considerado como uma função de muitas variáveis e constantes. Cada evento tem uma medida de probabilidade associada a ele.

O mundo está cheio de variáveis aleatórias. Por exemplo, dias da semana, as taxas de juros, as taxas de câmbio, o preço do ouro, etc. são todas variáveis aleatórias. Uma variável aleatória pode ser discreta ou contínua.

2.1 Variável Aleatória Discreta

Uma variável aleatória discreta é aquela que possui um conjunto finito de resultados possíveis. Esses resultados também podem ser contados infinitamente, mas a chave a ser observada é que a soma do conjunto finito de resultados deve ser 1.

Por exemplo, jogar dados, jogar uma moeda, dias da semana, cores em uma caixa de lápis específica, gênero, meses, dias do mês etc. são exemplos de uma variável aleatória discreta.

2.2 Variável Aleatória Contínua

Uma variável aleatória que não é discreta é uma variável aleatória contínua. Tem um conjunto infinito de resultados possíveis que não podem ser contados.

Por exemplo, as taxas de juros, as taxas de câmbio, o preço do ouro, a precipitação em milímetros etc. são exemplos de uma variável aleatória contínua.

Vou manter os artigos não muito longos e por isso continuaremos na Parte 2.

Referências:

Análise Estatística Para Data Science

Probability and Statistics – The Science of Uncertainty

Understanding Probability And Statistics: The Essentials Of Probability For Data Scientists

4 comments

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *