Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
Menu
Probabilidade e Estatistica - Os Fundamentos Para Cientistas de Dados

Probabilidade e Estatística – Os Fundamentos Para Cientistas de Dados – Parte 1

Posted on 9 de março de 2020 by David Matos

Data Science é uma área multidisciplinar, que envolve conhecimentos de Matemática, Estatística, Ciência da Computação e Área de Negócio. Iniciaremos aqui no Blog uma sequência de artigos sobre cada disciplina e Probabilidade e Estatística – Os Fundamentos Para Cientistas de Dados, é a primeira.

Ao final de cada artigo você encontrará diversas referências para explorar os temos em mais detalhes, se desejar. Boa leitura.

Por Que Começar com Probabilidade?

A probabilidade está em todo lugar!

Probabilidade é a ciência da incerteza. Portanto, sempre que houver alguma dúvida sobre um evento, os conceitos de probabilidade são envolvidos para estimar a probabilidade de um evento. Se queremos prever um resultado de uma variável que pode assumir um dos muitos valores disponíveis, precisamos envolver a matemática da probabilidade. 

Portanto, podemos usar a teoria da probabilidade em diversas situações, seja em nossas vidas pessoais ou profissionais. A incerteza sempre estará lá, mas ela pode ser medida, pode ser gerenciada..

Será que realmente vai fazer sol amanhã? O preço das ações permanecerá o mesmo até amanhã? Quão certos estamos? Qual a probabilidade de recebermos uma ligação dentro de uma hora?

Por se tratar de um assunto extremamente importante, decidi iniciar a série de artigos com o assunto probabilidade. O meu objetivo é explicar os conceitos complexos de uma maneira simplificada. Posteriormente, também explicarei o assunto Estatística. Isso deve formar uma base para ajudar quem está começando em Ciência de Dados.

Conceitos Fundamentais

Vamos definir alguns conceitos fundamentais da Probabilidade:

  1. O Que é Espaço de Probabilidade?
  2. O Que é Uma Variável Aleatória?
  3. As Regras de Probabilidade
  4. O Que é Expectativa?
  5. O Que São Variância e Covariância?
  6. O Que São Distribuições de Probabilidade?

1- O Que é Espaço de Probabilidade?

O conceito de espaço de probabilidade forma a base da teoria das probabilidades, portanto é importante entendê-lo. Um espaço de probabilidade é usado para modelar experimentos. Existem três componentes em um espaço de probabilidade: espaço de amostra, eventos e medidas de probabilidade.

1.1. Espaço de Amostra

É um conjunto de todos os resultados possíveis. Um conjunto na matemática é uma coleção única de elementos. Por exemplo, o espaço de amostra ao jogar um dado é: S = {1, 2, 3, 4, 5 e 6}, pois o dado com 6 faces oferece 6 resultados possíveis sempre que o dado é jogado.

O espaço de amostra de um movimento do preço das ações pode ser S = {Aumenta, Igual, Diminui}. Como Aumenta é um elemento de S, podemos escrever como Aumenta ∈ S.

Agora, a chave a lembrar é que o espaço de amostra pode ser um conjunto infinito. Por exemplo, a população de um país está mudando constantemente e é um número aleatório com um número infinito de possibilidades. Desde que você começou a ler este artigo a população do Brasil, por exemplo, já aumentou em algumas unidades.

1.2. Eventos

Em teoria das probabilidades, um evento é um conjunto de resultados (um subconjunto do espaço amostral) ao qual é associado um valor de probabilidade. Habitualmente, quando o espaço amostral é finito, qualquer subconjunto seu é um evento (i.e., todos os elementos do conjunto de partes do espaço amostral são definidos como eventos). Porém, esta abordagem não é a mais feliz quando se dá o caso em que o espaço amostral é infinito, particularmente quando o resultado é um número real. Assim, ao definir-se um espaço de probabilidade, é possível e muitas vezes necessário excluir certos subconjuntos do espaço amostral da associação a eventos.

Um baralho de 52 cartas tem um espaço amostral de 52 elementos, um associado a cada uma das 52 cartas. Um evento, todavia, é qualquer subconjunto do espaço amostral, incluindo qualquer singular elemento (um evento elementar, do qual há 52, representando as 52 possíveis cartas), o conjunto vazio (definido como tendo probabilidade 0) e o conjunto inteiro de 52 cartas, o espaço amostral inteiro (com probabilidade 1). Outros eventos são subconjuntos próprios do espaço amostral que contêm múltiplos elementos. Por exemplo, os potenciais eventos incluem:

  • “O 5 de Copas” (1 elemento),
  • “Um Rei” (4 elementos),
  • “Uma carta de Espadas” (13 elementos),
  • “Uma carta” (52 elementos).

Como todos os eventos são conjuntos, são escritos habitualmente entre chaves (ex: {1, 2, 3}).

1.3. Medidas de Probabilidade

Cada evento tem uma probabilidade atribuída a ele. A probabilidade pode ser qualquer valor de 0 a 1. A chave a ser observada é que é um número não negativo que não pode ser maior que 1. O valor de 1 implica que o evento é garantido, enquanto o valor de 0 significa que o evento nunca ocorrerá.

Como exemplo, jogar um dado justo e imparcial pode resultar em um dos 6 resultados possíveis e, portanto, cada resultado tem uma probabilidade de 1/6. Portanto, a probabilidade de obter 4 é P (4) = 1/6

Quanto maior a probabilidade de ocorrência de um evento, maior a medida de probabilidade.

A soma da probabilidade de todo o espaço amostral é 1. A probabilidade de um conjunto vazio é 0. Isso significa que nenhum resultado pode ocorrer.

Agora, um conceito importante é que a medida de probabilidade também é aditiva. Isso implica que, se quisermos calcular a probabilidade de um evento complicado, podemos adicionar as probabilidades de eventos simples que compõem o evento complicado.

Por exemplo, a probabilidade de um dado mostrar 1 ou 4 é 2/6 (1/6 para obter 1 mais 1/6 de obter 4).

2. O Que é Uma Variável Aleatória?

Geralmente encontramos os termos “mensuráveis” ou “observáveis” ao ler documentos financeiros. O termo observável representa uma variável aleatória em um experimento que pode ser medido.

Uma variável aleatória em si é uma função. Ele mapeia um espaço de estado para um conjunto de números; portanto, uma variável aleatória é um resultado de natureza aleatória. Cada resultado tem uma probabilidade associada a ele.

Para ilustrar, considere que o PIB de um país é uma variável aleatória. Pode ser considerado como uma função de muitas variáveis e constantes. Cada evento tem uma medida de probabilidade associada a ele.

O mundo está cheio de variáveis aleatórias. Por exemplo, dias da semana, as taxas de juros, as taxas de câmbio, o preço do ouro, etc. são todas variáveis aleatórias. Uma variável aleatória pode ser discreta ou contínua.

2.1 Variável Aleatória Discreta

Uma variável aleatória discreta é aquela que possui um conjunto finito de resultados possíveis. Esses resultados também podem ser contados infinitamente, mas a chave a ser observada é que a soma do conjunto finito de resultados deve ser 1.

Por exemplo, jogar dados, jogar uma moeda, dias da semana, cores em uma caixa de lápis específica, gênero, meses, dias do mês etc. são exemplos de uma variável aleatória discreta.

2.2 Variável Aleatória Contínua

Uma variável aleatória que não é discreta é uma variável aleatória contínua. Tem um conjunto infinito de resultados possíveis que não podem ser contados.

Por exemplo, as taxas de juros, as taxas de câmbio, o preço do ouro, a precipitação em milímetros etc. são exemplos de uma variável aleatória contínua.

Vou manter os artigos não muito longos e por isso continuaremos na Parte 2.

Referências:

Análise Estatística Para Data Science

Probability and Statistics – The Science of Uncertainty

Understanding Probability And Statistics: The Essentials Of Probability For Data Scientists

Compartilhar

  • Clique para compartilhar no X(abre em nova janela) 18+
  • Clique para compartilhar no Facebook(abre em nova janela) Facebook
  • Clique para compartilhar no LinkedIn(abre em nova janela) LinkedIn
  • Clique para compartilhar no WhatsApp(abre em nova janela) WhatsApp
  • Clique para compartilhar no Telegram(abre em nova janela) Telegram
  • Clique para compartilhar no Tumblr(abre em nova janela) Tumblr
  • Clique para compartilhar no Pinterest(abre em nova janela) Pinterest

Relacionado

4 thoughts on “Probabilidade e Estatística – Os Fundamentos Para Cientistas de Dados – Parte 1”

  1. MARCOS BAPTISTA disse:
    14 de abril de 2020 às 8:01 AM

    Não estou localizando a parte 2

    Responder
    1. David Matos disse:
      15 de abril de 2020 às 2:48 PM

      Oi Marcos. Ainda não liberei.

      Responder
  2. Kaillany Augusto Neto disse:
    7 de julho de 2020 às 12:15 PM

    Eu Gostei muito da explicação aguardo a 2 parte❤

    Responder
  3. Roberto Nociti Maciel disse:
    4 de agosto de 2020 às 8:29 AM

    Show! Me ajudou a compreender minha aula! Valeu

    Responder

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Buscar

Tags Mais Comuns nos Posts

Agentes de IA Analytics Análise de Negócios Apache Spark AWS Big Data Blockchain Business Intelligence ChatGPT Cientista de Dados Cientistas de Dados Ciência de Dados Cloud Computing Data Lake Data Mesh Data Science Data Scientist Data Warehouse Deep Learning Deploy Engenharia de Dados Estatística GPU GraphRAG Hadoop IA Generativa Inteligência Artificial Internet of Things Linguagem Python Linguagem R LLM LLMs Machine Learning MCP (Model Context Protocol) Metadados Normalização NVIDIA Oracle Pipeline de Dados Predictive Analytics Probabilidade PySpark Python RAG Storytelling

Histórico de Posts

  • maio 2025 (5)
  • abril 2025 (2)
  • março 2025 (4)
  • fevereiro 2025 (8)
  • janeiro 2025 (5)
  • dezembro 2024 (4)
  • novembro 2024 (1)
  • outubro 2024 (1)
  • setembro 2024 (1)
  • agosto 2024 (1)
  • julho 2024 (3)
  • junho 2024 (1)
  • maio 2024 (1)
  • abril 2024 (2)
  • março 2024 (1)
  • fevereiro 2024 (1)
  • janeiro 2024 (1)
  • dezembro 2023 (1)
  • outubro 2023 (2)
  • setembro 2023 (1)
  • agosto 2023 (4)
  • julho 2023 (2)
  • junho 2023 (4)
  • maio 2023 (2)
  • abril 2023 (2)
  • março 2023 (3)
  • fevereiro 2023 (3)
  • janeiro 2023 (3)
  • dezembro 2022 (7)
  • novembro 2022 (6)
  • outubro 2022 (2)
  • setembro 2022 (3)
  • agosto 2022 (2)
  • julho 2022 (2)
  • junho 2022 (3)
  • maio 2022 (1)
  • abril 2022 (3)
  • março 2022 (1)
  • fevereiro 2022 (3)
  • janeiro 2022 (2)
  • dezembro 2021 (1)
  • novembro 2021 (5)
  • outubro 2021 (2)
  • setembro 2021 (3)
  • agosto 2021 (1)
  • junho 2021 (1)
  • fevereiro 2021 (2)
  • janeiro 2021 (1)
  • dezembro 2020 (1)
  • novembro 2020 (1)
  • outubro 2020 (2)
  • agosto 2020 (1)
  • abril 2020 (1)
  • março 2020 (1)
  • fevereiro 2020 (2)
  • agosto 2019 (1)
  • abril 2019 (1)
  • setembro 2018 (2)
  • julho 2018 (1)
  • junho 2018 (3)
  • abril 2018 (1)
  • março 2018 (1)
  • fevereiro 2018 (2)
  • janeiro 2018 (1)
  • dezembro 2017 (1)
  • novembro 2017 (1)
  • outubro 2017 (1)
  • setembro 2017 (1)
  • julho 2017 (1)
  • junho 2017 (1)
  • maio 2017 (2)
  • abril 2017 (1)
  • janeiro 2017 (1)
  • novembro 2016 (1)
  • outubro 2016 (1)
  • setembro 2016 (1)
  • julho 2016 (1)
  • junho 2016 (1)
  • maio 2016 (1)
  • abril 2016 (1)
  • fevereiro 2016 (1)
  • janeiro 2016 (3)
  • dezembro 2015 (4)
  • novembro 2015 (6)
  • outubro 2015 (9)
  • setembro 2015 (9)
  • agosto 2015 (9)
©2025 Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato