Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
Menu
O Processo de Data Science

O Processo de Data Science

Posted on 25 de novembro de 202225 de novembro de 2022 by David Matos

O objetivo deste post é definir e descrever as principais etapas do Processo de Data Science. Para os iniciantes isso ajuda a compreender as técnicas e ferramentas usadas em cada parte do processo.

A figura abaixo demonstra as etapas mais comuns em projetos de Ciência de Dados (referências ao final do artigo):

Abaixo a definição e descrição de cada etapa.

Compreensão do Negócio (Business Understanding) – Nesta primeira etapa o objetivo é ter uma ideia das necessidades de negócios e quais problemas estaremos resolvendo. Todo projeto de Ciência de Dados deve começar com a compreensão do problema. Se o problema é detectar fraudes em transações financeiras, teremos um conjunto de técnicas e ferramentas para isso. Se o problema é analisar o sentimento de usuários em posts sobre o lançamento de um novo produto da empresa, isso vai requerer um diferente conjunto de técnicas e ferramentas.

Iniciar um projeto de Ciência de Dados sem compreender o problema de negócio é como iniciar uma viagem sem saber qual é o destino.

Compreensão dos Dados (Data Understanding) – Compreender os dados significa verificar se os dados podem ajudar a resolver o problema definido na etapa anterior. Por exemplo: A empresa deseja criar um modelo capaz de prever as vendas para o próximo mês (esse é o problema de negócio). Dados históricos sobre vendas nos meses anteriores estão disponíveis? Em caso positivo, o número de variáveis é suficiente? Quais variáveis são relevantes? Se o número de variáveis é muito alto, podemos aplicar técnicas de redução de dimensionalidade? Há multicolinearidade nos dados? Cada linha representa uma venda de um cliente? Atributos sobre os clientes estão disponíveis? Tudo isso e muito mais é o que devemos responder nesta etapa.

Mas talvez a questão mais importante aqui seja a seguinte: Existe um padrão nos dados? A Ciência de Dados não faz mágica e algum padrão deve existir nos dados antes que possamos seguir em frente no processo.

Preparação de Dados (Data Preparation) – A parte de preparação de dados é onde vai dedicar a maior parte do seu tempo durante todo o processo. Limpar os dados pode ser mais uma forma de arte do que uma ciência, pois você deve perceber se possui os dados corretos para prosseguir para um bom modelo e saber como limpá-los corretamente.

Há ainda o pré-processamento dos dados, o que vai depender do tipo de técnica de análise que estaremos usando na etapa de modelagem. É aqui nesta etapa onde o conhecimento e experiência fazem toda a diferença.

Modelagem (Modeling) – Aqui é onde trabalharemos na modelagem estatística, modelagem preditiva (Machine Learning) ou em ambos. Embora essa etapa possa ser menos trabalhosa do que a etapa anterior, é aqui onde reside o conhecimento mais valioso da Ciência de Dados. Saber escolher o modelo ideal, criar diferentes modelos, interpretar e comparar os resultados é o que fazemos nesta etapa.

Ajustar um modelo pode ser um grande desafio caso a etapa de preparação dos dados não tenha sido feita de forma adequada.

Avaliação (Evaluation) – Esta parte é onde você testa para ver se tem um bom modelo ou não antes de implantar ou apresentar. Como o diagrama indica, esta também é a parte em que você garante que o modelo responda às perguntas de negócios que você teve no início deste processo.

Para a avaliação é necessário calcular e interpretar as métricas, que serão diferentes de acordo com o tipo de modelo. É recomendável usar sempre mais de uma métrica para avaliar um modelo.

Implantação (Deployment) – Aqui é onde você compartilha o resultado do processo. Isso pode ser feito criando uma API para usar o modelo, integrando o modelo em uma aplicação, executando as previsões do modelo e gravando o resultado em um arquivo ou simplesmente documentar suas descobertas em um e-mail, um documento compartilhado ou uma apresentação para um grupo de executivos.

Embora seja fácil falar tecnicamente com seus colegas, transmitir o que você encontra nos dados para uma equipe de vendas ou executivos para que eles possam agir é a chave desta etapa. Logo, comunicação é um soft skill fundamental.

A primeira etapa é sem dúvida a mais importante de todas. O processo inteiro depende de boas perguntas feitas na etapa de compreensão do problema. Sem isso, seria muito mais difícil fazer as perguntas certas e extrair o máximo de informações dos dados. Além disso, o processo pode ser um ciclo. Você pode chegar na etapa de avaliação e descobrir que a performance está ruim. Você então retorna à fase de preparação, refaz a etapa com técnicas diferentes, escolhe diferentes modelos e arquiteturas e repete o ciclo até alcançar a performance ideal.

Por exemplo, se você mudou da preparação de dados para a modelagem, mas novos dados chegaram, você teria que voltar a preparar os novos dados e mesclá-los com os dados antigos que você já tinha para ajudar a fornecer resultados mais precisos.

Depois de ter um modelo e avaliá-lo, como indica a seta na imagem no começo do post, é útil voltar para garantir que os resultados do modelo estejam alinhados com o negócio. O resultado do processo ajuda a empresa a agir? Pode dar respostas às questões de negócios que tínhamos no início? Existem novas questões que foram levantadas?

Conhecendo bem o processo fica muito mais fácil identificar as técnicas, ferramentas, inputs e outputs em cada etapa.

David Matos

Referências:

Curso Gratuito Introdução à Ciência de Dados

Cross-industry standard process for data mining

Data Science and the Data Science Process

Compartilhar

  • Clique para compartilhar no Twitter(abre em nova janela)
  • Clique para compartilhar no Facebook(abre em nova janela)
  • Clique para compartilhar no LinkedIn(abre em nova janela)
  • Clique para compartilhar no WhatsApp(abre em nova janela)
  • Clique para compartilhar no Telegram(abre em nova janela)
  • Clique para compartilhar no Tumblr(abre em nova janela)
  • Clique para compartilhar no Pinterest(abre em nova janela)

Relacionado

2 thoughts on “O Processo de Data Science”

  1. Paulo Roberto De Assis disse:
    25 de novembro de 2022 às 7:06 AM

    Excelente artigo para quem está iniciando neste mundo.

    Responder
    1. David Matos disse:
      25 de novembro de 2022 às 4:25 PM

      Obrigado Paulo.

      Responder

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Buscar

Twitter

Meus Tuítes

Tags Mais Comuns nos Posts

Anaconda Analytics Análise de Negócios Apache Spark AWS Big Data Blockchain Business Intelligence ChatGPT Chief Data Officer Cientista de Dados Cientistas de Dados Ciência de Dados Cloud Computing Data Lake Data Mesh Data Science Data Scientist Data Warehouse Deep Learning Deploy Descriptive Analytics Diagnostic Analytics Engenharia de Dados Engenheiro de Dados Estatística GPU Hadoop Inteligência Artificial Internet of Things Linguagem Python Linguagem R Machine Learning MapReduce Metadados NoSQL NVIDIA Open Data Oracle Predictive Analytics Prescriptive Analytics Probabilidade Python Salários Data Science Visualização

Histórico de Posts

  • março 2023 (3)
  • fevereiro 2023 (3)
  • janeiro 2023 (5)
  • dezembro 2022 (8)
  • novembro 2022 (7)
  • outubro 2022 (2)
  • setembro 2022 (3)
  • agosto 2022 (2)
  • julho 2022 (2)
  • junho 2022 (3)
  • maio 2022 (1)
  • abril 2022 (3)
  • março 2022 (1)
  • fevereiro 2022 (3)
  • janeiro 2022 (2)
  • dezembro 2021 (1)
  • novembro 2021 (5)
  • outubro 2021 (2)
  • setembro 2021 (3)
  • agosto 2021 (1)
  • junho 2021 (1)
  • fevereiro 2021 (2)
  • janeiro 2021 (1)
  • dezembro 2020 (1)
  • novembro 2020 (1)
  • outubro 2020 (2)
  • agosto 2020 (1)
  • abril 2020 (1)
  • março 2020 (1)
  • fevereiro 2020 (2)
  • agosto 2019 (1)
  • abril 2019 (1)
  • setembro 2018 (2)
  • julho 2018 (1)
  • junho 2018 (3)
  • abril 2018 (1)
  • março 2018 (1)
  • fevereiro 2018 (2)
  • janeiro 2018 (1)
  • dezembro 2017 (1)
  • novembro 2017 (1)
  • outubro 2017 (1)
  • setembro 2017 (1)
  • julho 2017 (1)
  • junho 2017 (1)
  • maio 2017 (2)
  • abril 2017 (1)
  • janeiro 2017 (1)
  • novembro 2016 (1)
  • outubro 2016 (1)
  • setembro 2016 (1)
  • julho 2016 (1)
  • junho 2016 (1)
  • maio 2016 (1)
  • abril 2016 (1)
  • fevereiro 2016 (1)
  • janeiro 2016 (3)
  • dezembro 2015 (4)
  • novembro 2015 (6)
  • outubro 2015 (9)
  • setembro 2015 (9)
  • agosto 2015 (9)
©2022 Ciência e Dados
 

Carregando comentários...