O objetivo deste post é definir e descrever as principais etapas do Processo de Data Science. Para os iniciantes isso ajuda a compreender as técnicas e ferramentas usadas em cada parte do processo.
A figura abaixo demonstra as etapas mais comuns em projetos de Ciência de Dados (referências ao final do artigo):
Abaixo a definição e descrição de cada etapa.
Compreensão do Negócio (Business Understanding) – Nesta primeira etapa o objetivo é ter uma ideia das necessidades de negócios e quais problemas estaremos resolvendo. Todo projeto de Ciência de Dados deve começar com a compreensão do problema. Se o problema é detectar fraudes em transações financeiras, teremos um conjunto de técnicas e ferramentas para isso. Se o problema é analisar o sentimento de usuários em posts sobre o lançamento de um novo produto da empresa, isso vai requerer um diferente conjunto de técnicas e ferramentas.
Iniciar um projeto de Ciência de Dados sem compreender o problema de negócio é como iniciar uma viagem sem saber qual é o destino.
Compreensão dos Dados (Data Understanding) – Compreender os dados significa verificar se os dados podem ajudar a resolver o problema definido na etapa anterior. Por exemplo: A empresa deseja criar um modelo capaz de prever as vendas para o próximo mês (esse é o problema de negócio). Dados históricos sobre vendas nos meses anteriores estão disponíveis? Em caso positivo, o número de variáveis é suficiente? Quais variáveis são relevantes? Se o número de variáveis é muito alto, podemos aplicar técnicas de redução de dimensionalidade? Há multicolinearidade nos dados? Cada linha representa uma venda de um cliente? Atributos sobre os clientes estão disponíveis? Tudo isso e muito mais é o que devemos responder nesta etapa.
Mas talvez a questão mais importante aqui seja a seguinte: Existe um padrão nos dados? A Ciência de Dados não faz mágica e algum padrão deve existir nos dados antes que possamos seguir em frente no processo.
Preparação de Dados (Data Preparation) – A parte de preparação de dados é onde vai dedicar a maior parte do seu tempo durante todo o processo. Limpar os dados pode ser mais uma forma de arte do que uma ciência, pois você deve perceber se possui os dados corretos para prosseguir para um bom modelo e saber como limpá-los corretamente.
Há ainda o pré-processamento dos dados, o que vai depender do tipo de técnica de análise que estaremos usando na etapa de modelagem. É aqui nesta etapa onde o conhecimento e experiência fazem toda a diferença.
Modelagem (Modeling) – Aqui é onde trabalharemos na modelagem estatística, modelagem preditiva (Machine Learning) ou em ambos. Embora essa etapa possa ser menos trabalhosa do que a etapa anterior, é aqui onde reside o conhecimento mais valioso da Ciência de Dados. Saber escolher o modelo ideal, criar diferentes modelos, interpretar e comparar os resultados é o que fazemos nesta etapa.
Ajustar um modelo pode ser um grande desafio caso a etapa de preparação dos dados não tenha sido feita de forma adequada.
Avaliação (Evaluation) – Esta parte é onde você testa para ver se tem um bom modelo ou não antes de implantar ou apresentar. Como o diagrama indica, esta também é a parte em que você garante que o modelo responda às perguntas de negócios que você teve no início deste processo.
Para a avaliação é necessário calcular e interpretar as métricas, que serão diferentes de acordo com o tipo de modelo. É recomendável usar sempre mais de uma métrica para avaliar um modelo.
Implantação (Deployment) – Aqui é onde você compartilha o resultado do processo. Isso pode ser feito criando uma API para usar o modelo, integrando o modelo em uma aplicação, executando as previsões do modelo e gravando o resultado em um arquivo ou simplesmente documentar suas descobertas em um e-mail, um documento compartilhado ou uma apresentação para um grupo de executivos.
Embora seja fácil falar tecnicamente com seus colegas, transmitir o que você encontra nos dados para uma equipe de vendas ou executivos para que eles possam agir é a chave desta etapa. Logo, comunicação é um soft skill fundamental.
A primeira etapa é sem dúvida a mais importante de todas. O processo inteiro depende de boas perguntas feitas na etapa de compreensão do problema. Sem isso, seria muito mais difícil fazer as perguntas certas e extrair o máximo de informações dos dados. Além disso, o processo pode ser um ciclo. Você pode chegar na etapa de avaliação e descobrir que a performance está ruim. Você então retorna à fase de preparação, refaz a etapa com técnicas diferentes, escolhe diferentes modelos e arquiteturas e repete o ciclo até alcançar a performance ideal.
Por exemplo, se você mudou da preparação de dados para a modelagem, mas novos dados chegaram, você teria que voltar a preparar os novos dados e mesclá-los com os dados antigos que você já tinha para ajudar a fornecer resultados mais precisos.
Depois de ter um modelo e avaliá-lo, como indica a seta na imagem no começo do post, é útil voltar para garantir que os resultados do modelo estejam alinhados com o negócio. O resultado do processo ajuda a empresa a agir? Pode dar respostas às questões de negócios que tínhamos no início? Existem novas questões que foram levantadas?
Conhecendo bem o processo fica muito mais fácil identificar as técnicas, ferramentas, inputs e outputs em cada etapa.
David Matos
Referências:
Curso Gratuito Introdução à Ciência de Dados
Excelente artigo para quem está iniciando neste mundo.
Obrigado Paulo.