Aqui estão os 7 passos principais para construir modelos de Machine Learning, com o percentual em relação ao total, de cada um dos passos.
1- Compreender o Problema de Negócio (10%)
Todos os projetos de aprendizado de máquina (Machine Learning) começam com o problema, o escopo e os riscos para o negócio. Comece fazendo as perguntas certas:
• Qual é o problema a ser resolvido?
• Qual é o objetivo do negócio?
• Qual é o horizonte de previsão?
• Qual é o processo atual?
• Qual é o impacto potencial nos negócios?
2- Realizar Análise de Viabilidade (10%)
Antes de se comprometer com um projeto, avalie a viabilidade conduzindo uma exploração dos dados brutos. Crie gráficos que realizam análises de correlação das variáveis de entrada e a variável de destino.
Machine Learning não cria padrão nos dados, apenas detecta um padrão já existente. Se não existir algum padrão nos dados, devemos buscar outros dados.
3- Pré-Processamento de Dados (30%)
Os dados precisam ser limpos, organizados e pré-processados. Esta é a etapa mais longa do processo e envolve correção de erros, tratamento de valores ausentes, tratamento de outliers, encoding, conversão de variáveis, padronização e diversas outras técnicas.
4- Engenharia de Recursos e Seleção de Recursos (20%)
Nesta etapa é preciso verificar quais variáveis serão usadas na modelagem, quais devem ser descartadas, quais devem ser combinadas e se novas variáveis (recursos) devem ser coletadas.
5- Modelagem e Avaliação (10%)
Esta é a parte divertida do projeto (embora represente apenas 10% de todo o trabalho). Dependendo do requisito do projeto, podemos utilizar modelos de autocorrelação como SARIMA, modelos baseados em árvore, Deep Learning com LSTMs ou mesmo Transformers. Também devemos utilizar validação cruzada para garantir que o modelo generalize bem. Para ajuste de parâmetros, usamos a otimização Bayesiana ou busca aleatória, entre outras opções.
6- Deploy (15%)
Aqui o objetivo é fazer o modelo resolver o problema para o qual ele foi criado. O deploy envolve as etapas de publicar o modelo, fazê-lo receber novos dados e então extrair suas previsões. O modelo pode ser integrado em uma aplicação web ou mobile, por exemplo.
7- Apresentação do Resultado (5%)
Só porque você criou um modelo e fez o deploy, não significa que o trabalho para por aí. Você tem que “vender” a capacidade do modelo em resolver o problema de negócio. Você tem que mostrar como Machine Learning pode fazer diferença, o ROI (Retorno Sobre o Investimento) e os resultados esperados.
Os passos acima foram descritos por Daniel Lee, ex-Google Data Scientist e fundador da DataInterview. Saiba mais sobre como ele constrói modelos no EP20 do Podcast “The Data Scientist Show”.
David Matos