Um Dia na Vida de Um Cientista de Dados

Matthew Mayo, Cientista de Dados e Editor do site KDnuggets, um dos maiores portais sobre Data Science e um dos principais pontos de encontro de Cientistas de Dados em todo mundo, publicou um artigo muito interessante com o dia a dia de cinco Cientistas de Dados. Eles foram selecionados no LinkedIn do Matthew e trago aqui para você o artigo na íntegra, traduzido para o português! Vale a pena conferir!

Você está interessado em saber o que um Cientista de Dados faz em um dia típico de trabalho? Cada função em Data Science pode ser diferente, mas esses cinco indivíduos forneceram informações para ajudar aqueles interessados em descobrir o que acontece em um único dia na vida de um Cientista de Dados.

Algumas semanas atrás, solicitei comentários das minhas conexões no LinkedIn sobre o que seria um dia típico na vida de um Cientista de Dados. A resposta foi realmente irresistível! Claro, nenhuma função de Cientista de Dados é a mesma, e esse foi o motivo desta pequena pesquisa. Diversos Cientistas de Dados em potencial estão interessados em saber como Cientistas de Dados mais experientes se mantém ocupados durante todo o dia, e então pensei em solicitar a algumas das minhas conexões, suas visões. Acredito que isso seria muito útil para quem está começando nesta incrível carreira.

A seguir alguns dos excelentes comentários que recebi por email e mensagens do LinkedIn de quem estava interessado em fornecer alguns parágrafos sobre suas tarefas profissionais diárias. Os resumos são curtos, apresentados na íntegra e sem edições, permitindo que as citações falem por si mesmas.

Andriy Burkov é Global Machine Learning Team Leader no Gartner, Quebec City, Canadá

O meu dia típico começa às 9 horas com uma reunião de 15 a 30 minutos de duração via Webex com a minha equipe, que está distribuída, metade na Índia (Bangalore e Chennai) e metade no Canadá (Cidade de Quebec). Discutimos o avanço dos projetos e decidimos sobre como superar as dificuldades.

Então eu leio meus e-mails recebidos durante a noite e tomo alguma ação, se necessário. Depois disso, trabalho no meu projeto atual, que atualmente é um extrator de salário de anúncios de vagas de emprego. Eu preciso criar um par de modelos separados para cada par país-idioma que nós suportamos (cerca de 30 pares país-idioma). O processo consiste em coletar os anúncios de vagas de emprego para um determinado país-idioma, agrupando-os e obtendo o subconjunto de exemplos de treinamento. Então, rotulamos estes exemplos manualmente e criamos o modelo. Passo pelo ciclo construir modelo/testar/adicionar dados/reconstruir até que o erro de teste seja suficientemente baixo (~ 98% de acurácia).

À tarde, ajudo os membros da minha equipe a melhorar seus modelos testando o modelo atual sobre os dados reais, identificando os falsos positivos/negativos e criando novos exemplos de treinamento para resolver o problema. A decisão de parar de melhorar o modelo e de implantar na produção depende do projeto. Para alguns casos, especialmente para o usuário, queremos um nível muito baixo de falsos positivos (menos de 1%): o usuário sempre vê que a extração de algum elemento do texto estava errada, mas nem sempre observa a falta de extração.

O dia termina às 17h30, com 30 minutos de leitura das novidades técnicas/blogs.

Colleen Farrelly é Cientista de Dados na Kaplan, em Miami, EUA

Aqui está um pouco sobre o que é um dia na minha vida:

Eu migrei para a área de Ciência de Dados e Machine Learning durante um programa de MD/PhD após uma licenciatura em ciências humanas, e meus projetos do dia-a-dia são altamente interdisciplinares. Alguns projetos incluem a simulação da propagação de uma epidemia, estudo da psicologia industrial para criar melhores modelos de RH e a dissecação de dados para obter grupos de risco para alunos de baixa condição socioeconômica. A melhor parte do meu trabalho é a variedade de projetos e um novo desafio todos os dias.

Um dia típico começa por volta das 8:00 da manhã, quando eu acesso minhas contas de mídias sociais relacionadas à aprendizagem de máquina e à ciência de dados. Eu início em projetos de trabalho por volta das 8:30 da manhã e findo por volta das 16h30 às 17h00 com uma pausa para o almoço. Cerca de 40% do meu tempo é gasto em pesquisa e desenvolvimento, com um foco forte em matemática (topologia, em particular), desenvolvendo e testando novos algoritmos para a escrita de provas matemáticas para simplificar os problemas de dados. Às vezes, os resultados são confidenciais e permanecem dentro da empresa (compartilhados através de apresentações mensais dentro da empresa). Outras vezes, tenho permissão para publicar ou apresentar em conferências externas.

Outros 30% do meu tempo são dedicados a construir relacionamentos entre os departamentos da minha empresa e a buscar novos projetos, que geralmente identificam problemas relacionados a procedimentos operacionais, problemas relacionados à captura de dados ou conexões entre projetos anteriores que fornecem uma visão mais abrangente das operações. Este é provavelmente um dos aspectos mais importantes do trabalho. As pessoas que conheço muitas vezes trazem problemas que estão vendo ou mencionam como é bom ter um modelo preditivo de vendas/resultados/operações dos alunos, e descobri que isso abre a porta para conversas e sugestões de melhores práticas. Como Cientista de Dados, é importante se comunicar com uma ampla gama de partes interessadas, e ajudou-me a simplificar minhas explicações sobre os algoritmos de aprendizado de máquina ao nível de um leigo.

Os restantes 30% do meu tempo normalmente são gastos na análise de dados e na redação de resultados. Isso inclui modelos de previsão, modelos preditivos de métricas chave e mineração de dados para subgrupos e tendências dentro de um determinado conjunto de dados. Cada projeto é único, e tento deixar o projeto e suas descobertas iniciais me orientarem para os próximos passos. Eu uso principalmente o R e o Tableau para projetos, embora Python, Matlab e SAS sejam ocasionalmente úteis com pacotes específicos ou pedidos de P&D. Normalmente, eu posso reciclar o código, mas cada problema tem seus próprios pressupostos e limitações de dados em relação à matemática. Os projetos geralmente podem ser simplificados usando ferramentas de topologia, análise real e teoria dos grafos, que acelera o projeto e permite o uso de pacotes existentes, em vez de uma necessidade de codificar a partir do zero. Como a única Cientista de Dados de uma grande empresa, isso me permite cobrir mais projetos e descobrir mais informações para nossos clientes internos.

Marco Michelangeli é Cientista de Dados na Hopenly, em Reggio Emilia, Itália

Quando Matthew me pediu para escrever alguns parágrafos sobre o meu dia “típico” como Cientista de Dados, comecei a pensar sobre minha rotina e trabalho diário, mas depois parei e percebi: “Eu realmente não tenho uma rotina!” e esta é a melhor coisa sobre ser um Cientista de Dados! Todos os dias são diferentes, surge um novo desafio e um novo problema está à espera de ser resolvido. Não falo apenas sobre codificação, matemática e estatística, mas sobre a complexidade do mundo dos negócios: muitas vezes discuto com empresários e clientes para entender suas necessidades reais, eu ajudo o marketing com conteúdos em nossos produtos, participo de reuniões sobre novos fluxos de trabalho ETL e design de arquitetura para um novo produto a ser realizado. Eu já dediquei até algum tempo fazendo triagem em currículos de Cientistas de Dados.

Ser um Cientista de Dados significa ser flexível, aberto e preparado para resolver problemas e abraçar a complexidade, mas não me interprete mal: gasto mais de 80% do meu tempo com limpeza dos meus dados! Se você está apenas começando uma carreira em Data Science, você provavelmente já leu posts do tipo: “10 dicas para dominar R e Python em Data Science” ou “A melhor biblioteca de aprendizado profundo”, portanto, eu não vou dar mais sugestões técnicas. A única coisa que posso dizer vem do manifesto profissional de ciência de dados e é: “A Ciência dos Dados é sobre a solução de problemas, não a construção de modelos”. Isso significa que, se você pode resolver uma necessidade do cliente com apenas uma consulta SQL, faça isso! Não seja focado apenas em modelos complexos de aprendizagem de máquina: seja simples, seja útil.

Ajay Orhi é Cientista de Dados na Kogentix Inc. em New Delhi, Índia. Ele já escreveu 2 livros sobre R e 1 sobre Python.

Meu dia típico começa às 9 da manhã com uma “Scrum Call“. Nossa metodologia de trabalho em projetos é dividir tarefas em metas de duas semanas ou sprints. Este é basicamente o método de desenvolvimento ágil para software e é diferente das metodologias CRISP-DM ou KDD.

É necessário um pouco de contexto para explicar por que o fazemos. Meu papel atual é de Cientista de Dados em uma equipe que implementa o Big Data Analytics em um banco do sudeste asiático. Nós temos Engenheiros de Dados, pessoas de administração/infraestrutura, Cientistas de Dados e, claro, gerentes de engajamento de clientes na equipe atendendo a cada necessidade específica do projeto. Minha empresa atual é uma Startup de IA chamada Kogentix, e trabalhamos não só com Big Data Services, mas também com um grande produto de dados chamado AMP, que atua como GUI no PySpark e tenta automatizar o Big Data. O foco da minha Startup é obter o maior número possível de clientes, bem como testar e implementar nosso produto de Big Data. Isso significa demonstrar o sucesso em nossos compromissos com clientes – um de nossos clientes foi selecionado para um prêmio no mês passado. Se eu pareço um profissional orientado ao Marketing, pode apostar que sou. O trabalho que um Cientista de Dados faz geralmente é uma consequência estratégica para o cliente.

O que eu faço diariamente? Poderia ser muitas coisas – incluindo não apenas e-mails e reuniões. Eu poderia estar usando o Hive para analisar dados, mesclar dados (ou usando o Impala), eu poderia estar usando PySpark (MLlib) para fazer modelos de churn ou clusterização com K-Means. Eu poderia estar puxando dados de um arquivo do Excel para fazer resumos e eu poderia estar fazendo visualizações de dados. Alguns dias eu codifico em R usando alguns pacotes de aprendizagem de máquina. Também ajudo a testar o AMP, o nosso produto Big Data Analytics e trabalhamos com essa equipe para aprimoramento de recursos do produto. Quando eu codifico Big Data, eu poderia estar usando a GUI do Hadoop HUE ou eu poderia estar usando programação via linha de comando, incluindo o envio de código batch.

Antes disso, quando eu trabalhava para a terceira maior empresa de software da Índia, Wipro, meu papel era o oposto. Nosso cliente era o Ministério das Finanças da Índia (o braço que lida com impostos). Os Cientistas de Dados juniores puxavam dados usando o SQL de um RDBMS (devido a problemas legados), e eu validava os resultados. Os relatórios eram então enviados aos vários clientes. Em uma base ad hoc, também utilizamos SAS Enterprise Miner como um teste de conceito para mostrar previsões de séries temporais de importações e exportações para a Índia. Os cronogramas são bastante lentos e burocráticos quando se trabalha para um governo federal em relação ao setor privado. Lembrei-me de uma apresentação quando o burocrata encarregado ficou surpreso de que estávamos executando aprendizagem de máquina e por que o governo não a usou anteriormente. Mas SAS/Visual Analytics (para Dashboards), o SAS Fraud Analytics (que estava em processo de implementação) e o Base SAS são softwares incríveis e duvido que qualquer coisa que se assemelhe ao SAS Domain Specific Bundles possa ser feita em breve .

Antes disso, durante dez anos, cuidei do blog Decisionstats.com. Eu bloguei, vendi anúncios (não muito bons), escrevi 3 livros em ciência dos dados, dezenas de artigos para a Web, StatisticsViews e fiz algumas consultas de dados. Até escrevi alguns artigos para o KDnuggets. Você pode ver meu perfil aqui https://en.m.wikipedia.org/wiki/Ajay_Ohri

Eric Weber é Cientista de Dados Sênior no LinkedIn, em Sunnyvale, Califórnia, EUA.

Um dia na vida do LinkedIn. Bem, acho que posso dizer que não há dia “típico”. Tenha isso em mente ao ler!

Primeiro, um pouco sobre quem eu sou e minhas principais responsabilidades. Tenho a sorte de trabalhar no nosso LinkedIn Learning, que é o mais novo grupo de ciência de dados da organização. Especificamente, eu apoio as vendas do nível Enterprise do LinkedIn Learning. O que isso significa? Pense nisso assim: usamos dados, modelos e análises para tomar decisões sobre como vender efetivamente. Claro, os detalhes sobre como fazemos isso são internos, mas você pode imaginar que queremos responder perguntas como: em quais contas tentamos vender? Trabalhamos para entender o que faz com que certas contas se destaquem das demais.

Em segundo lugar, um aspecto chave do cotidiano é a comunicação. Eu escrevi sobre isso extensivamente no LinkedIn, mas acredito que a comunicação efetiva com colegas de equipe e parceiros de negócios é uma característica definidora de um ótimo Cientista de Dados. Em um dia típico, isso envolve o fornecimento de atualizações sobre projetos-chave para membros da equipe imediata, gerentes e líderes seniores, conforme apropriado. Uma coisa que eu acho fascinante sobre esse aspecto do trabalho é a necessidade de brevidade. Uma empresa como o LinkedIn tem toneladas de comunicação interna acontecendo, então tudo o que está fora deve ser destilado em resultados claros e concisos pontos de discussão.

Finalmente, uma parte importante de cada dia é o fracasso. Sou um grande crente que, se você não está falhando, você não está aprendendo. Isso não significa falha catastrófica, é claro. Isso significa que cada dia eu trabalho em coisas que expandem minha compreensão de análise, ciência de dados e a própria organização. Aprendo com os meus erros e vejo como os outros fazem as coisas de forma mais eficiente ou de maneiras diferentes de mim. Quando eu acordo todos os dias, procuro falhar como parte do trabalho, porque isso me deixa melhor no dia seguinte. A análise e o rápido ritmo de expansão da ciência de dados fornecem muitas dessas oportunidades!

Esperemos que esses comentários tenham fornecido uma visão mais profunda do que os Cientistas de Dados fazem diariamente. Recebi tanto interesse e tantas respostas que vale a pena fazer outro post sobre isso no futuro próximo.

Traduzido do artigo original: A Day in the Life of a Data Scientist

David Matos

Referências:

A Day in the Life of a Data Scientist

Cientista de Dados – Por Onde Começar em 8 Passos

Relacionado

10 thoughts on “Um Dia na Vida de Um Cientista de Dados”

Alvaro Mendonça disse:

11 de janeiro de 2018 às 9:32 PM

Impressionante e empolgante! Excelentes esclarecimentos e abordagem. São infinitas possibilidades…

Responder
1. David Matos disse:
  
  11 de janeiro de 2018 às 9:45 PM
  
  Sem dúvida. Por isso a profissão cresce cada vez mais e quem souber aplicar Data Science para resolver problemas de negócio, terão empregabilidade garantida por um bom tempo. Abs. David.
  
  Responder
Leandro disse:

11 de julho de 2019 às 3:04 PM

Incrível! Cada vez me sinto mais entusiasmado com a área.

Responder
Adilson disse:

23 de agosto de 2019 às 10:59 PM

Muito top! Adora sempre me colocar numa posição com certo nível de desconforto, e cada dia é um aprendizado. Muito bom mesmo!

Responder
Pablo Henrique Matias de Oliveira disse:

25 de outubro de 2019 às 9:12 AM

Bom Dia,

Excelente e motivadores esses comentários, todos nós sabemos que é uma longa jornada, mas depende da dedicação de cada um.

Sucesso a todos…

Responder
Gustavo André disse:

28 de março de 2020 às 8:36 PM

Obrigado.

Isso é o que eu chamo de “overview”. Um belo panorama das infinitas possibilidades e oportunidades do trabalho em Ciência e Dados, inclusive em seus vários níveis de proficiência.

Responder
Ednei Cunha Vicente disse:

27 de dezembro de 2021 às 8:44 PM

Excelente post!! Essas historias são maravilhosas

Responder
Pingback: Machine Learning Requer Uma Abordagem de Implantação Diferente — Ciência e Dados
Jonas Prass disse:

14 de janeiro de 2022 às 10:44 AM

Ótimo post.
Vejo cada vez mais meu perfil ligado a DS. Sempre sou a referência para resolver os problemas nas instituições que trabalhei.
Hoje dedico meu tempo estudando DS.

Responder
Pingback: Kubernetes: Pods, Nodes, Containers e Clusters — Ciência e Dados