Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
Menu
O Kaggle e Realmente Valido Para Aprender Data Science

O Kaggle é Realmente Válido Para Aprender Data Science?

Posted on 23 de outubro de 202023 de outubro de 2020 by David Matos

Kaggle é uma plataforma bastante conhecida que permite aos usuários participar de competições de Machine Learning, explorar e publicar conjuntos de dados e também ter acesso a treinamentos. É um ótimo ecossistema para se envolver, conectar e colaborar com outros Cientistas de Dados para construir modelos de aprendizado de máquina incríveis.

Com o passar dos anos, o Kaggle ganhou popularidade organizando competições que variam de divertidos exercícios mentais a competições comerciais que oferecem prêmios em dinheiro e classificam os participantes. A participação nessas competições também pode abrir as portas para o recrutamento de empresas de ponta. Muitas empresas que estão atoladas por problemas difíceis de Ciência de Dados ou que não têm uma equipe interna procuram os concursos do Kaggle para preencher essa lacuna.

Sem dúvida, o Kaggle é a maior comunidade online de Cientistas de Dados. Para iniciantes que desejam embarcar em sua jornada no campo, o Kaggle é uma plataforma valiosa para começar e construir um portfólio.

Mas será que um aspirante a Cientista de Dados deve confiar exclusivamente no Kaggle para entrar no mercado?

Pessoalmente, acredito que os Cientistas de Dados não deveriam usar o Kaggle como parâmetro ou como única fonte. Na verdade, além de propósitos educacionais e sua utilidade na descoberta de conjuntos de dados, eu prefiro ficar completamente longe dos concursos do Kaggle. Vejamos algumas considerações importantes sobre o Kaggle.

As Competições do Kaggle Podem Não Simular Problemas do Mundo Real

As competições do Kaggle podem ser postadas publicamente para todos os competidores interessados ​​ou realizadas em particular para alguns participantes selecionados. O anfitrião do concurso deve preparar os dados e fornecer descrições detalhadas do problema em questão.

Agora, a principal preocupação com o Kaggle é que os usuários sejam alimentados com os dados que devem usar. Em outras palavras, os Cientistas de Dados em competição começam a trabalhar imediatamente com dados que já estão limpos. Os problemas do mundo real, por outro lado, são completamente diferentes, o que as competições Kaggle nunca representam.

Esqueça a limpeza de dados; os problemas de negócios que você receberia no mundo real não são nem de longe tão simples quanto os do Kaggle. O papel de um Cientista de Dados fora das competições envolve muito mais do que apenas analisar os números. Requer experiência de domínio, localização e preparação dos dados relevantes, extração e limpeza, execução de código, implantação de modelos em dados ativos, análise de compensações como precisão, velocidade, tamanho e portabilidade e, em última análise, determinar se uma solução é viável ou não. Ao contrário dos concursos do Kaggle, nos quais você está limitado a um conjunto de dados com o único objetivo de obter a melhor precisão, a prática real da Ciência de Dados é muito mais complexa. Na realidade, minerar os dados é o que faz toda a diferença entre um modelo ok e um modelo ótimo, não apenas a análise.

Portanto, embora as competições do Kaggle sejam uma boa prática para iniciantes, elas exigem apenas lidar com a ponta do iceberg. Além disso, o Kaggle literalmente resolve a maioria dos problemas para você. Essa estrutura acaba dando aos aspirantes a Cientistas de Dados as expectativas erradas e uma visão limitada do mercado.

As Competições do Kaggle Podem Ser Desestimulantes Para os Iniciantes

Se sua relevância limitada à inexistente no mundo real não fosse suficiente, as competições do Kaggle colocaram os Cientistas de Dados na corrida dos ratos. Bem, eu sei que as competições Kaggle são divertidas e de forma alguma estou tentando desencorajá-lo de participar delas. Mas, no final, a estrutura altamente competitiva e baseada em recompensas do Kaggle pode ser intimidante para muitas pessoas, especialmente quando elas estão apenas começando.

Minha principal preocupação com as competições do Kaggle é que elas colocam você em uma mentalidade competitiva em que o objetivo da Ciência de Dados muda de criar o melhor algoritmo para ganhar aqueles 0,001 pontos extras com a esperança de chegar às poucas primeiras posições. A verdade é que chegar aos primeiros 0,1 por cento na classificação de Kaggle não é moleza, não importa o quão bom você seja. Esse vício em melhorar a precisão do modelo para uma melhor classificação pode ser uma boa mudança do Kaggle para gamificar a Ciência de Dados e fazer com que as pessoas voltem, mas é assustadoramente viciante e não tão benéfico para os próprios Cientistas de Dados.

Pontos e classificações só deixam as pessoas cada vez mais obcecadas com a competição em si, e elas acabam se divertindo menos com os dados, limitando-se a agradar o algoritmo do Kaggle. Embora possa parecer estranho, o pensamento criativo desempenha um grande papel na Ciência de Dados. Existem inúmeras maneiras de interpretar e extrair dados para encontrar algo significativo. Os conjuntos de dados feitos sob medida que o Kaggle fornece limitam a criatividade, já que o Cientista de Dados não precisa explorar a arte de combinar diferentes dados. Para os recém-chegados, essa atitude e o foco na competição podem facilmente se tornar um ciclo vicioso ou uma espiral descendente. Ficar atolado em um jogo de números pode afetar qualquer pessoa, causando estresse e ansiedade.

Outra desvantagem dos concursos do Kaggle são os equívocos que eles dão aos aspirantes a Cientistas de Dados sobre possíveis recompensas. Muitos deles inicialmente percebem essas competições como uma forma de ganhar dinheiro. Na verdade, isso raramente acontece. A busca por um prêmio no Kaggle apenas faz com que os Cientistas de Dados em formação desviem sua atenção para as coisas erradas. Em vez de tentar melhorar em aprendizado de máquina, eles podem facilmente começar a se tornar gananciosos. Dada a relativa infrequência de acertar um jackpot, essa mudança de foco não vale a pena a quantidade de tempo que as pessoas investem nela.

Além disso, é muito fácil começar a avaliar seu progresso apenas por meio das tabelas de classificação do Kaggle. Uma classificação baixa pode fazer qualquer pessoa sentir que não é muito boa em trabalhar com Data Science. O fato é que o Kaggle não reflete realmente o trabalho real de Data Science e Machine Learning. A obsessão com as classificações no Kaggle pode tirar do campo os Cientistas de Dados qualificados.

Conclusão: Escolha Seu Próprio Caminho

No final, Kaggling pode ser divertido por um curto período, especialmente como um projeto paralelo. Não há dúvida de que é uma ótima plataforma para aprimorar as habilidades de Ciência de Dados. Mas, apesar de seus benefícios, nunca chegará perto dos aplicativos do mundo real e sempre cobrirá apenas um pequeno aspecto de todo o trabalho. Pode-se facilmente fazer muito mais progresso, ganhar experiência e explorar uma gama mais ampla de problemas de Ciência de Dados trabalhando em seus próprios projetos, como por exemplo os muitos projetos oferecidos nos cursos da Data Science Academy ou trabalhando em seus próprios projetos ao mesmo tempo que cria seu portfólio de projetos.

Uma outra alternativa é usar as competições do Kaggle como exemplos de projetos depois que a competição foi encerrada, sem ter que entrar na paranóia de conseguir mais 0,0001 de acurácia e ficar entre os 100 primeiros classificados durante o prazo da competição.

Mas acima de tudo, experimente. Tente uma ou outra competição do Kaggle e tire suas próprias conclusões.

David Matos

Referências:

Kaggle

Is Kaggle Worth It For Data Scientists?

Why Kaggle will NOT make you a great data-scientist

Compartilhar

  • Clique para compartilhar no X(abre em nova janela) 18+
  • Clique para compartilhar no Facebook(abre em nova janela) Facebook
  • Clique para compartilhar no LinkedIn(abre em nova janela) LinkedIn
  • Clique para compartilhar no WhatsApp(abre em nova janela) WhatsApp
  • Clique para compartilhar no Telegram(abre em nova janela) Telegram
  • Clique para compartilhar no Tumblr(abre em nova janela) Tumblr
  • Clique para compartilhar no Pinterest(abre em nova janela) Pinterest

Relacionado

1 thought on “O Kaggle é Realmente Válido Para Aprender Data Science?”

  1. Davi Secomandi disse:
    18 de janeiro de 2021 às 5:20 PM

    Valeu a pena ler este texto, o alerta sobre receber dados prontos e sobre a obsessão por obter 0,1 a mais de precisão foram bem úteis pra mim, eu me interesso muito pela área da Ciência de Dados em Saúde, acho muito mais estimulante buscar uma melhor qualidade de vida para as pessoas. Me considero iniciante e prefiro me dedicar a uma coisa que o Kaggle não cobra muito: limpeza e tratamento de dados, é um trabalho mais desgastante mas é bem vindo pra qualquer equipe de Ciência de Dados, pelo menos eu não passo vergonha no início da carreira e consigo ser útil no emprego antes de me tornar um expert.

    Responder

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Buscar

Tags Mais Comuns nos Posts

Agentes de IA Analytics Análise de Negócios Apache Spark AWS Big Data Blockchain Business Intelligence ChatGPT Cientista de Dados Cientistas de Dados Ciência de Dados Cloud Computing Data Lake Data Mesh Data Science Data Scientist Data Warehouse Deep Learning Deploy Engenharia de Dados Estatística GPU GraphRAG Hadoop IA Generativa Inteligência Artificial Internet of Things Linguagem Python Linguagem R LLM LLMs Machine Learning MCP (Model Context Protocol) Metadados Normalização NVIDIA Oracle Pipeline de Dados Predictive Analytics Probabilidade PySpark Python RAG Storytelling

Histórico de Posts

  • maio 2025 (6)
  • abril 2025 (2)
  • março 2025 (4)
  • fevereiro 2025 (8)
  • janeiro 2025 (5)
  • dezembro 2024 (4)
  • novembro 2024 (1)
  • outubro 2024 (1)
  • setembro 2024 (1)
  • agosto 2024 (1)
  • julho 2024 (3)
  • junho 2024 (1)
  • maio 2024 (1)
  • abril 2024 (2)
  • março 2024 (1)
  • fevereiro 2024 (1)
  • janeiro 2024 (1)
  • dezembro 2023 (1)
  • outubro 2023 (2)
  • setembro 2023 (1)
  • agosto 2023 (4)
  • julho 2023 (2)
  • junho 2023 (4)
  • maio 2023 (2)
  • abril 2023 (2)
  • março 2023 (3)
  • fevereiro 2023 (3)
  • janeiro 2023 (3)
  • dezembro 2022 (7)
  • novembro 2022 (6)
  • outubro 2022 (2)
  • setembro 2022 (3)
  • agosto 2022 (2)
  • julho 2022 (2)
  • junho 2022 (3)
  • maio 2022 (1)
  • abril 2022 (3)
  • março 2022 (1)
  • fevereiro 2022 (3)
  • janeiro 2022 (2)
  • dezembro 2021 (1)
  • novembro 2021 (5)
  • outubro 2021 (2)
  • setembro 2021 (3)
  • agosto 2021 (1)
  • junho 2021 (1)
  • fevereiro 2021 (2)
  • janeiro 2021 (1)
  • dezembro 2020 (1)
  • novembro 2020 (1)
  • outubro 2020 (2)
  • agosto 2020 (1)
  • abril 2020 (1)
  • março 2020 (1)
  • fevereiro 2020 (2)
  • agosto 2019 (1)
  • abril 2019 (1)
  • setembro 2018 (2)
  • julho 2018 (1)
  • junho 2018 (3)
  • abril 2018 (1)
  • março 2018 (1)
  • fevereiro 2018 (2)
  • janeiro 2018 (1)
  • dezembro 2017 (1)
  • novembro 2017 (1)
  • outubro 2017 (1)
  • setembro 2017 (1)
  • julho 2017 (1)
  • junho 2017 (1)
  • maio 2017 (2)
  • abril 2017 (1)
  • janeiro 2017 (1)
  • novembro 2016 (1)
  • outubro 2016 (1)
  • setembro 2016 (1)
  • julho 2016 (1)
  • junho 2016 (1)
  • maio 2016 (1)
  • abril 2016 (1)
  • fevereiro 2016 (1)
  • janeiro 2016 (3)
  • dezembro 2015 (4)
  • novembro 2015 (6)
  • outubro 2015 (9)
  • setembro 2015 (9)
  • agosto 2015 (9)
©2025 Ciência e Dados