Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
Menu
Top 10 Open Datasets Para Construir Portfolio de Projetos em Data Science

Top 10 Open Datasets Para Construir Portfólio de Projetos em Data Science

Posted on 23 de dezembro de 202027 de dezembro de 2022 by David Matos

Tenho certeza que você concorda com esse ditado: Não importa qual seja a sua tarefa, a prática o torna melhor nisso. Na minha jornada em Data Science, não observei nada diferente. Na verdade, eu iria mais longe e diria que entender um modelo em si, digamos, a regressão logística é menos desafiador do que entender onde ela deve ser aplicada, já que sua aplicação difere de conjunto de dados para conjunto de dados.

Portanto, é muito importante praticar o processo de Machine Learning de ponta a ponta em diferentes tipos de dados e conjuntos de dados. Quanto mais conjuntos de dados diversos usamos para construir nossos modelos, mais entendemos o modelo. Essa também é uma ótima maneira de continuar se desafiando e explorar alguns dados interessantes que estão sendo coletados ao redor do mundo e ainda praticar limpeza, transformação e pré-processamento de dados.

Neste artigo você encontra Top 10 Open Datasets Para Construir Portfólio de Projetos em Data Science. O link para download está no título de cada dataset.

1- Amphibians Dataset

Este é um conjunto de dados realmente simples que consiste em dados sobre anfíbios e sua presença perto d’água. Os dados foram coletados a partir de GIS e imagens de satélite, bem como dados já disponíveis sobre as populações de anfíbios anteriores. O conjunto de dados em si é pequeno, com cerca de 189 linhas e 23 colunas. O que eu realmente gostei neste conjunto de dados é que as colunas são de todos os tipos possíveis: Contínuo, Categórico, Ordinal, etc.

As colunas categóricas têm um número relativamente grande de valores distintos e até mesmo a variável alvo tem mais de 5 valores distintos. Portanto, este conjunto de dados é ótimo para praticar classificação multiclasse.

2- Seoul Bikesharing Demand

Os dados de compartilhamento de bicicletas de grandes cidades como Nova York, Chicago, etc. estão no domínio público há muitos anos e têm sido amplamente usados para diversos fins. Recentemente, Seul foi adicionada a esta lista de cidades que disponibilizam os dados de aluguel de bicicletas compartilhadas.

Seul é uma das cidades mais populosas do mundo e, portanto, enfrenta problemas crescentes de transporte, apesar de ter um sistema de transporte público robusto. O aluguel de bicicletas públicas está se tornando rapidamente um meio de transporte popular que é barato, menos poluente e rápido. No entanto, agora existe a necessidade de otimizar o aluguel de bicicletas disponíveis para que mais e mais pessoas possam usá-las. Esse pode ser um exemplo de projeto para praticar.

3- Voice Call Quality

Enquanto eu explorava vários conjuntos de dados enquanto escrevia este artigo, encontrei a própria plataforma de dados governamentais abertos da Índia. A plataforma é um grande recurso para dados nacionais e estaduais de vários departamentos governamentais. Alguns conjuntos de dados são atualizados diariamente ou mensalmente.

Por exemplo, veja este dataset de classificações de chamadas de voz de origem coletiva. Todos os assinantes de telecomunicações na Índia têm a opção de fornecer sua opinião sobre a qualidade das chamadas por meio de um aplicativo e enviá-la à TRAI (Autoridade Reguladora de Telecomunicações da Índia)

A Plataforma OGD hospeda dados mensais na forma de arquivos CSV sobre Operador de Rede, Tipo de Rede, Localização, Qualidade da Chamada, etc., de abril de 2018 até outubro de 2020. Isso fornece uma grande oportunidade para praticar problemas de engenharia de atributos, classificação e regressão.

4- John Hopkins COVID-19 dataset

Não se pode olhar para 2020 e ignorar o que aconteceu. Embora a pandemia de COVID-19 tenha paralisado o mundo, também nos fez perceber a importância de coletar e manter dados precisos. Empresas, governos e hospitais já divulgaram muitos dados sobre como enfrentaram a pandemia, mas o primeiro nesta lista é o conjunto de dados global do COVID, popular e altamente avaliado, da Universidade John Hopkins.

É digno de elogio o trabalho realizado (é sempre um sinal de gratidão agradecer e elogiar aqueles que dedicam seu tempo para disponibilizar material gratuito para outras pessoas). Eles começaram a agregar os dados desde a última semana de Janeiro/2020 e têm atualizado todos os dias desde então. Os dados foram coletados de vários recursos, incluindo portais de notícias, agências públicas oficiais e sites de governo e departamentos de saúde.

Você pode usar este conjunto de dados para várias finalidades – agrupamento, classificação, previsão de séries temporais, etc. Este conjunto de dados também está sendo amplamente usado para gerar painéis interativos quase em tempo real.

5- MaskedFaceNet

Até o momento em que uma vacina não esteja disponível para uso em larga escala, os únicos métodos eficazes para prevenir a disseminação são o distanciamento social e o uso de máscaras. No entanto, embora o distanciamento social possa ser imposto, tem sido muito difícil impor o uso de máscaras.

Muitas vezes, tenho notado pessoas usando máscaras, mas elas não cobrem o nariz ou não são usadas corretamente. Isso anula o propósito de usá-los e aumenta o risco de propagação.

Para este propósito, foram coletados alguns conjuntos de dados de pessoas usando máscaras – tanto correta quanto incorretamente para fins de reconhecimento e alerta. Na verdade, também é possível extrair essas imagens da Internet e criar seu próprio conjunto de dados.

6- Objectron

Lançado pelo Google no início de 2020, Objectron é um conjunto de dados anotado de clipes de vídeo e imagens que contêm objetos.

Há um total de 15 mil videoclipes anotados e 4 milhões de imagens anotadas de objetos pertencentes a qualquer uma dessas categorias: bicicletas, livros, garrafas, câmeras, cadeiras, caixas de cereais, laptops, copos e sapatos.

Mantendo-se fiéis aos excelentes padrões do Google, eles são coletados em vários países para garantir a diversidade de dados. Além disso, esses registros podem ser processados diretamente no Tensorflow ou PyTorch.

Este é um conjunto de dados extremamente útil para detecção de bordas, classificação de imagens, detecção de objetos, etc.

7- Google Landmarks Dataset v2

Esse dataset é uma versão atualizada do Landmarks v1 que foi lançado em 2019. O conjunto de dados consiste basicamente em locais marcantes naturais e artificiais em todo o mundo.

Essas imagens de pontos de referência foram coletadas do Wikimedia Commons. Pesquisadores da equipe de pesquisa do Google afirmam que este é o maior conjunto de dados que oferece imagens do mundo real (5 milhões de imagens de mais de 200 mil pontos de referência). Os desafios apresentados por este conjunto de dados também são semelhantes aos que encontramos no mercado – como classes extremamente desequilibradas e uma diversidade muito alta de imagens. Excelente para tarefas de Visão Computacional.

8- TaskMaster-2

A esta altura, não deve ser surpresa para você quando um conjunto de dados do Google aparece nesta lista. Isso apenas mostra a grande variedade de conjuntos de dados de alta qualidade lançados pelo Google para acesso aberto ao longo dos anos. O mais recente nesta lista é o TaskMaster-2.

O conjunto de dados consiste em mais de 17 mil diálogos falados por duas pessoas em vários domínios, como restaurantes, filmes, voos, esportes, etc.

Essas conversas são centradas em pesquisas e recomendações. O mais interessante é como esses diálogos foram gravados. Humanos interagiram com humanos por meio de uma interface da web com a impressão de que estavam interagindo com um chatbot. Essas conversas também são anotadas para marcar nomes próprios, horários, quantidades, etc.

O Taskmaster-1 original foi lançado em 2019 e o TaskMaster-2 é uma versão atualizada dele com mais diversidade de diálogos. Ele pode ser usado para uma variedade de tarefas, como análise de sentimento, resposta a perguntas, NER, geração de texto, etc. Excelente para Processamento de Linguagem Natural (PLN).

9- Recipe NLG

A geração de texto é um dos campos mais interessantes no domínio de PLN nos últimos anos. Grandes modelos de aprendizado profundo como o GPT-2 foram capazes de escrever textos inteiramente novos do tipo Shakespeare quando treinados nos dados apropriados. Além dessas ideias divertidas e inovadoras, ele também está sendo usado para restaurar manuscritos e documentos danificados.

No entanto, a maioria desses modelos é usada para ser treinada em dados completamente não estruturados. Assim, em vez de treinar modelos em conjuntos de dados genéricos, é mais eficiente criar modelos para domínios específicos que seriam treinados em dados específicos para aquele domínio.

Um desses domínios é o da culinária e das receitas. Existem vários modelos de Visão Computacional lidando com receitas, como identificar os ingredientes a partir da imagem do prato cozido ou vice-versa. No entanto, não existem muitos dados para tarefas especificamente relacionadas à PLN. O conjunto de dados RecipeNLP tenta preencher essa lacuna mantendo receitas apenas em formato de texto e focando na estrutura e lógica das instruções de receita.

O conjunto de dados consiste em mais de 2 milhões de receitas extraídas de vários sites de culinária na Internet e, em seguida, limpas e anotadas. Junto com o conjunto de dados, os criadores também testaram um modelo Natural Language Generation (NLG) baseado em GPT-2; você fornece os ingredientes e as quantidades, e o modelo gera uma nova receita para eles. Assim, não apenas você pode usá-lo para tarefas como NER, classificação de texto, este conjunto de dados também é adequado para tarefas complicadas como geração de texto.

10- Berkley Deep Drive

Autonomous Driving tem sido a palavra da moda no campo da IA ​​nos últimos anos e é evidente nos diferentes projetos de carros autônomos em andamento. É realmente incrível ver o progresso que tem sido feito nos veículos autônomos e até mesmo testemunhar um veículo autônomo na estrada é sempre algo surpreendente.

Os riscos e restrições de segurança associados aos veículos não tripulados criaram a necessidade de ter conjuntos de dados especializados para tais fins e o conjunto de dados da unidade profunda de Berkley preenche esse vazio perfeitamente. Também chamado de BDD100K, é o maior conjunto de dados que consiste em clipes de vídeo com anotações de 100K e imagens de veículos sendo dirigidos. O destaque deste conjunto de dados é que ele pode ser usado para aprendizado multitarefa, como detecção de vários objetos, segmentação semântica, marcação de imagem, detecção de pista, etc.

Agora, aproveite e pratique com os mais variados projetos.

David Matos

Referências:

O Poder do Open Data

Guia Para Criar Portfólio de Projetos

Compartilhar

  • Clique para compartilhar no X(abre em nova janela) 18+
  • Clique para compartilhar no Facebook(abre em nova janela) Facebook
  • Clique para compartilhar no LinkedIn(abre em nova janela) LinkedIn
  • Clique para compartilhar no WhatsApp(abre em nova janela) WhatsApp
  • Clique para compartilhar no Telegram(abre em nova janela) Telegram
  • Clique para compartilhar no Tumblr(abre em nova janela) Tumblr
  • Clique para compartilhar no Pinterest(abre em nova janela) Pinterest

Relacionado

7 thoughts on “Top 10 Open Datasets Para Construir Portfólio de Projetos em Data Science”

  1. Ednei disse:
    24 de dezembro de 2020 às 7:13 PM

    Ola David ! Me ajudou muito essa materia
    abs!

    Responder
  2. Guilherme disse:
    2 de janeiro de 2021 às 3:45 AM

    Olá! Parabéns pelo site! Teria alguma indicação de curso para iniciar em Data Science? Minha preocupação é conseguir trabalho, sou formado em Administração e estudando para concurso público, mas penso no peso que um curso de Sistema de Informação teria nessa profissão. Achei dois cursos que parecem bons (onlines), mas gostaria de uma opinião ou indicação:
    https://harve.com.br/curso-data-science-curitiba-formacao/
    https://www.datascienceacademy.com.br/pages/formacao-cientista-de-dados
    Grato!

    Responder
    1. David Matos disse:
      3 de janeiro de 2021 às 12:29 AM

      Obrigado Guilherme. O curso da Data Science Academy é disparado o melhor do Brasil e a Comunidade deles é de alto nível. Vale o investimento.

      Responder
      1. Guilherme disse:
        3 de janeiro de 2021 às 2:41 PM

        Muito obrigado! Comecei a assistir os cursos gratuitos de lá, bom saber da recomendação. Valeu!

        Responder
  3. Victor Girodo disse:
    11 de janeiro de 2021 às 5:40 PM

    David, boa tarde!

    Estou terminando a graduação de Sistemas de Informação, já com foco em Ciência de Dados. E tenho certeza que este conjunto de dados contribuirão e muito para o aprendizado.

    Parabéns pelo POST!

    Responder
    1. David Matos disse:
      12 de janeiro de 2021 às 2:02 AM

      Obrigado Victor.

      Responder
  4. Pingback: 7 Datasets Públicos Para Projetos de Data Science — Ciência e Dados

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Buscar

Tags Mais Comuns nos Posts

Agentes de IA Analytics Análise de Negócios Apache Spark AWS Big Data Blockchain Business Intelligence ChatGPT Cientista de Dados Cientistas de Dados Ciência de Dados Cloud Computing Data Lake Data Mesh Data Science Data Scientist Data Warehouse Deep Learning Deploy Engenharia de Dados Estatística GPU GraphRAG Hadoop IA Generativa Inteligência Artificial Internet of Things Linguagem Python Linguagem R LLM LLMs Machine Learning MCP (Model Context Protocol) Metadados Normalização NVIDIA Oracle Pipeline de Dados Predictive Analytics Probabilidade PySpark Python RAG Storytelling

Histórico de Posts

  • maio 2025 (6)
  • abril 2025 (2)
  • março 2025 (4)
  • fevereiro 2025 (8)
  • janeiro 2025 (5)
  • dezembro 2024 (4)
  • novembro 2024 (1)
  • outubro 2024 (1)
  • setembro 2024 (1)
  • agosto 2024 (1)
  • julho 2024 (3)
  • junho 2024 (1)
  • maio 2024 (1)
  • abril 2024 (2)
  • março 2024 (1)
  • fevereiro 2024 (1)
  • janeiro 2024 (1)
  • dezembro 2023 (1)
  • outubro 2023 (2)
  • setembro 2023 (1)
  • agosto 2023 (4)
  • julho 2023 (2)
  • junho 2023 (4)
  • maio 2023 (2)
  • abril 2023 (2)
  • março 2023 (3)
  • fevereiro 2023 (3)
  • janeiro 2023 (3)
  • dezembro 2022 (7)
  • novembro 2022 (6)
  • outubro 2022 (2)
  • setembro 2022 (3)
  • agosto 2022 (2)
  • julho 2022 (2)
  • junho 2022 (3)
  • maio 2022 (1)
  • abril 2022 (3)
  • março 2022 (1)
  • fevereiro 2022 (3)
  • janeiro 2022 (2)
  • dezembro 2021 (1)
  • novembro 2021 (5)
  • outubro 2021 (2)
  • setembro 2021 (3)
  • agosto 2021 (1)
  • junho 2021 (1)
  • fevereiro 2021 (2)
  • janeiro 2021 (1)
  • dezembro 2020 (1)
  • novembro 2020 (1)
  • outubro 2020 (2)
  • agosto 2020 (1)
  • abril 2020 (1)
  • março 2020 (1)
  • fevereiro 2020 (2)
  • agosto 2019 (1)
  • abril 2019 (1)
  • setembro 2018 (2)
  • julho 2018 (1)
  • junho 2018 (3)
  • abril 2018 (1)
  • março 2018 (1)
  • fevereiro 2018 (2)
  • janeiro 2018 (1)
  • dezembro 2017 (1)
  • novembro 2017 (1)
  • outubro 2017 (1)
  • setembro 2017 (1)
  • julho 2017 (1)
  • junho 2017 (1)
  • maio 2017 (2)
  • abril 2017 (1)
  • janeiro 2017 (1)
  • novembro 2016 (1)
  • outubro 2016 (1)
  • setembro 2016 (1)
  • julho 2016 (1)
  • junho 2016 (1)
  • maio 2016 (1)
  • abril 2016 (1)
  • fevereiro 2016 (1)
  • janeiro 2016 (3)
  • dezembro 2015 (4)
  • novembro 2015 (6)
  • outubro 2015 (9)
  • setembro 2015 (9)
  • agosto 2015 (9)
©2025 Ciência e Dados