Tenho certeza que você concorda com esse ditado: Não importa qual seja a sua tarefa, a prática o torna melhor nisso. Na minha jornada em Data Science, não observei nada diferente. Na verdade, eu iria mais longe e diria que entender um modelo em si, digamos, a regressão logística é menos desafiador do que entender onde ela deve ser aplicada, já que sua aplicação difere de conjunto de dados para conjunto de dados.
Portanto, é muito importante praticar o processo de Machine Learning de ponta a ponta em diferentes tipos de dados e conjuntos de dados. Quanto mais conjuntos de dados diversos usamos para construir nossos modelos, mais entendemos o modelo. Essa também é uma ótima maneira de continuar se desafiando e explorar alguns dados interessantes que estão sendo coletados ao redor do mundo e ainda praticar limpeza, transformação e pré-processamento de dados.
Neste artigo você encontra Top 10 Open Datasets Para Construir Portfólio de Projetos em Data Science. O link para download está no título de cada dataset.
Este é um conjunto de dados realmente simples que consiste em dados sobre anfíbios e sua presença perto d’água. Os dados foram coletados a partir de GIS e imagens de satélite, bem como dados já disponíveis sobre as populações de anfíbios anteriores. O conjunto de dados em si é pequeno, com cerca de 189 linhas e 23 colunas. O que eu realmente gostei neste conjunto de dados é que as colunas são de todos os tipos possíveis: Contínuo, Categórico, Ordinal, etc.
As colunas categóricas têm um número relativamente grande de valores distintos e até mesmo a variável alvo tem mais de 5 valores distintos. Portanto, este conjunto de dados é ótimo para praticar classificação multiclasse.
Os dados de compartilhamento de bicicletas de grandes cidades como Nova York, Chicago, etc. estão no domínio público há muitos anos e têm sido amplamente usados para diversos fins. Recentemente, Seul foi adicionada a esta lista de cidades que disponibilizam os dados de aluguel de bicicletas compartilhadas.
Seul é uma das cidades mais populosas do mundo e, portanto, enfrenta problemas crescentes de transporte, apesar de ter um sistema de transporte público robusto. O aluguel de bicicletas públicas está se tornando rapidamente um meio de transporte popular que é barato, menos poluente e rápido. No entanto, agora existe a necessidade de otimizar o aluguel de bicicletas disponíveis para que mais e mais pessoas possam usá-las. Esse pode ser um exemplo de projeto para praticar.
Enquanto eu explorava vários conjuntos de dados enquanto escrevia este artigo, encontrei a própria plataforma de dados governamentais abertos da Índia. A plataforma é um grande recurso para dados nacionais e estaduais de vários departamentos governamentais. Alguns conjuntos de dados são atualizados diariamente ou mensalmente.
Por exemplo, veja este dataset de classificações de chamadas de voz de origem coletiva. Todos os assinantes de telecomunicações na Índia têm a opção de fornecer sua opinião sobre a qualidade das chamadas por meio de um aplicativo e enviá-la à TRAI (Autoridade Reguladora de Telecomunicações da Índia)
A Plataforma OGD hospeda dados mensais na forma de arquivos CSV sobre Operador de Rede, Tipo de Rede, Localização, Qualidade da Chamada, etc., de abril de 2018 até outubro de 2020. Isso fornece uma grande oportunidade para praticar problemas de engenharia de atributos, classificação e regressão.
4- John Hopkins COVID-19 dataset
Não se pode olhar para 2020 e ignorar o que aconteceu. Embora a pandemia de COVID-19 tenha paralisado o mundo, também nos fez perceber a importância de coletar e manter dados precisos. Empresas, governos e hospitais já divulgaram muitos dados sobre como enfrentaram a pandemia, mas o primeiro nesta lista é o conjunto de dados global do COVID, popular e altamente avaliado, da Universidade John Hopkins.
É digno de elogio o trabalho realizado (é sempre um sinal de gratidão agradecer e elogiar aqueles que dedicam seu tempo para disponibilizar material gratuito para outras pessoas). Eles começaram a agregar os dados desde a última semana de Janeiro/2020 e têm atualizado todos os dias desde então. Os dados foram coletados de vários recursos, incluindo portais de notícias, agências públicas oficiais e sites de governo e departamentos de saúde.
Você pode usar este conjunto de dados para várias finalidades – agrupamento, classificação, previsão de séries temporais, etc. Este conjunto de dados também está sendo amplamente usado para gerar painéis interativos quase em tempo real.
Até o momento em que uma vacina não esteja disponível para uso em larga escala, os únicos métodos eficazes para prevenir a disseminação são o distanciamento social e o uso de máscaras. No entanto, embora o distanciamento social possa ser imposto, tem sido muito difícil impor o uso de máscaras.
Muitas vezes, tenho notado pessoas usando máscaras, mas elas não cobrem o nariz ou não são usadas corretamente. Isso anula o propósito de usá-los e aumenta o risco de propagação.
Para este propósito, foram coletados alguns conjuntos de dados de pessoas usando máscaras – tanto correta quanto incorretamente para fins de reconhecimento e alerta. Na verdade, também é possível extrair essas imagens da Internet e criar seu próprio conjunto de dados.
6- Objectron
Lançado pelo Google no início de 2020, Objectron é um conjunto de dados anotado de clipes de vídeo e imagens que contêm objetos.
Há um total de 15 mil videoclipes anotados e 4 milhões de imagens anotadas de objetos pertencentes a qualquer uma dessas categorias: bicicletas, livros, garrafas, câmeras, cadeiras, caixas de cereais, laptops, copos e sapatos.
Mantendo-se fiéis aos excelentes padrões do Google, eles são coletados em vários países para garantir a diversidade de dados. Além disso, esses registros podem ser processados diretamente no Tensorflow ou PyTorch.
Este é um conjunto de dados extremamente útil para detecção de bordas, classificação de imagens, detecção de objetos, etc.
7- Google Landmarks Dataset v2
Esse dataset é uma versão atualizada do Landmarks v1 que foi lançado em 2019. O conjunto de dados consiste basicamente em locais marcantes naturais e artificiais em todo o mundo.
Essas imagens de pontos de referência foram coletadas do Wikimedia Commons. Pesquisadores da equipe de pesquisa do Google afirmam que este é o maior conjunto de dados que oferece imagens do mundo real (5 milhões de imagens de mais de 200 mil pontos de referência). Os desafios apresentados por este conjunto de dados também são semelhantes aos que encontramos no mercado – como classes extremamente desequilibradas e uma diversidade muito alta de imagens. Excelente para tarefas de Visão Computacional.
8- TaskMaster-2
A esta altura, não deve ser surpresa para você quando um conjunto de dados do Google aparece nesta lista. Isso apenas mostra a grande variedade de conjuntos de dados de alta qualidade lançados pelo Google para acesso aberto ao longo dos anos. O mais recente nesta lista é o TaskMaster-2.
O conjunto de dados consiste em mais de 17 mil diálogos falados por duas pessoas em vários domínios, como restaurantes, filmes, voos, esportes, etc.
Essas conversas são centradas em pesquisas e recomendações. O mais interessante é como esses diálogos foram gravados. Humanos interagiram com humanos por meio de uma interface da web com a impressão de que estavam interagindo com um chatbot. Essas conversas também são anotadas para marcar nomes próprios, horários, quantidades, etc.
O Taskmaster-1 original foi lançado em 2019 e o TaskMaster-2 é uma versão atualizada dele com mais diversidade de diálogos. Ele pode ser usado para uma variedade de tarefas, como análise de sentimento, resposta a perguntas, NER, geração de texto, etc. Excelente para Processamento de Linguagem Natural (PLN).
9- Recipe NLG
A geração de texto é um dos campos mais interessantes no domínio de PLN nos últimos anos. Grandes modelos de aprendizado profundo como o GPT-2 foram capazes de escrever textos inteiramente novos do tipo Shakespeare quando treinados nos dados apropriados. Além dessas ideias divertidas e inovadoras, ele também está sendo usado para restaurar manuscritos e documentos danificados.
No entanto, a maioria desses modelos é usada para ser treinada em dados completamente não estruturados. Assim, em vez de treinar modelos em conjuntos de dados genéricos, é mais eficiente criar modelos para domínios específicos que seriam treinados em dados específicos para aquele domínio.
Um desses domínios é o da culinária e das receitas. Existem vários modelos de Visão Computacional lidando com receitas, como identificar os ingredientes a partir da imagem do prato cozido ou vice-versa. No entanto, não existem muitos dados para tarefas especificamente relacionadas à PLN. O conjunto de dados RecipeNLP tenta preencher essa lacuna mantendo receitas apenas em formato de texto e focando na estrutura e lógica das instruções de receita.
O conjunto de dados consiste em mais de 2 milhões de receitas extraídas de vários sites de culinária na Internet e, em seguida, limpas e anotadas. Junto com o conjunto de dados, os criadores também testaram um modelo Natural Language Generation (NLG) baseado em GPT-2; você fornece os ingredientes e as quantidades, e o modelo gera uma nova receita para eles. Assim, não apenas você pode usá-lo para tarefas como NER, classificação de texto, este conjunto de dados também é adequado para tarefas complicadas como geração de texto.
Autonomous Driving tem sido a palavra da moda no campo da IA nos últimos anos e é evidente nos diferentes projetos de carros autônomos em andamento. É realmente incrível ver o progresso que tem sido feito nos veículos autônomos e até mesmo testemunhar um veículo autônomo na estrada é sempre algo surpreendente.
Os riscos e restrições de segurança associados aos veículos não tripulados criaram a necessidade de ter conjuntos de dados especializados para tais fins e o conjunto de dados da unidade profunda de Berkley preenche esse vazio perfeitamente. Também chamado de BDD100K, é o maior conjunto de dados que consiste em clipes de vídeo com anotações de 100K e imagens de veículos sendo dirigidos. O destaque deste conjunto de dados é que ele pode ser usado para aprendizado multitarefa, como detecção de vários objetos, segmentação semântica, marcação de imagem, detecção de pista, etc.
Agora, aproveite e pratique com os mais variados projetos.
David Matos
Referências:
Ola David ! Me ajudou muito essa materia
abs!
Olá! Parabéns pelo site! Teria alguma indicação de curso para iniciar em Data Science? Minha preocupação é conseguir trabalho, sou formado em Administração e estudando para concurso público, mas penso no peso que um curso de Sistema de Informação teria nessa profissão. Achei dois cursos que parecem bons (onlines), mas gostaria de uma opinião ou indicação:
https://harve.com.br/curso-data-science-curitiba-formacao/
https://www.datascienceacademy.com.br/pages/formacao-cientista-de-dados
Grato!
Obrigado Guilherme. O curso da Data Science Academy é disparado o melhor do Brasil e a Comunidade deles é de alto nível. Vale o investimento.
Muito obrigado! Comecei a assistir os cursos gratuitos de lá, bom saber da recomendação. Valeu!
David, boa tarde!
Estou terminando a graduação de Sistemas de Informação, já com foco em Ciência de Dados. E tenho certeza que este conjunto de dados contribuirão e muito para o aprendizado.
Parabéns pelo POST!
Obrigado Victor.