O Cientista de Dados Igor Bobriakov escreveu um excelente post (em inglês) sobre as principais bibliotecas para Data Science em linguagens Python, R e Scala, com um infográfico bastante didático. Abaixo você encontra esse excelente trabalho traduzido na íntegra para o português. Confira também outras referências ao final deste artigo! Boa leitura!
Data Science é um campo promissor e empolgante, desenvolvendo-se rapidamente. Os casos de uso e aplicações da Ciência de Dados estão em constante expansão e o kit de ferramentas para implementar esses aplicativos cresce na mesma proporção. Os Cientistas de Dados devem estar cientes de quais são as melhores soluções para as tarefas específicas.
Recentemente, preparamos uma série de artigos em que apresentamos uma visão geral das principais bibliotecas mais úteis em Python, R e Scala com base em nossa experiência. Assim, embora muitas linguagens possam ser úteis para um Cientista de Dados, essas três permanecem as mais populares e são desenvolvidas para implementar soluções de Data Science e de Machine Learning.
Neste post, preparamos um infográfico que mostra as 20 principais bibliotecas em cada linguagem de programação que são úteis para os Cientistas de Dados e Engenheiros de Dados. Essa seleção mostra como as linguagens se relacionam entre si e quais bibliotecas têm uma área de aplicação semelhante. Embora existam muitos campos específicos de aplicação de diferentes pacotes de Ciência de Dados, queremos nos concentrar naqueles que são perfeitamente adequados para aprendizado de máquina, visualização, matemática e engenharia, manipulação e análise de dados e pesquisa reproduzível.
Os pacotes de aprendizado de máquina cuidam da construção e da implementação dos principais algoritmos de aprendizado de máquina, criando fluxos de trabalho e, em geral, ajudando a resolver problemas de aprendizado de máquina. Eles fornecem o kit de ferramentas principal para classificação, regressão e outros problemas diferentes.
Como parte integrante da Ciência de Dados, manipulação de dados e campo de análise representa bibliotecas que realizam a raspagem, ingestão, limpeza, pré-processamento de dados e outras operações que permitem “brincar com os dados” e como resultado executar a análise em si .
Com a ajuda de pacotes de visualização, você pode exibir os dados visualmente, o que é necessário para entender e interpretar melhor os dados. Esses pacotes contêm vários gráficos de visualização, bem como diferentes opções de representação.
As bibliotecas de matemática e engenharia fornecem as habilidades para armazenar dados numéricos de uma forma conveniente e executar operações matemáticas e cálculos científicos complicados e avançados. Além disso, esses pacotes são usados para processar dados mais complexos, como texto e conteúdo.
Finalmente, os pacotes para pesquisa reproduzível implementam a ideia de criar documentos que combinam código, dados e conteúdo. Basicamente, com a ajuda deles, você pode produzir um novo trabalho do seu projeto que pode ser imediatamente publicado.
Infográfico de comparação das Bibliotecas de Data Science em Python, R e Scala:
Cada uma dessas linguagens é adequada para um tipo específico de tarefas, além de cada desenvolvedor escolher a ferramenta mais conveniente para si. Muitas vezes, a escolha de uma linguagem de programação é subjetiva, mas, abaixo, tentaremos saudar as forças de cada uma das três linguagens descritas.
Linguagem R
Projetada principalmente para computação estatística, a linguagem R oferece um excelente conjunto de pacotes de alta qualidade para coleta e visualização de dados estatísticos. Outro ponto forte para a Linguagem R é o conjunto de ferramentas bem desenvolvidas para pesquisa reproduzível. No entanto, R pode ser de alguma forma específico e não é tão bom quando se trata de engenharia e alguns dos casos de programação de propósito geral.
Linguagem Python
Python é uma linguagem de propósito geral com um rico conjunto de bibliotecas para uma ampla gama de propósitos. É tão boa para problemas de matemática, engenharia e Deep Learning quanto para manipulação de dados e visualizações. Esta linguagem é uma excelente escolha para especialistas iniciantes e avançados, o que a torna extremamente popular entre os Cientistas de Dados.
Linguagem Scala
Scala é uma solução ideal para trabalhar com Big Data. A combinação Scala e Apache Spark oferece a oportunidade de aproveitar ao máximo a computação distribuída em cluster de computadores. Portanto, a linguagem possui muitas ótimas bibliotecas para aprendizado de máquina e engenharia; no entanto, falta possibilidades de análise e visualização de dados em comparação com as linguagens anteriores. Se você não estiver trabalhando com Big Data, o Python e R podem mostrar um desempenho melhor que Scala. Mas se estiver trabalhando com Big Data, Scala pode ser a melhor opção.
Conclusão
Estas são as linguagens e bibliotecas que provaram ser extremamente úteis em vários casos de uso de Ciência de Dados. Lembre-se de que a escolha da linguagem de programação e as bibliotecas que você usará dependem de tarefas específicas, por isso é benéfico saber quais são os lados forte e fraco de cada uma delas.
De fato, esta lista não está completa, muitas outras ferramentas valiosas podem e devem ser examinadas, mas definitivamente será um bom ponto de partida para sua jornada em Ciência de Dados.
Deixe seus comentários sobre estas ou outras linguagens que esteja usando em Data Science.
Obrigado!
David Matos
Outras Referências:
Muito bom esse infográfico!
muito bom … excelente conteudo me ajudou bastante
Valeu Ednei. Obrigado.