Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
Menu
Novas Ferramentas Python para Análise de Dados

Novas Ferramentas Python para Análise de Dados

Posted on 24 de novembro de 201527 de dezembro de 2017 by David Matos

O Vale do Silício em San Francisco, na Califórnia, está fervendo. O maior centro de inovação e desenvolvimento de tecnologias do planeta está “mudando de fase”, como dizem alguns profissionais que trabalham por lá. E Big Data, Internet das Coisas e Ciência de Dados são os principais responsáveis por este momento. Startups e soluções nestas áreas estão surgindo em uma velocidade espantosa e isso com certeza fará com que o campo de Data Science se desenvolva de forma nunca vista, o que vai elevar a demanda por profissionais nesta área, com certeza. E a linguagem de programação Python está no centro desta expansão.

Recentemente ocorreu um evento em San Francisco, com a participação de mais de 1.000 cientistas de dados e pesquisadores, o Data Science Summit. No evento foram discutidos os avanços recentes em Data Science, aplicações de Machine Learning e aplicações preditivas. Discutiu-se também sobre novas ferramentas Python para análise de dados. Vejamos algumas delas:

SFrame e SGraph

Um dos maiores anúncios da cúpula do evento, foi que Sframe e SGraph (ferramentas criadas pela Dato, organizadora do evento e que fazem parte do pacote GraphLab) estarão disponíveis em código aberto, para qualquer pessoa. Sframe (abreviação de Scaleable Data Frame) é uma estrutura de dados otimizada para eficiência de memória e desempenho, com um Data Frame como interface. SGraph tem características semelhantes, mas para representar gráficos de forma eficiente. Uma das maiores vantagens destas duas estruturas de dados é que elas permitem que um cientista de dados consiga fazer análises de forma mais eficiente, mesmo com recursos limitados de memória.

Bokeh

Bokeh é uma biblioteca de visualização interativa do Python que permite exibir gráficos interativos elaborados em seu navegador. É capaz de lidar com grandes conjuntos de dados (ou até mesmo dados de streaming), é rápido, incorporável e pode exibir efeitos visuais, tais como chamadas de retorno em foco. É útil para quem quer criar de forma rápida e fácil plots, gráficos interativos, dashboards e aplicativos de dados.

O Bokeh realmente mostra seu valor, no momento de visualizar grandes conjuntos de dados com muitos pontos. É no trabalho com esses conjuntos de dados que se aprecia o foco do Bokeh no desempenho. Ele também permite a criação de plots e gráficos interativos puramente em Python. Atualmente, a maioria das tarefas interativas são feitas com Javascript, mas o Bokeh pode fazer o mesmo, apenas em Python.

Dask

Dask permite computação paralela através de agendamento de tarefas e algoritmos. Isto permite aos desenvolvedores, escrever algoritmos paralelos complexos e executá-los em paralelo em máquinas modernas com multi-core ou em um cluster distribuído.

Ibis

Se você é um cientista de dados, são grandes as chances de você utilizar Python diariamente. Mas Python possui suas limitações. Um de seus maiores problemas é que Python não é muito escalável. É ótimo para conjuntos médios de dados, mas o uso de ferramentas distribuídas para conjuntos maiores de dados, pode comprometer o resultado de várias maneiras.

Um novo projeto da Cloudera Labs, o Ibis é um framework de análise de dados que visa proporcionar a mesma experiência Python para cientistas e engenheiros de dados utilizando qualquer tamanho de conjunto de dados. Ele espelha a experiência de Python de nó único sem um compromisso em termos de funcionalidade ou usabilidade, proporcionando a mesma experiência interativa e de alta fidelidade de análise ao lidar em escala com grandes volumes de dados.

Ibis permite um fluxo de trabalho 100% em Python, end-to-end, permitindo a integração com o ecossistema de dados Python existente (Pandas, scikit-learn, NumPy, etc). Uma prévia do Ibis está disponível para instalação e será expandido para incluir mais funções como a integração com análises avançadas, aprendizado de máquina e ferramentas de computação.

Splash 

Um problema comum no desenvolvimento de ferramentas para web scraping, é que muitos sites usam uma quantidade pesada de JavaScript. Ferramentas webscraping têm dificuldade em executar JavaScript, por isso muitas vezes você acaba apenas com o HTML puro e não o código executado. Splash é um serviço de renderização javascript, implementado em Python. É um navegador leve, com uma API HTTP que é capaz de processar várias páginas em paralelo, executar JavaScript personalizado, e desativar imagens, para permitir uma renderização mais rápida.

Petuum

Petuum é uma estrutura de aprendizado de máquina distribuída que tem o objetivo de fornecer uma interface algorítmica e os sistemas genéricos de aprendizagem de máquina em grande escala. Ele fornece ferramentas de programação distribuída que podem ajudar com os desafios da gestão de aprendizagem de máquina em grande escala.

Flink

Apache Flink é uma plataforma de código aberto escalável e de processamento de dados stream. O núcleo do Flink é um mecanismo de fluxo de dados de streaming que fornece a distribuição de dados, comunicação e tolerância a falhas para computações distribuídas. É muito semelhante ao Apache Spark, dado que um dos seus principais objetivos é servir como um substituto para o MapReduce, o coração do Hadoop.

Pyxley

Dashboards baseados na web são uma das melhores e mais simples maneiras de compartilhar conhecimento de ciência de dados. Mas, enquanto o Shiny fornece uma estrutura em R para que cientistas de dados possam construir aplicações web interativas sem ter que escrever Javascript, HTML ou CSS, não houve um equivalente para Python. Pyxley preenche essa lacuna. É um pacote Python que simplifica o desenvolvimento de aplicações web e fornece uma maneira fácil de incorporar Javascript, ativado através Flask, PyReact e Pandas.

Python vem crescendo e se tornando uma das principais ferramentas em Data Science. Com isso, novas ferramentas e soluções surgem a todo momento. E muitas destas ferramentas podem ser a resposta para perguntas que ainda não foram feitas.

David Matos

Fonte:

http://www.galvanize.com/blog/eight-new-tools-for-the-python-data-ecosystem

Relacionado

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Buscar

Tags Mais Comuns nos Posts

Agentes de IA Analytics Análise de Negócios Apache Spark AWS Big Data Blockchain Business Intelligence Cache-Augmented Generation (CAG) ChatGPT Cientista de Dados Cientistas de Dados Ciência de Dados Cloud Computing Data Lake Data Mesh Data Science Data Scientist Data Warehouse Deep Learning Deploy Engenharia de Dados Estatística GPU GraphRAG Hadoop IA Generativa Inteligência Artificial Internet of Things Linguagem Python Linguagem R LLM LLMs Machine Learning Metadados Normalização NVIDIA Oracle Pipeline de Dados Predictive Analytics Probabilidade PySpark Python RAG Storytelling

Histórico de Posts

  • maio 2025 (3)
  • abril 2025 (2)
  • março 2025 (4)
  • fevereiro 2025 (8)
  • janeiro 2025 (5)
  • dezembro 2024 (4)
  • novembro 2024 (1)
  • outubro 2024 (1)
  • setembro 2024 (1)
  • agosto 2024 (1)
  • julho 2024 (3)
  • junho 2024 (1)
  • maio 2024 (1)
  • abril 2024 (2)
  • março 2024 (1)
  • fevereiro 2024 (1)
  • janeiro 2024 (1)
  • dezembro 2023 (1)
  • outubro 2023 (2)
  • setembro 2023 (1)
  • agosto 2023 (4)
  • julho 2023 (2)
  • junho 2023 (4)
  • maio 2023 (2)
  • abril 2023 (2)
  • março 2023 (3)
  • fevereiro 2023 (3)
  • janeiro 2023 (3)
  • dezembro 2022 (7)
  • novembro 2022 (6)
  • outubro 2022 (2)
  • setembro 2022 (3)
  • agosto 2022 (2)
  • julho 2022 (2)
  • junho 2022 (3)
  • maio 2022 (1)
  • abril 2022 (3)
  • março 2022 (1)
  • fevereiro 2022 (3)
  • janeiro 2022 (2)
  • dezembro 2021 (1)
  • novembro 2021 (5)
  • outubro 2021 (2)
  • setembro 2021 (3)
  • agosto 2021 (1)
  • junho 2021 (1)
  • fevereiro 2021 (2)
  • janeiro 2021 (1)
  • dezembro 2020 (1)
  • novembro 2020 (1)
  • outubro 2020 (2)
  • agosto 2020 (1)
  • abril 2020 (1)
  • março 2020 (1)
  • fevereiro 2020 (2)
  • agosto 2019 (1)
  • abril 2019 (1)
  • setembro 2018 (2)
  • julho 2018 (1)
  • junho 2018 (3)
  • abril 2018 (1)
  • março 2018 (1)
  • fevereiro 2018 (2)
  • janeiro 2018 (1)
  • dezembro 2017 (1)
  • novembro 2017 (1)
  • outubro 2017 (1)
  • setembro 2017 (1)
  • julho 2017 (1)
  • junho 2017 (1)
  • maio 2017 (2)
  • abril 2017 (1)
  • janeiro 2017 (1)
  • novembro 2016 (1)
  • outubro 2016 (1)
  • setembro 2016 (1)
  • julho 2016 (1)
  • junho 2016 (1)
  • maio 2016 (1)
  • abril 2016 (1)
  • fevereiro 2016 (1)
  • janeiro 2016 (3)
  • dezembro 2015 (4)
  • novembro 2015 (6)
  • outubro 2015 (9)
  • setembro 2015 (9)
  • agosto 2015 (9)
©2025 Ciência e Dados