Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
Menu

Apache Kafka e Big Data

Posted on 8 de abril de 201627 de dezembro de 2017 by David Matos

No mundo atual, dados em tempo real estão sendo continuamente gerados por todos os tipos de aplicativos (ERP, CRM, Web Sites, Mídias Sociais, Vídeos, Logs, Sensores e muito mais) e estes dados precisam estar disponíveis de forma confiável e rápida para diferentes tipos de receptores. Na maioria das vezes, as aplicações que produzem os dados e as aplicações que precisam receber estes dados, não “conversam” umas com as outras. Estas aplicações heterogêneas, requerem algum tipo de desenvolvimento para que exista uma integração entre elas. E com o aumento do volume de dados, isso se torna um ponto ainda mais crítico.

Com a explosão do Big Data, o primeiro desafio é coletar a imensa quantidade de dados e o segundo desafio, analisar tudo isso. Analytics é frequentemente apontando como um dos maiores desafios associados com Big Data, mas antes da análise acontecer, os dados devem ser ingeridos e disponibilizados para os usuários. É onde entra o Apache Kafka.

O Apache Kafka foi originalmente desenvolvido pelo LinkedIn e posteriormente liberado como um projeto open-source, em 2011. O Apache Kafka é um sistema para gerenciamento de fluxos de dados em tempo real, gerados a partir de web sites, aplicações e sensores. Algumas das empresas que usam Kafka: LinkedIn, Netflix, PayPal, Spotify, Uber, AirBnB, Cisco, Goldman Sachs e SalesForce. Recentemente a IBM anunciou a criação de dois projetos envolvendo o Apache Kafka. O LinkedIn possui o maior ambiente Kafka do qual se tem notícia, com 1.1 trilhões de mensagens por dia.

 Essencialmente, o Kafka age como uma espécie de “sistema nervoso central”, que coleta dados de alto volume como por exemplo a atividade de usuários (clicks em um web site), logs, cotações de ações etc… e torna estes dados disponíveis como um fluxo em tempo real para o consumo por outras aplicações. O Kafka vem ganhando cada vez mais popularidade em Big Data pois além de ser um projeto open-source de alta qualidade, possui a capacidade de lidar com fluxos de alta velocidade de dados, característica cada vez mais procurada para uso em Internet das Coisas, por exemplo.

Apache Kafka

O Apache Kafka foi desenvolvido com um propósito específico em mente: servir como um repositório central de fluxos de dados. Mas por que fazer isso? Havia duas motivações.

O primeiro problema foi a forma de transportar dados entre diversos sistemas de dados: bancos de dados OLTP (relacional), Hadoop, sistema de busca, sistemas de monitoramento, OLAP (DW), etc… Cada um destes sistemas, necessita de dados confiáveis, em um ambiente em que os sistemas poderão estar geograficamente distribuídos. Esta foi a primeira motivação para o Kafka: a integração dos dados.

A segunda parte do problema era a necessidade de enriquecer as análises de dados, reduzindo a latência (basicamente, o tempo de espera). Esta foi a segunda motivação: processamento de fluxo de dados, o que alguns podem chamar de “mensagens” ou CEP (Complex Event Processing).

Ou seja, o Kafka tem ajudado a resolver algumas das principais limitações do Big Data e da Internet das Coisas e por isso tem se tornado tão popular.

Kafka funciona em conjunto com o Apache Storm, Apache HBase e Apache Spark, criando um plataforma de análise em tempo real para streaming de dados, praticamente única. Mas o Kafka possui alguns concorrentes, como: IBM InfoSphere Streams, Informatica’s Ultra Messaging Streaming Edition, SAS’s Event Stream Processing Engine (ESP), Tibco’s StreamBase e SAP’s Aleri. Competidores menores incluem: DataTorrent, Splunk, Loggly, Logentries e Glassbeam. Recentemente a Teradata anunciou o Listener, solução baseada no Kafka.

O Apache Kafka está ajudando a mudar a forma como os dados são usados dentro das empresas. Não faz mais sentido falar apenas em dados armazenados em tabelas, com linhas e colunas. O volume de dados agora é tão grande, que os dados precisam ser vistos como o que realmente são: um fluxo constante, que precisa ser analisado em tempo real.

Todas as grandes empresas do mundo estão caminhando a passos largos rumo ao Big Data, Análise de Dados em Tempo Real e Internet das Coisas. E você, qual direção está seguindo?

David Matos

 

Referências:

Apache Kafka Documentation

Apache Kafka by Hortonworks

Apache Kafka 0.8 Basic Training

Relacionado

12 thoughts on “Apache Kafka e Big Data”

  1. Alex Galhardo Vieira disse:
    20 de junho de 2016 às 6:38 PM

    Melhora a letra ou o fundo do blog do post, a leitura do blog está meio ruim para ler. De resto, muito bom conteúdo! 😀

    Responder
    1. David Matos disse:
      20 de junho de 2016 às 6:46 PM

      Oi Alex. Obrigado pelo feedback. Vou dar uma olhada na questão da fonte e background. Abs. David.

      Responder
  2. Cleyton Nilo disse:
    22 de novembro de 2016 às 6:22 PM

    Excelente artigo.

    Responder
    1. David Matos disse:
      22 de novembro de 2016 às 6:28 PM

      Oi Cleyton, muito obrigado.

      Responder
  3. Claiton Padilha disse:
    12 de junho de 2017 às 4:01 PM

    Legal o artigo.
    Tens como colocar exemplos de uso?
    Vi o apache kafka sugerido como solução para a comunicação entre APIs de microserviços.

    Responder
    1. David Matos disse:
      13 de junho de 2017 às 3:07 AM

      Oi Claiton. Obrigado pelo feedback. Sim, em breve publico exemplos de uso do kafka. Abs

      Responder
  4. Lazaro disse:
    27 de julho de 2017 às 1:51 PM

    Olá.

    Gostei bastante do seu artigo. Deixa bem claro o motivo da criação dele e quais os problemas que impulsonaram o desenvolvimento.

    Parabens

    Responder
    1. David Matos disse:
      29 de julho de 2017 às 3:10 AM

      Valeu Lazaro. Muito obrigado! Abs

      Responder
  5. leoberlopes disse:
    9 de maio de 2018 às 8:45 PM

    Gostei do artigo, estou estudando Kafka…

    Responder
    1. David Matos disse:
      9 de maio de 2018 às 9:21 PM

      Valeu. Muito obrigado!

      Responder
  6. Georges Luiz Segundo disse:
    8 de junho de 2018 às 12:04 PM

    Cara, gostei muito do artigo, claro, conciso, direto, e *simples*, algo que estou aprendendo que é uma virtude cardeal no campo de Data Science, aonde estou querendo ingressar, e para o qual estou estudando, razão pela qual cheguei aqui.
    O conceito de monitoramento de dados em tempo real ficou muito didático, meus parabéns pelo bom trabalho, deixou uma marca em mim.

    Responder
    1. David Matos disse:
      8 de junho de 2018 às 10:47 PM

      Valeu George. Muito obrigado!

      Responder

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Buscar

Twitter

Meus Tuítes

Tags Mais Comuns nos Posts

Anaconda Analytics Análise de Negócios Apache Spark AWS Big Data Blockchain Business Intelligence ChatGPT Chief Data Officer Cientista de Dados Cientistas de Dados Ciência de Dados Cloud Computing Data Lake Data Mesh Data Science Data Scientist Data Warehouse Deep Learning Deploy Descriptive Analytics Diagnostic Analytics Engenharia de Dados Engenheiro de Dados Estatística GPU Hadoop Inteligência Artificial Internet of Things Linguagem Python Linguagem R Machine Learning MapReduce Metadados NoSQL NVIDIA Open Data Oracle Predictive Analytics Prescriptive Analytics Probabilidade Python Salários Data Science Visualização

Histórico de Posts

  • março 2023 (3)
  • fevereiro 2023 (3)
  • janeiro 2023 (5)
  • dezembro 2022 (8)
  • novembro 2022 (7)
  • outubro 2022 (2)
  • setembro 2022 (3)
  • agosto 2022 (2)
  • julho 2022 (2)
  • junho 2022 (3)
  • maio 2022 (1)
  • abril 2022 (3)
  • março 2022 (1)
  • fevereiro 2022 (3)
  • janeiro 2022 (2)
  • dezembro 2021 (1)
  • novembro 2021 (5)
  • outubro 2021 (2)
  • setembro 2021 (3)
  • agosto 2021 (1)
  • junho 2021 (1)
  • fevereiro 2021 (2)
  • janeiro 2021 (1)
  • dezembro 2020 (1)
  • novembro 2020 (1)
  • outubro 2020 (2)
  • agosto 2020 (1)
  • abril 2020 (1)
  • março 2020 (1)
  • fevereiro 2020 (2)
  • agosto 2019 (1)
  • abril 2019 (1)
  • setembro 2018 (2)
  • julho 2018 (1)
  • junho 2018 (3)
  • abril 2018 (1)
  • março 2018 (1)
  • fevereiro 2018 (2)
  • janeiro 2018 (1)
  • dezembro 2017 (1)
  • novembro 2017 (1)
  • outubro 2017 (1)
  • setembro 2017 (1)
  • julho 2017 (1)
  • junho 2017 (1)
  • maio 2017 (2)
  • abril 2017 (1)
  • janeiro 2017 (1)
  • novembro 2016 (1)
  • outubro 2016 (1)
  • setembro 2016 (1)
  • julho 2016 (1)
  • junho 2016 (1)
  • maio 2016 (1)
  • abril 2016 (1)
  • fevereiro 2016 (1)
  • janeiro 2016 (3)
  • dezembro 2015 (4)
  • novembro 2015 (6)
  • outubro 2015 (9)
  • setembro 2015 (9)
  • agosto 2015 (9)
©2022 Ciência e Dados
 

Carregando comentários...