Soluções Comerciais de Big Data

Soluções Comerciais de Big Data

O Hadoop está se tornando o coração da infraestrutura de Big Data (clique aqui para acessar o post com a introdução sobre Hadoop), o que vai revolucionar o sistema tradicional de armazenamento em bancos de dados como conhecemos hoje. Além de gratuito, o Hadoop foi criado para ser usado em hardware de baixo custo, uma combinação essencial para empresas que buscam reduzir seus custos de infraestrutura de TI e ainda capitalizar os benefícios do Big Data.

Hadoop é usado principalmente por empresas que lidam com grandes quantidades de dados, sendo usado para o processamento dos dados, análises e geração de relatórios. Atualmente todas as organizações líderes em seus segmentos, incluindo Facebook, Google, Yahoo, Amazon, IBM, New York Times, etc… estão usando Hadoop.

O Hadoop MapReduce é uma das armas secretas do Google, por exemplo. Ele é utilizado para dividir o grande volume de dados do sistema de busca, em pedaços menores e, portanto, mais fáceis para processamento. O Hadoop é um projeto open-source.

Mas você pode estar se perguntando: Se o Hadoop é open-source, porque eu usaria soluções comerciais de Big Data?

Soluções comerciais de Big Data com Hadoop, possuem as seguintes características:

  • Suporte – as principais soluções comerciais do Hadoop oferecem suporte, guias, assistência e melhores práticas.
  • Confiança – sempre que o um bug é detectado, as soluções comerciais prontamente atualizam o software.
  • Pacote completo – as soluções oferecem pacotes completos, com tudo que é necessário para uma infraestrutura de Big Data.

O gráfico abaixo mostra o universo de distribuições comerciais do Hadoop disponíveis. Na sequência, falaremos sobre as principais soluções.

 Soluções Comerciais de Big Data

Cloudera

Cloudera Hadoop ocupa o topo na lista de grande fornecedores de dados Hadoop pois possui uma plataforma confiável para uso comercial desde 2008. Cloudera, fundada por um grupo de engenheiros da Yahoo, Google e Facebook – está focada em fornecer soluções empresariais de Hadoop. Cloudera Hadoop possui cerca de 350 clientes, incluindo o Exército dos EUA, AllState e Monsanto. Alguns deles com implantação de 1000 nós em um cluster Hadoop para análise de dados de cerca de um Petabyte. Cloudera possui um sistema amigável de gestão, chamado Cloudera Manager, para gestão de dados e que possui suporte técnico.

Hortonworks

Hortonworks Data Platform (HDP) é uma suíte de funcionalidades essenciais para implementação do Hadoop, que pode ser usado para qualquer plataforma tecnológica de dados. O principal objetivo da Hortonworks é conduzir todas as suas inovações através da plataforma de dados abertos Hadoop e construir um ecossistema de parceiros que acelera o processo de adoção Hadoop entre empresas. Apache Ambari é um exemplo de console de gerenciamento do cluster Hadoop desenvolvido pelo fornecedor Hortonworks. A Hortonworks tem atraído mais de 60 novos clientes a cada trimestre com algumas contas gigantes como Samsung, Spotify, Bloomberg e eBay. Hortonworks tem atraído também fortes parcerias de engenharia com RedHat, Microsoft, SAP e Teradata.

MapR

MapR Data Plarform suporta mais de 20 projetos open-source. MapR foi reconhecida amplamente por suas distribuições avançadas em Hadoop, no relatório do Gartner “Super Fornecedores em Infraestrutura da Informação e Big Data, 2012”. A Plataforma de Dados MapR visa garantir a implementação do Hadoop em ambiente de produção com uma arquitetura projetada especificamente para aplicações críticas, acesso a dados e integração, além da capacidade para executar o processamento de aplicações analíticas em tempo real.

Pivotal HD

Pivotal HD é uma distribuição comercial do Hadoop. Ele consiste em um conjunto de ferramentas que visam acelerar projetos de análise de dados e expandir as funcionalidades do Hadoop. Possui capacidade de análise em tempo real e decisões de processos de negócio podem ser tomadas quase que imediatamente a análise dos dados.

Amazon Web Services Elastic MapReduce Hadoop

A distribuição Hadoop da Amazon, foi uma das primeiras distribuições do Hadoop. AWS Elastic MapReduce é uma plataforma de análise de dados bem organizada e construída sobre a arquitetura HDFS. Amazon Elastic MapReduce (Amazon EMR) é um web service que facilita o processamento de grandes quantidades de dados, de forma rápida e rentável. Amazon EMR simplifica o processamento de Big Data. Amazon EMR está entre uma das distribuições comerciais do Hadoop com a maior participação no mercado global.

IBM InfoSphere BigInsights Hadoop Distribution

IBM InfoSphere BigInsights é uma distribuição Hadoop da IBM. Com IBM Hadoop usuários podem facilmente configurar e mover dados para clusters Hadoop em não mais de 30 minutos, com taxa de processamento de dados de 60 centavos de dólar por cluster Hadoop, por hora. Com o IBM BigInsights, os clientes podem acelerar seus projetos de Big Data e análise de dados, aproveitando o poder do Hadoop.

Microsoft Hadoop Distribution

A Forrester classifica a distribuição Microsoft Hadoop como grau 4 (em uma escala que vai até 5). A nível de exemplo, Cloudera e Hortonworks estão classificados como grau 5. O Hadoop foi criado com base no Unix, mas a Microsoft tem feito esforços para que o Hadoop execute em máquinas Windows. O Hadoop é oferecido pela Microsoft nas suas soluções de Big Data, através do Windows Azure HDInsight. É possível executar queries Hadoop para buscar dados no SQL Server, banco de dados relacional da Microsoft.

Com os grandes players do mercado voltando suas atenções para o Hadoop e o Big Data, este com certeza é o caminho a se seguir.

David Matos

3 comments

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *