Tecnologias de Big Data e Data Science evoluíram muito nos últimos anos e este crescimento deve-se em boa parte ao ambiente open-source (R, Python, Hadoop, Spark, etc..), que por não dependerem de um único provedor e contarem com uma comunidade bastante atuante, conseguem evoluir de forma bem mais acelerada. Mas os grandes “players” sempre estiveram observando os movimentos deste mercado e cada vez mais oferecem produtos de Analytics baseados em soluções open-source, como R e Hadoop por exemplo. E a Oracle, gigante de banco de dados, parece ter entrado de vez na disputa por uma fatia do Big Data.
A Oracle sempre teve muito cuidado com o assunto Big Data, para não comprometer o mercado multi-bilhionário de bancos de dados relacionais e Data Warehouse (no qual a Oracle é líder e possui uma fatia dominante no mercado). Isso criou uma tensão natural, quando se trata de tecnologias de Big Data, como Hadoop e Bancos de Dados NoSQL, que possuem um conceito oposto ao dos bancos de dados relacionais. Mas a Oracle mostrou porque é uma das gigantes do mercado de tecnologia e criou a sua própria plataforma de Big Data, baseada no Hadoop, NoSQL e na linguagem R.
A Oracle Big Data Platform é composta de 4 pilares:
- Gerenciamento de Big Data
- Integração de Big Data
- Análise Avançada de Big Data
- Aplicativos de Big Data
Cada um destes pilares, é composto por soluções específicas, em alguns casos soluções Oracle que foram redesenhadas para atender os requerimentos de Big Data. Todas as soluções de software são integradas ao hardware, formando uma solução única e bastante robusta.
E a linguagem R, além de fazer parte de um destes pilares, tem sido adotada pela Oracle como a linguagem padrão para análises estatísticas.
A Oracle adotou a linguagem R como padrão para apoiar Estatísticos, Analistas de Dados e Cientistas de Dados na realização de análises avançadas de dados, bem como a geração de gráficos sofisticados.
O Oracle R Enterprise é uma dos componentes do Oracle Advanced Analytics. A Oracle integrou sua versão do R ao banco de dados Oracle, alavancando a performance de análises avançadas escritas em R. Além de poder invocar scripts R a partir de scripts SQL de consulta a banco de dados (reduzindo assim problemas de integração e infraestrutura), scripts R podem ser executados através de conexões JDBC/ODBC. Outra vantagem desta integração foi a possibilidade de ter todos os componentes de análise em um mesmo ambiente de software e hardware. Banco de dados transacionais, DataWarehouse, Hadoop, Bancos NoSQL, linguagem SQL, R, outras ferramentas analíticas, etc…tudo junto no mesmo hardware, de alta capacidade, alto desempenho, escalável e suportado pela Oracle.
O Oracle R Enterprise fornece integração R através de quatro tecnologias-chave:
- Oracle R Distribution
- Oracle R Enterprise
- Oracle R Advanced Analytics for Hadoop
- ROracle
Oracle R Distribution
A Distribuição R da Oracle é uma redistribuição da versão open-source R. A Distribuição R da Oracle é fornecida como um download gratuito (links no fim do post) e vem pré-instalada no Oracle Big Data Appliance. A Oracle R Distribution é parte da estratégia global da Oracle para Big Data e facilita a aceitação da linguagem R nas empresas, uma vez que a falta de um grande patrocinador corporativo tem feito com que algumas empresas evitassem a adoção integral da linguagem R.
Oracle R Enterprise
Oracle R Enterprise é um dos componentes do Oracle Advanced Analytics. Projetado para problemas que envolvem grandes volumes de dados, o Oracle R Enterprise integra com banco de dados Oracle. Cientistas e Analistas de Dados podem executar comandos R e scripts para estatística e análise gráfica de dados, armazenados no banco de dados Oracle. Os scripts R podem ser criados e refinados de modo que aproveitam o paralelismo e escalabilidade do Oracle Database para automatizar a análise de dados. Outra característica interessante, é que Analistas e Cientistas de dados podem executar pacotes R e desenvolver e operacionalizar scripts R para aplicações analíticas em uma única etapa, sem ter que aprender SQL (o que não me parece exatamente uma vantagem, pois a compreensão de linguagem SQL pode fazer a diferença na consulta e análise). Sendo integrado com o Oracle Database, o Oracle R Enterprise pode executar qualquer pacote R.
Oracle R Advanced Analytics for Hadoop
Oracle R Advanced Analytics para Hadoop (ORAAH) é um dos componentes do Oracle Big Data Connectors, para o Oracle Big Data Appliance. Na sua essência, ORAAH fornece uma interface R para manipular dados armazenados no HDFS, usando ambas as capacidades de transparência do Hive e mapeamento HDFS como entrada direta de algoritmos de Machine Learning.
ROracle
ROracle é um pacote R de alto desempenho. ROracle está disponível publicamente na Comprehensive R Archive Network (CRAN) e é mantido pela Oracle. Ele permite conectividade ao Oracle Database, de forma escalável e com alta performance para transferência de dados, assim como permite o controle de nível de transação e execução de instruções SQL fornecidas pelo usuário.
Oracle R Enterprise possui uma arquitetura cliente / servidor baseada no Oracle Database e Oracle Client. O engine do R é executado no servidor e em cada computador cliente. Uma das principais vantagens de se utilizar o Oracle R Enterprise, é o desempenho em memória, um problema antigo do R, mas que praticamente não existe na versão Oracle.
A instalação do Oracle R Enterprise não é necessariamente uma das tarefas mas fáceis de se fazer, mas depois de configurado, Oracle R Enterprise pode oferecer todas as vantagens que um ambiente corporativo necessita.
A Oracle possui uma página de Big Data dedicada aos Cientistas de Dados. Não deixe de conferir:
http://www.oracle.com/br/bigdata/roles/data-scientist/index.html
A Oracle possui 390 mil clientes em todo mundo (segundo informações no site da Oracle) e são grandes as chances que sua empresa tenha os dados armazenados em um banco de dados Oracle. É bem provável que em pouco tempo a linguagem R faça parte do seu trabalho. Já faz parte do dia a dia dos Cientistas de Dados.
David Matos
Referências:
Ótimo post!!!
Rafael, obrigado pelo feddback!
Davi, parabéns pelo artigo. Gostaria apenas de complementar algumas informações. O Oracle R Enterprise não é recente, ele foi incorporado ao banco Oracle na versão 11g. Ele foi combinado com o antigo produto chamado Oracle Data Mining para formar a option Oracle Advanced Analytics. Quer dizer, o suporte Oracle para a linguagem R data de pelo menos 2008, quando foi lançado o banco 11g.
Além disso, a Oracle sempre investiu em Big Data. Nós temos o Berkley DB e o Oracle NoSQL database como bancos chave valor, e até um certo ponto também podemos considerar o MySQL. Em 2012 foi lançado o Big Data Appliance, um cluster pré-configurado para Hadoop. Depois disso existiram inúmeros outros investimentos, e os produtos continuam evoluindo ainda hoje.
Esta estratégia não é conflitante com os modelos de DW tradicionais, muito pelo contrário, elas se complementam. Portanto, discordo quando você diz que a Oracle sempre teve cuidado com o Big Data, muito pelo contrário, ela tem investindo pesadamente para integrar este conjunto de tecnologias a plataforma Oracle estruturada, formando um efetivo pipeline de processamento de dados, desde a aquisição, processamento, estruturação e finalmente a análise combinada de dados estruturados e não-estruturados gerando valor para o negócio.
Oi Daniela. Muito obrigado pelo seu comentário. Ajudou a deixar o artigo mais completo. Abs. David.