Data Lake, a fonte do Big Data

Data Lake, a fonte do Big Data

Data Lake é um termo recente, criado pelo CTO (Chief Technical Officer) do Pentaho, James Dixon, para descrever um componente importante no universo da análise de dados e do Big Data. A ideia é ter um único repositório dentro da empresa, para que todos os dados brutos estejam disponíveis a qualquer pessoa que precise fazer análise sobre eles. Comumente utiliza-se o Hadoop para trabalhar com os Data Lakes, mas o conceito é bem mais amplo do que apenas Hadoop.

A ideia de Data Lake como recurso corporativo ainda está no começo. O conceito de um repositório central, relativamente de baixo custo, que possa armazenar todos os tipos de dados da empresa, ainda é um sonho, apesar de soluções comerciais já disponíveis no mercado. Os Data Lakes armazenam os dados em seu formato bruto, sem qualquer processamento e sem governança. Aliás, apesar das soluções comerciais, Data Lake é um conceito e não uma tecnologia. Podem ser necessárias várias tecnologias para criar um Data Lake. O Data Lake em essência, é uma estratégia de armazenamento de dados.

Os Data Lakes são projetados para o consumo de dados – o processo que envolve a coleta, importação e processamento de dados para armazenamento ou uso posterior. O Data Lake não requer que os usuários criem um esquema antes de preparar os dados para armazenamento. Os dados podem ser simplesmente consumidos e o esquema criado e aplicado quando os dados forem usados para análise.

Data Lakes são recursos para toda a organização, e não apenas a área de TI (tanto que já existe o conceito de Business Data Lake). Todas as partes interessadas devem ser envolvidas no planejamento de projetos de Data Lakes, que serão fundamentais para a arquitetura de Big Data da empresa. Além de gerentes de TI, um projeto de Data Lake deve envolver os líderes empresariais e usuários. Especialistas em armazenamento também precisam ser envolvidos.

O valor de negócio de um Data Lake tem muito pouco a ver com as tecnologias escolhidas. O valor do negócio é derivado das habilidades de ciência de dados que se pode aplicar sobre o Data Lake. Data Lakes não são substitutos para plataformas analíticas ou infraestrutura existente. Em vez disso, eles complementam os esforços existentes e apoiam a descoberta de novas perguntas sobre os dados. Uma vez que novas questões sobre os dados tenham sido descobertas, pode-se “otimizar” as respostas. Otimizar nesse caso, pode significar mover os dados para fora do Data Lake, em Data Marts ou Data Warehouses.

Quando se ouve falar sobre um ponto único para reunir todos os dados que uma organização deseja analisar, imediatamente se imagina a noção de Data Warehouse e Data Mart. Mas há uma distinção fundamental entre Data Lake e Data Warehouse. O Data Lake armazena dados brutos, sob qualquer forma do jeito que foram coletados na fonte de dados. Não há suposições sobre o esquema dos dados e cada fonte de dados pode usar qualquer esquema. Cabe aqueles que vão analisar os dados, dar sentido a esses dados para o propósito ao qual a análise de destina.

Data Lake x Data Warehouse

Em contrapartida, o Data Warehouse tende a usar a noção de um único esquema para todas as necessidades de análise, o que se torna impraticável em muitas situações. Os dados são limpos e organizados antes do armazenamento, fazendo com que os dados estejam disponíveis para uso e análise, assim que são armazenados. Ao mudar o foco para o armazenamento dos dados brutos, isso coloca a responsabilidade sobre os analistas de dados.

Isto leva a uma crítica comum do Data Lake – que ele seja apenas uma lixeira para dados de qualidade muito variável, algo como um pântano de dados. A crítica é válida, porém irrelevante. Os cientistas de dados conhecem bem os problemas de qualidade de dados. Muitas das técnicas estatísticas sofisticadas, são criados para resolver problemas de qualidade de dados. Os cientistas de dados estão sempre céticos sobre a qualidade dos dados e como lidar com dados questionáveis. Por conta disso, o Data Lake passa a ter uma importância ainda maior, pois os cientistas de dados podem começar a trabalhar com os dados em formato bruto e aplicar técnicas e modelos que façam mais sentido para o objetivo que se pretende alcançar, ao invés de trabalhar com dados já processados por mecanismos de limpeza sobre os quais não se tem visibilidade.

Os Data Warehouses geralmente não possuem apenas dados limpos, mas também agregados de forma que fiquem mais fáceis de analisar. Mas os cientistas de dados tendem a opor-se a isso também, porque a agregação implica em dados que possivelmente foram descartados. O Data Lake deve conter todos os dados, porque você não sabe o que as pessoas vão encontrar de informação valiosa, hoje ou daqui alguns anos.

Os Data Lakes também levantam questões sobre segurança e privacidade. Restringir o acesso aos Data Lakes, a pequenos grupos de Data Science, pode ajudar a minimizar o problema, mas não evita questões sobre a responsabilidade e privacidade dos dados.

David Matos

4 comments

  1. Parabéns David pelo excelente texto! A explicação didática sobre o que é um data lake e um data waherouse é muito esclarecedora. Olhando como um profisisonal que analisa dados, acredito que muita informação se perde quando os dados são agregados antes de serem analisados.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *