Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
Menu
Data Lake, a fonte do Big Data

Data Lake, a fonte do Big Data

Posted on 22 de novembro de 202122 de novembro de 2021 by David Matos

Data Lake é um termo recente, criado pelo CTO (Chief Technical Officer) do Pentaho, James Dixon, para descrever um componente importante no universo da análise de dados e do Big Data. A ideia é ter um único repositório dentro da empresa, para que todos os dados brutos estejam disponíveis a qualquer pessoa que precise fazer análise sobre eles. Comumente utiliza-se o Hadoop para trabalhar com os Data Lakes, mas o conceito é bem mais amplo do que apenas Hadoop.

A ideia de Data Lake como recurso corporativo ainda está no começo. O conceito de um repositório central, relativamente de baixo custo, que possa armazenar todos os tipos de dados da empresa, ainda é um sonho, apesar de soluções comerciais já disponíveis no mercado. Os Data Lakes armazenam os dados em seu formato bruto, sem qualquer processamento e sem governança. Aliás, apesar das soluções comerciais, Data Lake é um conceito e não uma tecnologia. Podem ser necessárias várias tecnologias para criar um Data Lake. O Data Lake em essência, é uma estratégia de armazenamento de dados.

Os Data Lakes são projetados para o consumo de dados – o processo que envolve a coleta, importação e processamento de dados para armazenamento ou uso posterior. O Data Lake não requer que os usuários criem um esquema antes de preparar os dados para armazenamento. Os dados podem ser simplesmente consumidos e o esquema criado e aplicado quando os dados forem usados para análise.

Data Lakes são recursos para toda a organização, e não apenas a área de TI (tanto que já existe o conceito de Business Data Lake). Todas as partes interessadas devem ser envolvidas no planejamento de projetos de Data Lakes, que serão fundamentais para a arquitetura de Big Data da empresa. Além de gerentes de TI, um projeto de Data Lake deve envolver os líderes empresariais e usuários. Especialistas em armazenamento também precisam ser envolvidos.

O valor de negócio de um Data Lake tem muito pouco a ver com as tecnologias escolhidas. O valor do negócio é derivado das habilidades de ciência de dados que se pode aplicar sobre o Data Lake. Data Lakes não são substitutos para plataformas analíticas ou infraestrutura existente. Em vez disso, eles complementam os esforços existentes e apoiam a descoberta de novas perguntas sobre os dados. Uma vez que novas questões sobre os dados tenham sido descobertas, pode-se “otimizar” as respostas. Otimizar nesse caso, pode significar mover os dados para fora do Data Lake, em Data Marts ou Data Warehouses.

Quando se ouve falar sobre um ponto único para reunir todos os dados que uma organização deseja analisar, imediatamente se imagina a noção de Data Warehouse e Data Mart. Mas há uma distinção fundamental entre Data Lake e Data Warehouse. O Data Lake armazena dados brutos, sob qualquer forma do jeito que foram coletados na fonte de dados. Não há suposições sobre o esquema dos dados e cada fonte de dados pode usar qualquer esquema. Cabe aqueles que vão analisar os dados, dar sentido a esses dados para o propósito ao qual a análise de destina.

Data Lake x Data Warehouse

Em contrapartida, o Data Warehouse tende a usar a noção de um único esquema para todas as necessidades de análise, o que se torna impraticável em muitas situações. Os dados são limpos e organizados antes do armazenamento, fazendo com que os dados estejam disponíveis para uso e análise, assim que são armazenados. Ao mudar o foco para o armazenamento dos dados brutos, isso coloca a responsabilidade sobre os analistas de dados.

Isto leva a uma crítica comum do Data Lake – que ele seja apenas uma lixeira para dados de qualidade muito variável, algo como um pântano de dados. A crítica é válida, porém irrelevante. Os cientistas de dados conhecem bem os problemas de qualidade de dados. Muitas das técnicas estatísticas sofisticadas, são criados para resolver problemas de qualidade de dados. Os cientistas de dados estão sempre céticos sobre a qualidade dos dados e como lidar com dados questionáveis. Por conta disso, o Data Lake passa a ter uma importância ainda maior, pois os cientistas de dados podem começar a trabalhar com os dados em formato bruto e aplicar técnicas e modelos que façam mais sentido para o objetivo que se pretende alcançar, ao invés de trabalhar com dados já processados por mecanismos de limpeza sobre os quais não se tem visibilidade.

Os Data Warehouses geralmente não possuem apenas dados limpos, mas também agregados de forma que fiquem mais fáceis de analisar. Mas os cientistas de dados tendem a opor-se a isso também, porque a agregação implica em dados que possivelmente foram descartados. O Data Lake deve conter todos os dados, porque você não sabe o que as pessoas vão encontrar de informação valiosa, hoje ou daqui alguns anos.

Os Data Lakes também levantam questões sobre segurança e privacidade. Restringir o acesso aos Data Lakes, a pequenos grupos de Data Science, pode ajudar a minimizar o problema, mas não evita questões sobre a responsabilidade e privacidade dos dados.

Para um treinamento online e em português, confira: Data Lake – Design, Projeto e Integração

David Matos

Relacionado

39 thoughts on “Data Lake, a fonte do Big Data”

  1. wesley disse:
    25 de outubro de 2016 às 1:27 PM

    Muito bom o texto , escolhi Data Lake como tema do TCC , esse artigo foi de grande utilidade

    Responder
    1. David Matos disse:
      25 de outubro de 2016 às 1:56 PM

      Oi Wesley. Obrigado. Que bom que ajudou. Assine a newsletter para ser avisado sobre os novos posts. Abs. David

      Responder
      1. Flávio Neves Carneiro disse:
        19 de dezembro de 2018 às 10:21 AM

        Bom dia. Onde assino a newsletter do site, não estou encontrando.

        Responder
        1. David Matos disse:
          20 de dezembro de 2018 às 3:02 AM

          Oi Flavio. Já incluí seu e-mail na lista. Abs

          Responder
  2. Raniere disse:
    18 de junho de 2017 às 8:11 AM

    Parabéns David pelo excelente texto! A explicação didática sobre o que é um data lake e um data waherouse é muito esclarecedora. Olhando como um profisisonal que analisa dados, acredito que muita informação se perde quando os dados são agregados antes de serem analisados.

    Responder
    1. David Matos disse:
      18 de junho de 2017 às 2:24 PM

      Muito obrigado Raniere. Abs

      Responder
  3. Mauricio disse:
    27 de julho de 2017 às 1:01 PM

    Boa tarde
    Você poderia recomendar algum livro sobre Data Lake?
    Obrigado.

    Responder
    1. David Matos disse:
      29 de julho de 2017 às 3:10 AM

      Olá Mauricio. Dá uma olhada no livro: Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump. Um dos melhores! Abs

      Responder
  4. leopoldo disse:
    12 de setembro de 2017 às 10:46 AM

    David, achei muito bom o texto, ajudou-me a entender melhor esse ambiente de Data Lake –
    DL na qual estou trabalhando hoje, principalmente explicação didática, poderia ter incluído mais desenhos para ilustrar tudo que foi dito, também a parte onde compara os ambientes de DL e DW. Parabéns.

    Responder
    1. David Matos disse:
      16 de setembro de 2017 às 12:55 AM

      Valeu Leopoldo. Muito obrigado.

      Responder
  5. RAFFAELLO DAMGAARD NEVES disse:
    24 de janeiro de 2018 às 11:53 AM

    muito bom.

    Responder
    1. David Matos disse:
      24 de janeiro de 2018 às 2:40 PM

      Valeu. Muito obrigado!

      Responder
  6. Victor Paulo disse:
    16 de maio de 2018 às 10:26 PM

    Excelente material !

    Responder
    1. David Matos disse:
      17 de maio de 2018 às 12:02 PM

      Valeu Victor. Obrigado.

      Responder
  7. Valdemir disse:
    11 de junho de 2018 às 9:42 AM

    Parabéns pela concisão e clareza da exposição. Precisamos de mais artigos assim. Obrigado.

    Responder
    1. David Matos disse:
      11 de junho de 2018 às 11:33 AM

      Valeu Valdemir. Muito obrigado!

      Responder
  8. Luciana Manfredini disse:
    29 de março de 2019 às 11:31 AM

    Muito esclarecedor!

    Responder
    1. David Matos disse:
      29 de março de 2019 às 12:51 PM

      Muito obrigado.

      Responder
  9. Júlia Maciela Oliveira de Tassis Frasson Cardozo disse:
    5 de junho de 2019 às 2:18 PM

    Olá! Obrigada por dividir conosco seu conhecimento. Sou advogada e faço mestrado em Propriedade Intelectual e Transferência de Tecnologia para Inovação, estou escrevendo sobre a adequação da LGPD nas empresas. Teu texto é muito relevante. Tem mais material? Como faço para me inscrever no newsletter do site.
    Obrigada.

    Responder
    1. David Matos disse:
      6 de junho de 2019 às 5:18 PM

      Oi Júlia. Muito obrigado. Este é um tema importante e vou trazer mais artigos sobre isso. Já incluí seu e-mail na lista. Abs. David

      Responder
  10. Carmo disse:
    22 de julho de 2019 às 5:15 PM

    Explicação bem didática! Parabéns!

    Responder
    1. David Matos disse:
      24 de julho de 2019 às 3:02 AM

      Obrigado! 🙂

      Responder
  11. José disse:
    12 de setembro de 2019 às 4:13 PM

    Olá,

    Por favor, incluir o meu email na lista para receber Newsletter.

    Responder
    1. David Matos disse:
      13 de setembro de 2019 às 12:46 AM

      Ok. Feito.

      Responder
  12. Julia Alves disse:
    11 de outubro de 2019 às 9:04 AM

    Parabéns pelo texto, muito bom mesmo!

    Responder
    1. David Matos disse:
      11 de outubro de 2019 às 5:07 PM

      Obrigado Julia.

      Responder
  13. Andre Lemos disse:
    4 de novembro de 2019 às 5:14 PM

    poderia me incluir na newsletter

    Responder
    1. David Matos disse:
      5 de novembro de 2019 às 1:12 AM

      Incluído Andre.

      Responder
  14. Luciano disse:
    25 de abril de 2020 às 6:07 PM

    Boa noite! Poderia adicionar meu e-mail para newsletter….

    Responder
    1. David Matos disse:
      27 de abril de 2020 às 12:04 AM

      Adicionado.

      Responder
  15. Ramon disse:
    1 de setembro de 2020 às 11:02 PM

    Excelente texto. Muito explicativo, me ajudou bastante.

    Responder
    1. David Matos disse:
      2 de setembro de 2020 às 2:37 AM

      Valeu, obrigado!

      Responder
  16. Juliana disse:
    2 de outubro de 2020 às 2:01 PM

    Excelente publicação! esclarecedora e didática parabéns. Eu gostaria de continuar recebendo newsletter

    Responder
    1. David Matos disse:
      4 de outubro de 2020 às 11:38 PM

      Obrigado Juliana.

      Responder
  17. EUDES DE OLIVEIRA SALES disse:
    23 de novembro de 2020 às 10:03 AM

    Parabéns,
    Claro e objetivo.

    Responder
    1. David Matos disse:
      24 de novembro de 2020 às 1:31 AM

      Obrigado.

      Responder
  18. Sergio Barilari Marques disse:
    22 de março de 2021 às 8:19 PM

    Parabéns, excelente explicação sobre um assunto relativamente novo!

    Responder
  19. Pingback: Pensando em Migrar Sua Carreira para Data Science? - Data Science Academy
  20. Max Weber Brandão dos Santos disse:
    22 de agosto de 2023 às 12:54 PM

    Parabéns pelo excelente texto. Muito explicativo.

    Responder

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Buscar

Tags Mais Comuns nos Posts

Agentes de IA Analytics Análise de Negócios Apache Spark AWS Big Data Blockchain Business Intelligence ChatGPT Cientista de Dados Cientistas de Dados Ciência de Dados Cloud Computing Data Lake Data Mesh Data Science Data Scientist Data Warehouse Deep Learning Deploy Engenharia de Dados Estatística GPU GraphRAG Hadoop IA Generativa Inteligência Artificial Internet of Things Linguagem Python Linguagem R LLM LLMs Machine Learning MCP (Model Context Protocol) Metadados Normalização NVIDIA Oracle Pipeline de Dados Predictive Analytics Probabilidade PySpark Python RAG Storytelling

Histórico de Posts

  • maio 2025 (6)
  • abril 2025 (2)
  • março 2025 (4)
  • fevereiro 2025 (8)
  • janeiro 2025 (5)
  • dezembro 2024 (4)
  • novembro 2024 (1)
  • outubro 2024 (1)
  • setembro 2024 (1)
  • agosto 2024 (1)
  • julho 2024 (3)
  • junho 2024 (1)
  • maio 2024 (1)
  • abril 2024 (2)
  • março 2024 (1)
  • fevereiro 2024 (1)
  • janeiro 2024 (1)
  • dezembro 2023 (1)
  • outubro 2023 (2)
  • setembro 2023 (1)
  • agosto 2023 (4)
  • julho 2023 (2)
  • junho 2023 (4)
  • maio 2023 (2)
  • abril 2023 (2)
  • março 2023 (3)
  • fevereiro 2023 (3)
  • janeiro 2023 (3)
  • dezembro 2022 (7)
  • novembro 2022 (6)
  • outubro 2022 (2)
  • setembro 2022 (3)
  • agosto 2022 (2)
  • julho 2022 (2)
  • junho 2022 (3)
  • maio 2022 (1)
  • abril 2022 (3)
  • março 2022 (1)
  • fevereiro 2022 (3)
  • janeiro 2022 (2)
  • dezembro 2021 (1)
  • novembro 2021 (5)
  • outubro 2021 (2)
  • setembro 2021 (3)
  • agosto 2021 (1)
  • junho 2021 (1)
  • fevereiro 2021 (2)
  • janeiro 2021 (1)
  • dezembro 2020 (1)
  • novembro 2020 (1)
  • outubro 2020 (2)
  • agosto 2020 (1)
  • abril 2020 (1)
  • março 2020 (1)
  • fevereiro 2020 (2)
  • agosto 2019 (1)
  • abril 2019 (1)
  • setembro 2018 (2)
  • julho 2018 (1)
  • junho 2018 (3)
  • abril 2018 (1)
  • março 2018 (1)
  • fevereiro 2018 (2)
  • janeiro 2018 (1)
  • dezembro 2017 (1)
  • novembro 2017 (1)
  • outubro 2017 (1)
  • setembro 2017 (1)
  • julho 2017 (1)
  • junho 2017 (1)
  • maio 2017 (2)
  • abril 2017 (1)
  • janeiro 2017 (1)
  • novembro 2016 (1)
  • outubro 2016 (1)
  • setembro 2016 (1)
  • julho 2016 (1)
  • junho 2016 (1)
  • maio 2016 (1)
  • abril 2016 (1)
  • fevereiro 2016 (1)
  • janeiro 2016 (3)
  • dezembro 2015 (4)
  • novembro 2015 (6)
  • outubro 2015 (9)
  • setembro 2015 (9)
  • agosto 2015 (9)
©2025 Ciência e Dados
 

Carregando comentários...