Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
Menu
Data Mesh x Data Lake x Data Fabric

Data Mesh x Data Lake x Data Fabric

Posted on 18 de agosto de 202218 de agosto de 2022 by David Matos

Caso esteja chegando agora recomendo acessar os artigos anteriores com a definição e benefícios do Data Mesh. Pode começar por aqui.

O Data Mesh pode não ser ideal para todas as empresas. O Data Mesh é voltado principalmente para organizações maiores que enfrentam incertezas e mudanças em suas operações e ambiente.

Se a empresa é pequena em relação às necessidades de dados e essas necessidades de dados não mudam com o tempo, o Data Mesh provavelmente é uma sobrecarga desnecessária.

Vamos comparar e compreender a relação entre Data Mesh, Data Lake e Data Fabric.

Data Mesh x Data Lake

O Data Lake é uma abordagem de tecnologia cujo objetivo principal tem sido tradicionalmente como um único repositório centralizado para mover os dados da maneira mais simples possível, onde uma equipe de Engenheiros de Dados é responsável por gerenciá-los.

Embora os Data Lakes possam fornecer um valor comercial significativo, eles também sofrem de alguns problemas. A questão principal é que, uma vez que os dados são movidos para o Data Lake, eles podem perder o contexto.

Por exemplo, podemos ter muitos arquivos contendo uma definição de cliente, um de um sistema de logística, um de pagamentos e um de marketing, qual é o correto para um determinado caso de uso?

Além disso, os dados no Data Lake não terão sido pré-processados, portanto, inevitavelmente, surgirão problemas de dados. O consumidor de dados normalmente terá que entrar em contato com o Engenheiro de Dados para entender e resolver problemas de dados, o que se torna um gargalo significativo para usar os dados e responder às perguntas de negócio.

Em comparação, o Data Mesh é mais do que apenas tecnologia. O Data Mesh combina aspectos tecnológicos e organizacionais, incluindo a ideia de propriedade de dados, qualidade de dados e autonomia.

Assim, os consumidores de dados têm uma visão clara sobre a qualidade dos dados e a propriedade dos dados, e os problemas de dados podem ser descobertos e resolvidos com muito mais eficiência. Em última análise, os dados podem ser usados ​​de forma mais confiável.

Data Mesh x Data Fabric

Descobrir, acessar e incorporar novos conjuntos de dados para uso em análise de dados, Data Science e outras tarefas de pipeline de dados normalmente é um processo lento em organizações grandes e complexas.

Essas organizações geralmente têm centenas de milhares de conjuntos de dados que são gerenciados ativamente em uma variedade de armazenamentos de dados internamente e acesso a conjuntos de dados externos adicionais de ordens de magnitude. Simplesmente encontrar dados relevantes para um determinado processo é uma tarefa quase esmagadora.

Mesmo que os dados relevantes tenham sido identificados, passar pelos processos de aprovação, governança e preparação necessários para o uso real desses dados pode levar vários meses na prática. Muitas vezes é um grande impedimento para a agilidade organizacional.

Cientistas de Dados e Analistas de Dados são pressionados a usar dados pré-aprovados e pré-estabelecidos encontrados em repositórios centralizados como Data Warehouses, em vez de serem incentivados a usar uma variedade mais ampla de conjuntos de dados em suas análises.

Duas das propostas mais conhecidas para resolver ou minimizar esses problemas são o “Data Fabric” e o “Data Mesh”. Especificamente para o problema da integração de dados, esses conceitos abordam o desafio de eliminar a dependência de uma equipe centralizada em toda a empresa para executar a integração.

O Data Fabric concentra-se em uma coleção de vários recursos tecnológicos que colaboram para produzir uma interface para os usuários finais que consomem dados. Muitos dos defensores do Data Fabric defendem a automação por meio de tecnologias como Machine Learning de muitas das tarefas de gerenciamento de dados para permitir que os usuários finais acessem os dados de maneira mais simples.

Para o uso de dados simples, há algum valor nisso, no entanto, para situações mais complexas ou onde o conhecimento de negócios precisa ser integrado aos dados, as limitações do Data Fabric se tornarão aparentes.

Indiscutivelmente, o Data Fabric pode ser usado como parte de uma plataforma de autoatendimento Data Mesh, onde o Data Fabric expõe os dados aos domínios que podem incorporar seu conhecimento de negócios em um produto de dados resultante.

A diferença entre Data Fabric e Data Mesh não é óbvia. Em última análise, uma solução ideal provavelmente levará as melhores ideias de cada uma dessas abordagens.

A implementação do Data Mesh envolve 3 componentes principais:

1- Conexão às Fontes de Dados Onde Eles Residem

À medida que a empresa inicia sua jornada do Data Mesh, a primeira etapa é conectar-se às fontes de dados. Um princípio fundamental de implementação do Data Mesh é conectar as fontes de dados aproveitando seus investimentos existentes: Data Lakes ou Data Warehouses, em nuvem ou on-premises.

Ao contrário da abordagem de fonte única de verdade para centralizar todos os dados primeiro, a empresa está aproveitando e consultando os dados onde eles residem. É a primeira vitória do Data Mesh.

2- Criação de Domínios Lógicos

Depois de gerar conectividade em todos os vários conjuntos de dados, o próximo objetivo é criar uma interface para que as equipes de negócios e análises encontrem os dados.

Em termos de Data Mesh, chamamos isso de domínio lógico. É chamado de lógico, porque não estamos movendo dados para um repositório onde os consumidores de dados possam acessá-los. Em vez disso, estamos criando uma camada lógica onde eles podem fazer login em um painel para ver os dados que foram disponibilizados para eles.

Todos os dados residem em seu domínio, juntamente com equipes de domínio habilitadas a trabalhar de forma autônoma. Em essência, estamos promovendo o conceito de autoatendimento do Data Fabric em que os consumidores de dados podem fazer mais por conta própria.

3- Permitir Que as Equipes Criem Produtos de Dados

Quando você fornece a uma equipe de negócio acesso aos dados de que ela precisa, a próxima etapa é ensiná-la a converter conjuntos de dados em produtos de dados.

Em seguida, com um produto de dados, cria-se uma biblioteca ou um catálogo de produtos de dados. Algumas soluções de Data Mesh possuem um catálogo integrado que permite pesquisar, descobrir e identificar rapidamente produtos de dados que possam ser de interesse.

A criação de produtos de dados é um recurso poderoso, pois a empresa permite que seus consumidores de dados passem muito rapidamente da descoberta à idealização, bem como ao insight, porque estamos criando e usando rapidamente produtos de dados em toda a organização.

David Matos

Referências:

Formação Engenheiro de Dados

What is Data Mesh?

Data Mesh Principles and Logical Architecture

Data mesh vs. data fabric: Eliminate humans or use them more intelligently

Compartilhar

  • Clique para compartilhar no X(abre em nova janela) 18+
  • Clique para compartilhar no Facebook(abre em nova janela) Facebook
  • Clique para compartilhar no LinkedIn(abre em nova janela) LinkedIn
  • Clique para compartilhar no WhatsApp(abre em nova janela) WhatsApp
  • Clique para compartilhar no Telegram(abre em nova janela) Telegram
  • Clique para compartilhar no Tumblr(abre em nova janela) Tumblr
  • Clique para compartilhar no Pinterest(abre em nova janela) Pinterest

Relacionado

1 thought on “Data Mesh x Data Lake x Data Fabric”

  1. Pedro Ramos disse:
    6 de janeiro de 2023 às 12:18 AM

    Não conhecia o conceito de Data Mesh. Obrigado pelas informações e disponibilização.

    Responder

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Buscar

Tags Mais Comuns nos Posts

Agentes de IA Analytics Análise de Negócios Apache Spark AWS Big Data Blockchain Business Intelligence Cache-Augmented Generation (CAG) ChatGPT Cientista de Dados Cientistas de Dados Ciência de Dados Cloud Computing Data Lake Data Mesh Data Science Data Scientist Data Warehouse Deep Learning Deploy Engenharia de Dados Estatística GPU GraphRAG Hadoop IA Generativa Inteligência Artificial Internet of Things Linguagem Python Linguagem R LLM LLMs Machine Learning Metadados Normalização NVIDIA Oracle Pipeline de Dados Predictive Analytics Probabilidade PySpark Python RAG Storytelling

Histórico de Posts

  • maio 2025 (3)
  • abril 2025 (2)
  • março 2025 (4)
  • fevereiro 2025 (8)
  • janeiro 2025 (5)
  • dezembro 2024 (4)
  • novembro 2024 (1)
  • outubro 2024 (1)
  • setembro 2024 (1)
  • agosto 2024 (1)
  • julho 2024 (3)
  • junho 2024 (1)
  • maio 2024 (1)
  • abril 2024 (2)
  • março 2024 (1)
  • fevereiro 2024 (1)
  • janeiro 2024 (1)
  • dezembro 2023 (1)
  • outubro 2023 (2)
  • setembro 2023 (1)
  • agosto 2023 (4)
  • julho 2023 (2)
  • junho 2023 (4)
  • maio 2023 (2)
  • abril 2023 (2)
  • março 2023 (3)
  • fevereiro 2023 (3)
  • janeiro 2023 (3)
  • dezembro 2022 (7)
  • novembro 2022 (6)
  • outubro 2022 (2)
  • setembro 2022 (3)
  • agosto 2022 (2)
  • julho 2022 (2)
  • junho 2022 (3)
  • maio 2022 (1)
  • abril 2022 (3)
  • março 2022 (1)
  • fevereiro 2022 (3)
  • janeiro 2022 (2)
  • dezembro 2021 (1)
  • novembro 2021 (5)
  • outubro 2021 (2)
  • setembro 2021 (3)
  • agosto 2021 (1)
  • junho 2021 (1)
  • fevereiro 2021 (2)
  • janeiro 2021 (1)
  • dezembro 2020 (1)
  • novembro 2020 (1)
  • outubro 2020 (2)
  • agosto 2020 (1)
  • abril 2020 (1)
  • março 2020 (1)
  • fevereiro 2020 (2)
  • agosto 2019 (1)
  • abril 2019 (1)
  • setembro 2018 (2)
  • julho 2018 (1)
  • junho 2018 (3)
  • abril 2018 (1)
  • março 2018 (1)
  • fevereiro 2018 (2)
  • janeiro 2018 (1)
  • dezembro 2017 (1)
  • novembro 2017 (1)
  • outubro 2017 (1)
  • setembro 2017 (1)
  • julho 2017 (1)
  • junho 2017 (1)
  • maio 2017 (2)
  • abril 2017 (1)
  • janeiro 2017 (1)
  • novembro 2016 (1)
  • outubro 2016 (1)
  • setembro 2016 (1)
  • julho 2016 (1)
  • junho 2016 (1)
  • maio 2016 (1)
  • abril 2016 (1)
  • fevereiro 2016 (1)
  • janeiro 2016 (3)
  • dezembro 2015 (4)
  • novembro 2015 (6)
  • outubro 2015 (9)
  • setembro 2015 (9)
  • agosto 2015 (9)
©2025 Ciência e Dados