Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
Menu
O Que e Linhagem de Dados

O Que é Linhagem de Dados (Data Lineage)?

Posted on 5 de setembro de 20223 de novembro de 2022 by David Matos

Dados se tornaram a norma. Estão literalmente em todos os lados, mas podemos realmente compreender totalmente o que os dados nos dizem? Estamos vendo a foto completa (a Big Picture)? Provavelmente não. A menos que você esteja usando uma ferramenta que forneça uma linhagem completa de dados, a história que você consegue descobrir é, bem, digamos incompleta. Por quê? Continue lendo para descobrir. O Que é Linhagem de Dados (Data Lineage)?

Vamos Definir Linhagem de Dados

Podemos definir a linhagem de dados como o ciclo de vida dos dados ou a jornada dos dados. Esse ciclo de vida inclui onde os dados se originam, como foram obtidos ponto a ponto e, claro, onde estão hoje. Por meio da linhagem de dados, as organizações podem entender melhor o que acontece com os dados à medida que viajam por diferentes pipelines (ETL, arquivos, relatórios, bancos de dados, etc.) e, portanto, tomam decisões de negócios mais informadas. A linhagem de dados também permite que as empresas rastreiem fontes de dados comerciais específicos para fins de rastreamento de erros, implementação de mudanças nos processos e implementação de migrações de sistema para economizar quantidades significativas de tempo e recursos, melhorando tremendamente a eficiência do BI ou de processos de Ciência de Dados.

E o Papel dos Metadados?

Não é de surpreender que, assim como o papel dos metadados no domínio da governança de grandes volumes de dados tenha se tornado central, os metadados também são um elemento-chave quando se trata da linhagem de dados. Deixe-me explicar:

Enquanto a linhagem de dados é a representação visual da jornada de dados, os dados reais apresentados na linhagem devem primeiro ser localizados e verificados. Isso é feito por ninguém menos que nosso querido amigo, metadados. De fato, os metadados e a linhagem estão interligados, pois é por meio de metadados que podemos encontrar todos os itens de dados relacionados a qualquer relatório específico ou processo ETL, ver todas as dependências relacionadas a eles e rastrear todo o seu ciclo de vida. Em suma, os metadados são para a linhagem de dados que são as rodas de um carro. Metadados é o que possibilita a linhagem de dados e a demanda por ferramentas para grandes metadados está crescendo rapidamente.

Casos de Uso

À medida que a governança de dados se torna cada vez mais importante, ainda me surpreende quantas pessoas o abordam do ângulo errado. Tantas vezes, a conversa gira em torno de desafios técnicos e orientados para o sistema. E não é de surpreender que esse seja o caso. Durante anos, os fornecedores de ETL e gerenciamento de metadados colocaram um “adesivo” em seus produtos e divulgaram que eles fornecem “governança de dados”. E, embora forneçam alguns metadados e recursos de linhagem de dados técnicos, na realidade, essas ferramentas são apenas “zeladores de dados”. Deixe-me explicar o que quero dizer com um exemplo.

A empresa sempre tem necessidade de acessar informações e, geralmente, isso inclui a movimentação de dados entre os sistemas. Quando a TI precisa integrar sistemas, eles determinam os dados que precisam ser movidos com base nos requisitos e na análise das origens e destinos. Eles documentam suas descobertas e projetos, geralmente em uma enxurrada de documentos do Word, planilhas do Excel ou fluxogramas do Visio. Isso inclui detalhes sobre como os dados serão movidos, incluindo a frequência com que os dados precisam ser movidos (diário versus horário versus tempo real), limites de qualidade que precisam ser respeitados, quais regras precisam ser verificadas e muito mais. Após a análise e o projeto, a solução precisa ser implementada e alguém em TI cria o código (um ETL, um script,…). Antes da solução entrar em produção, ela é testada. Em cada um desses pontos, a organização sabe exatamente de onde os dados vieram, como estão sendo usados ​​e como se movimentam entre os sistemas.

Agora avancemos seis meses. As pessoas que trabalharam no projeto original seguiram em frente. A documentação do projeto (como era de se esperar) foi mal feita, ou pior, é completamente ausente. Qualquer revisão da integração ou entendimento de como as mudanças podem afetar o sistema – e mais importante, o negócio – exige retrabalho de engenharia e análise reversa, incluindo a realização de todos os erros cometidos.

Multiplique isso por todos os movimentos de dados já em execução, e os que estão sendo planejados e construídos, e está claro que a TI está com uma bagunça em suas mãos. E, como precisam resolver seu problema imediato, eles procuram as ferramentas que conhecem – as ferramentas de gerenciamento de dados que silenciosamente processam os bits de dados. Acredita-se que essas ferramentas, de alguma forma, irão reverter a engenharia da solução originalmente implementada pela TI. Eles tentam digitalizar todos os tipos de código de processamento de dados para informar a empresa de onde os dados vieram. O problema, no entanto, é que as saídas são poucas, incompletas e basicamente sem sentido para os negócios.

É uma abordagem muito reativa que eu comparo a limpar uma casa inundada de água. A reação da TI é obter um esfregão maior e mais forte. Parece que isso pode ajudá-los a limpar sua bagunça, mas não fornece uma solução real para o problema em questão. Simplificando: a TI tem a ferramenta errada para o trabalho.

A melhor abordagem, na minha opinião, é impedir proativamente a água de inundar a casa em primeiro lugar. No caso da governança de dados, isso significa colocar em prática um processo de controle desde o início ou, no nosso exemplo, formalizar o processo já em vigor, incluindo negócios e interação da TI. Certifique-se de que você não está criando coisas que as pessoas não conseguem encontrar. Use artefatos verdadeiros, como especificações de mapeamento e contratos de compartilhamento de dados, para conduzir proativamente o processo. Crie sensores do sistema: pontos de controle que varrem os sistemas de origem e de destino quando algo mudou e disparam um alerta notificando os administradores. Certifique-se de que a empresa está respondendo apenas às exceções, em vez de fazer exceções em sua empresa.

Ou seja, use a ferramenta certa para o trabalho e você não vai precisar de retrabalho!

David Matos

Referências:

Design e Automação de Pipelines de Dados

Data Lake – Design, Projeto e Integração

Data Lineage and Data Quality: Two Vital Elements for Enterprise Success

The Next Frontier of Data Integration: Data Lineage and Governance

Data Governance for the Real-Time Data Lake

Defining Data Lineage: A Beginner’s Guide

What is Data Lineage?

Data Lineage: An Important First Step for Data Governance

Compartilhar

  • Clique para compartilhar no X(abre em nova janela) 18+
  • Clique para compartilhar no Facebook(abre em nova janela) Facebook
  • Clique para compartilhar no LinkedIn(abre em nova janela) LinkedIn
  • Clique para compartilhar no WhatsApp(abre em nova janela) WhatsApp
  • Clique para compartilhar no Telegram(abre em nova janela) Telegram
  • Clique para compartilhar no Tumblr(abre em nova janela) Tumblr
  • Clique para compartilhar no Pinterest(abre em nova janela) Pinterest

Relacionado

1 thought on “O Que é Linhagem de Dados (Data Lineage)?”

  1. Pingback: Gerenciamento de Metadados na Era do Big Data — Ciência e Dados

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Buscar

Tags Mais Comuns nos Posts

Agentes de IA Analytics Análise de Negócios Apache Spark AWS Big Data Blockchain Business Intelligence ChatGPT Cientista de Dados Cientistas de Dados Ciência de Dados Cloud Computing Data Lake Data Mesh Data Science Data Scientist Data Warehouse Deep Learning Deploy Engenharia de Dados Estatística GPU GraphRAG Hadoop IA Generativa Inteligência Artificial Internet of Things Linguagem Python Linguagem R LLM LLMs Machine Learning MCP (Model Context Protocol) Metadados Normalização NVIDIA Oracle Pipeline de Dados Predictive Analytics Probabilidade PySpark Python RAG Storytelling

Histórico de Posts

  • maio 2025 (6)
  • abril 2025 (2)
  • março 2025 (4)
  • fevereiro 2025 (8)
  • janeiro 2025 (5)
  • dezembro 2024 (4)
  • novembro 2024 (1)
  • outubro 2024 (1)
  • setembro 2024 (1)
  • agosto 2024 (1)
  • julho 2024 (3)
  • junho 2024 (1)
  • maio 2024 (1)
  • abril 2024 (2)
  • março 2024 (1)
  • fevereiro 2024 (1)
  • janeiro 2024 (1)
  • dezembro 2023 (1)
  • outubro 2023 (2)
  • setembro 2023 (1)
  • agosto 2023 (4)
  • julho 2023 (2)
  • junho 2023 (4)
  • maio 2023 (2)
  • abril 2023 (2)
  • março 2023 (3)
  • fevereiro 2023 (3)
  • janeiro 2023 (3)
  • dezembro 2022 (7)
  • novembro 2022 (6)
  • outubro 2022 (2)
  • setembro 2022 (3)
  • agosto 2022 (2)
  • julho 2022 (2)
  • junho 2022 (3)
  • maio 2022 (1)
  • abril 2022 (3)
  • março 2022 (1)
  • fevereiro 2022 (3)
  • janeiro 2022 (2)
  • dezembro 2021 (1)
  • novembro 2021 (5)
  • outubro 2021 (2)
  • setembro 2021 (3)
  • agosto 2021 (1)
  • junho 2021 (1)
  • fevereiro 2021 (2)
  • janeiro 2021 (1)
  • dezembro 2020 (1)
  • novembro 2020 (1)
  • outubro 2020 (2)
  • agosto 2020 (1)
  • abril 2020 (1)
  • março 2020 (1)
  • fevereiro 2020 (2)
  • agosto 2019 (1)
  • abril 2019 (1)
  • setembro 2018 (2)
  • julho 2018 (1)
  • junho 2018 (3)
  • abril 2018 (1)
  • março 2018 (1)
  • fevereiro 2018 (2)
  • janeiro 2018 (1)
  • dezembro 2017 (1)
  • novembro 2017 (1)
  • outubro 2017 (1)
  • setembro 2017 (1)
  • julho 2017 (1)
  • junho 2017 (1)
  • maio 2017 (2)
  • abril 2017 (1)
  • janeiro 2017 (1)
  • novembro 2016 (1)
  • outubro 2016 (1)
  • setembro 2016 (1)
  • julho 2016 (1)
  • junho 2016 (1)
  • maio 2016 (1)
  • abril 2016 (1)
  • fevereiro 2016 (1)
  • janeiro 2016 (3)
  • dezembro 2015 (4)
  • novembro 2015 (6)
  • outubro 2015 (9)
  • setembro 2015 (9)
  • agosto 2015 (9)
©2025 Ciência e Dados