Aqui está um segredo de engenharia de dados: os pipelines de dados raramente são testados em unidade. Os pipelines de dados geralmente são testados simplesmente implantando-os — geralmente primeiro em um ambiente de teste ou homologação.
Categoria: Engenheiro de Dados
Engenharia de Dados Não é Engenharia de Software – Parte 1
Este post (dividido em duas partes) tem como objetivo destacar alguns dos desafios exclusivos da engenharia de dados e por que isso requer uma abordagem personalizada.
Por Que Usar Airbyte Para Seu Processo ETL?
Como experimentar rapidamente um pipeline de dados e um grupo de conectores de forma simples e robusta? É aqui que entram ferramentas como o Airbyte.
Kubernetes: Pods, Nodes, Containers e Clusters
O Kubernetes surgiu como plataforma de orquestração de containers, sendo ferramenta essencial para equipes de Engenharia de Dados. Sua importância é cada vez maior na infraestrutura de Big Data e no deploy de modelos de Machine Learning. Vamos compreender o que é o Kubernetes.
Pipelines de Dados com Apache Hop
O Apache Hop permite projetar visualmente pipelines de dados e workflows. Programação é uma opção, não uma necessidade.
Data Lake – A Evolução do Armazenamento e Processamento de Dados
Aqui apresentarei a arquitetura do Data Lake, que introduz uma interessante revolução no armazenamento e processamento de dados.
Cientista de Dados x Engenheiro de Dados
Ciência de Dados e Engenharia de Dados são 2 diferentes ramos de atuação dentro do conceito de Big Data e as funções de Cientista de Dados e Engenheiro de Dados são normalmente confundidas.