跳到主要内容

ETL 与数据管道

概述

ETL(Extract-Transform-Load)是数据从源系统到数据仓库的流转过程。理解 ETL 是数据分析师的基础能力,因为数据质量和时效性直接影响分析结果。

ETL vs ELT

对比ETLELT
转换位置中间层(ETL 工具)目标端(数仓内)
代表工具Informatica、Kettledbt、Spark SQL
适用传统数仓云数仓/现代数据栈
灵活性转换逻辑在工具中SQL 编写转换,更灵活

知识体系全景

文档导航

文档核心内容面试频率
ETL vs ELT传统 ETL、现代 ELT、对比选型⭐⭐⭐⭐
AirflowDAG、调度、任务依赖、监控⭐⭐⭐⭐
dbtSQL 模板、测试、文档、血缘⭐⭐⭐⭐
CDC 变更数据捕获Binlog、Debezium、Canal⭐⭐⭐⭐
数据管道模式批处理、微批、流式、幂等⭐⭐⭐

相关链接