ETL 与数据管道
概述
ETL(Extract-Transform-Load)是数据从源系统到数据仓库的流转过程。理解 ETL 是数据分析师的基础能力,因为数据质量和时效性直接影响分析结果。
ETL vs ELT
| 对比 | ETL | ELT |
|---|---|---|
| 转换位置 | 中间层(ETL 工具) | 目标端(数仓内) |
| 代表工具 | Informatica、Kettle | dbt、Spark SQL |
| 适用 | 传统数仓 | 云数仓/现代数据栈 |
| 灵活性 | 转换逻辑在工具中 | SQL 编写转换,更灵活 |
知识体系全景
文档导航
| 文档 | 核心内容 | 面试频率 |
|---|---|---|
| ETL vs ELT | 传统 ETL、现代 ELT、对比选型 | ⭐⭐⭐⭐ |
| Airflow | DAG、调度、任务依赖、监控 | ⭐⭐⭐⭐ |
| dbt | SQL 模板、测试、文档、血缘 | ⭐⭐⭐⭐ |
| CDC 变更数据捕获 | Binlog、Debezium、Canal | ⭐⭐⭐⭐ |
| 数据管道模式 | 批处理、微批、流式、幂等 | ⭐⭐⭐ |