大数据计算知识体系概览
什么是大数据计算
大数据计算是对海量数据(TB~PB 级别)进行存储、处理和分析的技术体系。核心思想:数据不动,计算移动。
核心引擎对比
| 引擎 | 类型 | 延迟 | 适用场景 |
|---|---|---|---|
| Hive | 批处理 | 分钟~小时 | 离线数仓、ETL |
| Spark | 批+微批 | 秒~分钟 | 数据处理、ML |
| Flink | 流+批 | 毫秒~秒 | 实时计算、CDC |
| Presto/Trino | 交互查询 | 秒 | 即席分析、跨源查询 |
核心知识导航
| 主题 | 说明 |
|---|---|
| Hive | SQL-on-Hadoop、分区分桶、文件格式 |
| Spark | RDD、DataFrame、Spark SQL、性能调优 |
| Flink | 流处理、窗口、状态、Exactly-Once |
| Presto/Trino | MPP 架构、跨源查询、性能优化 |
| 数据倾斜 | 倾斜原因、排查、解决方案 |
| 大数据引擎对比 | 各引擎的选型建议 |