跳到主要内容

大数据计算知识体系概览

什么是大数据计算

大数据计算是对海量数据(TB~PB 级别)进行存储、处理和分析的技术体系。核心思想:数据不动,计算移动

核心引擎对比

引擎类型延迟适用场景
Hive批处理分钟~小时离线数仓、ETL
Spark批+微批秒~分钟数据处理、ML
Flink流+批毫秒~秒实时计算、CDC
Presto/Trino交互查询即席分析、跨源查询

核心知识导航

主题说明
HiveSQL-on-Hadoop、分区分桶、文件格式
SparkRDD、DataFrame、Spark SQL、性能调优
Flink流处理、窗口、状态、Exactly-Once
Presto/TrinoMPP 架构、跨源查询、性能优化
数据倾斜倾斜原因、排查、解决方案
大数据引擎对比各引擎的选型建议

相关链接