物化视图

问题

什么是物化视图？如何用物化视图加速 OLAP 查询？

答案

普通视图 vs 物化视图

维度	普通视图（View）	物化视图（Materialized View）
存储	不存储数据，只存 SQL	存储计算结果
查询速度	每次重新计算	直接读取预计算结果
数据新鲜度	实时	取决于刷新策略
适用场景	SQL 复用	查询加速

典型场景

-- 原始明细表（10 亿行）
CREATE TABLE events (
    event_date  Date,
    user_id     UInt64,
    channel     String,
    event_name  String,
    amount      Decimal(18,2)
) ENGINE = MergeTree()
ORDER BY (event_date, user_id);

-- 高频查询：每天按频道统计 PV/UV/金额
-- 每次查询需扫描全量数据，耗时 30s+
SELECT
    event_date,
    channel,
    COUNT(*) AS pv,
    COUNT(DISTINCT user_id) AS uv,
    SUM(amount) AS total_amount
FROM events
GROUP BY event_date, channel;

各引擎物化视图实现

ClickHouse
Doris / StarRocks
PostgreSQL

-- ClickHouse 物化视图：数据写入时自动聚合
CREATE MATERIALIZED VIEW events_daily_mv
ENGINE = SummingMergeTree()
ORDER BY (event_date, channel)
AS SELECT
    event_date,
    channel,
    count() AS pv,
    uniqState(user_id) AS uv_state,  -- 存储中间状态
    sum(amount) AS total_amount
FROM events
GROUP BY event_date, channel;

-- 查询物化视图（毫秒级）
SELECT
    event_date,
    channel,
    pv,
    uniqMerge(uv_state) AS uv,       -- 合并中间状态
    total_amount
FROM events_daily_mv
WHERE event_date = '2024-01-01';

ClickHouse 物化视图特点

增量更新：只对新写入的数据触发计算
已有数据不回填：创建 MV 前的数据需手动 INSERT INTO ... SELECT ...
uniqState / uniqMerge：近似去重的中间状态存储

-- Doris 同步物化视图
CREATE MATERIALIZED VIEW events_daily_mv AS
SELECT
    event_date,
    channel,
    COUNT(*) AS pv,
    BITMAP_UNION(TO_BITMAP(user_id)) AS uv,
    SUM(amount) AS total_amount
FROM events
GROUP BY event_date, channel;

-- 查询时自动改写命中物化视图（透明加速）
-- 用户无需修改原始 SQL
SELECT event_date, channel, COUNT(*), SUM(amount)
FROM events
WHERE event_date = '2024-01-01'
GROUP BY event_date, channel;
-- 执行计划会显示 "rollup: events_daily_mv"

Doris/StarRocks 优势

透明查询改写：优化器自动判断是否命中物化视图
用户无感知：无需修改查询 SQL
StarRocks 异步物化视图：支持跨表 JOIN 的物化视图

-- PostgreSQL 物化视图
CREATE MATERIALIZED VIEW events_daily_mv AS
SELECT
    event_date,
    channel,
    COUNT(*) AS pv,
    COUNT(DISTINCT user_id) AS uv,
    SUM(amount) AS total_amount
FROM events
GROUP BY event_date, channel;

-- 创建索引加速查询
CREATE INDEX idx_mv_date ON events_daily_mv(event_date);

-- 手动刷新（全量重建）
REFRESH MATERIALIZED VIEW events_daily_mv;

-- 并发刷新（不阻塞读取，需要唯一索引）
REFRESH MATERIALIZED VIEW CONCURRENTLY events_daily_mv;

刷新策略

策略	说明	适用场景
实时增量	数据写入时触发	ClickHouse MV
定时全量	周期性全量重建	PostgreSQL REFRESH
异步增量	后台异步刷新	StarRocks Async MV
手动触发	按需刷新	一次性分析

物化视图设计原则

设计建议

只为高频查询创建：物化视图有存储和维护成本
聚合粒度适中：太细效果差，太粗不灵活
优先选择固定维度：日期 + 频道、日期 + 地区 等
监控命中率：定期检查物化视图是否被实际使用
控制数量：过多物化视图会影响写入性能

常见面试问题

Q1: 物化视图和预计算（提前聚合宽表）有什么区别？

答案：

维度	物化视图	预计算宽表
创建方式	DDL 声明式	ETL 脚本
维护	引擎自动管理	手动维护调度
查询改写	自动（Doris）	需修改查询
灵活性	受引擎限制	完全自定义
适合场景	固定聚合模式	复杂多表 JOIN

Q2: 物化视图的缺点是什么？

答案：

存储成本：额外存储预计算结果
写入性能下降：数据写入时需同步更新 MV
数据延迟：异步刷新存在延迟
维护成本：源表 Schema 变更需同步更新 MV

问题​

答案​

普通视图 vs 物化视图​

典型场景​

各引擎物化视图实现​

刷新策略​

物化视图设计原则​

常见面试问题​

Q1: 物化视图和预计算（提前聚合宽表）有什么区别？​

Q2: 物化视图的缺点是什么？​

相关链接​

问题

答案

普通视图 vs 物化视图

典型场景

各引擎物化视图实现

刷新策略

物化视图设计原则

常见面试问题

Q1: 物化视图和预计算（提前聚合宽表）有什么区别？

Q2: 物化视图的缺点是什么？

相关链接