ClickHouse 深度原理与架构设计指南

Posted Feb 2, 2026

By Lin Huang

8 min read

1. 核心思维：ClickHouse vs MySQL 的本质差异

维度	MySQL (OLTP)	ClickHouse (OLAP)	深度原理解析
分区 (Partition)	限制多：必须包含在主键中。目的：主要用于归档（`DROP PARTITION`）。陷阱：无法线性提升并发能力，甚至可能因跨分区扫描降低性能。	目录隔离：物理上的文件夹划分。核心作用：剪枝 (Pruning)（不读无关目录）和数据生命周期管理。禁忌：分区键基数过高（如按 Region 分区），会导致文件句柄爆炸。	MySQL 分区解决不了“CPU/IO瓶颈”，只能解决“单表过大”。 ClickHouse 分区是查询的第一道防线。
扩展性	分库分表：解决性能问题的唯一正解（水平扩展算力）。	分布式表 (Sharding)：原生支持 MPP 计算。	-
索引机制	稠密索引 (B+ Tree)： 1对1映射。空间大，点查快，写入重。	稀疏索引 (Sparse Index)： 1对N映射（默认8192行）。全内存驻留，范围扫快，写入极快（Append-only）。	稀疏索引的前提是数据必须物理有序。
数据排序	逻辑排序，物理上未必有序。	严格物理排序：`ORDER BY` 决定了数据在磁盘上的排列方式。	物理排序带来了高压缩率（相同数据连在一起）。

“数据的牧羊人”：它决定了数据怎么“摆放”。

物理形态：数据按照 ORDER BY 的列严格排序写入 .bin 文件。
采样机制：每隔 index_granularity (默认 8192 行) 选取一行作为路标 (primary.idx)。
查询复杂度：二分查找 (O(logN))。直接定位到具体的 Granule (颗粒)。
压缩红利：将低基数（重复率高）的列（如 region_id）放在排序键最前面，可以让相同值物理相邻，极大提升压缩算法（LZ4/ZSTD）的效率（类似 RLE 编码）。

“数据的过滤器”：它不告诉你在哪，只告诉你不在哪。

生效公理：数据必须具有局部聚集性 (Locality)。如果数据是完全随机分布的，二级索引就是摆设。
常见类型：
- minmax：记录块内 [min, max]。适合单调递增数据（如 flow_id, time）。
- set：记录块内所有去重值。适合枚举值。
- bloom_filter：适合高基数 ID。
“陷阱”：组合二级索引的失效
- 例如 INDEX (region_id, flow_id) TYPE minmax。
- 原因：region_id 的随机性会将 Tuple 的 [min, max] 范围撑得非常大，导致几乎无法跳过任何块。切勿对离散列建组合 MinMax 索引。

数据特征：海量网络流日志，天然按时间顺序写入（隐式有序）。
查询模式：按 region_id 过滤 + 按 1分钟 时间窗口截取。
当前配置：
- Partition: 按小时
- Order By: (region_id)
- Secondary Index: event_time (minmax)

查询：WHERE region_id = 'BJ' AND event_time = '08:01'

第一层：分区键 (Partition Key) —— 绝对物理隔离
- ClickHouse 计算出 ‘08:01’ 属于 ‘08点’ 分区。
- 直接定位到该小时的文件夹，物理忽略其他成千上万个文件夹。
- 状态：完美工作。
第二层：一级索引 (Primary Key) —— 连续数据段定位
- 在 ‘08点’ 文件夹内，利用稀疏索引快速定位到 region_id = 'BJ' 的数据段。
- 因为 BJ 排在第一位，相关数据在磁盘上是连续的一大块。
- 状态：完美工作，IO 效率极高。
第三层：二级索引 (Secondary Index) —— 块级跳跃 (Block Skipping)
- 现状：在 BJ 的这块数据中，数据并不是严格按时间排序的（因为主键没时间）。
- 补救：但是，由于日志是按时间流式写入的，同一个 Region 内的数据隐式地保持了大致的时间顺序。
- 动作：minmax 索引扫描每个 Block 的头部信息。
  - Block A (08:00~08:05): 命中 -> 读。
  - Block B (08:05~08:10): 未命中 -> 跳过。
- 状态：有效工作（不幸中的万幸）。

Merge 导致的“乱序”退化：ClickHouse 后台合并数据时，只会维护 ORDER BY 的顺序。它不会维护二级索引的有序性。随着时间推移，或者迟到数据的补录，Block 的 minmax 范围可能变大（如 [08:01, 08:50]），导致二级索引过滤效果下降。
扫描开销：二级索引是线性扫描。如果一小时内数据量极大（Block 极多），扫描索引本身会消耗 CPU。

如果未来分钟级查询延迟变高，建议修改排序键。

目标：ORDER BY (region_id, event_time)
收益：
- 将时间的过滤方式从 “二级索引线性扫描” 升级为 “一级索引二分查找”。
- 即使发生 Merge 或乱序，主键索引保证数据永远严格有序。
- 0 CPU 开销 定位到分钟级数据块。

Projections (投影)：
- 如果你既要查 region 极快，又要查 flow_id 极快（跨时间），可以建立 Projection。相当于自动维护了一份按不同方式排序的“影子表”。
Materialized View (物化视图)：
- 如果只需看聚合指标（流量趋势），建立按分钟聚合的视图，性能提升 1000 倍。

This post is licensed under CC BY 4.0 by the author.