StarRocks 主键（Primary Key）深度解析

一、StarRocks 产品简介

StarRocks 是一款高性能分析型数据库，专为海量数据的实时分析而设计。作为新一代湖仓（Lakehouse）加速引擎，StarRocks 融合了 MPP 架构和列式存储引擎的优势，能够支持亿级数据秒级查询响应。

核心特性：

全面的数据模型：支持明细模型、主键模型和聚合模型，满足多样化业务场景
实时数据分析：提供高效的数据导入与更新能力，支持实时数据处理
分布式架构：采用无共享（Shared-Nothing）架构，支持水平扩展
向量化执行引擎：通过 SIMD 指令集优化，实现高效计算
智能查询优化：CBO 优化器自动选择最优执行计划
高可用设计：支持多副本机制，保障数据可靠性

适用场景：实时数据仓库、实时数据分析、即席查询（Ad-hoc）、数据湖分析加速

凭借其卓越的性能和灵活的数据模型，StarRocks 已在互联网、金融、零售等多个行业得到广泛应用，被众多企业用于构建实时数据平台。

二、什么是 StarRocks 主键（Primary Key）？

StarRocks 的主键模型（Primary Key Model）是为实时分析场景设计的存储引擎，支持行级实时更新、删除操作，同时兼顾复杂查询的高性能。自 1.19 版本首次发布以来，主键模型通过持续迭代，已成为企业实时数仓的核心解决方案，性能相比传统 OLAP 引擎提升 3-5 倍，在金融、电商、游戏等领域广泛应用。

核心优势

实时性：突破传统 T+1 数据延迟限制，支持秒级数据更新

高效查询：基于 Delete-and-Insert 模式，避免 Merge-on-Read 的版本合并开销，查询性能比 Unique Key 模型提升 200% 以上。
灵活扩展：支持存算分离架构（3.1+ 版本）、云原生持久化索引（3.3.1+ 版本）等特性。

三、技术原理与核心组件

1. 主键索引（Primary Index）

主键索引是主键模型的核心组件，存储主键与数据位置的映射关系，支持以下关键功能：

快速标记删除：通过 DelVector（RoaringBitmap）记录删除行。
部分列更新：仅更新指定列，避免全行覆盖。
高并发点查加速：内存中维护哈希索引，支持百万级 TPS。

持久化优化：

本地磁盘索引（3.1.4+）：减少内存占用至原 1/10。
云原生索引（3.3.1+）：弹性扩缩容场景下延迟性能提升至本地磁盘的 10 倍。

2. 数据更新机制

采用 Delete-and-Insert 模式：

写入流程：新数据直接插入，旧数据标记删除。
事务保障：导入任务支持 ACID 属性，确保跨 Tablet 事务的原子性和隔离性。
合并优化：优先合并小文件或高删除比例的文件，避免传统 LSM 树的写放大问题。

3. 排序键与主键分离

当前逻辑：主键默认作为排序键（Sort Key），简化数据分布。
未来将支持独立定义排序键（如按 city 排序），进一步优化特定查询效率。

四、版本演进与关键功能

1. 功能迭代时间线

版本	核心特性
1	主键模型首次发布，支持行级更新。
2.3	支持完整 DELETE WHERE 语法，允许子查询过滤。
3.0	支持条件更新、跨表更新和 CTE 语法。
3.1	存算分离架构支持主键模型。
3.3.1	引入云原生持久化索引，弹性调度性能大幅提升。