【StarRocks系列】Update语句-易微帮

- 用户通过 MySQL 客户端或其他兼容工具向 FE（Frontend）提交标准的 SQL UPDATE 语句。
- 示例：UPDATE table_name SET column1 = value1 [, column2 = value2 ...] WHERE pk_column = some_value [AND ...];

- FE 解析 SQL，验证语法、权限、目标表和列是否存在、WHERE 条件是否包含完整主键（或其等价条件）。
- FE 生成一个逻辑更新计划。这个计划主要包含两部分信息：

- - 需要更新的行定位信息： 基于 WHERE 条件（必须能精确定位到主键）计算出哪些主键值对应的行需要被修改。
  - 新的列值： 指定的 SET 子句中的新值。

- FE 将逻辑更新计划（主要是主键列表和对应的新值集合）分发给存储了相关数据分片的 BE 节点。
- 分发策略基于主键的哈希值，确保包含特定主键行的 Tablet（数据分片）所在的 BE 收到该行的更新请求。

- 新 Segment 文件写入成功后，旧的 Segment 文件（包含被更新行原始数据）会被标记为可删除。
- 后台的 Compaction 进程（Base Compaction 或 Cumulative Compaction）会异步地将包含多个版本数据的 Segment 文件合并压缩，物理删除被覆盖的旧数据行，回收存储空间。

基于主键： UPDATE 必须指定完整的主键或能等价推导出主键的 WHERE 条件（例如 WHERE primary_key_col = ?）。这是 StarRocks 高效定位数据的基础。
列式更新： 在 SET 子句中指定需要更新的列及其新值。未指定的列保持不变。
“读-改-写”模式： 核心机制是读取包含目标行的原始数据块 -> 在内存中修改目标列 -> 将修改后的整行（连同该块中未修改的行）写入新文件。不是直接在原存储位置修改位图或单个值。
批量处理： 一次 UPDATE 操作通常涉及一批行的更新（即使 SQL 看起来只更新一行，内部也可能批量处理）。BE 在内存中处理一批更新，排序去重后一次性写入新文件，效率远高于单行更新。
写时复制 (Copy-on-Write)： 更新操作通过创建包含新数据的新文件（Segment）来实现，原始文件保持不变直到被异步回收。这保证了高并发读操作的稳定性（读操作总是访问旧的、一致的文件版本，直到新版本提交）。
原子性与版本化： 新 Segment 文件的写入和元数据的更新（版本切换）是原子的。查询在某个时间点看到的总是某个一致的数据版本。

StarRocks 的 UPDATE 语句在单个语句级别提供原子性和持久性：

- 单行更新： 对一个主键行的所有列更新是原子的。要么所有指定列都更新成功，要么都不更新。
- 多行更新： 同一批处理内更新的多行操作也具有原子性。这意味着在 BE 处理一批更新时，这批中的所有行更新要么全部成功写入新 Segment 并提交（元数据更新），要么全部失败（例如 BE 崩溃）。用户不会看到部分更新的状态。

- StarRocks 使用 MVCC (多版本并发控制)。UPDATE 操作创建数据的新版本。
- 正在进行的 UPDATE 操作不会阻塞读操作。读操作（如 SELECT）会读取操作开始时已提交的最新版本数据（快照隔离），看不到正在进行的 UPDATE 产生的中间状态或未提交的新版本。
- 多个并发的 UPDATE 操作修改同一主键行时，基于操作序列号或时间戳，只有最后一个成功的 UPDATE 会生效（最终一致性）。在 BE 处理阶段，排序去重步骤保证了这一点。用户可能会看到基于主键的“最后写入获胜”行为。

持久性 (Durability)： 一旦 UPDATE 操作成功提交（元数据更新完成），数据就持久化写入磁盘。即使发生节点故障，已提交的数据也不会丢失。
多语句事务：

- 社区版： 不支持 跨多个 SQL 语句（如 BEGIN; UPDATE ...; UPDATE ...; COMMIT;）的 ACID 事务。每个 UPDATE 语句是独立提交的。
- 企业版： 支持 有限的多语句事务 (自 3.0 版本引入)。在一个显式的 BEGIN/COMMIT/ROLLBACK 块内执行的多个 DML 语句（INSERT, UPDATE, DELETE）可以作为一个原子操作提交或回滚。这是通过 FE 协调和内存队列实现的，但有容量和超时限制，主要用于小批量、短时操作。它不是传统 OLTP 数据库那种支持长时间运行、大事务的强事务模型。

流程： 解析 -> 定位主键 -> 分发 -> (BE)读原始数据 -> 改内存数据 -> 排序去重 -> 写新文件 -> 提交元数据 -> 异步回收旧文件。
更新机制： 基于主键，批量处理，读-改-写模式，写时复制（创建新文件），利用主键索引和排序去重保证效率与主键唯一性。
事务： 单条 UPDATE 语句具有原子性和持久性，通过 MVCC 提供快照隔离级别的读一致性。社区版不支持多语句事务，企业版提供有限的多语句事务支持。

理解 StarRocks 的 UPDATE 是面向分析场景优化的、基于主键的异步批量更新机制，而非 OLTP 式的逐行实时更新，对于正确使用和性能调优至关重要。它非常适合数据修正、缓慢变化维度（SCD Type 1/2）、标签更新等场景。

【StarRocks系列】Update语句