【ETCD】【源码阅读】深入解析 EtcdServer.run 函数

发布于:2024-12-18 ⋅ 阅读:(117) ⋅ 点赞:(0)

EtcdServer.run 是 etcd 的核心运行逻辑之一,负责管理 Raft 状态机的应用、事件调度以及集群的核心操作。本文将逐步从源码层面分析 run 函数的逻辑,帮助读者理解其内部机制和设计思想。

函数签名与关键职责

func (s *EtcdServer) run() {
    ...
}

关键职责

  • 读取和应用 Raft 状态机的日志。
  • 管理领导者变更及其他关键状态。
  • 调度和执行异步任务。
  • 清理和关闭资源。

源码解析

1. 初始化阶段

1.1 日志器初始化
lg := s.Logger()

获取当前日志记录器,便于后续操作记录和调试。

1.2 获取 Raft 快照
sn, err := s.r.raftStorage.Snapshot()
if err != nil {
    lg.Panic("failed to get snapshot from Raft storage", zap.Error(err))
}

1.3 调度器初始化
sched := schedule.NewFIFOScheduler(lg)
  • FIFOScheduler
    • 一个先进先出的任务调度器,确保任务按照提交顺序执行。
    • 提升并发性能,防止任务阻塞。
1.4 初始化 Raft 准备处理程序
rh := &raftReadyHandler{
    ...
}
s.r.start(rh)
  • raftReadyHandler:定义 Raft 状态处理逻辑,包含以下功能:
    • 领导者管理:通过 updateLeadership 处理领导者状态变更(如暂停或恢复 compactor)。
    • 提交索引更新:动态更新已提交的日志索引。
  • 启动 Raft:调用 s.r.start,绑定处理程序,开启 Raft 逻辑。
1.5 初始化 etcdProgress
ep := etcdProgress{
    confState:           sn.Metadata.ConfState,
    diskSnapshotIndex:   sn.Metadata.Index,
    memorySnapshotIndex: sn.Metadata.Index,
    appliedt:            sn.Metadata.Term,
    appliedi:            sn.Metadata.Index,
}
  • etcdProgress:记录服务器的快照应用进度,包括:
    • 配置状态ConfState 表示当前集群成员的配置信息。
    • 快照索引:分为磁盘和内存中的快照索引。
    • 应用状态:记录快照的日志条目和任期。

2. 资源清理阶段(defer 块)

defer func() {
    ...
}()
  • 关键功能
    • 停止调度器、Raft 逻辑和周期性任务(如 SyncTicker)。
    • 等待所有 goroutine 完成,防止资源泄漏。
    • 释放上下文和信号通道。

3. 主循环逻辑

run 函数的核心部分是主循环,用于监听事件和执行相应操作:

for {
    select {
    case ap := <-s.r.apply():
        ...
    case leases := <-expiredLeaseC:
        ...
    case err := <-s.errorc:
        ...
    case <-s.stop:
        ...
    }
}
3.1 应用日志
case ap := <-s.r.apply():
    f := schedule.NewJob("server_applyAll", func(context.Context) { s.applyAll(&ep, &ap) })
    sched.Schedule(f)
  • 作用:当 Raft 提交日志时,触发 applyAll 将日志应用到状态机。
  • 调度:通过 sched.Schedule 将任务交由调度器管理。

3.2 处理过期租约
case leases := <-expiredLeaseC:
    s.revokeExpiredLeases(leases)
  • 背景:etcd 使用租约机制管理资源锁。
  • 功能:移除过期租约,释放对应资源。

3.3 错误处理
case err := <-s.errorc:
    lg.Warn("server error", zap.Error(err))
    lg.Warn("data-dir used by this member must be removed")
    return
  • 作用
    • 记录发生的错误。
    • 提示用户移除当前成员的数据目录,确保一致性。
3.4 停止信号
case <-s.stop:
    return
  • 功能:当收到停止信号时,退出主循环并进行清理。

总结

运行逻辑概述

run 函数整体可以分为三个阶段:

  1. 初始化阶段:准备运行所需的快照、调度器和 Raft 处理器。
  2. 主循环阶段:监听并处理日志应用、租约管理和错误。
  3. 清理阶段:释放资源,确保服务器安全退出。

设计亮点

  1. 高效调度:通过 FIFOScheduler 和异步任务管理,提升并发性能。
  2. 模块化设计:不同任务(日志、租约等)分离处理,职责清晰。
  3. 容错机制:详细的错误记录和退出逻辑,增强了系统稳定性。

EtcdServer.run 是 etcd 实现高可用、高性能的核心,理解其设计对掌握分布式系统的运行机制具有重要意义。


网站公告

今日签到

点亮在社区的每一天
去签到