Fencing 101

前言

在分布式系统中，我们常用 Lease（租约） 控制某个节点对资源的独占访问。然而，当网络分区或节点故障后，“过期”节点仍可能持有旧的访问权限并发起非法写入，这就引入了一个严重问题：脑裂（Split Brain）写入。

为防止这种情况发生，Fencing（防越权机制） 被设计出来，作为 lease 的“护城河”，保障系统一致性与安全性。

wiki 上未直接定义 fencing，但在分布式系统设计中，fencing 常被定义为：

Fencing is a mechanism to prevent outdated or unauthorized nodes from accessing a resource after their lease has expired or ownership has changed.

一句话：Fencing 是一种防止“过期节点”继续访问资源的保护机制。

一句话：每次 lease 分配时生成一个递增的版本号，只有持有最新 fencing token 的节点才能访问资源。

典型流程如下：

此机制不依赖时钟同步，天然抗网络分区，是解决“旧节点写穿”问题的关键。

关注的 fencing 属性与指标如下：

程序中使用 fencing 的方式通常如下：

编程实践要点：

etcd + fencing token etcd 事务 revision 号可作为 fencing token，天然递增。
Zookeeper + 顺序节点 通过顺序 ephemeral node 实现 fencing，最小序号即为持有者。
HDFS + fencing script Secondary NameNode 激活前执行 fencing 脚本（如强制 unmount）。
Kubernetes Lease API + fencing controller-manager 使用 fencing 确保只有最新 leader 可操作资源。
Google Chubby Lock Service 分配 lock ID 作为 fencing token，用于保证唯一写者。