Phi Accrual Failure Detector algorithm 101

前言

在现代分布式系统中，节点失效检测是系统容错能力的基石。简单的“超时判断”往往无法应对真实网络环境中的延迟波动、抖动等问题，于是更加智能化的失效检测算法应运而生。其中，Phi Accrual Failure Detector（Φ 累积失败探测器） 是被广泛应用的一种算法，如 Cassandra、Akka、Etcd 等系统都基于它构建健康检查机制。

定义

Wiki 并无专门定义，论文定义如下（由 Hayashibara et al. 于 2004 年提出）：

“The Phi Accrual Failure Detector outputs a suspicion level (φ) instead of a binary signal, based on the statistical distribution of inter-arrival times of heartbeat messages.”

简化一句话：Φ 探测器不是简单判定节点“是否失败”，而是给出一个概率化的失败“可疑度”。

工作原理

一句话：通过统计心跳到达的历史分布，计算当前时刻某节点“看起来失败”的概率级别（Φ 值），再与设定阈值比较判断是否失败。

工作流程如下：

每个节点周期性发送心跳（heartbeat）；
接收方记录每次心跳的到达时间，并计算“心跳间隔时间分布”；
某时刻若心跳未如预期到达，计算 Φ 值：
- Φ(t) = –log₁₀(P)，其中 P 是当前时刻“心跳还没到达”的概率；
若 Φ 超过阈值（如 8），即认为对方“可能失败”。

Φ 值越大，说明“当前没有收到心跳”这件事越不寻常，从而“失败”可能性越大。

属性与指标

Φ 探测器关注的关键属性包括：

心跳频率 心跳发送周期越短，检测粒度越细，但开销越高。
历史窗口长度 用于统计心跳到达间隔的样本窗口，影响准确性与敏感度。
Φ 阈值（一般为 8） Φ 超过该值即认定为失败，阈值设置影响容错性与误判率。
误判率 vs 检测延迟 Φ 越敏感，故障越快被检测，但误判率也更高；反之亦然。
抗网络抖动能力 由于基于统计分布建模，相较固定超时机制对抖动更鲁棒。

类型

Φ 探测器属于 Accrual Failure Detector（累积型失败探测器）的一种，特点如下：

类型	输出值	示例算法
Binary	UP / DOWN	Fixed timeout
Accrual	数值（如 φ）	Phi Accrual, Adaptive

相比传统的 fixed-timeout 机制，Φ 探测器提供的是“失败可能性评估”，而非二元判断。

Φ 探测器与程序关系

Φ 探测器常用于以下系统模块中：

分布式数据库（如 Cassandra）用于判定节点是否可参与副本写入或查询。
服务发现与注册中心（如 Eureka、Consul）健康检查机制可基于 Φ 来减少误判。
集群调度器/仲裁系统（如 Akka、Etcd）节点 Leader 判断、投票权赋予均依赖可靠的存活判断。
Gossip 协议节点状态传播 Gossip 协议中常配合 Φ 检测得出节点状态，再广播传播。

常见实现与使用系统

系统/框架	使用情况
Cassandra	Gossip + Φ 失效探测
Akka	Cluster 节点健康状态评估
Etcd	领导者故障判断
Amazon Dynamo	概念雏形由其论文提出
Hazelcast	用于成员生命周期管理

总结

Phi Accrual Failure Detector 提供了一种概率化、动态自适应的失效判断方式，在真实网络环境中相较传统超时机制更具韧性和实用性。通过输出“可疑程度”而非简单状态，为复杂分布式系统提供了更精细化的容错机制。

文章目录

前言

定义

工作原理

属性与指标

类型

Φ 探测器与程序关系

常见实现与使用系统

总结