软件可靠性失效严重程度分类与深度解析

发布于:2025-09-10 ⋅ 阅读:(17) ⋅ 点赞:(0)

目录

一、为什么要分级(What & Why)

二、分级维度(看什么)

三、通用 5 级严重度分级表

四、与成本影响的量化对齐(怎么“数”)

五、与系统能力的对齐

六、风险矩阵与优先级(Severity×Likelihood)

七、测试与发布策略联动(按严重度差异化投入)

八、度量与看板(让改进可见)

九、面向物联网/智能安防实例

十、落地流程


一、为什么要分级(What & Why)

失效严重程度(Severity)描述的是:一旦发生失效,其后果有多严重(与发生概率无关)。 用途:

  • 统一“多严重”的语言,指导测试力度、发布闸口、应急响应级别;

  • 驱动工程资源分配(高 S 缺陷优先修复),并与可靠性指标、SLA/SLO 对齐;

  • 为风险评估矩阵(Severity × Likelihood)和 FMEA/RPN 提供输入。

切记:Severity ≠ Priority。Priority(处理优先级)还会考虑发生概率、客户关系、可替代方案等要素。


二、分级维度(看什么)

核心两维:

  1. 成本影响(Cost Impact):直/间接损失(营收、赔付、罚款、人工/机会成本、品牌舆情)。

  2. 系统能力影响(Capability Impact):系统是否还能提供核心能力、是否退化、受影响范围与持续时间。

常见补充维度(建议纳入判定卡):

  • 安全与合规:人身/财产安全、隐私泄露、监管处罚风险;

  • 数据层面:数据损坏/丢失/不可逆一致性破坏;

  • 可用性与性能:停机、明显降级、SLO 违约;

  • 影响范围:所有用户/区域/单租户/小范围;

  • 持续时间:瞬时/分钟/小时/天;

  • 可替代性:是否有应急绕行或降级方案。


三、通用 5 级严重度分级表

可直接用于需求、缺陷、事件分级;阈值请结合你的业务标定。

级别 名称 系统能力影响 成本/合规 数据与安全 典型阈值(示例,可调整)
S1 灾难级 Catastrophic 核心能力全面不可用;影响全体/大多数用户;无法自愈 高额收入损失;重大违约/合规风险;品牌重大负面 不可逆的数据丢失/泄露;人身/财产安全风险 受影响用户 ≥ 30% 或关键交易成功率 < 50% 持续 ≥ 30 min
S2 严重级 Critical 核心路径严重退化或关键区域不可用;影响大范围 显著收入损失;潜在合规风险;客户大量投诉 可能数据不一致,但可修复;无明确安全事件 受影响用户 10–30% 或关键交易成功率 < 90% 持续 ≥ 30 min
S3 重要级 Major 非核心/部分核心功能不可用或明显降级;中等范围 间接损失;支持成本上升 低概率数据不一致,可回滚/校正 受影响用户 1–10% 或性能退化(P95 延时↑>50%)持续 ≥ 1 h
S4 次要级 Minor 局部功能异常,有替代路径;小范围 轻微影响;少量投诉 无数据破坏;无安全风险 受影响用户 <1%,体验缺陷/边角问题
S5<

网站公告

今日签到

点亮在社区的每一天
去签到