服务等级目标翻译问题
你定义了一个服务等级目标:可用性为 99.95%,且百分之九十九延迟低于 200 毫秒。工程师们很喜欢它,但产品经理却听得云里雾里。
问题不在于服务等级目标本身,而在于我们如何传达它。
使用产品语言沟通
将技术性的服务等级目标转化为业务影响:
技术性服务等级目标: 产品侧翻译:
─────────────── ──────────────────────
99.95% 可用性 “每月最多停机 22 分钟”
百分之九十九延迟 < 200 毫秒 “最慢的 1% 用户等待时间低于 0.2 秒”
99.9% 无错误交易 “每 1000 次购买中,最多有 1 次失败”
突然间,产品经理就能做出明智的权衡决策了。
服务等级目标协商框架
服务等级目标应由工程团队与产品团队共同协商确定。以下是我的框架:
第一步:衡量当前性能
def 当前性能(服务, 窗口天数=30):
指标 = 查询普罗米修斯(f'''
avg_over_time(
(1 - rate(http_errors_total{{service="{服务}"}}[5m])
/ rate(http_requests_total{{service="{服务}"}}[5m]))
[{窗口天数}d:1h]
)
''')
return {
'可用性': f"{指标 * 100:.3f}%",
'每月停机分钟数': round((1 - 指标) * 30 * 24 * 60, 1)
}
# 示例输出:
# {'可用性': '99.847%', '每月停机分钟数': 66.1}
第二步:呈现成本与可靠性的权衡
可靠性级别 | 每月停机时间 | 工程投入 | 对功能的影响
────────────────-─┼─────────────────┼────────────────-┼──────────────
99.5% (当前) | 3.6 小时 | 基准 | 无
99.9% (良好) | 43 分钟 | +1 名站点可靠性工程师
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。