Skip to content

Commit a34cf30

Browse files
committed
add blog, sre 2025
1 parent 1438ad3 commit a34cf30

File tree

8 files changed

+83
-17
lines changed

8 files changed

+83
-17
lines changed
Binary file not shown.
1.33 MB
Loading
Lines changed: 80 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -1,29 +1,100 @@
11
---
22
title: "解读SRE行业2025调查报告"
33
linkTitle: "解读SRE行业2025调查报告"
4-
date: 2025-12-08
4+
date: 2025-12-09
55
description: >
66
这份报告是Catchpoint公司发布的第七版SRE(站点可靠性工程)行业调查报告,旨在探讨如何提升系统的可靠性与韧性。你可以把它看作是一份关于“如何让网站和应用更稳定、更快、更不容易宕机”的行业趋势报告。...
77
author: xiaoping378
88
resources:
99
- src: "**.{png,jpg}"
1010
title: "Image #:counter"
1111
params:
12-
byline: "Pics: xiaoping378 / CC-BY-CA"
12+
byline: "来源:The SRE Report 2025, Catchpoint"
1313
---
1414

15-
报告揭示了几个核心趋势,我用大白话来解释一下
15+
## 报告统计源说明
1616

17-
## 慢即宕机(Slow is the New Down)
17+
报告所依据的SRE调查,是从2024年7月开始,花了6周的时间,收到来自全球各地、涵盖各类可靠性岗位及职级的301份**有效**回复。
1818

19-
现在大家觉得,一个服务速度极慢和完全宕机的危害一样大。想象一下,网购时页面转圈十几秒才加载出来,你很可能就直接关掉走人了。所以,性能好坏直接关系到用户体验和业务收入
19+
调查者大部分源自美欧中,国内有墙的情况下,还能有这等占比,其实中国占比很高了
2020

21-
{{< imgproc SRE-2025-report-2025-12-08 Fill "600x600" >}}
22-
慢即是宕机,是因为****,而不是**宕机**
21+
{{< imgproc global-site Fill "1100x600" >}}
22+
全球地域分布情况
2323
{{< /imgproc >}}
2424

25-
性能优化,首屏响应之类的词汇,一直都在业内有讨论,这里将其上升到`宕机`的危害程度,调查中可见也有53%的人员认可这一说法,另一个有意思的是,44%人认为应该把这一指标作为SLO目标。
25+
其中企业分类性质的占比如下:
26+
{{< imgproc qiye-zhanbi Fill "400x400" >}}
27+
企业类型占比
28+
{{< /imgproc >}}
29+
30+
- 40%,技术平台或“即服务”提供商,(钉钉或者Salesforce这类)
31+
- 19%,其他(制造业、医疗等)
32+
- 17%,金融服务
33+
- 11%,零售/电子商务
34+
- 11%,大型集团:跨多个领域运营
35+
- 10%,高等教育
36+
- 7%,政府
37+
38+
公司规模占比,上千人的公司占比超过51%。
39+
{{< imgproc qiye-guimo Fill "1100x250" >}}
40+
企业规模占比
41+
{{< /imgproc >}}
42+
43+
## 趋势观点
44+
45+
报告揭示了几个核心趋势,我结合自身经历用大白话来解释一下
2646

27-
> `SLO目标`:SLO(Service Level Objective,服务水平目标)​ 简单来说,就是你为一项服务设定的、可量化的可靠性目标。它不是一个简单的“保证系统> 不宕机”的承诺,而是一个具体、可测量的指标,用于明确回答:“对用户而言,这个服务怎样才算是‘足够好’?”
47+
### 慢即宕机(Slow is the New Down)
48+
49+
这个观点讲的是,一个服务响应很慢和完全宕机的危害一样大。想象一下,在网购时页面转圈十几秒才加载出来,你很可能就直接关掉走人了。所以,性能好坏直接关系到用户体验和业务收入。
50+
51+
性能优化,首屏响应之类的词汇,其实在国内也早有相应的需求讨论,这里将其上升到了`宕机`的危害程度,调查中也有53%的人认可这一说法,另一个有意思的是,44%人认为还应该把这一指标作为SLO目标。
52+
53+
>**SLO目标**:SLO(Service Level Objective,服务水平目标)​ 简单来说,就是你为一项服务设定的、可量化的可靠性目标。它不再是以往被动运维的底线保障思维,如保障系统可用性几个9的承诺,而是一个具体、可测量的指标,用于明确回答:“对用户而言,这个服务怎样才算是‘真好用’”
2854
> 例如,一个视频流服务的SLO可以是:“99.9%的用户请求应在1秒内得到成功响应。”
55+
> 类似的还有,首页网页加载时间小与200ms
56+
57+
>这里面,其实是SRE运维关注点,从应用可用性到好用的转变。从慢即是宕机的观点出发,优化影响SLO指标,也可算是为SRE技术人员绩效评定的一个补充。因为>SLO提升了多少,是比较容易讲清楚,带了更多的业务收益价值。
58+
59+
当下,判断一个应用服务是“慢到难以忍受”还是“完全不可用”,两者之间的界限不是很重要。无论是用户因页面卡顿而放弃支付购物车中的商品,还是分布式系统(微服务)因响应超时而触发故障转移,其最终结果是一致的——服务实质上已经失效了。
60+
61+
这一点其实在实践过微服务、云原生架构的人,应该也关注到了,比如要:
62+
63+
- 解耦架构:将同步的实时处理与异步的后台任务分离,避免非关键路径拖慢核心用户体验;
64+
- 韧性降级:在资源紧张或负载过高时,弹性缩减非核心功能,以保障基础服务可用,而非直接崩溃。
65+
66+
同样也影响了处理数据IO的思路:
67+
68+
- 通过预计算、多级缓存和高效索引,加速高频访问路径;
69+
- 从磁盘 I/O、内存管理、CPU 计算到网络传输,每一层都致力于最小化延迟,确保数据流经最小路由跳数就可达目的地。
70+
71+
运维理念也在随之演进。过去那种“通/断”二元判断的简单监控已跟不上发展,取而代之的是以响应时间、错误率、流量、饱和度为核心的立体化可观测体系,不仅关注“是否运行”,更关注“运行得如何”。
72+
73+
构建的复杂分布式系统,不仅要“能跑通”,更要“跑得快、跑得稳”,在可预期的时间窗口内交付结果,为用户(以及依赖它的其他系统)提供一致且可靠的服务体验。
74+
75+
所以现在SLO(服务水平目标)的价值会越来越重要。可能国内不常讲SLO这个词儿,但和另一个“可观测”的词儿,背后的思想目标是一致的。这不是说在盲目追求技术名词潮流,反而是因为它更能反映“高质量服务”的真实含义:企业也能据此设定明确的性能基准,持续优化达成情况。
76+
77+
在这个时代,“在线”已远远不够——快速、稳定、可预测,才是服务合格的真正底线。毕竟,慢,本身就是一种故障。
78+
79+
### 其他观点
80+
81+
- 运维的杂事儿(Toil)因为AI的接入,反而呈现变多的趋势。
82+
- 尽管AI被寄予厚望,但实际数据显示工程师花在重复性、手动性任务上的时间反而增加。
83+
- 可能原因:AI系统本身带来新的运维负担(如模型维护、GPU集群管理),或节省的时间被填入更多琐事。
84+
- 需求上线deadline迫近与系统可靠性的取舍
85+
- 越是面临上线压力的项目,越容易频繁降低可靠性的优先级。
86+
- 虽然多数公司声称OKR清晰、重视可靠性,但在实践中仍常被迫“牺牲可靠性保交付”。
87+
- 单一监控面板,还是多工具之痛
88+
- 多数企业使用2–10种可观测性工具,这并非问题,关键在于价值是否大于成本
89+
- “工具泛滥”不是数量问题,而是是否获得足够、可操作的观测数据;盲目追求“一个面板”可能适得其反。
90+
- 通往精通还是痛苦的再学习之路
91+
- 技术培训(尤其是AI相关)需求普遍,但缺乏时间是最大障碍。
92+
- 管理层与一线工程师在学习偏好(如线上 vs 线下)上存在分歧,需更灵活的培训策略。
93+
- 事故不是会不会发生,而是何时发生
94+
- 事故频发(40%受访者每月处理1–5起),已成为常态。
95+
- 事故后的心理压力、支持不足、复盘机制缺失等问题同样值得关注。
96+
- 承认差距,才能弥补差距
97+
- 指出 技术团队与业务管理层之间存在认知鸿沟:对可靠性实践的理解和评价存在显著差异。
98+
- 呼吁建立透明沟通机制,确保可靠性目标与业务成果对齐。
2999

100+
后续看情况展开聊聊,关注公众号“现代技能栈”,回复“SRE2025” ,可获取行业报告原文。
16.8 KB
Loading
19 KB
Loading

content/docs/1-Site/4-tutorial2.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -3,7 +3,7 @@ title: "该主题的Markdown特色语法"
33
date: 2017-01-05
44
weight: 4
55
description: >
6-
docsy主题中Markdown的常见语法样例展示.
6+
docsy主题中特色的语法和Markdown中常见语法样例展示.
77
---
88

99
{{% pageinfo %}}

content/docs/7-AI/20-agent-bisheng.md

Lines changed: 2 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -2,11 +2,8 @@
22
tags:
33
- AI
44
title: Agent智能体开发平台-BiSheng
5-
linkTitle: Agent智能体开发平台
5+
linkTitle: Agent智能体开发平台-BiSheng
66
weight: 20
7-
description: 快速搭建私有MaaS平台并提供生产级的模型服务
7+
description: 开源智能体开发平台BiSheng的架构分析与使用
88
---
99

10-
# MaaS服务-强悍的gpustack介绍
11-
快速搭建私有MaaS平台并提供生产级的模型服务
12-

content/docs/7-AI/扫盲篇.md

Lines changed: 0 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -211,5 +211,3 @@ print(response)
211211
希望通过以上内容,可以帮助大家系统掌握大模型应用开发的全链路要点,从模型获取到技术落地均有实用参考,推荐实践后,再根据兴趣/需求重点拓展跟进文章开头提到的十大热点领域。
212212

213213
> 本文有一些背景认知没有交代(于我个人算是门外汉的学习答疑总结),欢迎大家提出改进意见,一起学习,共创新价值。
214-
215-
作者:许小平

0 commit comments

Comments
 (0)