xiaoping378
diff --git a/‎content/blog/hot-point/2025-SRE/SRE-2025-report-2025-12-08-15-18-02.png‎
-29.5 KB b/‎content/blog/hot-point/2025-SRE/SRE-2025-report-2025-12-08-15-18-02.png‎
-29.5 KB
diff --git a/‎content/blog/hot-point/2025-SRE/global-site.png‎
1.33 MB b/‎content/blog/hot-point/2025-SRE/global-site.png‎
1.33 MB
diff --git a/‎content/blog/hot-point/2025-SRE/index.md‎
Lines changed: 80 additions & 9 deletions b/‎content/blog/hot-point/2025-SRE/index.md‎
Lines changed: 80 additions & 9 deletions
diff --git a/‎content/blog/hot-point/2025-SRE/qiye-guimo.png‎
16.8 KB b/‎content/blog/hot-point/2025-SRE/qiye-guimo.png‎
16.8 KB
diff --git a/‎content/blog/hot-point/2025-SRE/qiye-zhanbi.png‎
19 KB b/‎content/blog/hot-point/2025-SRE/qiye-zhanbi.png‎
19 KB
diff --git a/‎content/docs/1-Site/4-tutorial2.md‎
Lines changed: 1 addition & 1 deletion b/‎content/docs/1-Site/4-tutorial2.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎content/docs/7-AI/20-agent-bisheng.md‎
Lines changed: 2 additions & 5 deletions b/‎content/docs/7-AI/20-agent-bisheng.md‎
Lines changed: 2 additions & 5 deletions
diff --git a/‎content/docs/7-AI/扫盲篇.md‎
Lines changed: 0 additions & 2 deletions b/‎content/docs/7-AI/扫盲篇.md‎
Lines changed: 0 additions & 2 deletions
@@ -1,29 +1,100 @@
 ---
 title: "解读SRE行业2025调查报告"
 linkTitle: "解读SRE行业2025调查报告"
-date: 2025-12-08
+date: 2025-12-09
 description: >
   这份报告是Catchpoint公司发布的第七版SRE（站点可靠性工程）行业调查报告，旨在探讨如何提升系统的可靠性与韧性。你可以把它看作是一份关于“如何让网站和应用更稳定、更快、更不容易宕机”的行业趋势报告。...
 author: xiaoping378
 resources:
 - src: "**.{png,jpg}"
   title: "Image #:counter"
   params:
-    byline: "Pics: xiaoping378 / CC-BY-CA"
+    byline: "来源：The SRE Report 2025, Catchpoint"
 ---
 
-报告揭示了几个核心趋势，我用大白话来解释一下
+## 报告统计源说明
 
-## 慢即宕机（Slow is the New Down）
+报告所依据的SRE调查，是从2024年7月开始，花了6周的时间，收到来自全球各地、涵盖各类可靠性岗位及职级的301份**有效**回复。
 
-现在大家觉得，一个服务速度极慢和完全宕机的危害一样大。想象一下，网购时页面转圈十几秒才加载出来，你很可能就直接关掉走人了。所以，性能好坏直接关系到用户体验和业务收入。
+调查者大部分源自美欧中，国内有墙的情况下，还能有这等占比，其实中国占比很高了。
 
-{{< imgproc SRE-2025-report-2025-12-08 Fill "600x600" >}}
-慢即是宕机，是因为**慢**，而不是**宕机**。
+{{< imgproc global-site Fill "1100x600" >}}
+全球地域分布情况
 {{< /imgproc >}}
 
-性能优化，首屏响应之类的词汇，一直都在业内有讨论，这里将其上升到`宕机`的危害程度，调查中可见也有53%的人员认可这一说法，另一个有意思的是，44%人认为应该把这一指标作为SLO目标。
+其中企业分类性质的占比如下：
+{{< imgproc qiye-zhanbi Fill "400x400" >}}
+企业类型占比
+{{< /imgproc >}}
+
+- 40%，技术平台或“即服务”提供商，(钉钉或者Salesforce这类) 
+- 19%，其他（制造业、医疗等）
+- 17%，金融服务
+- 11%，零售/电子商务
+- 11%，大型集团：跨多个领域运营
+- 10%，高等教育
+- 7%，政府
+
+公司规模占比，上千人的公司占比超过51%。
+{{< imgproc qiye-guimo Fill "1100x250" >}}
+企业规模占比
+{{< /imgproc >}}
+
+## 趋势观点
+
+报告揭示了几个核心趋势，我结合自身经历用大白话来解释一下
 
-> `SLO目标`：SLO（Service Level Objective，服务水平目标） 简单来说，就是你为一项服务设定的、可量化的可靠性目标。它不是一个简单的“保证系统> 不宕机”的承诺，而是一个具体、可测量的指标，用于明确回答：“对用户而言，这个服务怎样才算是‘足够好’？”
+### 慢即宕机（Slow is the New Down）
+
+这个观点讲的是，一个服务响应很慢和完全宕机的危害一样大。想象一下，在网购时页面转圈十几秒才加载出来，你很可能就直接关掉走人了。所以，性能好坏直接关系到用户体验和业务收入。
+
+性能优化，首屏响应之类的词汇，其实在国内也早有相应的需求讨论，这里将其上升到了`宕机`的危害程度，调查中也有53%的人认可这一说法，另一个有意思的是，44%人认为还应该把这一指标作为SLO目标。
+
+>**SLO目标**：SLO（Service Level Objective，服务水平目标） 简单来说，就是你为一项服务设定的、可量化的可靠性目标。它不再是以往被动运维的底线保障思维，如保障系统可用性几个9的承诺，而是一个具体、可测量的指标，用于明确回答：“对用户而言，这个服务怎样才算是‘真好用’”
 > 例如，一个视频流服务的SLO可以是：“99.9%的用户请求应在1秒内得到成功响应。”
+> 类似的还有，首页网页加载时间小与200ms
+
+>这里面，其实是SRE运维关注点，从应用可用性到好用的转变。从慢即是宕机的观点出发，优化影响SLO指标，也可算是为SRE技术人员绩效评定的一个补充。因为>SLO提升了多少，是比较容易讲清楚，带了更多的业务收益价值。
+
+当下，判断一个应用服务是“慢到难以忍受”还是“完全不可用”，两者之间的界限不是很重要。无论是用户因页面卡顿而放弃支付购物车中的商品，还是分布式系统（微服务）因响应超时而触发故障转移，其最终结果是一致的——服务实质上已经失效了。
+
+这一点其实在实践过微服务、云原生架构的人，应该也关注到了，比如要：
+
+- 解耦架构：将同步的实时处理与异步的后台任务分离，避免非关键路径拖慢核心用户体验；
+- 韧性降级：在资源紧张或负载过高时，弹性缩减非核心功能，以保障基础服务可用，而非直接崩溃。
+
+同样也影响了处理数据IO的思路：
+
+- 通过预计算、多级缓存和高效索引，加速高频访问路径；
+- 从磁盘 I/O、内存管理、CPU 计算到网络传输，每一层都致力于最小化延迟，确保数据流经最小路由跳数就可达目的地。
+
+运维理念也在随之演进。过去那种“通/断”二元判断的简单监控已跟不上发展，取而代之的是以响应时间、错误率、流量、饱和度为核心的立体化可观测体系，不仅关注“是否运行”，更关注“运行得如何”。
+
+构建的复杂分布式系统，不仅要“能跑通”，更要“跑得快、跑得稳”，在可预期的时间窗口内交付结果，为用户（以及依赖它的其他系统）提供一致且可靠的服务体验。
+
+所以现在SLO（服务水平目标）的价值会越来越重要。可能国内不常讲SLO这个词儿，但和另一个“可观测”的词儿，背后的思想目标是一致的。这不是说在盲目追求技术名词潮流，反而是因为它更能反映“高质量服务”的真实含义：企业也能据此设定明确的性能基准，持续优化达成情况。
+
+在这个时代，“在线”已远远不够——快速、稳定、可预测，才是服务合格的真正底线。毕竟，慢，本身就是一种故障。
+
+### 其他观点
+
+- 运维的杂事儿（Toil）因为AI的接入，反而呈现变多的趋势。
+  - 尽管AI被寄予厚望，但实际数据显示工程师花在重复性、手动性任务上的时间反而增加。
+  - 可能原因：AI系统本身带来新的运维负担（如模型维护、GPU集群管理），或节省的时间被填入更多琐事。
+- 需求上线deadline迫近与系统可靠性的取舍
+  - 越是面临上线压力的项目，越容易频繁降低可靠性的优先级。
+  - 虽然多数公司声称OKR清晰、重视可靠性，但在实践中仍常被迫“牺牲可靠性保交付”。
+- 单一监控面板，还是多工具之痛
+  - 多数企业使用2–10种可观测性工具，这并非问题，关键在于价值是否大于成本
+  - “工具泛滥”不是数量问题，而是是否获得足够、可操作的观测数据；盲目追求“一个面板”可能适得其反。
+- 通往精通还是痛苦的再学习之路
+  - 技术培训（尤其是AI相关）需求普遍，但缺乏时间是最大障碍。
+  - 管理层与一线工程师在学习偏好（如线上 vs 线下）上存在分歧，需更灵活的培训策略。
+- 事故不是会不会发生，而是何时发生
+  - 事故频发（40%受访者每月处理1–5起），已成为常态。
+  - 事故后的心理压力、支持不足、复盘机制缺失等问题同样值得关注。
+- 承认差距，才能弥补差距
+  - 指出 技术团队与业务管理层之间存在认知鸿沟：对可靠性实践的理解和评价存在显著差异。
+  - 呼吁建立透明沟通机制，确保可靠性目标与业务成果对齐。
 
+后续看情况展开聊聊，关注公众号“现代技能栈”，回复“SRE2025” ，可获取行业报告原文。
@@ -3,7 +3,7 @@ title: "该主题的Markdown特色语法"
 date: 2017-01-05
 weight: 4
 description: >
-  docsy主题中Markdown的常见语法样例展示.
+  docsy主题中特色的语法和Markdown中常见语法样例展示.
 ---
 
 {{% pageinfo %}}
 
@@ -2,11 +2,8 @@
 tags:
   - AI
 title: Agent智能体开发平台-BiSheng
-linkTitle: Agent智能体开发平台
+linkTitle: Agent智能体开发平台-BiSheng
 weight: 20
-description: 快速搭建私有MaaS平台并提供生产级的模型服务
+description: 开源智能体开发平台BiSheng的架构分析与使用
 ---
 
-# MaaS服务-强悍的gpustack介绍
-快速搭建私有MaaS平台并提供生产级的模型服务
-
@@ -211,5 +211,3 @@ print(response)
 希望通过以上内容，可以帮助大家系统掌握大模型应用开发的全链路要点，从模型获取到技术落地均有实用参考，推荐实践后，再根据兴趣/需求重点拓展跟进文章开头提到的十大热点领域。
 
 > 本文有一些背景认知没有交代(于我个人算是门外汉的学习答疑总结)，欢迎大家提出改进意见，一起学习，共创新价值。
-
-作者：许小平