AI Agent协作运维在新浪微博的落地与演进 -

一、宏观背景：运维复杂度越来越高

二、传统 AIOps 的建设

三、AI 体系建设：三大步与五个关键阶段

四、AI 基础能力建设——知识库

五、AI Agent 建设——代表性场景

六、场景实践详解

七、建设经验总结

八、AI + AIOps 能力分层总结

一、宏观背景：运维复杂度越来越高

图片

整体宏观背景：运维的复杂度正在不断攀升。

第一个背景是云原生与微服务的全面应用。容器化、服务编排、服务网格等技术的引入，让系统架构的复杂性急剧上升。服务从最初的几十个，现在已经增长到 3000 多个服务。

第二个背景是多云体系。既有公有云、私有云，还有边缘计算等，网络拓扑结构变得非常复杂。跨云环境下的监控、故障的精准定位，难度也大幅提升。

这些变化导致传统运维模式出现了明显的瓶颈：

报警风暴频发
故障排障效率低下
严重依赖个人经验

右边是新浪微博当前的服务规模数据：日活跃用户 2.5 亿+，请求量百亿级，在线服务数 3000+，监控项达到千万级。

在这种规模下，一旦出现故障，需要查询的监控系统和报警页面非常多。当前遵循业界通行的 “1、5、10保障策略“——1分钟发现问题，5分钟定位问题，10分钟解决问题。但在很多场景下，这个目标其实很难实现。

与此同时，各公司对服务保障的要求越来越高。老板在”1、5、10″的基础上，总是会问：能不能更优化？能不能做到 “1、3、5″？

二、传统 AIOps 的建设

图片

基于以上痛点，新浪微博开始升级传统的 AIOps。要升级，首先需要把多元数据进行统一。

先将指标数据、报警数据等六大类数据进行统一接入。只有数据全面且统一，上层的智能分析才能更准确、更有意义。

数据采集完成后，还需要进行数据清洗和质量校验——垃圾数据进来，垃圾数据出。只有高质量的数据，才能支撑准确的智能分析。

最后，将不同类型的数据分别落地到各自的存储仓库或实时计算引擎中，供智能算法在不同场景下调用。

右边是监控平台的架构图，主要包括：

实时指标仓库及相关系统
与研发共同建设的全链路压测系统（帮助更快定位问题）
可视化监控平台

图片

这是上一代 AIOps 中比较流行的做法。整体架构分为：

数据源层：通过Agent、API和消息队列等多种方式将数据接入
数据处理层：同时文档规则层，包括SOP、经验规则等非结构化或半结构化数据。
分析层：通过各类 AIOps 算法实现根因分析、异常检测、容量规划等
最上层：运维系统，如报警中心、监控大盘、自动化编排、自愈系统等

这个架构在过去几年确实支撑了微博的运维智能化转型，也取得了一定的效果。但随着业务规模和技术栈的持续演进，它的天花板也逐渐显现。

传统 AIOps 的收益与局限

图片

取得的收益：

平均修复时间（MTTR）降低
报警准确率提升
报警风暴治理有效减少
人工介入率降低

但局限性依然存在：

数据孤岛：日志原文、变更系统、代码发布工单、文档等，没有被充分利用
经验流失：专家经验随着人员离职或调岗流失，没有沉淀积累下来
人机交互门槛高：每个业务有各自的系统，查问题时需要翻阅大量页面
单点模型泛化能力弱：缺乏模型间的联动，面对新型故障或跨域问题时，单点模型往往力不从心

三、AI 体系建设：三大步与五个关键阶段

基于以上问题，微博启动了 AI 体系的建设，整体分为三大步、五个关键阶段。

图片

第一步：AI 辅助编程

随着公司推进代码辅助编程，运维团队与研发一同探索如何提升效率。从最初的运维脚本自动化编写，到后来的自动化工具构建、运维系统开发，现在都能用 AI辅助开发来提效。运维系统的部分核心模块的代码覆盖率已经接近 100%。

第二步：基础能力建设

同时构建了运维知识库，并将多年来积累的自动化平台和工具的能力，封装为 MCP 工具和 SKILL，作为基础能力来支撑上层的 AI Agent。

第三步：AI Agent 建设

将传统运维保障中的高频的场景，逐步建设成运维 AI Agent，最终形成运维工具矩阵，全面提升运维效率。

四、AI 基础能力建设——知识库

图片

在 AI 建设过程中发现：多年积累的运维经验、运维文档，是极其宝贵的财富。

于是建设了涵盖四个体系的知识库：

故障案例知识库
SOP 操作手册库
业务逻辑知识库
专家经验知识库

知识库能够降低运维沟通和学习成本，有助于互备和轮岗，减少服务保障的单点风险——有些服务变更不频繁、重要性不高，可能只有一个人兼任，存在单点隐患。

MCP 工具封装

图片

将研发与运维共同使用的 PaaS 平台、DCP 混合云平台（适配多云架构）以及各类运维系统，将其核心能力封装为 AI 可以理解和调用的 MCP 工具，支撑上层的 AI Agent。

同时，将运维 MCP 工具集成到公司级的 MCP 平台上，方便业务间互相调用，并设置了权限管理，防止误用或滥用。

五、AI Agent 建设——代表性场景

图片

AI Agent是建设的核心。下面列举几个已建设完成、较有代表性的场景：

1.全站热点事件分析（重点场景，后面有详细案例）

2.根因分析类场景

接口异常分析
刷站分析
客户端 Crash 分析
故障舆情分析

这些是微博传统的高频运维场景，AI 的引入大幅提升了工作效率——因为这些分析往往不是单一步骤就能搞定的。

3.业务运维助手

为每个业务建立了专属运维助手，可完成：

日常巡检
单机处置
扩容等常规场景

4.代码发布辅助

在核心或常规服务上线时，除了监控报警，还要检查日志是否有异常（不只是 4xx/5xx 等简单判断）。将这部分人工判断工作交给 AI，提升了运维效率。

六、场景实践详解

案例一：热点应对 AI Agent

图片

背景：

微博产品的用户最常用的场景就是”吃瓜”。一旦出现热点新闻，大量用户同时涌入访问，给服务带来巨大峰值。根据峰值下 QPS 的浮动定义热度等级。热点可能发生在凌晨、上下班路上，或者周末。

传统应对方式：

热度高时，值班人员可能接到多个电话。服务可能会有自动降级、自动扩容报警，但扩容不及时就会导致资源性能问题。此时还要搞清楚：流量为什么突然涨了？造成流量突增的原因？核心服务当前的流量情况如何？扩容是否及时？降级状况如何？网关兜底情况怎么样？

与此同时，运营同事会问：”能继续铺量吗？扛得住吗？”

传统模式下，虽然有各种自动化报警和通知，但还是需要人工去判断哪个是热点、当前情况如何。值班人员能力参差不齐时，就会影响判断，错过最佳应对时机。

AI Agent 方案：

Agent 自动收集数据、进行聚合分析，帮助判断：

当前热点是什么
流量趋势如何
关键时间节点
最后用大模型给出操作建议

这个自动化流程大幅缩短了响应时间——热点从出现到发酵的时间非常短，一旦错过就可能造成服务损伤。

实际案例展示（右侧）：

热点原因摘要：Agent 收集各类数据，分析出当前热度原因，生成摘要
流量特征分析：主要分析核心场景，输出流量特征、时间、流量趋势
全服务热度概览：包括其它等核心服务的流量、扩容、降级情况
起量时间校验：判断当前起量时间与铺量时间是否吻合，区分真实流量与刷站
操作建议：给出具体处置建议（后续计划将建议与处置动作关联，实现自动扩容、降级）

效果：用了 AI Agent 之后，分析热点不用拍、不用猜、不用等，直接给出结论，保障效率大幅提升。

案例二：根因分析——舆情分析

图片

背景：

微博用户有一个习惯——不太打客服电话或私信小秘书，而是直接在微博里发帖，比如”微博崩了””iOS 客户端异常””安卓客户端异常”，在话题下描述遇到的问题。

传统应对方式：

客服团队零零散散地收集这些反馈，找出共性问题，判断是偶发还是普遍情况，再交给运维人员分析，复杂的话还要拉上研发人员一起，整个过程比较慢。

AI Agent 方案：

建设 AI Agent 后，系统自动获取当前监控情况，同步分析客户端、网关、后端接口成功率，用多维特征下钻和数据锤子分析等手段，综合判断故障异常原因。

实时分析报告输出（右侧案例）：

舆情浏览情况与整体影响
影响的功能模块
用户投诉摘要
系统指标验证
根因分析
处理建议
自动关联工单系统、变更记录、代码发布

关键洞察：

绝大多数问题（90%以上）都是由变更引起的——没有变更就没有故障。业务庞大后，变更内容非常多，传统人工查看的方式很吃力，AI Agent 的方式效率更高。

案例三：客户端根因分析

图片

客户端问题是处理起来最麻烦的一类——端上日志既多又大，碎片化严重。

平均处理时间比前两个场景更长。基于 AI 分析流程，效率提升非常明显。右侧也展示了具体案例。

七、建设经验总结

1、AIOps 体系的整体建设平台

图片

AIOps 体系基于公司内部开发的 Wegent平台进行建设。在该平台上：

注册 MCP 工具
搭建自己的 AI Agent 产品
借助平台的 AI Agent API 能力（如 Crash 分析、流量突增诊断、代码 Review 等常规应用，在不改变传统运维习惯的情况下，也能享受 AI 赋能
利用平台的多 Agent 系统编排能力，将单一 Agent 组合成复杂工作流，提升运维效率

2、建设心得与思考

图片

经验一：不必所有场景都用大模型

在建设过程中发现：有的场景无论从效率还是成本角度，并不是必须用大模型。用 AI 去优化自动化策略，反而更高效、更节约成本。

于是内部提出了 “AI 增强机制”——不需要大模型的场景就优化掉。

经验二：数据清洗与成本控制

只给 AI Agent 传递必要的数据，避免成本浪费。

经验三：人机协同应对幻觉

涉及破坏性操作时，引入人机协同机制，增加确认环节，确保安全。目前还在逐步推进中。

经验四：小模型辅助

一些小规模的运维数据标注任务，使用小模型来处理，既提升效率，又节约成本。

八、AI + AIOps 能力分层总结

图片

整体上，AI + AIOps 能力分为三层：

第一层：AI 辅助开发，提升运维开发效率
第二层：知识库 + MCP 工具 + API 体系，作为 AI 的基础能力底座
第三层：AI Agent 辅助决策 + AI 辅助增强

作者介绍

马朕，新浪微博研发中心基础平台负责人，负责新浪微博DevOps、SRE和AIOps等方向工作，参与微博热点流量应对体系、DCP混合云平台、PaaS平台、AIOps运维体系的创立与建设。

文章来自：51CTO

AI Agent协作运维在新浪微博的落地与演进

作者yinhua

一、宏观背景：运维复杂度越来越高

二、传统 AIOps 的建设

传统 AIOps 的收益与局限

三、AI 体系建设：三大步与五个关键阶段

第一步：AI 辅助编程

第二步：基础能力建设

第三步：AI Agent 建设

四、AI 基础能力建设——知识库

MCP 工具封装

五、AI Agent 建设——代表性场景

六、场景实践详解

案例一：热点应对 AI Agent

案例二：根因分析——舆情分析

案例三：客户端根因分析

七、建设经验总结

1、AIOps 体系的整体建设平台

2、建设心得与思考

八、AI + AIOps 能力分层总结

作者介绍

作者 yinhua

相关文章

AI 应用将拥有观点！硅谷巨头CEO：模型能力过剩了，真正的护城河是记忆与上下文！FDE是产品不成熟的代名词

AI落地成功的关键：走人机协同路线，而非单纯替代员工

一夜之间，Claude成我同事了

发表回复取消回复

您错过的

AI Agent协作运维在新浪微博的落地与演进

AI 应用将拥有观点！硅谷巨头CEO：模型能力过剩了，真正的护城河是记忆与上下文！FDE是产品不成熟的代名词

AI落地成功的关键：走人机协同路线，而非单纯替代员工

一夜之间，Claude成我同事了

作者yinhua

一、宏观背景：运维复杂度越来越高

二、传统 AIOps 的建设

传统 AIOps 的收益与局限

三、AI 体系建设：三大步与五个关键阶段

第一步：AI 辅助编程

第二步：基础能力建设

第三步：AI Agent 建设

四、AI 基础能力建设——知识库

MCP 工具封装

五、AI Agent 建设——代表性场景

六、场景实践详解

案例一：热点应对 AI Agent

案例二：根因分析——舆情分析

案例三：客户端根因分析

七、建设经验总结

1、AIOps 体系的整体建设平台

2、建设心得与思考

八、AI + AIOps 能力分层总结

作者介绍

作者 yinhua

相关文章

发表回复 取消回复

您错过的

发表回复取消回复