2025 年 AI 编程报告出炉：开发者效率暴涨 76%，但背后藏着你不知道的真相 -

Greptile 最近发布了一份 2025 年 AI 编程状况报告，里面有个数字特别扎眼：从今年 3 月到 11 月，开发者的人均代码产出增长了 76%，从 4450 行直接跳到 7839 行。

这个增长速度，放在软件开发史上看，真的很夸张。过去几十年，开发工具的进化，从命令行到 IDE，从版本控制到持续集成，每一次工具升级带来的效率提升，可能也就 10%到 20%。但 AI 编程工具，一年时间就把这个数字拉到了 76%。

不过，这份报告真正有意思的地方，不只是这个数字本身，更在于它揭示的整个 AI 编程生态的变化。我们一点点往下看。

产出暴涨的背后，代码在变厚

除了人均代码量增长 76%，报告还给出了几个配套数据：

PR 的规模增加了 33%，从平均 57 行改动涨到 76 行。单个文件的修改行数也增加了 20%，从 18 行涨到 22 行。中型团队（6 到 15 人）的产出增长最明显，涨了 89%，从人均 7005 行涨到 13227 行。

这几个数字放一起看，能看出一个趋势：开发者在做更大的改动。

以前写代码，可能习惯小步快跑，一个 PR 解决一个小问题，几十行代码搞定。但有了 AI 工具，开发者开始敢做更大的重构，一次性处理更复杂的功能。

这其实是个双刃剑。好处是效率确实上去了，很多以前要拆成好几个任务的活，现在一口气就能干完。但坏处是，PR 变大之后，代码审查的难度也跟着上去了。以前看个几十行的代码，十分钟能过一遍；现在一个 PR 上百行，可能得花半小时甚至更久。

而且，代码越密集，出错的概率也越大。AI 能帮你写代码，但它不一定能保证每一行都是对的。当你一次性提交上百行改动，里面可能藏着几个不容易发现的 bug。

所以效率的提升，其实是在考验团队的其他能力。代码审查能不能跟上？测试覆盖能不能保证质量？这些都是新的挑战。

AI 编程工具的生态格局

报告的第二部分，详细列举了当前 AI 编程工具的市场格局。这部分挺有意思，因为它反映了开发者到底在用什么工具。

先说 AI 内存管理。mem0 占了 59%的市场份额，基本上是这个领域的主导者。AI 内存管理是个相对新的概念，简单说就是让 AI 能记住你之前说过的话，做过的事，不用每次都从头开始。这个功能在编程场景特别重要，因为你可能在一个项目里反复调用 AI，如果它每次都不记得上下文，体验会很糟糕。

向量数据库的情况就复杂多了。Weaviate 领先，占了 25%的份额，但后面还有 5、6 个玩家，每个都占 10%到 25%之间。这说明向量数据库的市场还没定型，大家都还在抢地盘。

向量数据库是 AI 应用的基础设施，负责存储和检索高维向量数据。但到底哪家的技术更好，哪家的生态更完善，现在还没有明确答案。这种群雄逐鹿的局面，其实对开发者是好事，因为竞争会推动技术进步，也会让价格更合理。

再说 AI 规则文件。报告显示，67%的代码库在用 CLAUDE.md 这个格式。这是个挺有意思的现象。CLAUDE.md 是 Anthropic 推广的一种 AI 指令文件格式，用来告诉 AI 这个项目的规范、风格、要求。

这个数据说明，开发者已经开始系统化地管理 AI 在项目中的行为。不再是随便问问 AI，想到什么问什么，而是用标准化的方式，让 AI 理解整个项目的上下文和规则。这种标准化，本身就是 AI 工具融入开发流程的一个标志。

SDK 的增长数据也很说明问题。Anthropic 的 SDK 增长了 8 倍，达到 4300 万月下载量。Pydantic AI 爆发式增长 3.7 倍，达到 600 万。LiteLLM 增长 4 倍，达到 4100 万。

这些工具都是帮开发者更方便地使用 AI 模型的。增长速度这么快，说明 AI 工具已经从尝鲜变成了日常。开发者不再是偶尔用用，而是把它们集成到了自己的工作流程里。

大模型竞争：差距在缩小

报告的第三部分对比了各大模型的使用情况和性能表现。

从 SDK 下载量看，OpenAI 依然领先，月下载量 1.3 亿。但 Anthropic 的增长速度更惊人，从 2023 年 4 月到现在，增长了 1547 倍。

更关键的是比例变化。2024 年 1 月，OpenAI 和 Anthropic 的下载量比例是 47 比 1，现在已经缩小到 4.2 比 1。这个变化速度，快得有点出乎意料。

这说明什么？Anthropic 在开发者群体中的接受度快速上升。可能是因为 Claude 的能力确实不错，也可能是因为 Anthropic 在开发者生态上下了功夫，还可能是因为开发者开始寻求 OpenAI 之外的替代方案。

不管原因是什么，这个趋势对整个行业都是好事。一家独大的局面，往往意味着创新的放缓和价格的坚挺。有竞争，才会有持续的进步。

性能对比方面，报告给出了几个关键指标。

响应速度（TTFT，首字延迟）方面，Anthropic 的 Opus 4.5 和 Sonnet 4.5 表现最好，中位数在 2 秒左右。OpenAI 的 GPT-5 和 GPT-5.1 要慢一倍多，5 到 7 秒。Google 的 Gemini 3 Pro 更慢，要 13 秒左右。

这个差距在实际使用中很明显。如果你在写代码的过程中频繁调用 AI，2 秒和 7 秒的差别，就是能不能保持专注的差别。等太久，思路就断了。

但吞吐量（每秒生成的 token 数）方面，OpenAI 又占优势。GPT-5 和 GPT-5.1 能达到 60 多 token 每秒，Anthropic 在 20 左右，Gemini 只有 4 到 5。

吞吐量高意味着长文本生成更快。如果你需要 AI 帮你写大段代码或者文档，吞吐量就变得很重要。等十几秒看到结果，和等几十秒看到结果，体验差很多。

成本方面，以 8000 个输入 token、1000 个输出 token 的工作负载为基准，GPT-5 系列的成本倍数是 1 倍，Gemini 3 Pro 是 1.4 倍，Claude Sonnet 4.5 是 2 倍，Claude Opus 4.5 是 3.3 倍。

所以选模型，其实是在做权衡。要快速响应还是要高吞吐？要便宜还是要性能？不同的场景，答案不一样。

前沿技术突破的实际意义

报告的后半部分列举了一堆前沿研究，看起来很学术，但其实每一个都指向实际问题。

DeepSeek-V3 是个 671B 参数的模型，但它每次只激活 37B 参数。这个设计思路叫混合专家模型，核心想法是不需要所有参数都参与计算，只调用相关的专家就够了。

这个方向很重要，因为模型越来越大，计算成本也越来越高。如果能在保持能力的前提下，降低实际计算量，那就能让更多人用得起这些模型。

Qwen2.5-Omni 是个多模态模型，能同时处理文字、语音、视频。它的架构设计很巧妙，把感知（看和听）和推理（思考）分开，每个部分专注做自己擅长的事。

这个方向也很有意义，因为真实世界的信息不只是文字。如果 AI 能直接理解图片、视频、语音，那它能解决的问题范围就大得多。

长上下文和 RAG（检索增强生成）的对比研究，结论是两者各有优势。长上下文在处理连续、结构化的内容时表现更好，比如一本书或者一篇长文。RAG 在处理碎片化、多来源的内容时更有优势，比如搜索结果或者对话记录。

这个结论听起来不那么激动人心，但它帮我们理解了什么时候该用什么方法。技术选型不是越新越好，而是要看场景。

RetroLM 提出了一个新思路：不要检索原始文本，直接检索模型的内部表示（KV 缓存）。这个想法很聪明，因为模型内部的表示，已经包含了对文本的理解，比原始文本更精炼。

Self-MoA 的研究发现，不需要用多个不同的模型，反复采样一个好模型也能达到类似的效果。这个发现挺有意思，因为它挑战了一个直觉：多样性一定更好。有时候，一个强模型的内在多样性，就足够了。

应用层的几个创新也值得关注。

GEPA 用提示词进化替代强化学习。强化学习虽然强大，但成本很高，需要大量的训练资源。提示词进化是个轻量级的替代方案，让模型分析自己的执行轨迹，然后改进提示词。这个思路成本低得多，但效果不差。

SFR-DeepResearch 训练了一个能做深度网络研究的单智能体。它能决定什么时候搜索，什么时候浏览网页，什么时候执行代码，还能自己管理长时程的上下文。这种能力，其实是在把 AI 从工具变成助手。

LDAR 关注的是检索中的干扰问题。当相关内容和无关内容混在一起，模型的表现会下降。LDAR 提出了一种注意力感知的检索方法，能筛选出真正有用的部分，过滤掉干扰。

MEM1 解决的是长时程任务中的内存问题。它训练模型在保持能力的前提下，压缩上下文，让内存使用量几乎保持恒定。这对需要处理长任务的 AI 应用很重要。

Search-R1 训练模型在推理过程中主动搜索。它不是先搜索再推理，也不是先推理再搜索，而是边推理边搜索，根据当前的思考决定需要什么信息。这种动态结合，比静态的检索增强要灵活得多。

这些研究看起来很学术，但它们都在解决实际问题：如何让 AI 更高效，如何让 AI 能处理更复杂的任务，如何让 AI 的行为更可控。

这些变化对我们意味着什么

看完这份报告，最直接的感受是，AI 编程工具已经从实验阶段进入了实用阶段。开发者不再是尝鲜，而是真的在依赖这些工具。

但效率的提升，不只是写代码更快了这么简单。它会改变整个开发流程。

以前，一个功能可能要拆成好几个小任务，慢慢做。现在，开发者敢一次性做更大的改动。这意味着项目的迭代速度会加快，但同时对代码审查、测试、文档的要求也更高了。

对团队来说，这是个新挑战。你不能只盯着代码产出，还得看质量能不能跟上。AI 能帮你写代码，但它不能替你做决策，不能替你保证架构的合理性，不能替你维护代码的可读性。

技术生态的变化也值得关注。OpenAI 和 Anthropic 的差距在缩小，说明竞争在加剧。这对开发者是好事，因为竞争会推动价格下降、性能提升、功能创新。

但同时，技术选型也变得更复杂了。以前可能就用 OpenAI，现在你得考虑 Anthropic、Google、DeepSeek，每个都有自己的优势和劣势。你得根据场景选择，根据预算选择，根据性能要求选择。

前沿研究的方向也给了我们一些启示。效率不一定要靠堆参数，混合专家模型就是个例子。创新不一定要推翻旧方法，很多时候是在旧方法上做微调，比如 RetroLM 的 KV 级检索，比如 Self-MoA 的单模型采样。

对普通人来说，这些变化也有借鉴意义。

第一个是工具的选择。不要盲目追求最新最贵的工具，要看场景。就像长上下文和 RAG 各有优势，适合的工具才是最好的工具。

第二个是效率和质量的平衡。AI 能让你更快，但快不等于好。产出增加了，你得确保质量也跟上。这在任何领域都一样。

第三个是持续学习的必要性。技术生态变化这么快，今天的最佳实践，明天可能就过时了。保持敏感，保持学习，才能跟上节奏。

第四个是创新的方式。很多突破不是从零开始，而是在现有基础上改进。GEPA 用提示词进化替代强化学习，SFR-DeepResearch 训练单智能体做复杂任务，这些都是在已有技术上找到新的组合方式。

一个快速变化的时代

这份报告最大的价值，不在于某个具体的数据，而在于它呈现的整体图景。

AI 编程工具正在从边缘走向中心，从辅助变成核心。开发者的工作方式在改变，团队的协作模式在改变，技术生态的竞争格局在改变。

这个变化的速度，比我们想象的要快。76%的效率提升，只是一年的结果。接下来呢？明年会不会再涨 50%？后年呢？

当工具的能力增长速度远超我们的预期，我们需要思考的不只是如何用好这些工具，还有如何在这个快速变化的环境中保持方向感。

技术会继续进步，工具会继续迭代，但有些东西不会变。比如对质量的追求，对问题本质的理解，对用户需求的洞察。这些才是真正的核心竞争力。

AI 能帮你写代码，但它不能替你决定该写什么代码。它能帮你提高效率，但它不能替你判断什么是真正重要的事情。

所以，面对这些变化，我们既要拥抱新工具，也要保持清醒。不要被效率的提升冲昏头脑，不要忘记为什么而做。

2025 年才刚开始，这份报告只是给了我们一个中期快照。接下来的变化，可能更快，也更出乎意料。

报告地址：https://www.greptile.com/state-of-ai-coding-2025

文章来自：51CTO

2025 年 AI 编程报告出炉：开发者效率暴涨 76%，但背后藏着你不知道的真相

作者yinhua

产出暴涨的背后，代码在变厚

AI 编程工具的生态格局

大模型竞争：差距在缩小

前沿技术突破的实际意义

这些变化对我们意味着什么

一个快速变化的时代

作者 yinhua

相关文章

视频生成太慢？英伟达、谢赛宁等发布TMD框架，实现70倍加速

折腾一晚上，我让OpenClaw把微信公众号的文章搬运到飞书了

OpenCode：最佳的 Claude 代码替代方案

发表回复取消回复

您错过的

视频生成太慢？英伟达、谢赛宁等发布TMD框架，实现70倍加速

折腾一晚上，我让OpenClaw把微信公众号的文章搬运到飞书了

OpenCode：最佳的 Claude 代码替代方案

为了挤出AI预算，CIO们正在疯狂“拆东墙”：牺牲稳定性值吗？

作者yinhua

产出暴涨的背后，代码在变厚

AI 编程工具的生态格局

大模型竞争：差距在缩小

前沿技术突破的实际意义

这些变化对我们意味着什么

一个快速变化的时代

作者 yinhua

相关文章

发表回复 取消回复

您错过的

发表回复取消回复