大模型指标：RPM、TPM…这些“神秘代码”到底是什么？

一、RPM：每分钟能“说多少话”？

定义：RPM全称是Requests Per Minute（每分钟请求数），表示大模型每分钟能处理的请求次数。比如，某模型设置RPM=300，就意味着每分钟最多响应300次用户提问。

为什么重要？

防“薅羊毛”：防止用户疯狂刷请求，导致服务器崩溃。
公平分配：像食堂打饭，先到先得，避免有人插队占满资源。

举个🌰：假设你用AI写文案，如果RPM限制是300，那么每分钟最多提交300次请求。如果短时间内发太多，系统可能会提示“请求太频繁”。

二、TPM：每分钟能“写多少字”？

定义：TPM全称是Tokens Per Minute（每分钟处理tokens数），衡量模型每分钟能处理的文本量（包括输入和输出）。例如，TPM=30万，意味着每分钟最多处理30万个“文字单位”（tokens）。

为什么关键？

长文本处理：输入或输出太长会占用更多tokens，可能触发限额。比如写一篇千字文章，可能比10条短消息更费“额度”。
计费依据：很多平台按TPM收费，控制成本的关键。

举个🌰：如果某模型TPM=30万，而每个汉字≈2个tokens，那么每分钟最多能处理约15万汉字的输入或输出。超过这个量，请求就会被“拒签”。

三、对比“老朋友”QPS：从秒级到分钟级

QPS（Queries Per Second）：传统指标，衡量每秒处理请求的能力。比如QPS=5，就是每秒处理5次请求。但大模型处理复杂任务（如逻辑推理、长文本生成）需要更多时间，所以逐渐转向分钟级指标（RPM/TPM）。

四、不同大模型的指标差异

厂商	模型	默认RPM	默认TPM
百度	文心3.5	300	30万
百度	文心4.0	120	12万
阿里云	千问-max	1200	100万
阿里云	千问-plus	15000	120万
火山引擎	豆包-pro-32k	10000	800万

数据来源：百度、阿里、火山引擎等厂商公开信息。

五、如何应对指标限制？

控制输入长度：精简问题，避免冗长文本。
错峰使用：避开高峰期，分时段提交请求。
升级套餐：如果需求大，选择高RPM/TPM的付费服务。

结语

RPM和TPM是大模型时代的“新语言”，理解它们就像掌握新工具的使用说明书。下次看到这些指标时，别慌！记住：RPM管次数，TPM管字数，合理规划就能让AI服务更顺畅~

扩展知识：

首Token延时：从发送请求到收到第一个字的时间，直接影响用户体验。
每分钟Token输出：衡量模型生成效率，越高说明“打字越快”。

本文转载自微信公众号「码上烟火」，可以通过以下二维码关注。转载本文请联系码上烟火公众号。

文章来自：51CTO

世界人工智能论坛

大模型指标：RPM、TPM…这些“神秘代码”到底是什么？

作者yinhua

一、RPM：每分钟能“说多少话”？

二、TPM：每分钟能“写多少字”？

三、对比“老朋友”QPS：从秒级到分钟级

四、不同大模型的指标差异

五、如何应对指标限制？

结语

作者 yinhua

相关文章

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

推理AI「脑补」成瘾，废话拉满！马里兰华人学霸揭开内幕

中国初创芯片登Nature：比英伟达A10快500倍！自研光电混合技术

发表回复取消回复

您错过的

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

推理AI「脑补」成瘾，废话拉满！马里兰华人学霸揭开内幕

中国初创芯片登Nature：比英伟达A10快500倍！自研光电混合技术

AI Agent 破局：MCP 与 A2A 定义安全新边界

世界人工智能论坛

作者yinhua

一、RPM：每分钟能“说多少话”？

二、TPM：每分钟能“写多少字”？

三、对比“老朋友”QPS：从秒级到分钟级

四、不同大模型的指标差异

五、如何应对指标限制？

结语

作者 yinhua

相关文章

发表回复 取消回复

您错过的

发表回复取消回复