一、RPM:每分钟能“说多少话”?
定义:RPM全称是Requests Per Minute(每分钟请求数),表示大模型每分钟能处理的请求次数。比如,某模型设置RPM=300,就意味着每分钟最多响应300次用户提问。
为什么重要?
- 防“薅羊毛”:防止用户疯狂刷请求,导致服务器崩溃。
- 公平分配:像食堂打饭,先到先得,避免有人插队占满资源。
举个🌰:假设你用AI写文案,如果RPM限制是300,那么每分钟最多提交300次请求。如果短时间内发太多,系统可能会提示“请求太频繁”。
二、TPM:每分钟能“写多少字”?
定义:TPM全称是Tokens Per Minute(每分钟处理tokens数),衡量模型每分钟能处理的文本量(包括输入和输出)。例如,TPM=30万,意味着每分钟最多处理30万个“文字单位”(tokens)。
为什么关键?
- 长文本处理:输入或输出太长会占用更多tokens,可能触发限额。比如写一篇千字文章,可能比10条短消息更费“额度”。
- 计费依据:很多平台按TPM收费,控制成本的关键。
举个🌰:如果某模型TPM=30万,而每个汉字≈2个tokens,那么每分钟最多能处理约15万汉字的输入或输出。超过这个量,请求就会被“拒签”。
三、对比“老朋友”QPS:从秒级到分钟级
QPS(Queries Per Second):传统指标,衡量每秒处理请求的能力。比如QPS=5,就是每秒处理5次请求。但大模型处理复杂任务(如逻辑推理、长文本生成)需要更多时间,所以逐渐转向分钟级指标(RPM/TPM)。
四、不同大模型的指标差异
厂商 | 模型 | 默认RPM | 默认TPM |
百度 | 文心3.5 | 300 | 30万 |
百度 | 文心4.0 | 120 | 12万 |
阿里云 | 千问-max | 1200 | 100万 |
阿里云 | 千问-plus | 15000 | 120万 |
火山引擎 | 豆包-pro-32k | 10000 | 800万 |
数据来源:百度、阿里、火山引擎等厂商公开信息。
五、如何应对指标限制?
- 控制输入长度:精简问题,避免冗长文本。
- 错峰使用:避开高峰期,分时段提交请求。
- 升级套餐:如果需求大,选择高RPM/TPM的付费服务。
结语
RPM和TPM是大模型时代的“新语言”,理解它们就像掌握新工具的使用说明书。下次看到这些指标时,别慌!记住:RPM管次数,TPM管字数,合理规划就能让AI服务更顺畅~
扩展知识:
- 首Token延时:从发送请求到收到第一个字的时间,直接影响用户体验。
- 每分钟Token输出:衡量模型生成效率,越高说明“打字越快”。
本文转载自微信公众号「码上烟火」,可以通过以下二维码关注。转载本文请联系码上烟火公众号。
文章来自:51CTO