RPM全称是Requests Per Minute(每分钟请求数),表示大模型每分钟能处理的请求次数。比如,某模型设置RPM=300,就意味着每分钟最多响应300次用户提问。

一、RPM:每分钟能“说多少话”?

定义:RPM全称是Requests Per Minute(每分钟请求数),表示大模型每分钟能处理的请求次数。比如,某模型设置RPM=300,就意味着每分钟最多响应300次用户提问。

为什么重要?

  • 防“薅羊毛”:防止用户疯狂刷请求,导致服务器崩溃。
  • 公平分配:像食堂打饭,先到先得,避免有人插队占满资源。

举个🌰:假设你用AI写文案,如果RPM限制是300,那么每分钟最多提交300次请求。如果短时间内发太多,系统可能会提示“请求太频繁”。

二、TPM:每分钟能“写多少字”?

定义:TPM全称是Tokens Per Minute(每分钟处理tokens数),衡量模型每分钟能处理的文本量(包括输入和输出)。例如,TPM=30万,意味着每分钟最多处理30万个“文字单位”(tokens)。

为什么关键?

  • 长文本处理:输入或输出太长会占用更多tokens,可能触发限额。比如写一篇千字文章,可能比10条短消息更费“额度”。
  • 计费依据:很多平台按TPM收费,控制成本的关键。

举个🌰:如果某模型TPM=30万,而每个汉字≈2个tokens,那么每分钟最多能处理约15万汉字的输入或输出。超过这个量,请求就会被“拒签”。

三、对比“老朋友”QPS:从秒级到分钟级

QPS(Queries Per Second):传统指标,衡量每秒处理请求的能力。比如QPS=5,就是每秒处理5次请求。但大模型处理复杂任务(如逻辑推理、长文本生成)需要更多时间,所以逐渐转向分钟级指标(RPM/TPM)。

四、不同大模型的指标差异

厂商 模型 默认RPM 默认TPM
百度 文心3.5 300 30万
百度 文心4.0 120 12万
阿里云 千问-max 1200 100万
阿里云 千问-plus 15000 120万
火山引擎 豆包-pro-32k 10000 800万

数据来源:百度、阿里、火山引擎等厂商公开信息。

五、如何应对指标限制?

  1. 控制输入长度:精简问题,避免冗长文本。
  2. 错峰使用:避开高峰期,分时段提交请求。
  3. 升级套餐:如果需求大,选择高RPM/TPM的付费服务。

结语

RPM和TPM是大模型时代的“新语言”,理解它们就像掌握新工具的使用说明书。下次看到这些指标时,别慌!记住:RPM管次数,TPM管字数,合理规划就能让AI服务更顺畅~

扩展知识

  • 首Token延时:从发送请求到收到第一个字的时间,直接影响用户体验。
  • 每分钟Token输出:衡量模型生成效率,越高说明“打字越快”。

本文转载自微信公众号「码上烟火」,可以通过以下二维码关注。转载本文请联系码上烟火公众号。

文章来自:51CTO

Loading

作者 yinhua

发表回复