输入 token 与输出 token

快速结论

输入 token 是你提示中的 token（系统 + 用户消息 + 检索上下文）。输出 token 是模型生成的 token。提供商几乎总是对输出收费更高，因为生成成本更高。

输入/输出拆分是理解 LLM 定价最重要的概念。典型前沿模型对每百万 token 输出的收费约为输入的 5–10 倍：

GPT-5.5：$5.00 输入 / $30.00 输出每百万（输出高 6 倍）。
Claude Opus 4.8：$5.00 输入 / $25.00 输出每百万（输出高 5 倍）。
Gemini 2.5 Pro：$1.25 输入 / $10.00 输出每百万（输出高 8 倍）。

这意味着产生长响应的工作负载（长文写作、Agent 循环、代码生成）应按输出量来建模，而不仅仅是输入。

相关术语

上下文窗口

上下文窗口是模型在单次请求中能处理的最大 token 数（输入 + 输出）。截至 2026-06-17，GPT-5.5 和 Claude Opus 4.8 都支持 100 万 token 的上下文窗口。…

缓存输入

缓存输入是指 API 提供商在之前的请求中已经处理过的 token 的折扣价格。在 GPT-5.5 上，缓存输入为每百万 $0.50，而新鲜输入为 $5.00，节省 90%。…