AI 定价术语表

用通俗语言解释你在 AI 定价页上会遇到的词汇 —— token 是什么、缓存如何工作、上下文窗口意味着什么，以及为什么输出比输入更贵。

每个词条都链接到带有提供商具体数字的完整说明。

缓存输入

缓存输入是指 API 提供商在之前的请求中已经处理过的 token 的折扣价格。在 GPT-5.5 上，缓存输入为每百万 $0.50，而新鲜输入为 $5.00，节省 90%。…

提示缓存让 API 提供商以折扣价复用之前见过的输入前缀，而不是重新处理每个 token。GPT-5.5 缓存输入为每百万 $0.50 vs 新鲜 $5.00，节省 90%。…

批量 API 让你以折扣价（通常 5 折）一次性提交大量请求，代价是处理较慢 —— 通常在 24 小时内返回，而不是秒级。…

上下文窗口是模型在单次请求中能处理的最大 token 数（输入 + 输出）。截至 2026-06-17，GPT-5.5 和 Claude Opus 4.8 都支持 100 万 token 的上下文窗口。…

最大输出 token 是模型在单次响应中能生成的最大 token 数上限。它通常远小于上下文窗口 —— GPT-5.5 上下文窗口是 100 万 token，但最大输出限制为 128K。…

OpenRouter 是一个聚合器，用一个 API 密钥把请求路由到多个模型提供商，并支持自动回退。其价格通常与提供商官方标价一致。…

AWS Bedrock 是亚马逊推出的企业渠道，让客户访问 Anthropic、Meta、Mistral、Cohere 等的模型。其价格随模型、地区与承诺档而异，因此 Bedrock 行在变量确定前通常标为待核查。…

Azure OpenAI 通过微软的企业云提供 OpenAI 模型（GPT-5.5、GPT-5.4、embeddings 等）—— token 价格与 OpenAI 直连一致，但具备 Azure 治理、区域部署与私有网络能力。…

输入 token 是你提示中的 token（系统 + 用户消息 + 检索上下文）。输出 token 是模型生成的 token。提供商几乎总是对输出收费更高，因为生成成本更高。…

思考 token 是推理模型在给出可见回答之前内部生成的隐藏推理步骤。在大多数提供商那里，即使用户看不到，它们也按输出 token 计费。…