AI 定价术语表
用通俗语言解释你在 AI 定价页上会遇到的词汇 —— token 是什么、缓存如何工作、上下文窗口意味着什么,以及为什么输出比输入更贵。
每个词条都链接到带有提供商具体数字的完整说明。
缓存输入
缓存输入是指 API 提供商在之前的请求中已经处理过的 token 的折扣价格。在 GPT-5.5 上,缓存输入为每百万 $0.50,而新鲜输入为 $5.00,节省 90%。…
提示缓存
提示缓存让 API 提供商以折扣价复用之前见过的输入前缀,而不是重新处理每个 token。GPT-5.5 缓存输入为每百万 $0.50 vs 新鲜 $5.00,节省 90%。…
批量 API
批量 API 让你以折扣价(通常 5 折)一次性提交大量请求,代价是处理较慢 —— 通常在 24 小时内返回,而不是秒级。…
上下文窗口
上下文窗口是模型在单次请求中能处理的最大 token 数(输入 + 输出)。截至 2026-06-17,GPT-5.5 和 Claude Opus 4.8 都支持 100 万 token 的上下文窗口。…
最大输出 token
最大输出 token 是模型在单次响应中能生成的最大 token 数上限。它通常远小于上下文窗口 —— GPT-5.5 上下文窗口是 100 万 token,但最大输出限制为 128K。…
OpenRouter
OpenRouter 是一个聚合器,用一个 API 密钥把请求路由到多个模型提供商,并支持自动回退。其价格通常与提供商官方标价一致。…
AWS Bedrock
AWS Bedrock 是亚马逊推出的企业渠道,让客户访问 Anthropic、Meta、Mistral、Cohere 等的模型。其价格随模型、地区与承诺档而异,因此 Bedrock 行在变量确定前通常标为待核查。…
Azure OpenAI
Azure OpenAI 通过微软的企业云提供 OpenAI 模型(GPT-5.5、GPT-5.4、embeddings 等)—— token 价格与 OpenAI 直连一致,但具备 Azure 治理、区域部署与私有网络能力。…
输入 token 与输出 token
输入 token 是你提示中的 token(系统 + 用户消息 + 检索上下文)。输出 token 是模型生成的 token。提供商几乎总是对输出收费更高,因为生成成本更高。…
思考 token
思考 token 是推理模型在给出可见回答之前内部生成的隐藏推理步骤。在大多数提供商那里,即使用户看不到,它们也按输出 token 计费。…