缓存输入

快速结论

缓存输入是指 API 提供商在之前的请求中已经处理过的 token 的折扣价格。在 GPT-5.5 上，缓存输入为每百万 $0.50，而新鲜输入为 $5.00，节省 90%。

当你向 LLM API 发送一个较长的系统提示或大文档时，提供商通常会按全价对每个 token 计费。开启 提示缓存 后，提供商会存储该前缀并在几分钟到几小时内复用。下一次复用相同前缀的请求会按缓存输入价计费，而不是新鲜输入价。

对于重复发送相同指令的工作负载（RAG、带有长系统提示的 Agent、多轮对话），缓存输入是账单上最大的杠杆。

按提供商看缓存价格（2026-06-17）

OpenAI GPT-5.5 — 缓存输入 $0.50/百万 vs 新鲜 $5.00（90% 折扣）。
Anthropic Claude Sonnet 4.6 — 缓存读取 $0.30/百万 vs 新鲜 $3.00。Anthropic 还分别列出 5 分钟与 1 小时缓存写入档。
Google Gemini 2.5 Pro — 缓存输入 $0.125/百万 vs 新鲜 $1.25（≤200K 上下文），并有独立的存储费。

何时缓存有效，何时无效

只有当前缀匹配时缓存才生效。如果你的请求每次都唯一（一次性提示、每文档摘要），缓存无效，按全价计费。缓存最适合多轮聊天、共享工具列表的 Agent 运行，以及对同一知识库的重复查询。

相关术语

提示缓存

提示缓存让 API 提供商以折扣价复用之前见过的输入前缀，而不是重新处理每个 token。GPT-5.5 缓存输入为每百万 $0.50 vs 新鲜 $5.00，节省 90%。…

批量 API

批量 API 让你以折扣价（通常 5 折）一次性提交大量请求，代价是处理较慢 —— 通常在 24 小时内返回，而不是秒级。…

OpenRouter

OpenRouter 是一个聚合器，用一个 API 密钥把请求路由到多个模型提供商，并支持自动回退。其价格通常与提供商官方标价一致。…