缓存输入

快速结论

缓存输入是指 API 提供商在之前的请求中已经处理过的 token 的折扣价格。在 GPT-5.5 上,缓存输入为每百万 $0.50,而新鲜输入为 $5.00,节省 90%。

当你向 LLM API 发送一个较长的系统提示或大文档时,提供商通常会按全价对每个 token 计费。开启 提示缓存 后,提供商会存储该前缀并在几分钟到几小时内复用。下一次复用相同前缀的请求会按缓存输入价计费,而不是新鲜输入价。

对于重复发送相同指令的工作负载(RAG、带有长系统提示的 Agent、多轮对话),缓存输入是账单上最大的杠杆。

按提供商看缓存价格(2026-06-17)

  • OpenAI GPT-5.5 — 缓存输入 $0.50/百万 vs 新鲜 $5.00(90% 折扣)。
  • Anthropic Claude Sonnet 4.6 — 缓存读取 $0.30/百万 vs 新鲜 $3.00。Anthropic 还分别列出 5 分钟与 1 小时缓存写入档。
  • Google Gemini 2.5 Pro — 缓存输入 $0.125/百万 vs 新鲜 $1.25(≤200K 上下文),并有独立的存储费。

何时缓存有效,何时无效

只有当前缀匹配时缓存才生效。如果你的请求每次都唯一(一次性提示、每文档摘要),缓存无效,按全价计费。缓存最适合多轮聊天、共享工具列表的 Agent 运行,以及对同一知识库的重复查询。

相关术语