提示缓存
快速结论
提示缓存让 API 提供商以折扣价复用之前见过的输入前缀,而不是重新处理每个 token。GPT-5.5 缓存输入为每百万 $0.50 vs 新鲜 $5.00,节省 90%。
提示缓存是机制;缓存输入是价格。OpenAI、Anthropic、Google 等主要提供商都实现了提示缓存,但在价格页上的展示方式不同。
- OpenAI 只暴露一个"cached input"档位。折扣隐含在较低的价格中。
- Anthropic 将 cache read 与 cache write 分开,并提供 5 分钟和 1 小时的写入窗口。前缀首次缓存时写入按一次计费;命中缓存的每次读取都按读取价计费。
- Google 收取缓存输入费,另按存储的每百万 token 收取每小时存储费。
对大多数工作负载来说,要比较的头条数字是缓存输入每百万 token 的费率,因为这是账单的主体。