批量 API

快速结论

批量 API 让你以折扣价(通常 5 折)一次性提交大量请求,代价是处理较慢 —— 通常在 24 小时内返回,而不是秒级。

OpenAI 和 Anthropic 都提供用延迟换价格的批量端点。典型模式:上传一个 JSONL 请求文件,24 小时内拿到结果,输入和输出价格约五折。

  • OpenAI Batch:最长 24 小时返回,输入和输出约 50% 折扣。
  • OpenAI Flex:与 Batch 同价但延迟更低(数小时),偶发 429 错误。
  • Anthropic Message Batches API:约 50% 折扣,24 小时 SLA。

批量适合批量评估、数据集生成和离线标注 —— 任何不需要实时响应的场景。

相关术语