批量 API
快速结论
批量 API 让你以折扣价(通常 5 折)一次性提交大量请求,代价是处理较慢 —— 通常在 24 小时内返回,而不是秒级。
OpenAI 和 Anthropic 都提供用延迟换价格的批量端点。典型模式:上传一个 JSONL 请求文件,24 小时内拿到结果,输入和输出价格约五折。
- OpenAI Batch:最长 24 小时返回,输入和输出约 50% 折扣。
- OpenAI Flex:与 Batch 同价但延迟更低(数小时),偶发 429 错误。
- Anthropic Message Batches API:约 50% 折扣,24 小时 SLA。
批量适合批量评估、数据集生成和离线标注 —— 任何不需要实时响应的场景。