Rate Limits

Giới hạn requests theo tier và cách xử lý.

Giới hạn theo Tier

TierRequests/phútRequests/ngàyMonthly Quota
🆓 Free20200$1.00
💡 Lite602,000$10.00
🚀 Pro12010,000$50.00
🏢 Enterprise500UnlimitedUnlimited

Rate Limit Headers

Mỗi response trả về headers cho biết trạng thái rate limit:

HeaderMô tả
X-RateLimit-LimitGiới hạn requests/phút
X-RateLimit-RemainingSố requests còn lại
X-RateLimit-ResetUnix timestamp khi reset

Xử lý khi bị Rate Limit (429)

Khi nhận HTTP 429:

  1. Đọc header Retry-After (nếu có) để biết nên chờ bao lâu
  2. Implement exponential backoff — chờ 1s, 2s, 4s, 8s…
  3. Không spam retry — liên tục gửi sẽ bị block lâu hơn
  4. Queue requests — dùng hàng đợi để phân bổ tải đều
⚠️ Lưu ý quan trọng Rate limit tính riêng cho từng API Key. Nếu bạn có nhiều keys, mỗi key có giới hạn riêng. Streaming requests vẫn tính là 1 request.

Best Practices

  • Batch requests — gom nhiều embeddings vào 1 request thay vì gọi từng cái.
  • Cache responses — lưu kết quả cho cùng input để giảm API calls.
  • Monitor usage — theo dõi qua /usage endpoint.
  • Nâng cấp tier — nếu thường xuyên bị rate limit, hãy nâng cấp lên Pro hoặc Enterprise.