Rate Limits
Giới hạn requests theo tier và cách xử lý.
Giới hạn theo Tier
| Tier | Requests/phút | Requests/ngày | Monthly Quota |
|---|---|---|---|
| 🆓 Free | 20 | 200 | $1.00 |
| 💡 Lite | 60 | 2,000 | $10.00 |
| 🚀 Pro | 120 | 10,000 | $50.00 |
| 🏢 Enterprise | 500 | Unlimited | Unlimited |
Rate Limit Headers
Mỗi response trả về headers cho biết trạng thái rate limit:
| Header | Mô tả |
|---|---|
X-RateLimit-Limit | Giới hạn requests/phút |
X-RateLimit-Remaining | Số requests còn lại |
X-RateLimit-Reset | Unix timestamp khi reset |
Xử lý khi bị Rate Limit (429)
Khi nhận HTTP 429:
- Đọc header
Retry-After(nếu có) để biết nên chờ bao lâu - Implement exponential backoff — chờ 1s, 2s, 4s, 8s…
- Không spam retry — liên tục gửi sẽ bị block lâu hơn
- Queue requests — dùng hàng đợi để phân bổ tải đều
⚠️ Lưu ý quan trọng
Rate limit tính riêng cho từng API Key. Nếu bạn có nhiều keys, mỗi key có giới hạn riêng. Streaming requests vẫn tính là 1 request.
Best Practices
- Batch requests — gom nhiều embeddings vào 1 request thay vì gọi từng cái.
- Cache responses — lưu kết quả cho cùng input để giảm API calls.
- Monitor usage — theo dõi qua
/usageendpoint. - Nâng cấp tier — nếu thường xuyên bị rate limit, hãy nâng cấp lên Pro hoặc Enterprise.







