Requesty: The Intelligent AI Model Router
Maximiere ZuverlĂ€ssigkeit und Performance mit automatischem Failover und Load Balancing ĂŒber 500+ LLM-Modelle. Nie offline. Immer eine Antwort.
Automatic Failover Policies
Sorge fĂŒr 99.9% Uptime fĂŒr deine AI-Anwendungen. Wenn ein Modell ausfĂ€llt (Timeout, Error, Rate Limit), routet Requesty automatisch in Millisekunden zu deinen Backup-Modellenâkeine manuelle Intervention nötig.
Wie funktioniert das
Dein primÀres Modell erhÀlt den Request.
Falls es fehlschlÀgt (Timeout, Error, etc.), versucht der Router sofort das nÀchste Modell.
Das lÀuft weiter, bis ein Modell die Ergebnisse liefert, die du brauchst.
Warum Fallback Routing wichtig ist
99.9% Uptime
Eliminiere Single Points of Failure. Wenn OpenAI ausfÀllt, wechsle sofort zu Anthropic, Google oder AWS Bedrock
Handle Rate Limits
Route Overflow-Traffic automatisch zu alternativen Modellen, wenn du Provider-Rate-Limits erreichst
Kostenoptimierung
Starte mit gĂŒnstigeren Modellen, falle auf Premium-Modelle zurĂŒck nur wenn nötig
Get Started
- Gehe zu Manage API
- FĂŒge eine Fallback Policy hinzu
- Konfiguriere deine Chain
HĂ€ufig gestellte Fragen
Was ist eine Fallback Policy und wie funktioniert sie?
Eine Fallback Policy ist ein automatischer Re-Routing-Mechanismus. Wenn dein primĂ€res Modell fehlschlĂ€gt (Timeout, Error, Rate Limit), routet Requesty sofort den Request zum nĂ€chsten Modell in deiner Chain. Das geht weiter bis ein Modell erfolgreich antwortet. Du zahlst nur fĂŒr den erfolgreichen Request.
Wie erhÀlt Load Balancing Conversation-Konsistenz?
Requesty erhĂ€lt Routing-Konsistenz pro trace_id. Das bedeutet, derselbe User oder Conversation trifft immer dasselbe Modell, sorgt fĂŒr kohĂ€rente Multi-Turn-Interaktionen. Konfiguriere deine Verteilung (z.B. 50% Model A, 30% Model B, 20% Model C) und jede trace_id wird konsistent basierend auf diesen Gewichten geroutet.
Kann ich Fallback Policies fĂŒr A/B Testing nutzen?
Ja. Kombiniere Fallback Policies mit Load Balancing fĂŒr A/B Testing. Route 90% zu deinem Production-Modell und 10% zu einem experimentellen Modell, miss dann QualitĂ€t, Latenz und Kosten parallel. Wenn das experimentelle Modell fehlschlĂ€gt, fĂ€llt es automatisch auf dein Production-Modell zurĂŒck.
Was passiert wenn alle Modelle in meiner Fallback Chain fehlschlagen?
Wenn alle Modelle in deiner Fallback Chain fehlschlagen, gibt Requesty eine Error-Response mit Details ĂŒber jeden Versuch zurĂŒck. Du kannst die maximale Anzahl an Retry-Versuchen und Timeout-Schwellenwerte pro Modell in deinen Policy-Einstellungen konfigurieren.
Wie bestimmt Latency-Based Routing welches Modell am schnellsten ist?
Requesty trackt P50, P90 und P99 Latenz ĂŒber alle Modelle in Echtzeit. Basierend auf tatsĂ€chlich beobachteter Performance (nicht Marketing-Claims) empfiehlt das System die schnellsten Modelle fĂŒr deine spezifische Workload und verschiebt Traffic automatisch zu Lower-Latency-Optionen.
Kann ich Fallback, Load Balancing und Regional Routing kombinieren?
Ja. Du kannst Policies erstellen, die mehrere Routing-Strategien kombinieren. Zum Beispiel: Load Balance zwischen EU-only Modellen (Regional Routing) mit automatischem Fallback zu sekundÀren EU-Modellen wenn primÀre fehlschlagen. Das gibt dir geografische Compliance mit maximaler ZuverlÀssigkeit.
Wie stelle ich Modell-KompatibilitÀt in meiner Fallback Chain sicher?
Stelle sicher, dass jedes Modell in deiner Fallback Chain dieselben Parameter unterstĂŒtzt (temperature, max_tokens, response_format, etc.). Requesty validiert KompatibilitĂ€t wenn du Policies erstellst und warnt dich wenn Modelle nicht zu deinen Request-Parametern passen.
Funktioniert Auto-Caching mit Fallback Policies?
Ja. Du kannst Caching-Verhalten pro Request mit dem auto_cache Flag kontrollieren. Setze auto_cache: true um Responses zu cachen, oder auto_cache: false um immer frische Responses zu fetchen. Caching funktioniert ĂŒber deine gesamte Fallback Chain, serviert potenziell gecachte Responses von jedem Modell in der Chain.
Wie schnell passiert Failover?
Failover passiert in Millisekunden. Wenn ein Modell fehlschlĂ€gt (Timeout, Error oder Rate Limit), routet Requesty sofort zum nĂ€chsten Modell in deiner Chainâkeine manuelle Intervention nötig. Das sorgt fĂŒr 99.9% Uptime fĂŒr deine AI-Anwendungen.
Kann ich basierend auf Request-KomplexitÀt routen?
Ja. Nutze Load Balancing um einfache Queries zu schnellen, gĂŒnstigen Modellen (GPT-3.5, Gemini Flash) und komplexe Queries zu Premium-Modellen (GPT-4, Claude Sonnet) zu routen. Du kannst auch Custom-Routing-Logik basierend auf Prompt-LĂ€nge, User-Tier oder beliebigen Metadaten implementieren, die du sendest.