Requesty: The Intelligent AI Model Router

Maximiere Zuverlässigkeit und Performance mit automatischem Failover und Load Balancing über 500+ LLM-Modelle. Nie offline. Immer eine Antwort.

Start in wenigen Minuten

Hol dir 6$ gratis Mit Gründern sprechen

Automatic Failover Policies

Sorge für 99.9% Uptime für deine AI-Anwendungen. Wenn ein Modell ausfällt (Timeout, Error, Rate Limit), routet Requesty automatisch in Millisekunden zu deinen Backup-Modellen—keine manuelle Intervention nötig.

Wie funktioniert das

Dein primäres Modell erhält den Request.

Falls es fehlschlägt (Timeout, Error, etc.), versucht der Router sofort das nächste Modell.

Das läuft weiter, bis ein Modell die Ergebnisse liefert, die du brauchst.

Warum Fallback Routing wichtig ist

99.9% Uptime

Eliminiere Single Points of Failure. Wenn OpenAI ausfällt, wechsle sofort zu Anthropic, Google oder AWS Bedrock

Handle Rate Limits

Route Overflow-Traffic automatisch zu alternativen Modellen, wenn du Provider-Rate-Limits erreichst

Kostenoptimierung

Starte mit günstigeren Modellen, falle auf Premium-Modelle zurück nur wenn nötig

Get Started

Gehe zu Manage API
Füge eine Fallback Policy hinzu
Konfiguriere deine Chain

Jetzt einrichten

Häufig gestellte Fragen

Was ist eine Fallback Policy und wie funktioniert sie?

Eine Fallback Policy ist ein automatischer Re-Routing-Mechanismus. Wenn dein primäres Modell fehlschlägt (Timeout, Error, Rate Limit), routet Requesty sofort den Request zum nächsten Modell in deiner Chain. Das geht weiter bis ein Modell erfolgreich antwortet. Du zahlst nur für den erfolgreichen Request.

Wie erhält Load Balancing Conversation-Konsistenz?

Requesty erhält Routing-Konsistenz pro trace_id. Das bedeutet, derselbe User oder Conversation trifft immer dasselbe Modell, sorgt für kohärente Multi-Turn-Interaktionen. Konfiguriere deine Verteilung (z.B. 50% Model A, 30% Model B, 20% Model C) und jede trace_id wird konsistent basierend auf diesen Gewichten geroutet.

Kann ich Fallback Policies für A/B Testing nutzen?

Ja. Kombiniere Fallback Policies mit Load Balancing für A/B Testing. Route 90% zu deinem Production-Modell und 10% zu einem experimentellen Modell, miss dann Qualität, Latenz und Kosten parallel. Wenn das experimentelle Modell fehlschlägt, fällt es automatisch auf dein Production-Modell zurück.

Was passiert wenn alle Modelle in meiner Fallback Chain fehlschlagen?

Wenn alle Modelle in deiner Fallback Chain fehlschlagen, gibt Requesty eine Error-Response mit Details über jeden Versuch zurück. Du kannst die maximale Anzahl an Retry-Versuchen und Timeout-Schwellenwerte pro Modell in deinen Policy-Einstellungen konfigurieren.

Wie bestimmt Latency-Based Routing welches Modell am schnellsten ist?

Requesty trackt P50, P90 und P99 Latenz über alle Modelle in Echtzeit. Basierend auf tatsächlich beobachteter Performance (nicht Marketing-Claims) empfiehlt das System die schnellsten Modelle für deine spezifische Workload und verschiebt Traffic automatisch zu Lower-Latency-Optionen.

Kann ich Fallback, Load Balancing und Regional Routing kombinieren?

Ja. Du kannst Policies erstellen, die mehrere Routing-Strategien kombinieren. Zum Beispiel: Load Balance zwischen EU-only Modellen (Regional Routing) mit automatischem Fallback zu sekundären EU-Modellen wenn primäre fehlschlagen. Das gibt dir geografische Compliance mit maximaler Zuverlässigkeit.

Wie stelle ich Modell-Kompatibilität in meiner Fallback Chain sicher?

Stelle sicher, dass jedes Modell in deiner Fallback Chain dieselben Parameter unterstützt (temperature, max_tokens, response_format, etc.). Requesty validiert Kompatibilität wenn du Policies erstellst und warnt dich wenn Modelle nicht zu deinen Request-Parametern passen.

Funktioniert Auto-Caching mit Fallback Policies?

Ja. Du kannst Caching-Verhalten pro Request mit dem auto_cache Flag kontrollieren. Setze auto_cache: true um Responses zu cachen, oder auto_cache: false um immer frische Responses zu fetchen. Caching funktioniert über deine gesamte Fallback Chain, serviert potenziell gecachte Responses von jedem Modell in der Chain.

Wie schnell passiert Failover?

Failover passiert in Millisekunden. Wenn ein Modell fehlschlägt (Timeout, Error oder Rate Limit), routet Requesty sofort zum nächsten Modell in deiner Chain—keine manuelle Intervention nötig. Das sorgt für 99.9% Uptime für deine AI-Anwendungen.

Kann ich basierend auf Request-Komplexität routen?

Ja. Nutze Load Balancing um einfache Queries zu schnellen, günstigen Modellen (GPT-3.5, Gemini Flash) und komplexe Queries zu Premium-Modellen (GPT-4, Claude Sonnet) zu routen. Du kannst auch Custom-Routing-Logik basierend auf Prompt-Länge, User-Tier oder beliebigen Metadaten implementieren, die du sendest.