Requesty: El Router Inteligente de Modelos AI
Maximiza la fiabilidad y performance con failover automático y load balancing a través de 500+ modelos LLM. Nunca offline. Siempre una respuesta.
Políticas de Failover Automático
Asegura 99.9% de uptime para tus aplicaciones AI. Cuando un modelo falla (timeout, error, rate limit), Requesty automáticamente rutea a tus modelos de respaldo en milisegundos—no se requiere intervención manual.
Cómo funciona
Tu modelo primario recibe el request.
Si falla (timeout, error, etc.), el router inmediatamente intenta el siguiente modelo.
Esto continúa hasta que un modelo entrega los resultados que necesitas.
Por Qué el Routing Fallback Es Importante
99.9% de Uptime
Elimina puntos únicos de falla. Si OpenAI cae, cambia instantáneamente a Anthropic, Google o AWS Bedrock
Manejo de Rate Limits
Rutea automáticamente tráfico excedente a modelos alternativos cuando alcanzas límites de rate del provider
Optimización de Costos
Comienza con modelos más baratos, recurre a premium solo cuando es necesario
Preguntas Frecuentes
Qué es una fallback policy y cómo funciona?
Una fallback policy es un mecanismo de re-routing automático. Cuando tu modelo primario falla (timeout, error, rate limit), Requesty inmediatamente rutea el request al siguiente modelo en tu cadena. Esto continúa hasta que un modelo responde exitosamente. Solo pagas por el request exitoso.
Cómo mantiene el load balancing la consistencia conversacional?
Requesty mantiene consistencia de routing por trace_id. Esto significa que el mismo usuario o conversación siempre alcanza el mismo modelo, asegurando interacciones multi-turno coherentes. Configura tu distribución (ej: 50% Model A, 30% Model B, 20% Model C) y cada trace_id es ruteado consistentemente basado en esos pesos.
Puedo usar fallback policies para A/B testing?
Sí. Combina fallback policies con load balancing para A/B testing. Rutea 90% a tu modelo de producción y 10% a un modelo experimental, luego mide calidad, latencia y costo en paralelo. Si el modelo experimental falla, automáticamente recurre a tu modelo de producción.
Qué pasa si todos los modelos en mi cadena de fallback fallan?
Si todos los modelos en tu cadena de fallback fallan, Requesty retorna una respuesta de error con detalles sobre cada intento. Puedes configurar el número máximo de intentos de retry y umbrales de timeout por modelo en tus configuraciones de policy.
Cómo determina el routing basado en latencia qué modelo es más rápido?
Requesty rastrea latencias P50, P90 y P99 a través de todos los modelos en tiempo real. Basado en performance observado real (no promesas de marketing), el sistema recomienda los modelos más rápidos para tu carga de trabajo específica y automáticamente cambia tráfico a opciones de menor latencia.
Puedo combinar fallback, load balancing y routing regional?
Sí. Puedes crear policies que combinan múltiples estrategias de routing. Por ejemplo: load balance entre modelos solo-EU (routing regional) con fallback automático a modelos EU secundarios si el primario falla. Esto te da cumplimiento geográfico con máxima fiabilidad.
Cómo aseguro la compatibilidad de modelos en mi cadena de fallback?
Asegúrate de que cada modelo en tu cadena de fallback soporte los mismos parámetros (temperature, max_tokens, response_format, etc.). Requesty valida compatibilidad cuando creas policies y te advierte si los modelos no coinciden con tus parámetros de request.
El auto-caching funciona con fallback policies?
Sí. Puedes controlar comportamiento de caching por request con el flag auto_cache. Establece auto_cache: true para cachear respuestas, o auto_cache: false para siempre obtener respuestas frescas. El caching funciona a través de toda tu cadena de fallback, potencialmente sirviendo respuestas cacheadas de cualquier modelo en la cadena.
Qué tan rápido ocurre el failover?
El failover ocurre en milisegundos. Cuando un modelo falla (timeout, error o rate limit), Requesty inmediatamente rutea al siguiente modelo en tu cadena—no se requiere intervención manual. Esto asegura 99.9% de uptime para tus aplicaciones AI.
Puedo rutear basado en complejidad de request?
Sí. Usa load balancing para rutear queries simples a modelos rápidos y baratos (GPT-3.5, Gemini Flash) y queries complejas a modelos premium (GPT-4, Claude Sonnet). También puedes implementar lógica de routing personalizada basada en longitud de prompt, tier de usuario, o cualquier metadata que envíes.