Modelos y precios
Qué significa el sufijo :free, cómo se cobra el uso y por qué a veces desaparece un modelo.
El catálogo
La página de Modelos lista cada modelo con su ventana de contexto, precios por token, endpoints admitidos y filtros de capacidad como llamadas a herramientas y entrada de imágenes. Cada modelo tiene su propia página con ejemplos de código listos para copiar y pegar. No todos los modelos gratuitos admiten llamadas a herramientas o visión, así que revisa las insignias de capacidad antes de conectar uno a un agente de programación.
Clasificaciones muestra qué modelos gratuitos cumplen realmente, según los resultados de las pruebas de la comunidad. Estado hace seguimiento del estado de los proveedores en vivo.
Modelos gratuitos frente a de pago
Los modelos gratuitos llevan un sufijo :free, por ejemplo gpt-oss-120b:free
Un modelo :free se enruta solo a proveedores upstream gratuitos y nunca toca tu saldo. El mismo nombre base sin el sufijo es la versión de pago: estable, sin límite y facturada por token. Ambos pueden coexistir, así que pasar de gratuito a de pago es un cambio de una sola cadena.
Los modelos gratuitos son gratuitos por una razón: los proveedores upstream fijan los límites de tasa, no nosotros. Espera respuestas 429 en horas punta y usa un modelo de pago cuando necesites fiabilidad.
Cómo funcionan los precios
La mayoría de los modelos cobran por token, con precios separados de entrada y salida. Unos pocos modelos (sobre todo de imagen y vídeo) cobran en su lugar un precio fijo por llamada. Lo que ves en la página del modelo es lo que pagas: sin suscripciones, sin comisiones ocultas, tu saldo simplemente disminuye por solicitud.
La página de Precios tiene las opciones de recarga actuales; cada página de modelo muestra precios por token en vivo.
Caché de prompts
En los modelos que admiten caché de prompts (Claude y otros), los prefijos de prompt repetidos se cobran a una tarifa reducida de entrada en caché, mientras que escribir una nueva entrada en caché cuesta algo más que un token de entrada normal (alrededor de 1,25x).
El almacenamiento en caché es automático. Las cargas de trabajo con prompts de sistema largos y estables (agentes, presets de RP) son las que más se benefician, sin necesidad de configuración.
Disponibilidad y conmutación por error
Cuando un modelo gratuito tiene varios proveedores upstream, las solicitudes conmutan automáticamente al siguiente si un proveedor alcanza su límite de tasa. Los modelos de un solo proveedor no pueden conmutar, así que se detienen hasta que el límite se restablece.
Cada modelo funciona a través de uno o varios canales de proveedor. Un canal que alcanza su límite de tasa se desactiva y oculta temporalmente, no se muestra como opción mientras se recupera. Mientras siga activo al menos un canal, el modelo sigue funcionando a través de él. Solo cuando todos los canales de un modelo están limitados por tasa desaparece el propio modelo del catálogo.
Que un modelo desaparezca de la lista es lo esperado bajo carga, no un error tipográfico ni una interrupción. Reaparece por sí solo en cuanto un canal pasa una comprobación de estado, normalmente en cuestión de minutos. Si un nombre de modelo guardado deja de resolverse, consulta la página de Modelos: o se está recuperando o ha sido renombrado.