Modèles et tarifs
Ce que signifie le suffixe :free, comment l'utilisation est facturée et pourquoi un modèle disparaît parfois.
Le catalogue
La page Modèles liste chaque modèle avec sa fenêtre de contexte, ses tarifs au jeton, ses endpoints pris en charge et des filtres de capacité comme l'appel d'outils et l'entrée d'images. Chaque modèle a sa propre page avec des exemples de code prêts à copier-coller. Tous les modèles gratuits ne prennent pas en charge l'appel d'outils ou la vision, vérifiez donc les badges de capacité avant d'en brancher un dans un agent de programmation.
Les Classements montrent quels modèles gratuits tiennent réellement leurs promesses, selon les résultats des tests de la communauté. Statut suit l'état des fournisseurs en direct.
Modèles gratuits ou payants
Les modèles gratuits portent un suffixe :free, par exemple gpt-oss-120b:free
Un modèle :free n'est routé que vers des fournisseurs upstream gratuits et ne touche jamais votre solde. Le même nom de base sans le suffixe est la version payante : stable, sans plafond et facturée au jeton. Les deux peuvent coexister, donc passer du gratuit au payant est un changement d'une seule chaîne.
Les modèles gratuits sont gratuits pour une raison : ce sont les fournisseurs upstream qui fixent les limites de débit, pas nous. Attendez-vous à des réponses 429 aux heures de pointe et utilisez un modèle payant quand vous avez besoin de fiabilité.
Comment fonctionne la tarification
La plupart des modèles facturent au jeton, avec des tarifs distincts pour l'entrée et la sortie. Quelques modèles (surtout image et vidéo) facturent plutôt un prix forfaitaire par appel. Ce que vous voyez sur la page du modèle est ce que vous payez : pas d'abonnements, pas de frais cachés, votre solde diminue simplement à chaque requête.
La page Tarifs présente les options de rechargement actuelles ; chaque page de modèle affiche les tarifs au jeton en direct.
Mise en cache des prompts
Pour les modèles qui prennent en charge la mise en cache des prompts (Claude et d'autres), les préfixes de prompt répétés sont facturés à un tarif réduit d'entrée en cache, tandis que l'écriture d'une nouvelle entrée de cache coûte un peu plus qu'un jeton d'entrée normal (environ 1,25x).
La mise en cache est automatique. Les charges de travail avec de longs prompts système stables (agents, presets de RP) en profitent le plus, sans aucune configuration.
Disponibilité et bascule
Lorsqu'un modèle gratuit a plusieurs fournisseurs upstream, les requêtes basculent automatiquement vers le suivant si un fournisseur atteint sa limite de débit. Les modèles à fournisseur unique ne peuvent pas basculer, ils se bloquent donc jusqu'à la réinitialisation de la limite.
Chaque modèle fonctionne via un ou plusieurs canaux de fournisseur. Un canal qui atteint sa limite de débit est temporairement désactivé et masqué, il n'est pas proposé comme option pendant qu'il récupère. Tant qu'un canal reste actif, le modèle continue de fonctionner à travers lui. Ce n'est que lorsque tous les canaux d'un modèle sont limités en débit que le modèle lui-même disparaît du catalogue.
Qu'un modèle disparaisse de la liste est normal en cas de charge, ce n'est ni une faute de frappe ni une panne. Il réapparaît de lui-même dès qu'un canal réussit une vérification d'état, généralement en quelques minutes. Si un nom de modèle enregistré ne se résout plus, consultez la page Modèles : soit il est en cours de rétablissement, soit il a été renommé.