Guida alla piattaforma

Modelli e prezzi

Cosa significa il suffisso :free, come viene addebitato l'uso e perché a volte un modello scompare.

Il catalogo

La pagina Modelli elenca ogni modello con finestra di contesto, prezzi per token, endpoint supportati e filtri di capacità come le chiamate agli strumenti e l'input di immagini. Ogni modello ha una propria pagina con esempi di codice pronti da copiare e incollare. Non tutti i modelli gratuiti supportano le chiamate agli strumenti o la visione, quindi controlla i badge di capacità prima di collegarne uno a un agente di programmazione.

Le Classifiche mostrano quali modelli gratuiti mantengono davvero le promesse, in base ai risultati dei test della community. Stato monitora lo stato dei fornitori in tempo reale.

Modelli gratuiti o a pagamento

I modelli gratuiti portano un suffisso :free, per esempio gpt-oss-120b:free

Un modello :free viene instradato solo verso fornitori upstream gratuiti e non tocca mai il tuo saldo. Lo stesso nome base senza il suffisso è la versione a pagamento: stabile, senza limiti e addebitata per token. I due possono coesistere, quindi passare da gratuito a pagamento è un cambiamento di una sola stringa.

I modelli gratuiti sono gratuiti per un motivo: sono i fornitori upstream a impostare i limiti di frequenza, non noi. Aspettati risposte 429 nelle ore di punta e usa un modello a pagamento quando ti serve affidabilità.

Come funzionano i prezzi

La maggior parte dei modelli addebita per token, con prezzi separati per input e output. Alcuni modelli (per lo più immagine e video) addebitano invece un prezzo fisso per chiamata. Quello che vedi nella pagina del modello è ciò che paghi: nessun abbonamento, nessuna commissione nascosta, il tuo saldo diminuisce semplicemente a ogni richiesta.

La pagina Prezzi contiene le opzioni di ricarica attuali; ogni pagina di modello mostra i prezzi per token in tempo reale.

Cache dei prompt

Per i modelli che supportano la cache dei prompt (Claude e altri), i prefissi di prompt ripetuti vengono addebitati a una tariffa ridotta di input in cache, mentre scrivere una nuova voce di cache costa un po' più di un normale token di input (circa 1,25x).

La cache è automatica. I carichi di lavoro con prompt di sistema lunghi e stabili (agenti, preset di RP) ne traggono il massimo vantaggio, senza alcuna configurazione.

Disponibilità e failover

Quando un modello gratuito ha più fornitori upstream, le richieste passano automaticamente al successivo se un fornitore raggiunge il suo limite di frequenza. I modelli con un solo fornitore non possono passare, quindi si bloccano finché il limite non si azzera.

Ogni modello funziona tramite uno o più canali di fornitore. Un canale che raggiunge il suo limite di frequenza viene temporaneamente disabilitato e nascosto, non viene mostrato come opzione mentre si ripristina. Finché almeno un canale è ancora attivo, il modello continua a funzionare attraverso di esso. Solo quando tutti i canali di un modello sono limitati in frequenza il modello stesso scompare dal catalogo.

Che un modello scompaia dall'elenco è normale sotto carico, non è un errore di battitura né un'interruzione. Riappare da solo non appena un canale supera un controllo di stato, di solito in pochi minuti. Se un nome di modello salvato smette di risolversi, controlla la pagina Modelli: o si sta ripristinando oppure è stato rinominato.