Buscar documentação...

Comece a digitar para buscar documentação

Guia da plataforma

Modelos e preços

O que o sufixo :free significa, como o uso é cobrado e por que um modelo às vezes desaparece.

O catálogo

A página de Modelos lista cada modelo com janela de contexto, preços por token, endpoints suportados e filtros de capacidade como chamadas de ferramentas e entrada de imagem. Cada modelo tem sua própria página com exemplos de código prontos para copiar e colar. Nem todo modelo gratuito suporta chamadas de ferramentas ou visão, então verifique os selos de capacidade antes de conectar um a um agente de programação.

Os Rankings mostram quais modelos gratuitos realmente entregam, com base nos resultados dos testes da comunidade. Status acompanha a saúde dos provedores ao vivo.

Modelos gratuitos ou pagos

Modelos gratuitos carregam um sufixo :free, por exemplo gpt-oss-120b:free

Um modelo :free é roteado somente para provedores upstream gratuitos e nunca toca seu saldo. O mesmo nome base sem o sufixo é a versão paga: estável, sem limite e cobrada por token. Ambos podem coexistir, então mudar de gratuito para pago é uma alteração de uma única string.

Modelos gratuitos são gratuitos por um motivo: são os provedores upstream que definem os limites de taxa, não nós. Espere respostas 429 nos horários de pico e use um modelo pago quando precisar de confiabilidade.

Como os preços funcionam

A maioria dos modelos cobra por token, com preços separados de entrada e saída. Alguns poucos modelos (na maioria imagem e vídeo) cobram um preço fixo por chamada. O que você vê na página do modelo é o que você paga: sem assinaturas, sem taxas ocultas, seu saldo simplesmente diminui a cada requisição.

A página de Preços tem as opções de recarga atuais; cada página de modelo mostra os preços por token ao vivo.

Cache de prompt

Para modelos que suportam cache de prompt (Claude e outros), prefixos de prompt repetidos são cobrados a uma tarifa reduzida de entrada em cache, enquanto gravar uma nova entrada de cache custa um pouco mais do que um token de entrada normal (cerca de 1,25x).

O cache é automático. Cargas de trabalho com prompts de sistema longos e estáveis (agentes, presets de RP) são as que mais se beneficiam, sem nenhuma configuração.

Disponibilidade e failover

Quando um modelo gratuito tem vários provedores upstream, as requisições fazem failover automaticamente para o próximo se um provedor atingir seu limite de taxa. Modelos de provedor único não podem fazer failover, então travam até o limite ser reiniciado.

Cada modelo funciona por meio de um ou mais canais de provedor. Um canal que atinge seu limite de taxa é temporariamente desativado e ocultado, ele não é mostrado como opção enquanto se recupera. Enquanto ao menos um canal continuar ativo, o modelo segue funcionando por meio dele. Somente quando todos os canais de um modelo estão limitados por taxa é que o próprio modelo desaparece do catálogo.

Um modelo sumir da lista é esperado sob carga, não é um erro de digitação nem uma interrupção. Ele reaparece sozinho assim que um canal passa em uma verificação de saúde, geralmente em questão de minutos. Se um nome de modelo salvo parar de resolver, verifique a página de Modelos: ou ele está se recuperando ou foi renomeado.

Modelos e preços explicados