Szukaj w dokumentacji...

Zacznij wpisywać, aby przeszukać dokumentację

Przewodnik po platformie

Modele i ceny

Co oznacza przyrostek :free, jak wyceniane jest użycie i dlaczego model czasami znika.

Katalog

Strona Modele wymienia każdy model z oknem kontekstu, cenami za token, obsługiwanymi punktami końcowymi i filtrami możliwości, takimi jak wywoływanie narzędzi i wejście obrazu. Każdy model ma własną stronę z gotowymi do skopiowania przykładami kodu. Nie każdy darmowy model obsługuje wywoływanie narzędzi lub wizję, więc sprawdź odznaki możliwości, zanim podłączysz jeden do agenta programistycznego.

Rankingi pokazują, które darmowe modele faktycznie się sprawdzają, na podstawie wyników testów społeczności. Status śledzi kondycję dostawców na żywo.

Modele darmowe kontra płatne

Darmowe modele mają przyrostek :free, na przykład gpt-oss-120b:free

Model :free jest kierowany wyłącznie do darmowych dostawców upstream i nigdy nie narusza twojego salda. Ta sama nazwa bazowa bez przyrostka to wersja płatna: stabilna, bez limitu i rozliczana za token. Obie mogą istnieć obok siebie, więc przejście z darmowego na płatny to zmiana jednego ciągu znaków.

Darmowe modele są darmowe nie bez powodu: to dostawcy upstream ustalają limity szybkości, nie my. Spodziewaj się odpowiedzi 429 w godzinach szczytu i używaj modelu płatnego, gdy potrzebujesz niezawodności.

Jak działa wycena

Większość modeli rozlicza się za token, z osobnymi cenami wejścia i wyjścia. Kilka modeli (głównie obraz i wideo) rozlicza zamiast tego stałą cenę za wywołanie. To, co widzisz na stronie modelu, to to, co płacisz: bez subskrypcji, bez ukrytych opłat, twoje saldo po prostu maleje z każdym żądaniem.

Strona Cennik zawiera aktualne opcje doładowania; każda strona modelu pokazuje ceny za token na żywo.

Buforowanie promptów

W przypadku modeli obsługujących buforowanie promptów (Claude i inne) powtarzające się prefiksy promptów są rozliczane po obniżonej stawce za wejście z cache, podczas gdy zapis nowego wpisu do cache kosztuje nieco więcej niż zwykły token wejściowy (około 1,25x).

Buforowanie jest automatyczne. Najwięcej zyskują obciążenia z długimi, stabilnymi promptami systemowymi (agenci, presety RP), bez potrzeby konfiguracji.

Dostępność i przełączanie awaryjne

Gdy darmowy model ma kilku dostawców upstream, żądania automatycznie przełączają się na następnego, jeśli jeden dostawca osiągnie swój limit szybkości. Modele z jednym dostawcą nie mogą się przełączyć, więc zatrzymują się do zresetowania limitu.

Każdy model działa przez jeden lub więcej kanałów dostawcy. Kanał, który osiągnie swój limit szybkości, zostaje tymczasowo wyłączony i ukryty, nie jest pokazywany jako opcja, dopóki się nie odbuduje. Dopóki działa choć jeden kanał, model nadal pracuje przez niego. Dopiero gdy wszystkie kanały danego modelu są ograniczone limitem szybkości, sam model znika z katalogu.

Zniknięcie modelu z listy jest oczekiwane przy dużym obciążeniu, to nie literówka ani awaria. Model pojawia się z powrotem samoczynnie, gdy tylko kanał przejdzie sprawdzenie kondycji, zwykle w ciągu kilku minut. Jeśli zapisana nazwa modelu przestaje się rozwiązywać, sprawdź stronę Modele: model albo się odbudowuje, albo został przemianowany.

Modele i ceny wyjaśnione