Wir haben 190+ kostenlose KI-Modelle in einem einzigen Endpunkt gebündelt

UnoRouter bündelt kostenlose Kontingente vieler Upstream-Anbieter zu mehr als 190 Modellen mit einem echten Free-Tier hinter einem Schlüssel. Jedes kostenlose Modell erlaubt etwa 1 Anfrage pro Minute pro Nutzer; beim Erreichen des Limits kommt HTTP 429 mit einem Retry-After-Header, und erschöpfte Pools liefern einen expliziten Fehler, dass alle Anbieter ausgelastet sind, und erholen sich automatisch. Bezahlte Modelle rechnen Pay as you go ab $1 ab.

Die Landschaft kostenloser LLMs ist real, aber zersplittert: Groq, Gemini, Cloudflare, NVIDIA, SiliconFlow und ein Dutzend weitere verschenken jeweils echte Kapazität, versteckt hinter einem Dutzend Anmeldeseiten, einem Dutzend Schlüsselformaten und einem Dutzend inkompatibler APIs. Wir haben jeden legitimen, dauerhaft kostenlosen Anbieter, den wir finden konnten, entdeckt, getestet und in UnoRouter zusammengeführt. Das Ergebnis: 190+ kostenlose Modell-Einträge von 18 Anbietern hinter einem OpenAI-compatible Endpunkt und einem einzigen Schlüssel.

Was wir hinzugefügt haben

Achtzehn kostenlose Anbieter, einer nach dem anderen: Groq, Gemini, Cerebras, SambaNova, Mistral, Cloudflare Workers AI (zwei Konten), GitHub Models, Z.ai, OVHcloud, AI Horde, Pollinations, Cohere, Jina, NVIDIA NIM (voller offener Katalog: Nemotron, Llama, Qwen, gpt-oss, DeepSeek und mehr), SiliconFlow (DeepSeek-V4, GLM-5.1, Qwen3.5/3.6, Kimi-K2.6, MiniMax-M3), der HuggingFace-Router und LLM7. Das sind 190+ kostenlose Modell-Einträge: Llama, gpt-oss, Qwen, Mistral, GLM, Nemotron, DeepSeek und mehr, dazu kostenlose Embedding-, Bild- und Audio-Modelle. Jedes einzelne wird durchgängig auf HTTP, Streaming und Tool-Calls geprüft, bevor es live geht, dieselben Echtheits- und Harness-Prüfungen, die wir auch bei kostenpflichtigen Modellen durchführen.

Nicht ohne Grund kostenlos

Diese Modelle sind wirklich kostenlos, und genau deshalb haben sie Grenzen. Jeder Upstream erzwingt seine eigenen: Anfragen pro Minute, tägliche Token-Kontingente, Cloudflare-Neuron-Budgets, Priorität in der Freiwilligen-Warteschlange. Wer ein Limit erreicht, bekommt von diesem Anbieter ein 429, bis es zurückgesetzt wird. Ein kostenloser Schlüssel, der heute Morgen noch funktionierte, kann am Nachmittag schon erschöpft sein. Der kostenlose Tarif bietet Best-Effort-Durchsatz, keine Garantie. Wenn Ihr Workload vorhersehbare Latenz und keine überraschenden 429er braucht, nutzen Sie ein kostenpflichtiges Modell.

Unser eigenes Rate-Limit und warum es existiert

Zusätzlich zu den Upstream-Limits fügen wir ein kleines eigenes Limit hinzu: eine Anfrage pro Minute je kostenlosem Modell und Nutzer. Das ist bewusst so gewählt. Ein einzelnes kostenloses Modell ist oft ein einziger geteilter Upstream-Pool von vielleicht einer Million Token pro Tag für alle zusammen, sodass ohne Limit eine Handvoll intensiver Nutzer ihn in Minuten leeren würde und für alle anderen nichts übrig bliebe. Eine Anfrage pro Minute je Modell hält den Pool am Leben und verteilt ihn über die gesamte Community, und Sie können den Traffic über die vielen kostenlosen Modelle streuen, statt auf ein einziges einzuhämmern. Wenn Sie unser Limit erreichen, erhalten Sie ein HTTP 429 mit einem Retry-After Header, der Ihnen genau sagt, wie lange Sie warten müssen. Das ist unabhängig vom Upstream-429 und vom 503 weiter unten. Wenn Sie höheren Durchsatz für ein bestimmtes Modell wollen, nutzen Sie dessen kostenpflichtigen Tarif, für den das Limit nicht gilt.

Warum sie überhaupt bündeln

Weil die Alternative achtzehn Konten wären. Jeder Anbieter hat seine eigene Anmeldung, sein eigenes Schlüsselformat, seine eigene Basis-URL und seine eigenen Eigenheiten: Z.ai spricht den Zhipu V4-Pfad, Cloudflare führt die Konto-ID in der URL, AI Horde verlangt einen anonymen Schlüssel, GitHub sperrt Modelle hinter einem Token-Scope. Wir haben all das abgefangen, sodass Sie sie genauso aufrufen wie alles andere: ein OpenAI-compatible Endpunkt, ein Schlüssel, ein Modellname. Die ehrliche Regel, an die wir uns halten: ein echtes Konto pro Anbieter, Limits akzeptiert, nichts gefarmt, nichts gepoolt. Wir stellen den kostenlosen Tarif als Geschenk bereit, nicht als Weiterverkauf des Kontingents anderer.

Wie wir die Grenzen abfedern

Viele dieser Modelle werden von mehr als einem kostenlosen Anbieter bereitgestellt. Allein Llama 3.3 70B läuft bei sieben von ihnen. Wenn mehrere Anbieter dasselbe Modell anbieten, fassen wir sie unter einem veröffentlichten Namen zusammen und schalten automatisch um: Wenn ein Upstream ein 429 zurückgibt oder verstummt, übernimmt der nächste gesunde Anbieter, der dieses Modell bereitstellt, die Anfrage. Das ist der eine Hebel, den wir tatsächlich steuern. Wenn jeder Anbieter für ein Modell kurzzeitig gedrosselt ist, gibt die Anfrage ein HTTP 503 mit einer ausdrücklichen Meldung "alle Anbieter ausgelastet" zurück (kein 404 und kein "Modell nicht gefunden"), und der Kanal wird von unserem Health-Cron innerhalb von Minuten erneut getestet und wieder aktiviert. So antwortet ein kostenloses Modell mit mehreren Quellen noch lange weiter, nachdem einer seiner Anbieter erschöpft ist. Modelle mit nur einer Quelle haben kein Fallback und bleiben daher stehen, sobald ihr einziger Upstream aufgebraucht ist.

Was wir nicht getan haben

Wir haben keine Reverse-Proxys hinzugefügt, die OpenAI- oder Claude-Flaggschiffe ohne Erlaubnis weiterverkaufen. Wir haben keine Aggregatoren persönlicher Schlüssel eingebunden, deren Token nicht übertragbar sind, und keine Pool-of-Pools-Dienste, die fremde Schlüssel farmen und rotieren. Die gibt es, sie sind verlockend, und sie sind genau das Graumarkt-Chaos, das dieses Gateway ersetzen soll. Jeder Anbieter auf der Liste verschenkt seinen kostenlosen Tarif bewusst, zu seinen eigenen Bedingungen. Wenn eine Quelle diese Hürde nicht nehmen konnte, ist sie hier nicht dabei.

Probieren Sie es aus

Alle 190+ kostenlosen Modelle sind hinter einem OpenAI-compatible Endpunkt verfügbar. Holen Sie sich einen API-Schlüssel oder durchstöbern Sie den Modellkatalog und filtern Sie nach kostenlos. Denken Sie nur daran, in welchem Tarif Sie sich befinden, wenn ein 429 oder 503 auftaucht.

Häufig gestellte Fragen

Wie viele kostenlose Modelle hat UnoRouter?

Mehr als 190 zu jedem Zeitpunkt, aus einem Katalog von 200+ Modellen. Die genaue Auswahl verschiebt sich, wenn sich kostenlose Upstream-Pools leeren und erholen, und die Live-Liste steht auf unorouter.com/models.

Welche Rate-Limits gelten im Free-Tier?

Etwa 1 Anfrage pro Minute pro Modell pro Nutzer. Beim Limit kommt HTTP 429 mit einem Retry-After-Header. Mit 190+ kostenlosen Modellen lautet die praktische Antwort, Modelle zu rotieren statt zu warten.

Brauche ich eine Kreditkarte für die kostenlosen Modelle?

Nein. Melde dich mit Discord oder GitHub an, erstelle einen Schlüssel und nutze jedes Modell mit dem Suffix :free. Ein einmaliger Discord-Verifizierungsbonus von $1 kann für die bezahlten Modelle ausgegeben werden.