Проверяйте, прежде чем доверять
Тестер моделей ИИ API
Проверьте, выдает ли конечная точка заявленную модель. Работает в браузере, ваш ключ не отправляется на наши серверы.
Каждый опубликованный результат перед зачётом повторно прогоняется на нашем сервере, и каждый вердикт ссылается на точные доказательства, которые его породили. Результат, который вы считаете ошибочным, можно оспорить.Сообщить в DiscordОткрыть issue на GitHub
Чем этот тестер отличается
Каждая проверка соответствует конкретному сигналу в ответе, поэтому мы не помечаем настоящие модели как поддельные, как это делает статистическое снятие отпечатков. Прочтите точный код.
Результат попадает на публичную доску только после того, как наш сервер сам заново прогоняет весь тест, поэтому рейтинги нельзя подделать.
Каждый вердикт показывает отправленный запрос, необработанный ответ и совпавший текст, который его вызвал. Ничего не скрывается.
- Неопределённость версии подлинная модель подтверждает поставщика и уровень, но часто не уверена в точной версии. Само по себе это никогда не считается провалом, а помечается лишь как информационное замечание.
- Временные ошибки ограничения частоты (429), 5xx и тайм-ауты помечают прогон как непроверенный, но никогда как подозрительный. Настоящий эндпоинт, переживающий плохой момент, не штрафуется.
- Имена облачных хостов называние AWS Bedrock, Google Vertex или Azure в качестве хоста принимается, поскольку это законные способы перепродажи настоящей модели.
- Переформатирование протокола перевод между chat-completions и нативным форматом messages является обычным поведением шлюза и не является признаком мошенничества, когда сама модель подлинная.
- Один нестабильный зонд трёх пройденных зондов из четырёх достаточно для подлинности, поэтому один неудачный ответ не осуждает честный эндпоинт.
Весь этот тестер с открытым исходным кодом. Прочитайте, какие именно тесты выполняются и почему: Посмотреть код обнаружения
Есть идея для лучшего теста? Предложите её здесь:Открыть issue на GitHubСообщить в Discord
Открытый код. Проверьте и улучшите его.
Код тестов открыт. Посмотрите, какие проверки выполняются и почему, предложите новые тесты или обсудите детектирование в нашем Discord.