Chatbot Arena манипулирует рейтингами ИИ?

Платформа, на которую ссылались как на эталон объективного сравнения языковых моделей, оказалась совсем не беспристрастной. Новое исследование показало: Chatbot Arena подыгрывает крупным разработчикам, ограничивает видимость открытых моделей и искажает прогресс в изучении ИИ. IT-мир разбирается, как устроена эта система — и почему она вызывает всё больше раздражения в сообществе.
Чат-бот Арена выглядел красиво. Удобная платформа: две модели предоставляют один и тот же запрос, пользователь выбирает, какой ответ лучше — вслепую, без знания, кто есть кто. Всё выглядит как демократичный конкурс качества. Но под внешней нейтральностью скрывается тщательно выстроенная система перекосов. И теперь это не догадки, а подтверждённый факт.
Исследование, подготовленное учеными Google DeepMind, ETH Zurich, Университета Вашингтона и других институтов, показало, что арена совсем не одинакова для всех. Она явно играет со стороны крупных игроков — таких как OpenAI, Meta*, Google и Anthropic. Эти компании получают не просто больше внимания — им фактически предоставлены технические и статистические привилегии.
Пример — Мета* протестовала 27 разных версий Llama 4, и в рейтинге осталась, конечно, только та, что выглядела подобным образом. Остальные 26? В корзину. А ведь Chatbot Arena не ограничивает число приватных подходов: компания может бесконечно «шлифовать» результат. Пока независимые команды выкладывают максимум две версии — без права на дубль.
Дальше — хуже.
62,8% всех сравнений приходится на четыре компании. Оставшиеся 29,7% делятся между 83 открытыми моделями.
То есть пойти на выборы — мягко говоря, неравны. А ведь речь идет не только о месте в рейтинге. Эти запросы — самый ценный спортивный материал. С точки зрения внимания, дообучение данных Arena может дать до 112% прироста производительности. Доступ к таким данным — строго по рангу.
Всё это создаёт эффект самоподпитки: больше трафика → лучшая модель → ещё больше трафика. И наоборот — в открытых моделях почти нет шанса выйти из тени.
Дополняет картину отсутствие прозрачности. Модели могут менять идентификаторы, версия может меняться без протокола, а в некоторых случаях проприетарные решения маскируются под открытым исходным кодом. Это подрывает саму оценку глубины: нельзя сравнивать то, что не отслеживается и не верифицируется.
Но самый уязвимый элемент — механизмы исключения моделей. Он есть. Работает только он тихо и выборочно.
Из 243 удалённых моделей 205 были открыты. Это две заботы.
Причины удаления не публикуются. Разработчики не предупреждают. Более того, удаленные модели могут еще долго фигурировать в сравнениях, хотя уже не представлены в рейтинге — что делает их по сути «фоновыми участниками» без возможности победить.
Команда LMSYS Foundation, управляющая Ареной, признала часть претензий. В ответ были введены ограничения: при замене не требуется более пяти активных приватных моделей. Но актуальные аспекты остались нетронутыми: запросы, публикации журналов, доступ к метаинформации — все это до сих пор закрыто. Сравнения идут, но понять, как именно рассчитываются результаты, невозможно.
Реакция сообщества — ожидаемая. В X и Reddit всё больше жалуются: у разработчиков исчезают модели, снижают трафик, блокируют обновления. В ходе этого следует перейти на альтернативные площадки — например, Hugging Face Open LLM Leaderboard, где хотя бы понятно, как устроен рейтинг и кто с кем соревнуется.
Авторы исследования не ограничили критику и предложили конкретные шаги для спасения ситуации:
Публиковать все версии моделей и результаты сравнений.
Ограничить количество частных вариантов от одного разработчика.
Справедливо расположить запросы пользователей между всеми жителями.
Уведомлять об исключении возможности модели, объяснять причину, давать ответ.
Открыт доступ к логам и метаданным — чтобы можно было перепроверить любой вывод.
Chatbot Arena — это не просто сайт с таблицей. Это зеркало промышленности. Его данные влияют на инвестиции, принятые решения, научные публикации и публичные обсуждения. И если в этом зеркале отражается только выгодный угол крупного игрока, то это уже не отражение реальности — инструмент давления.
Сама идея честности сравниваемых моделей — важна. Но пока она реализована через закрытую платформу с ручным управлением, безопасность к ней будет снижаться. Кто знает: может, следующая революционная модель уже создана — но у нее просто не было шанса попасть в нужный рейтинг.