techodix » Искусственный интеллект » Chatbot Arena манипулирует рейтингами ИИ?

Chatbot Arena манипулирует рейтингами ИИ?

Chatbot Arena манипулирует рейтингами ИИ?

Платформа, на которую ссылались как на эталон объективного сравнения языковых моделей, оказалась совсем не беспристрастной. Новое исследование показало: Chatbot Arena подыгрывает крупным разработчикам, ограничивает видимость открытых моделей и искажает прогресс в изучении ИИ. IT-мир разбирается, как устроена эта система — и почему она вызывает всё больше раздражения в сообществе.
Чат-бот Арена выглядел красиво. Удобная платформа: две модели предоставляют один и тот же запрос, пользователь выбирает, какой ответ лучше — вслепую, без знания, кто есть кто. Всё выглядит как демократичный конкурс качества. Но под внешней нейтральностью скрывается тщательно выстроенная система перекосов. И теперь это не догадки, а подтверждённый факт.

Исследование, подготовленное учеными Google DeepMind, ETH Zurich, Университета Вашингтона и других институтов, показало, что арена совсем не одинакова для всех. Она явно играет со стороны крупных игроков — таких как OpenAI, Meta*, Google и Anthropic. Эти компании получают не просто больше внимания — им фактически предоставлены технические и статистические привилегии.

Пример — Мета* протестовала 27 разных версий Llama 4, и в рейтинге осталась, конечно, только та, что выглядела подобным образом. Остальные 26? В корзину. А ведь Chatbot Arena не ограничивает число приватных подходов: компания может бесконечно «шлифовать» результат. Пока независимые команды выкладывают максимум две версии — без права на дубль.

Дальше — хуже.

62,8% всех сравнений приходится на четыре компании. Оставшиеся 29,7% делятся между 83 открытыми моделями.

То есть пойти на выборы — мягко говоря, неравны. А ведь речь идет не только о месте в рейтинге. Эти запросы — самый ценный спортивный материал. С точки зрения внимания, дообучение данных Arena может дать до 112% прироста производительности. Доступ к таким данным — строго по рангу.

Всё это создаёт эффект самоподпитки: больше трафика → лучшая модель → ещё больше трафика. И наоборот — в открытых моделях почти нет шанса выйти из тени.

Дополняет картину отсутствие прозрачности. Модели могут менять идентификаторы, версия может меняться без протокола, а в некоторых случаях проприетарные решения маскируются под открытым исходным кодом. Это подрывает саму оценку глубины: нельзя сравнивать то, что не отслеживается и не верифицируется.

Но самый уязвимый элемент — механизмы исключения моделей. Он есть. Работает только он тихо и выборочно.

Из 243 удалённых моделей 205 были открыты. Это две заботы.

Причины удаления не публикуются. Разработчики не предупреждают. Более того, удаленные модели могут еще долго фигурировать в сравнениях, хотя уже не представлены в рейтинге — что делает их по сути «фоновыми участниками» без возможности победить.

Команда LMSYS Foundation, управляющая Ареной, признала часть претензий. В ответ были введены ограничения: при замене не требуется более пяти активных приватных моделей. Но актуальные аспекты остались нетронутыми: запросы, публикации журналов, доступ к метаинформации — все это до сих пор закрыто. Сравнения идут, но понять, как именно рассчитываются результаты, невозможно.

Реакция сообщества — ожидаемая. В X и Reddit всё больше жалуются: у разработчиков исчезают модели, снижают трафик, блокируют обновления. В ходе этого следует перейти на альтернативные площадки — например, Hugging Face Open LLM Leaderboard, где хотя бы понятно, как устроен рейтинг и кто с кем соревнуется.

Авторы исследования не ограничили критику и предложили конкретные шаги для спасения ситуации:

Публиковать все версии моделей и результаты сравнений.
Ограничить количество частных вариантов от одного разработчика.
Справедливо расположить запросы пользователей между всеми жителями.
Уведомлять об исключении возможности модели, объяснять причину, давать ответ.
Открыт доступ к логам и метаданным — чтобы можно было перепроверить любой вывод.
Chatbot Arena — это не просто сайт с таблицей. Это зеркало промышленности. Его данные влияют на инвестиции, принятые решения, научные публикации и публичные обсуждения. И если в этом зеркале отражается только выгодный угол крупного игрока, то это уже не отражение реальности — инструмент давления.

Сама идея честности сравниваемых моделей — важна. Но пока она реализована через закрытую платформу с ручным управлением, безопасность к ней будет снижаться. Кто знает: может, следующая революционная модель уже создана — но у нее просто не было шанса попасть в нужный рейтинг.

Понравилась ли Вам статья?
0 из 0 посчитали это полезным

Комментарии

Добавить комментарий

Навигация
Гаджеты
Искусственный интеллект
Кибербезопасность
Автотехнологии
Космос и наука
Соцсети и интернет
Мир технологий
Игры и VR
Комментарии
Впервые в мире дрон вызвал молнию, используя колебания электрического поля
{title}
Нина
04.05.2025
Удивительная статья! Идея использовать дрон для вызова молнии с помощью электрического поля звучит
ТОП-5 самых громких хакерских атак 2024 года
{title}
Александр
01.05.2025
Спасибо за интересную статью! Эти пять громких кибератак 2024 года действительно заставляют
Telegram теперь можно использовать как Zoom — добавлены групповые звонки до 200 пользователей
{title}
nik
01.05.2025
Отличная новость! Telegram продолжает удивлять своими обновлениями. Групповые звонки до 200 человек
Все комментарии
Авторизация

Войдите через свою социальную сеть для быстрого доступа