Неспособность ИИ понять и предсказывать поведение людей мешает его внедрению

Современные ИИ-модели по-прежнему слабо распознают и интерпретируют поведение людей в изменяющихся социальных взаимодействиях, что ограничивает применение искусственного интеллекта в окружающей среде, несмотря на успехи в распознавании изображений.
В ходе эксперимента, проведенного исследователями из Университета Джонса Хопкинса (Университет Джонса Хопкинса), участники наблюдали короткие видеоролики по степени выраженности динамических взаимодействий, а более 350 языковых, видео- и визуальных моделей пытались предсказать эти наблюдения и реакцию человеческого мозга. Люди продемонстрировали высокую согласованность в ответах, тогда как модели II — вне зависимости от типа и объема обучающей выборки — давали подвижные и малоинформативные результаты. Видеомодели хуже всего справились с определением действий, языковые (LLM) работали чуть точнее, но тоже не указывали человеческому подходу.
Ученые предполагают, что ограниченность моделей может быть связана с собственными современными нейросетями. Архитектура большей части ИИ уподобляется области мозга, отвечающей тогда на восприятие статичных изображений, как обработка социальной сцены, связанной с другими отделами.
Исследование было представлено на конференции ICLR и финансировалось Национальным научным фондом США и Национальным институтом психического здоровья.