Про це повідомляє “Kreschatic” з посиланням на SciTechDaily
Нове дослідження Університету Джонса Гопкінса засвідчило: сучасні моделі штучного інтелекту неспроможні точно розпізнавати соціальні взаємодії. Попри високий рівень обробки текстів, зображень і відео, жодна з протестованих моделей не наблизилася до людського рівня розуміння соціального контексту. Це створює серйозні обмеження для використання ШІ в автономних авто, робототехніці та віртуальних помічниках.
Вчені підкреслюють, що йдеться не про дрібні неточності, а про системну невідповідність: AI не здатен відчути, що двоє людей розмовляють, готуються перейти дорогу чи просто стоять поруч. Причини криються не в обсягах даних, а в самій архітектурі моделей, яка не враховує динамічний характер людських взаємодій.
Чим відрізняється людське та машинне сприйняття
Для порівняння здатності AI та людей до інтерпретації сцен, учасникам експерименту показували короткі відео з соціальними ситуаціями. Люди мали оцінити рівень взаємодії, мету дій та емоційний контекст. Понад 350 моделей штучного інтелекту намагалися спрогнозувати ті самі оцінки, а також реакції людського мозку на перегляд відео.
Результати виявили розрив між людським та машинним сприйняттям. Учасники демонстрували високу узгодженість у своїх оцінках. Водночас моделі, незалежно від їхніх розмірів і навчальних баз, давали суперечливі й неточні результати. Відеомоделі не могли описати взаємодії між людьми, а мовні — лише частково вгадували людські реакції.
Проблема в основі архітектури AI
На відміну від розпізнавання облич чи предметів, розуміння соціальних сцен потребує аналізу контексту, інтенцій і взаємозв’язків між діями. Нинішні нейронні мережі, за словами дослідників, будувалися за аналогією з ділянками мозку, що відповідають за обробку статичних зображень.
Однак соціальні ситуації динамічні: вони розгортаються у часі, змінюються залежно від міміки, жестів, положення тіла. ШІ поки що не має ефективного механізму для аналізу цих факторів. Саме тому навіть найпотужніші мовні й візуальні моделі не здатні передбачити людське сприйняття сцени або реакцію мозку.
Можливі ризики при використанні в реальному житті
У реальних умовах ця вада може призвести до серйозних наслідків. Наприклад, автопілот не зможе вчасно розпізнати, що пішохід має намір перейти дорогу. Або сервісний робот не зрозуміє, чи людина звертається до нього чи до іншого.
Інші приклади — соціальні боти, які не здатні адекватно реагувати в етичних, емоційних чи особистих ситуаціях. Без глибшого розуміння людських взаємодій такі технології залишаються обмеженими в ефективності та безпеці.
Що показали вимірювання нейроактивності
Дослідники також вивчили реакцію мозку на перегляд відеосцен. За допомогою нейровізуалізації вдалося виявити, що моделі, які обробляли відео, краще відповідали патернам активності мозку, ніж ті, що аналізували текст. Проте жодна з них не досягла рівня точності, близького до людського.
Це дозволяє зробити припущення: повноцінна інтеграція AI в соціальні системи вимагає не лише розширення даних, а й перегляду принципів побудови моделей. Потрібне нове покоління архітектур, здатних відображати не лише візуальні, а й контекстуальні динамічні елементи людської поведінки.
Нагадаємо, раніше ми писали про ключ до швидкого росту та ясного розуму.