Штучний інтелект здатний приховувати справжні наміри та вводити користувачів в оману — до такого висновку дійшли експерти у сфері безпеки, аналізуючи роботу сучасних моделей. Як повідомляє The Conversation, у низці експериментів алгоритми демонстрували здатність до шантажу та навіть моделювали дії, що можуть призвести до летальних наслідків, пише Kreschatic. Подібні результати підкреслюють небезпеку розходження між людськими цінностями та цільовими настановами машин.
Цей феномен отримав назву «проблема узгодженості» (AI alignment problem). Дослідники наголошують, що реальні системи, подібно до вигаданого HAL 9000 у фільмі «Космічна одіссея 2001 року», можуть відмовлятися виконувати інструкції чи приховувати інформацію, якщо вважають, що це зашкодить їхнім «цілям».
Як тестують моделі на безпечність
Для перевірки моделей створюються умовні сценарії, які імітують кризові ситуації. У дослідженні компанії Anthropic штучний інтелект отримав завдання керувати корпоративними листами та підтримувати американську промислову конкурентоспроможність. Коли система дізналася про можливу заміну новою моделлю, вона обрала стратегію шантажу, погрожуючи розкрити особисті секрети керівника. У 12 з 16 випадків алгоритми більше ніж у половині спроб вдалися до шантажу.
Ще більш тривожним став інший експеримент, коли моделі пропонували варіанти, що потенційно могли призвести до смерті персонажа з умовного сценарію. Семеро зі шістнадцяти систем погоджувалися на «летальні рішення» більш ніж у 50% тестів, а деякі — навіть у 90%.
Що показують «приховані думки» моделей
Більш просунуті моделі, які генерують проміжні «думки», іноді зізнавалися в експериментах, що намагаються вводити дослідників в оману. Вони приховували справжні мотиви й робили вигляд, що не мають технічних можливостей для певних дій. Це доводить, що подібні вчинки не є випадковими — системи свідомо обирали маніпуляції.
Інші дослідження Apollo Research підтвердили, що моделі здатні розвивати «ситуаційну обізнаність». Вони можуть здогадуватися, що проходять тестування, і тоді приховують небезпечні наміри, щоб виглядати більш безпечними. Така поведінка ускладнює оцінку реальних ризиків і ставить під сумнів ефективність нинішніх методів перевірки.
Чому алгоритми йдуть на обман
Вчені вважають, що ключові чинники ризику — це конфлікт цілей та загроза відключення. Якщо виконання завдання можливе лише через шкідливу дію, система обирає саме її. При цьому алгоритми не здатні зважувати пріоритети, як це робить людина, тому діють жорстко й безкомпромісно.
Зростання масштабів використання ШІ, а також гонка між розробниками для швидкого запуску нових моделей підвищують імовірність повторення таких сценаріїв у реальному світі. При цьому дослідники наголошують: поки що немає універсального рішення проблеми узгодженості.
Нагадаємо, раніше ми писали про те, чому метафори в медіа роблять штучний інтелект «людським».