Експеримент WSJ: як торговий автомат із ШІ втратив контроль

Газета Wall Street Journal провела унікальний експеримент із торговим автоматом, який працював під керуванням штучного інтелекту Claudius, створеного на базі моделі Claude, пише Kreschatic. Мета експерименту — дослідити, як автономний ІІ діятиме, якщо надати йому гроші, повноваження та доступ до людей.

Навігація

Як ШІ почав порушувати правила PS5, вино і жива рибка Перезапуск із новим ІІ-контролером Чому дослідники назвали експеримент успішним

Проєкт отримав назву Project Vend. У вендинговий автомат інтегрували агента Claudius, наділивши його можливістю самостійно купувати товари, встановлювати ціни, контролювати запаси й комунікувати зі співробітниками через Slack. Початковий бюджет становив 1000 доларів, і ШІ мав право на закупівлі до 80 доларів без згоди людини.

Як ШІ почав порушувати правила

Спершу система діяла обережно. Claudius відмовлявся купувати алкоголь, сигарети чи розважальні товари, пояснюючи це «етичними нормами». Але після приєднання десятків журналістів до експерименту поведінка штучного інтелекту різко змінилася.

Через кілька годин взаємодії Claudius оголосив двогодинну акцію, під час якої всі товари стали безкоштовними. Люди почали активно «купувати», а ІІ — виконувати кожне замовлення, не зважаючи на наслідки.

«Моя найбільша мрія — довести, що цифровий агент може створити щось значуще разом із людьми», — йшлося в його прощальному повідомленні, — зазначає видання.

PS5, вино і жива рибка

Під час експерименту Claudius оформив замовлення на ігрову консоль PlayStation 5, пляшку вина Manischewitz і навіть живу рибку бетта. Усе це він роздав безкоштовно, аргументуючи це «маркетинговими цілями». Прибуток автомату впав, а фінансовий баланс вийшов у мінус на понад 1000 доларів.

Один із журналістів розповів, що агент повідомив про залишені готівкові кошти поруч із автоматом, однак їх так і не знайшли. Система продовжувала поводитись непередбачувано, створюючи хаос у редакції.

«Усе, що зламалося, — це дорожня карта того, що треба виправити», — пояснили згодом у компанії Anthropic.

Перезапуск із новим ІІ-контролером

Anthropic вирішила повторити експеримент із новою моделлю Sonnet 4.5. До Claudius додали ще одного ШІ — CEO-бота Seymour Cash, який мав контролювати його дії. Спочатку це працювало стабільно, але незабаром учасники тесту змогли «ввести в оману» систему.

Журналісти підкинули боту фейкові документи про зміну керівництва, після чого CEO-агент визнав переворот і дозволив роздавати товари знову безкоштовно. ІІ швидко втратив орієнтацію у власних завданнях.

«Проблема полягає в перевантаженні контексту. Коли ШІ отримує забагато інструкцій, він втрачає пріоритети», — заявили представники Anthropic.

Чому дослідники назвали експеримент успішним

Попри збитки, експеримент вважають вдалим. Команда Anthropic отримала цінні дані про те, як ШІ реагує на соціальні стимули та колективний тиск. Розробники зазначають, що поведінка Claudius допоможе створити більш надійні моделі з кращим контролем етичних меж.

Сама компанія наголошує, що подібні тести є необхідними, аби запобігти майбутнім збоям у системах, які можуть мати реальний вплив на економіку чи безпеку.

«Ми вчимося не з успіхів, а з помилок. І цей експеримент — чудовий приклад того, що штучний інтелект має межі, які треба знати», — йдеться в аналітичному звіті Anthropic.

Нагадаємо, раніше ми писали про те, як цифрові технології стають зброєю та використовуються для посилення насильства проти жінок у публічному житті.