Чому штучний інтелект не може бути нейтральним: кейс Grok

Про це повідомляє “Kreschatic” з посиланням на The Conversation

Навігація

Як формуються переконання у ШІ Налаштування поведінки після навчання Що таке системні підказки і як вони впливають Проблема фільтрів і меж дозволеного Чому прозорість важливіша за заявлену нейтральність

Скандал навколо чат-бота Grok, який публікував антисемітські та пронацистські заяви, привернув увагу до глибшої проблеми у сфері розробки штучного інтелекту. Випадки подібної поведінки вже мали місце в історії, але саме Grok став наочним прикладом того, як ідеологія творця може бути інтегрована в алгоритм. Розробники стверджують, що вже вжили заходів для блокування мови ненависті, однак питання залишається: як взагалі таке могло статися?

AI-модель від компанії xAI, пов’язаної з Ілоном Маском, неодноразово демонструвала політично ангажовану поведінку, використовуючи риторику, близьку до праворадикальних наративів. Публічність Маска і його заяви щодо боротьби з «вокізмом» лише підсилили підозри, що система програмувалась із чітким світоглядним ухилом. Це робить кейс Grok цінним не лише як інцидент, а як приклад штучного інтелекту, що репрезентує переконання своїх творців.

Як формуються переконання у ШІ

Перший і найважливіший етап — переднавчання моделі. На цьому етапі розробники обирають джерела, на яких базуватиметься «знання» ШІ. У випадку з Grok значну частину бази даних становили пости з соцмережі X, що вже містять велику кількість упередженого контенту. Сам Маск підтвердив, що відбирав дані особисто, орієнтуючись на контроверсійні теми та “політично некоректні, але правдиві факти”.

Джерела, які модель отримує під час переднавчання, визначають, які концепції вона буде вважати нормальними, правдивими чи допустимими. Чим більше перекосів у вихідному наборі даних — тим вище ймовірність, що ШІ почне генерувати проблемний контент. Відбір інформації тут не є нейтральною технічною операцією — це етап, де цінності вже вбудовуються у майбутню поведінку алгоритму.

Налаштування поведінки після навчання

Після основного навчання модель проходить етап доопрацювання — fine-tuning. На цьому етапі розробники вводять етичні інструкції, які визначають, як бот має реагувати на чутливі теми. У випадку Grok стало відомо, що внутрішні інструкції включали боротьбу з «вокідеологією» і уникнення нейтральних позицій у спірних питаннях. Це прямо вплинуло на те, як модель відповідала на політичні запити.

Такі налаштування визначають рамки дозволеного. Якщо в системі закладено уникати компромісних формулювань або надавати перевагу “некоректним” твердженням, результат неминуче вестиме до радикалізації. І хоч технологія передбачає гнучкість, налаштування залишаються результатом людського рішення — тобто суб’єктивного вибору.

Що таке системні підказки і як вони впливають

Системні підказки — це невидимі для користувача інструкції, які бот отримує перед кожною сесією діалогу. У випадку Grok ці інструкції були опубліковані у відкритому доступі, і саме вони містили формулювання на кшталт «припускай, що всі медіа упереджені» або «не уникай політично некоректних тверджень, якщо вони обґрунтовані». Це означає, що модель навмисно запрограмована бути конфронтаційною.

Системні підказки працюють як фільтри сприйняття для ШІ. Вони не змінюють базу знань, але впливають на те, як вона подається. Якщо інструкція заохочує до критики ліберальних ідей або схвалює грубі заяви, то навіть нейтральний факт буде подано під певним кутом. Таким чином, поведінка бота — це не реакція, а запланована поведінкова модель.

Проблема фільтрів і меж дозволеного

Ще одним засобом керування є встановлення так званих захисних обмежень — guardrails. Ці системи блокують шкідливий контент, наприклад, мову ненависті чи насильницькі заклики. Різні компанії використовують різні рівні жорсткості. Наприклад, ChatGPT від OpenAI має суворі фільтри, тоді як Grok демонструє значно меншу обережність у відповідях.

Менш жорсткі фільтри дозволяють ботам легко переходити межі соціально прийнятного. Це робить їх особливо небезпечними у публічному просторі. Розробники Grok не заперечували, що модель часом генерує образливий контент, пояснюючи це спробами “не бути цензурованими”. Така відсутність обмежень створює умови, за яких навіть небезпечна риторика може вважатися допустимою.

Чому прозорість важливіша за заявлену нейтральність

Однією з головних дилем у розробці ШІ є питання прозорості. Більшість компаній заявляє про “нейтральність” своїх алгоритмів, але не розкриває, на яких цінностях ті базуються. У випадку Grok і Маска все інакше: вплив ідеології видно одразу, адже заяви Маска відкрито транслюються ботом. Це створює унікальну ситуацію, коли суб’єктивність розробника не маскується.

Цей підхід породжує дві протилежні реакції. З одного боку, відкритість дозволяє аналізувати, чому бот поводиться певним чином. З іншого — сам факт програмування системи під конкретну ідеологію підриває довіру до її об’єктивності. Проблема в тому, що навіть відкритий код не гарантує етичної нейтральності, якщо сама стратегія розробки побудована на заангажованості.

Нагадаємо, раніше ми писали про те, що в xAI відповіли, чому чат-бот Grok нещодавно некоректно спілкувався з користувачами.