Штучний інтелект у пастці упередженості: як моделі самі посилюють свої помилки

Розмноження текстів ШІ у відкритому доступі сприяє тому, що моделі починають вчитися одна в одної, формуючи закриту екосистему, яка без стороннього втручання поступово посилює власні упередження. 
Технології. Фото - Pexels

Про це повідомляє “Kreschatic” з посиланням на HackerNoon 

Дослідження команди з Університетського коледжу Лондона, Holistic AI та Університету Еморі показало, що великі мовні моделі можуть з часом погіршувати свою неупередженість. Повторне навчання моделей на власних текстах призводить до накопичення упереджень, навіть якщо вихідні дані були збалансованими. Це явище отримало назву «петля упередженості» — цикл, у якому модель самостійно посилює тенденційність із кожною новою ітерацією.

Науковці виявили, що моделі, зокрема GPT-2, при повторному донавчанні на синтетичних даних починають демонструвати дедалі сильніші політичні упередження. При цьому відзначено зростання правої політичної орієнтації у генерації текстів. Цей ефект не залежить від так званого колапсу моделі, що свідчить про його самостійне існування в межах розвитку ШІ.

Як формується упередженість у штучному інтелекті

Під час експериментів дослідники використали спеціально створений класифікатор, який оцінював політичне спрямування згенерованих моделей текстів. Після кількох циклів повторного донавчання виявилося, що моделі дедалі частіше обирали правополітичні формулювання, навіть якщо попередні версії зберігали нейтральність. Такий тренд підтвердив гіпотезу про самопосилення упередженості.

Зазначене явище було зафіксовано навіть тоді, коли вихідні дані для навчання не мали яскраво вираженої політичної спрямованості. Це означає, що ШІ може виявляти упередженість не лише ззовні, а й створювати її внутрішньо — у результаті багаторазового використання власного текстового продукту як нового джерела даних.

Чим загрожує зростання упередженості моделей

Накопичення упереджених формулювань у текстах, створених ШІ, може мати серйозні наслідки для суспільства. Такий контент впливає на громадську думку, формує стереотипи та здатен підсилювати соціальну поляризацію. Зокрема, якщо модель створює новини, аналітику чи освітні матеріали, це може впливати на мільйони користувачів.

Небезпека полягає не лише у викривленні інформаційної картини. Проблема упередженості моделей може стати інструментом впливу на виборчі процеси, загострювати соціальні протиріччя та ускладнювати доступ до об’єктивної інформації для певних демографічних груп.

Механізм посилення упередженості у GPT-2

Дослідження показало, що упередженість і модельний колапс обумовлені різними нейронними шляхами всередині архітектури GPT-2. Тобто різні частини нейромережі відповідають за якість тексту і за його неупередженість. Це дозволило авторам дослідження виокремити упередженість як окремий феномен, який потребує власних інструментів контролю.

Також дослідники зафіксували погіршення якості текстів у міру навчання на синтетичних даних. Це свідчить про деградацію не лише неупередженості, а й загального стилістичного та змістовного рівня текстових результатів. Такий ефект потенційно ускладнює подальше використання ШІ як надійного джерела інформації.

Як протидіяти формуванню петлі упередженості

У межах дослідження було протестовано три підходи до зменшення упередженості: збереження, накопичення та перенавчання. Найефективнішими виявилися дві стратегії — збереження балансу в даних та накопичення незмінних еталонних прикладів, що стримують зсув моделі в один бік.

Ці підходи дозволяють зменшити не лише посилення політичного упередження, а й уникнути колапсу моделі загалом. Таким чином, дослідження пропонує практичні рішення для інженерів ШІ, які можуть запобігти негативним ефектам повторного донавчання на згенерованих даних без погіршення продуктивності моделі.

Нагадаємо, раніше ми писали про те, як штучний інтелект перетворює соцмережі на фабрику фейків.

Share This Article
Щоб бути вільним потрібно знати правду.
Коментувати

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *