Дослідження показало падіння точності AI у тривалих діалогах

Дослідження показало, що під час довгих розмов моделі штучного інтелекту частіше припускаються помилок і втрачають стабільність відповідей.

OpenAI. Фото - The Standart

Спільне дослідження Microsoft Research та Salesforce виявило зниження надійності великих мовних моделей під час багатокрокового спілкування. Про результати аналізу понад 200 тисяч діалогів повідомило видання Windows Central, пише Kreschatic.

У межах дослідження перевіряли роботу моделей GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 та Llama 4.

Як змінюється точність у довгих розмовах

За даними дослідників, під час виконання завдання в межах одного запиту моделі демонструють приблизно 90% успішності. Однак у форматі природної розмови з кількома уточненнями цей показник знижується до близько 65%.

Загальне зниження когнітивної здатності оцінили приблизно у 15%, але рівень ненадійності відповідей зріс більш ніж удвічі. Відповіді частіше ставали нестабільними або містили помилки.

Основні причини збоїв

Дослідники виділили кілька факторів, які впливають на якість відповідей:

  • передчасне формування відповіді ще до повного отримання контексту
  • закріплення первинної помилки в подальшому діалозі
  • розширення обсягу тексту із зайвими припущеннями

Явище так званого «роздування відповіді» призводило до збільшення обсягу тексту на 20–300% у порівнянні з одноразовими запитами. Довші відповіді частіше містили неточності, які згодом сприймалися як частина контексту.

Навіть моделі з додатковими механізмами міркування, зокрема o3 та DeepSeek R1, не змогли повністю усунути цю проблему.

Що це означає для користувачів

Попри швидке впровадження генеративного штучного інтелекту та перехід частини користувачів від класичного пошуку до AI-інструментів, дослідження демонструє вразливість систем під час складних багатокрокових діалогів.

Нагадаємо, раніше ми писали про інцидент у Британській Колумбії та знання OpenAI про ризики без звернення до поліції.

Поділіться цією статтею