Grok обійшов ChatGPT і Gemini у рейтингу надійності ШІ-систем

Аналітична компанія Relum провела масштабне тестування десяти найпопулярніших чатботів зі штучним інтелектом. Про це повідомляє Teslarati, пише «Kreshatic». Згідно з результатами дослідження, рішення від компанії Ілона Маска — Grok — показало найнижчий рівень фактичних помилок серед конкурентів.

У середньому Grok спотворював інформацію лише у 8% випадків, тоді як ChatGPT припускався неточностей у 35% випадків, а Google Gemini — у 38%. Попри меншу популярність, саме цей показник забезпечив Grok перше місце у загальному рейтингу надійності серед систем штучного інтелекту.

Дослідники враховували не лише кількість фактологічних помилок, а й стабільність роботи, рівень технічних збоїв, оцінки користувачів та загальний ризик використання у корпоративному середовищі. Grok отримав найнижчий індекс ризику — 6 зі 99, що свідчить про мінімальну ймовірність збоїв. Для порівняння, ChatGPT опинився на протилежному полюсі рейтингу з індексом ризику 99 балів.

Експерти зазначили, що понад 65% американських компаній уже впроваджують ШІ-асистентів у робочі процеси, а близько половини співробітників вводять у такі системи конфіденційні дані. За цих умов стабільність моделей і стійкість до галюцинацій стають вирішальними факторами їхньої надійності.

Нагадаємо, раніше ми писали про те, що експерти назвали Chrome одним із найгірших браузерів за рівнем приватності.