У Google пояснили, чому Gemini 2 Flash Thinking вдалося обігнати конкурентів на Chatbot Arena

Експериментальна модель штучного інтелекту (ШІ) Gemini 2.0 Flash Thinking змогла обігнати свої аналоги, продемонструвавши вражаючі результати тестування з математичних дисциплін, природничих наук і сумарної продуктивності.

Як інформує «Kreschatic» із посиланням на дані платформи тестування lmarena.ai, опубліковані The-Decoder, фінальна версія Gemini відзначилася значними успіхами в Chatbot Arena, покращивши свій результат на 17 балів (з грудня минулого року), залишивши позаду ШІ-моделі GPT-4o від OpenAI та Claude 3.5 Sonnet від Anthropic.

Зокрема, Google Gemini 2.0 Flash Thinking лідирує у виконанні складних завданнях, галузі програмування та творчому підході до письма, дещо гірше контролюючи стиль — йдеться про форматування вихідних даних.

Розробники Google пояснили, що все вищеописане стало можливим після додавання нового функціоналу: коригування виконання коду і розширення контекстного вікна ШІ-моделі, що дає змогу обробляти до 1 млн токенів.

Виходячи зі слів гендиректора Google DeepMind Деміса Хассабіса, подібний прогрес їхньої моделі зумовлюється більш ніж 10-річним досвідом роботи з системами планування ШІ, починаючи з AlphaGo, і це допомогло об’єднати перевірені методики планування з передовими базовими ШІ-технологіями: у Gemini 2.0 Flash Thinking інтегрували прогресуючі розумові процеси, які допомагають поліпшити процес міркувань.

Раніше ми писали про те, як штучний інтелект в освіті відкриває нові можливості для навчання.