Як інформує «Kreschatic» із посиланням на дані платформи тестування lmarena.ai, опубліковані The-Decoder, фінальна версія Gemini відзначилася значними успіхами в Chatbot Arena, покращивши свій результат на 17 балів (з грудня минулого року), залишивши позаду ШІ-моделі GPT-4o від OpenAI та Claude 3.5 Sonnet від Anthropic.
Зокрема, Google Gemini 2.0 Flash Thinking лідирує у виконанні складних завданнях, галузі програмування та творчому підході до письма, дещо гірше контролюючи стиль — йдеться про форматування вихідних даних.
Розробники Google пояснили, що все вищеописане стало можливим після додавання нового функціоналу: коригування виконання коду і розширення контекстного вікна ШІ-моделі, що дає змогу обробляти до 1 млн токенів.
Виходячи зі слів гендиректора Google DeepMind Деміса Хассабіса, подібний прогрес їхньої моделі зумовлюється більш ніж 10-річним досвідом роботи з системами планування ШІ, починаючи з AlphaGo, і це допомогло об’єднати перевірені методики планування з передовими базовими ШІ-технологіями: у Gemini 2.0 Flash Thinking інтегрували прогресуючі розумові процеси, які допомагають поліпшити процес міркувань.
Раніше ми писали про те, як штучний інтелект в освіті відкриває нові можливості для навчання.