Google Gemini Pro Уступает GPT-3.5 и GPT-4 в бенчмарках

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | Программы, сервисы и сайты

В недавнем исследовании Карнеги-Меллонского университета было выявлено, что последняя разработка Google в области искусственного интеллекта, языковая модель Gemini Pro, не соответствует ожиданиям в стандартных бенчмарк-тестах. Она отстает как от GPT-3.5, так и от более продвинутой версии GPT-4, разработанной OpenAI.

Эти результаты противоречат заявлениям Google, сделанным на презентации Gemini Pro. Они поднимают вопрос о необходимости независимых и объективных тестов для оценки производительности таких моделей. Важно отметить, что команда Gemini заявляла о предстоящем выпуске версии «Ultra», которая якобы превосходит GPT-4 в различных задачах. Однако появились сомнения в достоверности результатов бенчмарков, представленных Google для Ultra.

В рамках исследования Gemini Pro показала слабые результаты в задачах по базовому математическому рассуждению, которые критически важны для формальной логики и начального уровня математики. В сфере тематических категорий Gemini Pro лишь в ограниченных областях, таких как безопасность и школьная микроэкономика, превзошла GPT-3.5, тогда как в большинстве других категорий оказалась менее эффективной.

Отмечается также, что различия в бенчмарк-тестах Gemini Pro могут быть связаны с защитными механизмами Google, из-за которых модель не смогла ответить на некоторые вопросы во время оценки MMLU. Кроме того, наблюдались трудности модели с вопросами множественного выбора, математическим рассуждением с большими числами, преждевременным завершением задач и неадекватными реакциями на агрессивный контент.

Автор: Нейросеть DALL-E 3

Сравнивая с GPT-3.5 Turbo, Gemini Pro показала схожие результаты по точности, но все же уступает ей, и значительно отстает от GPT-4. Несмотря на некоторые преимущества в сложных рассуждениях и мультиконтекстных задачах без фильтрации, общая производительность остается ниже ожидаемой.

Интересно, что это исследование также может быть первым бенчмарком для GPT-4 Turbo. В результате бенчмарка последняя модель OpenAI показала уступки оригинальной версии GPT-4 в ключевых тестах по пониманию языка. Несмотря на это, GPT-4 Turbo продолжает занимать лидирующие позиции среди чат-ботов, что подчеркивает ограниченную ценность бенчмарков.

Итоги исследования подтверждают, что опора на самостоятельные отчеты крупных компаний не всегда является надежным способом оценки производительности крупных языковых моделей. Кроме того, они указывают на то, что несмотря на усилия Google, компания все еще испытывает трудности в догоняющей гонке с OpenAI, что представляет собой вызов для всей отрасли искусственного интеллекта.

Источник: chinaz

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Профессиональный автор технических обзоров с многолетним опытом в создании обзоров на различную технику, включая гаджеты, компьютерное оборудование и бытовую электронику. Владею навыками подачи сложной информации в доступной и понятной форме, что делает мои обзоры полезными как для профессионалов, так и для широкой аудитории. Готов к сотрудничеству с производителями и дистрибьюторами техники для проведения независимых тестов и обзоров. Мои основные каналы коммуникации и публикации включают:

✅ YouTube — Здесь публикуются видеообзоры, тесты и сравнения техники. Мой контент нацелен на демонстрацию функционала, особенностей и потенциальных сценариев использования оборудования, помогая зрителям сделать осознанный выбор.

✅ Yandex.Dzen — На этой платформе делюсь эксклюзивными статьями и материалами о последних тенденциях в технологиях, новинках рынка и обзорах.

✅ VK — В своем сообществе в VK веду активное общение с аудиторией, отвечаю на вопросы подписчиков, публикую короткие обзоры и анонсы предстоящих материалов.

Для предложений о сотрудничестве и запросов на обзоры, пожалуйста, свяжитесь со мной через электронную почту.

Открыт к новым проектам и предложениям, готов обсудить условия сотрудничества и варианты партнерства.

✅ e-mail: badmadsam@mail.ru

Сейчас на главной

Новости

Публикации

Обзор MobaPad M6S: максимально удобная альтернатива Joy-Conn для Nintendo Switch

Над альтернативой для штатных Joy-Conn игровой консоли Nintendo Switch работали сразу несколько производителей, причем относительного успеха добился каждый из них, но по возможностям лучше, чем...

Обзор веб-камеры Ugreen 2К: автофокус, два микрофона, удобное крепление

Веб-камера Ugreen представляет собой качественное устройство для видеосвязи и стриминга. Она имеет компактный пластиковый корпус в сочетании серого и чёрного цветов, который обеспечивает надёжную...

Выставка Computex 2024 на Тайване, взгляд визитера. Часть 2 -Произведения искусства в виде ПК, стенды ASrock, MSI, Manli. Leadtek, Зал2, центр Тайбэя

Ежегодная выставка IT-технологий и компаний Computex 2024 на Тайване. Стенды ASRock, MSI, Manli, Leadtek, Общее по Залу 1, Зал 2 кратко, прогулка по Тайбэю: Мемориальный комплекс Чан Кай Ши,...

Почему наш спорт превратился в рекламный трэш. Мнение болельщика

Знаете, я иногда не прочь посмотреть футбол, в том числе — отечественный. Недавно включил очередной матч, и поймал себя на странной мысли: это уже не футболисты, а бегающие по огромному...

Что делать, если вам пришел штраф за чужое нарушение?

Сейчас за ситуацией на дорогах следят не дорожные инспектора. Систему автоматизировали, отдав водителей на попечительство бездушной технике. Камеры видеонаблюдения, расположенные в местах с...

Как подобрать идеальную тормозную жидкость для автомобиля

Пришло время замены тормозной жидкости в вашем автомобиле, и вот вы стоите перед полкой в автомагазине, озадаченные разнообразием канистр. Как не потеряться среди всего этого многообразия и сделать...