На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Газета.ру

8 726 подписчиков

Свежие комментарии

  • Сергей Нововожилов
    Это как в доход государства? Детям на лечение отдали или чиновникам - депутатам в кормушку добавили?Имущество экс-зам...
  • Валерий Зайцев
    Однозначно атаковать вражеские государства . Делать как Иран.Депутат Журавлев ...
  • Инсаф Калимуллин
    Пока реально не испытаем Циркон на авианосце, не узнаем.КСИР: четыре раке...

NYT: ИИ-поисковик AI Overviews от Google допускает миллионы ошибок ежедневно

Функция "Режим ИИ" (AI Overviews) в поисковой системе Google может генерировать значительное число некорректных ответов, несмотря на высокий общий уровень точности. К такому выводу пришли журналисты The New York Times по итогам совместного тестирования со стартапом Oumi.

Работающий на базе ИИ Gemini инструмент демонстрирует точность порядка 90%.

При этом даже относительно небольшой процент ошибок при масштабах поискового трафика трансформируется в десятки миллионов некорректных ответов ежедневно.

Для оценки качества работы "Режима ИИ" использовался бенчмарк SimpleQA от OpenAI, включающий более 4 тыс. вопросов с проверяемыми ответами, а также собственные инструменты анализа Oumi. По данным тестирования, при использовании модели Gemini 2.5 точность составляла около 85%, тогда как после перехода на Gemini 3 показатель вырос до 91%.

В ходе исследования были выявлены случаи некорректной агрегации информации из источников. В одном из примеров система неверно определила дату преобразования дома Боба Марли в музей, несмотря на наличие корректных данных в первоисточниках, что указывает на проблемы с интерпретацией и выбором фактов.

В Google оспорили выводы исследования. Представитель компании Нед Адрианс заявил, что используемый бенчмарк SimpleQA может содержать ошибки и не отражает реальные пользовательские сценарии. По его словам, более релевантной метрикой является тест SimpleQA Verified с меньшим, но тщательно проверенным набором вопросов. Кроме того, в компании считают, что методология исследования не учитывает специфику реальных поисковых запросов.

 

Ссылка на первоисточник
наверх