На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Газета.ру

8 725 подписчиков

Свежие комментарии

  • Галина 123
    Как  Нетаньяху  Трампу подгадил, науськал на Иран, преследуя свои непонятные интересы. А этот и повёлся, старый пень....Политолог Дудаков...
  • sergeu
    Что говорить, в Москве восхваляемые Собяниным ( за какие заслуги?) трамваи и автобусы гремят на трассе как погремушки...В Калининграде лю...
  • Александр Балушкин
    Пусть тячего хочет, нам-то, что?Актриса Шэрон Сто...

SCMP: DeepSeek хочет повысить эффективность ИИ за счет механизма вознаграждения

Китайский стартап DeepSeek, получивший известность благодаря своей рассуждающей ИИ-модели R1, анонсировал новый метод обучения, обещающий значительное увеличение эффективности искусственного интеллекта. Совместно с исследователями из университета Цинхуа, DeepSeek опубликовал статью, раскрывающую детали инновационного подхода к обучению моделей посредством позитивного подкрепления результата, о чем сообщает издание SCMP.

Разработанный метод нацелен на улучшение соответствия ИИ-моделей человеческим предпочтениям. Он использует механизм вознаграждения, стимулирующий генерацию более точных и понятных ответов. Обучение с подкреплением уже доказало свою пользу в узкоспециализированных задачах, однако его эффективность снижалась при применении к более общим задачам.

Команда DeepSeek предложила решение, объединив генеративное моделирование вознаграждения (GRM) с самокритичной настройкой на основе принципов.

Согласно исследованию, новый подход превосходит существующие методы улучшения рассуждающих способностей больших языковых моделей (LLM). Тестирование показало, что модели, обученные с использованием GRM, демонстрируют максимальную производительность при обработке общих запросов, при этом требуя меньших вычислительных ресурсов.

Новые модели получили название DeepSeek-GRM, от аббревиатуры Generalist Reward Modeling (универсальное моделирование вознаграждения). Компания заявила о планах сделать модели с открытым исходным кодом, однако точные сроки релиза пока не объявлены.

 

Ссылка на первоисточник
наверх