На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Газета.ру

8 725 подписчиков

Свежие комментарии

  • Sema
    Глядя на такую красоту, вспомнились библейские стихи: "Ибо так говорит Господь, сотворивший небеса, Он, Бог, образова...NASA опубликовало...
  • Владимир Соловьев
    Дам на сей раз открыл нам не Америку - Европу по новой открыл!Медведев призвал ...
  • Николай Герасименко
    Нормальным отношениям Японии 🗾 и России 🇷🇺 мешает единственный фактор, существование международного агрессора США...Глава МИД Японии ...

Специалисты T-Bank AI Research нашли способ сделать работу моделей прозрачнее

Исследователи T-Bank AI Research представили новый метод обучения нейросетей так, чтобы они смогли объяснить свои решения на разных уровнях детализации, сообщили в Т-Банке.

Новый метод сохраняет высокую интерпретируемость, позволяет более точно описать поведение модели, предотвращает "мертвые признаки" (характеристики, которые перестают работать при смене параметров) и снижает вычислительные затраты.

Как отметил руководитель научной группы LLM Foundations, T-Bank AI Research Никита Балаганский, сейчас для понимания внутренних решений языковых модели приходится обучать множество отдельных подмоделей.

"HierarchicalTopK позволяет заменить их одной универсальной моделью, которая сохраняет интерпретируемость на любом уровне разреженности. Метод особенно полезен для аудита языковых моделей, анализа их поведения и быстрой корректировки ответов, что важно для бизнеса и сфер с повышенными требованиями к надежности и прозрачности", - сказал он.

Балаганский подчеркнул, что новый подход сделает ИИ понятнее и доступнее для исследователей и индустрии.

Также исследователи совместно с лабораторией Центрального университета Omut AI разработали новый способ обучения больших языковых моделей рассуждению. В T-Bank AI Research рассказали, что обычно для развития рассуждения у больших языковых моделей применяется обучение с подкреплением (reinforcement learning). Исследователи предложили альтернативу, в которой вместо корректировки параметров языковой модели добавляются векторы-настройки (steering vectors), представляющие собой компактные подсказки для усиления правильных логических шагов.

Исследователи добавили, что новый метод не требует изменений миллиардов параметров языковой модели, увеличивает скорость обучения и занимает намного меньше памяти.

 

Ссылка на первоисточник
наверх