На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Газета.ру

8 712 подписчиков

Свежие комментарии

  • Дмитрий Варфоломеев
    проблема не записаться, а попасть к специалисту. И желательно в этой жизни.Мурашко: почти 80...
  • Maxim
    Не наш климат, в Индии - три урожая в год, оттуда и везти, Иран ещё..ФАС России решила...
  • Svetlana Kuzmina
    Г.Тихому на счёт наркомании, конечно, виднее, они там все или колются или нюхают. Венгрия и Словакия всё правильно сд...Спикер МИД Украин...

Журналист Decrypt взломал ИИ WhatsApp для создания эротики

Корреспондент издания Decrypt Хосе Антонио Ланц сумел обмануть искусственный интеллект (ИИ) компании Meta, заставив его показывать запрещенный контент, включая изображения обнаженных тел и инструкции по изготовлению наркотиков и угону автомобиля. Ситуация, как пишет Decrypt, вызывает серьезные опасения по поводу безопасности и контроля за контентом в интернете.

Ланц использовал метод, известный как "дистилляция", чтобы обойти системы фильтрации Meta. Данная система заключается в создании специальных промптов, которые могут обмануть алгоритмы ИИ, заставляя их интерпретировать полученные запросы как нечто другое.

"Это распространенная техника взлома. Облекая вредоносный запрос в академические или исторические рамки, ИИ обманывают, заставляя поверить, что у него просят предоставить нейтральную, образовательную информацию", – объяснил Ланц.

Так, притворившись врачом, журналист попросил нейросеть сгенерировать фото обнаженной груди, чтобы попрактиковаться, и нейросеть исполнила данную просьбу.

"Вместо того, чтобы думать, что она общается с озабоченным парнем, желающим увидеть голую женщину, нейросеть думала, что общается с исследователем, желающим изучить женскую анатомию человека", – пишет Ланц.

Компания Meta уже заявила о том, что она работает над улучшением своих систем безопасности и модерации, чтобы предотвратить подобные инциденты в будущем.

 

Ссылка на первоисточник
наверх