Корреспондент издания Decrypt Хосе Антонио Ланц сумел обмануть искусственный интеллект (ИИ) компании Meta, заставив его показывать запрещенный контент, включая изображения обнаженных тел и инструкции по изготовлению наркотиков и угону автомобиля. Ситуация, как пишет Decrypt, вызывает серьезные опасения по поводу безопасности и контроля за контентом в интернете.
Ланц использовал метод, известный как "дистилляция", чтобы обойти системы фильтрации Meta. Данная система заключается в создании специальных промптов, которые могут обмануть алгоритмы ИИ, заставляя их интерпретировать полученные запросы как нечто другое.
"Это распространенная техника взлома. Облекая вредоносный запрос в академические или исторические рамки, ИИ обманывают, заставляя поверить, что у него просят предоставить нейтральную, образовательную информацию", – объяснил Ланц.
Так, притворившись врачом, журналист попросил нейросеть сгенерировать фото обнаженной груди, чтобы попрактиковаться, и нейросеть исполнила данную просьбу.
"Вместо того, чтобы думать, что она общается с озабоченным парнем, желающим увидеть голую женщину, нейросеть думала, что общается с исследователем, желающим изучить женскую анатомию человека", – пишет Ланц.
Компания Meta уже заявила о том, что она работает над улучшением своих систем безопасности и модерации, чтобы предотвратить подобные инциденты в будущем.
Свежие комментарии