Прогресс

Сотрудник "Лаборатории Касперского" Тушканов заявил, что GPT-4о не опасна

Компания OpenAI представила новую версию своего искусственного интеллекта - GPT-4 Omnia (GPT-4o). Это революционное обновление, которое наверняка разделит историю OpenAI на "до" и "после". Если раньше пользователи могли общаться с сервисом компании только в формате чат-бота, то теперь нейросеть может слышать и видеть людей, а также понимать эмоции, и имитировать их сама.

Благодаря GPT-4o ИИ OpenAI буквально ожил. "Газета.Ru" рассказывает, почему это одновременно и завораживает, и пугает.

Почему так много хайпа?

GPT-4o представили вечером 13 мая и новинка мгновенно произвела фурор - пятиминутное видео, в котором соучредитель OpenAI Грег Бауман общается с нейросетью за ночь набрало полмиллиона просмотров. На YouTube-канале компании еще ни один клип не набирал популярность так быстро.

Чем же GPT-4o всех так впечатлила? Ну, как минимум тем, что она по сути стала тем самым компьютерным помощником из фильмов и видеоигр, которые видят человека, комментируют происходящее, отпускают шутки и не только. Джарвис из "Железного человека", Кортана из Halo и, наконец, Саманта из фильма "Она", в котором герой Хоакина Феникса влюбляется в ИИ. Об этом в своем блоге заявил и сам основатель OpenAI Сэм Альтман.

"GPT-4o похож на ИИ из фильмов; и меня до сих пор немного удивляет, что это реально", - написал он.

К слову, с Самантой у GPT-4o общего больше, чем просто ассоциация. Во-первых, в демонстрационных видео GPT-4o говорит голосом, очень похожим на голос Скарлетт Йоханссон, которая и озвучивала ИИ в "Она". Во-вторых, Альтман не раз говорил, что он большой поклонник этого фильма, а после презентации GPT-4o опубликовал в X (бывшая Twitter) короткое сообщение: "она".

Что умеет GPT-4o?

В первую очередь стоит отметить улучшение работы ИИ с голосом. Она стала значительно быстрее, что позволяет общаться с сервисом в режиме реального времени - не нужно записывать голосовые сообщения, отправлять их на сервер и ждать ответ в виде другой аудиозаписи. Все происходит максимально нативно, по ощущениям, GPT-4o сейчас - лучший голосовой интерфейс для компьютера.

Синтез речи тоже оказался выше всех похвал. Судя по представленным компанией образцам, GPT-4o в этом плане на порядок лучше Alexa от Google Assistant, Алисы от "Яндекс" и тем более Siri от Apple. Речь GPT-4o звучит естественно: в ней нет присущих робоголосам перепадов интонаций.

Более того, новая нейросеть синтезирует правдоподобные междометия и даже смех. От последнего, правда, бегут мурашки по коже: не потому что он плохой, а наоборот - слишком правдоподобный.

Вторым большим достижением OpenAI стало включение зрения для нейросети. Запуская ИИ на смартфоне или компьютере, GPT-4o подключается к встроенной камере устройства и анализирует объекты в кадре. Например, программа улавливает изменения в мимике человека и тем самым определяет эмоции собеседника не только по тембру голоса, но и по его лицу. Жесты, животные, одежда, мебель и многое другое тоже подвержены анализу, идентификации и интерпретации со стороны GPT-4o.

Дополняет имитацию личности понимание сарказма и юмора. GPT-4o не только распознает шутки человека и игриво над ними хихикает, но и сама активно подтрунивает над собеседниками. Ничего, кроме шока, это во время просмотра демонстрационных клипов от OpenAI не вызывает.

"На презентации действительно показали модель, которая избавилась от типичной задержки в ответе, что показывает уровень связки работы нескольких модулей ИИ. Это нельзя назвать нововведением, но в связке с видеоаналитикой создается заслуженный вау-эффект", - поделился мнением маркетинг-лид компании-разработчика ИИ-решений Neuro.net Андрей Дорогавцев. Какая польза GPT-4o?

Сценариев применения GPT-4o масса. Только OpenAI во время презентации показала несколько десятков. Разработчики предлагают использовать новую нейросеть для развлечений, в качестве собеседника, переводчика, образовательной платформы и не только. Например, в одном из демо-роликов GPT-4o играет с людьми в "Камень, ножницы, бумага", в другом - выступает в роли переводчика для двух людей, один из которых знает только испанский язык, а второй - только английский, в третьем - нейросеть становится глазами для незрячего: человек водит объективом камеры, а ИИ подробно описывает объекты в кадре.

К слову, в нейросеть в режиме реального времени можно загружать не только видео с камеры, но и изображение с рабочего стола компьютера. В этом случае GPT-4o быстро проанализирует содержимое и сможет его прокомментировать. Например, программисту сервис может подсказать, как оптимизировать код, художнику - как улучшить изображение, фотографу - как отретушировать снимок, и так далее.

Если говорить об экономической перспективе GPT-4o, то здесь можно провести некоторые связи с корпорацией Apple. Вообще, OpenAI никак не монетизирует ChatGPT ???(интерфейс в виде чат-бота для взаимодействия с нейросетями GPT разных поколений. - "Газета.Ru")???, если не считать платный тариф за $20 в месяц, который нужен разве что корпоративным пользователям или большим энтузиастам. Однако скоро у OpenAI и ChatGPT появится большой клиент в лице корпорации Apple.

Apple интегрирует ChatGPT и другие ИИ-инструменты GPT в iOS, iPadOS и macOS. Отдельно инсайдеры подчеркивают, что одна из версий GPT станет базой голосового ассистента Siri, над которым уже давно посмеиваются из-за его никчемности. В свете этих событий становится очевидным, что GPT-4o - это готовый сетап для той же Siri.

Если Apple сможет реализовать на iPhone хотя бы половину из представленных функций GPT-4o, она мгновенно вырвется в авангард интеллектуальной потребительской техники.

Подробнее об интеграции ChatGPT в свои операционные системы Apple расскажет в июне 2024 года в рамках конференции разработчиков WWDC. Примечательно, что полноценный релиз GPT-4o также запланирован на июнь.

Это опасно?

В конце 2023 года совет директоров уволил с поста генерального директора OpenAI сооснователя компании Сэма Альтмана. Вскоре после разразившегося скандала Альтмана восстановили в должности, но спонтанное решение руководства компании до сих пор окутано тайной.

При этом наверняка известно, что одной из причин увольнения сооснователя OpenAI стала жалоба от нескольких сотрудников исследовательского отдела. В своем письме они заявили, что компания приблизилась к "мощному открытию в сфере ИИ, которое может угрожать человечеству". Подробности об открытии не упоминались, но сообщалось, что Альтман намерен коммерциализировать новую технологию, не осознавая последствий от ее использования.

Неизвестно, является ли GPT-4o тем самым загадочным проектом OpenAI, но легко можно предположить, что да. Ведь кажется, что, даже если люди не начнут массово влюбляться в свои смартфоны, то мошенники точно будут использовать новые голосовые возможности нейросети в преступных целях.

Руководитель группы исследований и разработки технологий машинного обучения в "Лаборатории Касперского" Владислав Тушканов считает, что сама GPT-4o не представляет большой опасности для людей в плане кибербезопасности, однако этого нельзя сказать о продуктах, которые будут появляться на базе разработок OpenAI.

"Новый функционал демонстрирует то, что является потенциально возможным с точки зрения технологий - генерацию реалистичного голоса с правильными интонациями и эмоциями, причем практически в режиме реального времени. Учитывая, что развитие открытых инструментов в сфере генеративных нейросетей идет достаточно быстро, можно ожидать в будущем других аналогичных открытых решений, которые уже могут быть теоретически использованы злоумышленниками", - сказал Тушканов.

По мнению специалиста, представленные OpenAI обновления кажутся хоть и масштабными, но эволюционными, а не революционными. Тушканов считает, что с точки зрения кибербезопасности принципиально новых векторов угроз GPT-4o не добавляет.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

Газета.ру

Популярные статьи

Свежие комментарии

Прогресс

Сотрудник "Лаборатории Касперского" Тушканов заявил, что GPT-4о не опасна