Ученые из Университета Карнеги-Меллон разработали алгоритм Kirigami, который позволяет использовать аудиосенсоры для распознавания действий человека — например, приготовления еды или уборки — не нарушая его конфиденциальность. Это решение может стать важным шагом в защите личной жизни в эпоху "умных" устройств.
Об этом сообщает Carnegie Mellon University (CMU).Микрофоны уже используются для определения повседневных активностей и мониторинга состояния здоровья, но вместе с полезной информацией они улавливают и разговоры. Даже если аудиоданные частично обрабатываются или искажаются, современные генеративные ИИ-модели, такие как Whisper, способны восстанавливать речь из фрагментов. Это делает существующие методы защиты уязвимыми.
Kirigami предлагает иной подход: он фильтрует аудиосигналы прямо на устройстве, удаляя участки, содержащие человеческую речь, еще до отправки данных с микрофона. По сути, это бинарный классификатор, который "решает", присутствует ли в звуке речь, и при необходимости вырезает ее. Таким образом, информация никогда не покидает устройство.
Система настраиваема: ее можно сделать более или менее строгой — в зависимости от того, насколько важна защита речи в конкретном случае. При высокой строгости часть полезных фоновых звуков может быть случайно отброшена, зато вероятность утечки речи минимальна.
Исследователи подчеркивают, что Kirigami особенно актуален на фоне развития умных домов и Интернета вещей. Алгоритм можно внедрить даже в недорогие микроконтроллеры, что открывает широкие возможности для безопасных и этичных аудиоприложений, включая мониторинг состояния пациентов с деменцией или выявление признаков депрессии у студентов.
Свежие комментарии