Купить решения «Лаборатории Касперского»
в интернет-магазине Kaspersky-Security.ru
ГлавнаяНовости→Распознавание позы человеческого тела с помощью сигнала Wi-Fi | Блог Касперского

Распознавание позы человеческого тела с помощью сигнала Wi-Fi | Блог Касперского

Исследователи обучили ИИ-модель обнаруживать человека и распознавать его позу с помощью сигнала Wi-Fi, используя в качестве источника и приемника обычные роутеры.

Для того чтобы найти человека, Диоген, как известно, использовал фонарь — философ полагался исключительно на оптические методы распознавания. Современные же ученые предлагают применять для этих целей сигнал Wi-Fi. Если быть точным, то методика, разработанная тремя исследователями из Университета Карнеги-Меллона, использует сигнал обычного домашнего Wi-Fi-роутера для того, чтобы достаточно точно распознавать не только местоположение, но и позы людей в помещении.

Почему Wi-Fi? Для этого есть несколько причин. Во-первых, в отличие от оптического распознавания, радиосигнал отлично работает в темноте и ему не мешают мелкие препятствия вроде мебели. Во-вторых, это дешево, чего нельзя сказать о лидарах и радарах, которые в целом тоже способны справиться с задачей. В-третьих, Wi-Fi уже повсеместно распространен — бери и пользуйся. Остается понять, насколько этот метод рабочий и чего с его помощью можно достичь, — давайте же в этом разберемся.

DensePose: методика распознавания человеческих поз на изображениях

Начать, впрочем, придется немного издалека — сперва следует разобраться с тем, как в целом работает точное распознавание человеческого тела и его позы. В 2018 году другая группа ученых представила методику под названием DensePose. С ее помощью они успешно распознавали человеческие позы на фотографиях — сугубо на основе двумерных картинок, без использования данных о третьей координате — глубине.

Вот как это работает. Для начала модель DensePose ищет на изображениях объекты, которые распознаются как человеческие тела. Далее эти объекты разделяются на отдельные участки, которые сопоставляются с теми или иными частями тела — каждая из них обрабатывается отдельно. Такой подход используется потому, что разные части тела двигаются очень по-разному: например, голова и торс ведут себя совсем не так, как руки и ноги.

DensePose: метод распознавания человеческих поз на фотографиях

С помощью DensePose получается верно распознавать позы человеческих тел на фотографиях и даже строить UV-развертки их поверхностей. Источник

В результате модель научилась соотносить двухмерное изображение с трехмерной поверхностью человеческого тела и получать не только разметку изображения в соответствии с распознанной позой, но и создавать UV-развертку изображенного на фотографии тела (последнее позволяет, например, наложить на него какую-нибудь текстуру).

Особенно впечатляет, что данная методика позволяет вполне уверенно распознавать позы множества людей на групповых фотографиях, в том числе — в жанре «фото с выпускного», когда люди стоят очень тесно и перекрывают друг друга.

DensePose: примеры распознавания поз на фотографиях

DensePose уверенно распознает положения отдельных фигур на групповых фотографиях. Источник

Также, если верить приведенным в работе изображениям и опубликованным исследователями видеороликам, система уверенно справляется с не самыми обычными вариантами положения тела в пространстве. Скажем, нейросеть правильно распознает людей на велосипедах, мотоциклах и верхом на лошадях, а также верно определяет позы бейсболистов, футболистов и даже танцоров брейк-данс, которые периодически двигаются совсем уж непредсказуемо.

DensePose: примеры распознавания поз на фотографиях

Модель DensePose отлично справляется даже с очень нестандартными позами. Источник

Дополнительный плюс DensePose — для работы модель не требует особых вычислительных мощностей. При использовании GeForce GTX 1080 — далеко не самой мощной видеокарты даже на момент публикации исследования — DensePose распознает 20–26 кадров в секунду с разрешением 240×320 и до пяти кадров в секунду с разрешением 800×1100.

DensePose через Wi-Fi: радиосигнал вместо фотографии

Собственно, идея исследователей из Университета Карнеги-Меллона заключалась в том, чтобы воспользоваться уже имеющейся и хорошо работающей ИИ-моделью для распознавания человеческих поз, — то есть DensePose. Однако в качестве входных данных для распознавания вместо фотографий ученые использовали сигнал Wi-Fi.

Для своего эксперимента они соорудили следующий тестовый стенд.

  • Две стойки с обычными домашними роутерами TP-Link, оборудованными тремя антеннами: один используется как передатчик, другой — как приемник.
  • Сцена для распознавания, расположенная между этими стойками.
  • Камера, закрепленная на стойке рядом с роутером-приемником и снимающая ту же сцену, которую ученые пытаются распознать с использованием Wi-Fi-сигнала.
DensePose через Wi-Fi: общие принципы метода

Общая схема тестового стенда для распознавания человеческих поз через Wi-Fi. Источник

Далее они запустили DensePose, которая распознавала положения тел с помощью камеры, установленной рядом с роутером-приемником, и дали ей задачу обучить другую нейросеть, работавшую с Wi-Fi-сигналом, полученным принимающим роутером. Сигнал этот был предварительно очищен и модифицирован для более уверенного распознавания — но это, в общем, детали. Главное, что исследователям действительно удалось создать новую модель Wi-Fi-DensePose, которая вполне уверенно устанавливает положение в пространстве человеческих тел на основе сигнала Wi-Fi.

DensePose через Wi-Fi: удачно распознанные сцены

В удачных случаях модель может действительно хорошо распознавать человеческие позы. Источник

Ограничения метода

Однако не стоит спешить с заголовками вроде «Ученые научились видеть сквозь стены с помощью Wi-Fi». Начнем с того, что «зрение» это весьма абстрактно — модель не столько «видит» тело человека, сколько способна с определенной вероятностью предсказать его положение в пространстве и позу на основе косвенных данных.

Насколько на самом деле сложна задача сколь-либо детальной визуализации с помощью Wi-Fi-сигнала, показано в другой работе на сходную тему, где исследователи экспериментировали с объектами куда проще человеческих тел, — и результаты, мягко говоря, были далеки от идеала.

Визуализация объектов с помощью сигнала Wi-Fi

Визуализация объектов с помощью сигнала Wi-Fi: чем менее выраженные грани, тем хуже это получается. Источник

Также следует отметить, что построенная исследователями из Университета Карнеги-Меллона модель значительно уступает по точности оригинальному методу распознавания поз на фотографиях, а также достаточно серьезно «галлюцинирует». Особенные сложности модель испытывает, сталкиваясь с необычными позами или сценами с участием более двух человек.

DensePose через Wi-Fi: неудачно распознанные сцены

Модель Wi-Fi-DensePose плохо справляется с нестандартными позами и большим количеством человеческих тел в одной сцене. Источник

В довершение отметим, что конфигурация тестового стенда в исследовании была максимально благоприятной: хорошо известная и простая геометрия, прямая видимость между источником и приемником, никаких существенных помех на пути радиосигнала — учеными были созданы идеальные условия для «просвечивания» сцены радиоволнами. В реальной жизни воссоздать настолько удачную конфигурацию, скорее всего, никогда не получится.

Так что если вы уже начали переживать о том, что кто-то взломает ваш Wi-Fi-роутер и начнет с его помощью следить за тем, чем вы занимаетесь дома, то пока это делать несколько преждевременно. Уж если чего-то бояться в своем доме, так это бытовой техники: например, умных кормушек для домашних питомцев или даже детских игрушек: у них есть камеры, микрофоны, связь с облаком, а у роботов-пылесосов — еще и отлично работающие в темноте лидары, и даже возможность перемещаться в пространстве.

А за дверью вас ждет еще один шпион — четырехколесный: ведь по количеству собираемой информации с современными автомобилями не сравнятся ни смарт-часы, ни умные колонки, ни прочие повседневные гаджеты.


Источник: Лаборатория Касперского

13.05.2024