博客專欄

        EEPW首頁 > 博客 > 全身追蹤、不怕遮擋,CMU兩位華人做了個基于WiFi信號的DensePose

        全身追蹤、不怕遮擋,CMU兩位華人做了個基于WiFi信號的DensePose

        發布人:機器之心 時間:2023-01-17 來源:工程師 發布文章

        用 WiFi 信號進行人體姿態估計并不新鮮,2018 年 MIT CSAIL 的研究者結合使用 WiFi 信號和深度學習,實現了隔墻人體姿態估計。近日,CMU 的研究者僅用 WiFi 信號搞定了遮擋、多人場景中的密集人體姿態估計。


        過去幾年,在自動駕駛和 VR 等應用的推動下,使用 2D 和 3D 傳感器(如 RGB 傳感器、LiDARs 或雷達)進行人體姿態估計取得了很大進展。但是,這些傳感器在技術上和實際使用中都存在一些限制。首先成本高,普通家庭或小企業往往承擔不起 LiDAR 和雷達傳感器的費用。其次,這些傳感器對于日常和家用而言太過耗電。
        至于 RGB 相機,狹窄的視野和惡劣的照明條件會對基于相機的方法造成嚴重影響。遮擋成為阻礙基于相機的模型在圖像中生成合理姿態預測的另一個障礙。室內場景尤其難搞,家具通常會擋住人。更重要的是,隱私問題阻礙了在非公共場所使用這些技術,很多人不愿意在家中安裝攝像頭記錄自己的行為。但在醫療領域,出于安全、健康等原因,很多老年人有時不得不在攝像頭和其他傳感器的幫助下進行實時監控。
        近日,CMU 的三位研究者在論文《DensePose From WiFi》中提出,在某些情況下,WiFi 信號可以作為 RGB 圖像的替代來進行人體感知。照明和遮擋對用于室內監控的 WiFi 解決方案影響不大。WiFi 信號有助于保護個人隱私,所需的相關設備也能以合理的價格買到。關鍵的一點是,很多家庭都安裝了 WiFi,因此這項技術有可能擴展到監控老年人的健康狀況或者識別家中的可疑行為。
        圖片
        論文地址:https://arxiv.org/pdf/2301.00250.pdf
        研究者想要解決的問題如下圖 1 第一行所示。給定 3 個 WiFi ****和 3 個對應的接收器,能否在多人的雜亂環境中檢測和復原密集人體姿態對應關系(圖 1 第四行)?需要注意的是,很多 WiFi 路由器(如 TP-Link AC1750)都有 3 根天線,因此本文方法中只需要 2 個這樣的路由器。每個路由器的價格大約是 30 美元,意味著整個設置依然比 LiDAR 和雷達系統便宜得多。
        為了實現如圖 1 第四行的效果,研究者從計算機視覺的深度學習架構中獲得靈感,提出了一種可以基于 WiFi 執行密集姿態估計的神經網絡架構,并實現了在有遮擋和多人的場景中僅利用 WiFi 信號來估計密集姿態
        圖片
        下圖左為基于圖像的 DensePose,圖右為基于 WiFi 的 DensePose。
        圖片圖源:推特 @AiBreakfast
        另外,值得一提的是,論文一二作均為華人。論文一作 Jiaqi Geng 在去年 8 月取得了 CMU 機器人專業碩士學位,二作 Dong Huang 現為 CMU 高級項目科學家。
        方法介紹
        想要利用 WiFi 生成人體表面的 UV 坐標需要三個組件:首先通過振幅和相位步驟對原始 CSI( Channel-state-information,表示****信號波與接收信號波之間的比值 )信號進行清理處理;然后,將處理過的 CSI 樣本通過雙分支編碼器 - ****網絡轉換為 2D 特征圖;接著將 2D 特征圖饋送到一個叫做 DensePose-RCNN 架構中(主要是把 2D 圖像轉換為 3D 人體模型),以估計 UV 圖。
        原始 CSI 樣本帶有噪聲(見圖 3 (b)),不僅如此,大多數基于 WiFi 的解決方案都忽略了 CSI 信號相位,而專注于信號的幅度(見圖 3 (a))。然而丟棄相位信息會對模型性能產生負面影響。因此,該研究執行清理(sanitization)處理以獲得穩定的相位值,從而更好的利用 CSI 信息。
        圖片
        為了從一維 CSI 信號中估計出空間域中的 UV 映射,首先需要將網絡輸入從 CSI 域轉換到空間域。本文采用 Modality Translation Network 完成(如圖 4)。經過一番操作,就可以得到由 WiFi 信號生成的圖像域中的 3×720×1280 場景表示。
        圖片
        在圖像域中獲得 3×720×1280 場景表示后,該研究采用類似于 DensePose-RCNN 的網絡架構 WiFi-DensePose RCNN 來預測人體 UV 圖。具體而言,在 WiFi-DensePose RCNN(圖 5)中,該研究使用 ResNet-FPN 作為主干,并從獲得的 3 × 720 × 1280 圖像特征圖中提取空間特征。然后將輸出輸送到區域提議網絡。為了更好地利用不同來源的互補信息,WiFi-DensePose RCNN 還包含兩個分支,DensePose head 和 Keypoint head,之后處理結果被合并輸入到 refinement 單元。
        圖片
        然而從隨機初始化訓練 Modality Translation Network 和 WiFi-DensePose RCNN 網絡需要大量時間(大約 80 小時)。為了提高訓練效率,該研究將一個基于圖像的 DensPose 網絡遷移到基于 WiFi 的網絡中(詳見圖 6)。
        圖片

        直接初始化基于 WiFi 的網絡與基于圖像的網絡權重無法工作,因此,該研究首先訓練了一個基于圖像的 DensePose-RCNN 模型作為教師網絡,學生網絡由 modality translation 網絡和 WiFi-DensePose RCNN 組成。這樣做的目的是最小化學生模型與教師模型生成的多層特征圖之間的差異。
        實驗
        表 1 結果顯示,基于 WiFi 的方法得到了很高的 AP@50 值,為 87.2,這表明該模型可以有效地檢測出人體 bounding boxes 的大致位置。AP@75 相對較低,值為 35.6,這表明人體細節沒有得到完美估計。
        圖片
        表 2 結果顯示 dpAP?GPS@50 和 dpAP?GPSm@50 值較高,但 dpAP?GPS@75 和 dpAP?GPSm@75 值較低。這表明本文模型在估計人體軀干的姿勢方面表現良好,但在檢測四肢等細節方面仍然存在困難。
        圖片
        表 3 和表 4 的定量結果顯示,基于圖像的方法比基于 WiFi 的方法產生了非常高的 AP。基于 WiFi 的模型 AP-m 值與 AP-l 值的差異相對較小。該研究認為這是因為離相機遠的人在圖像中占據的空間更少,這導致關于這些對象的信息更少。相反,WiFi 信號包含了整個場景中的所有信息,而不管拍攝對象的位置。
        圖片


        圖片


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 惠东县| 探索| 仙游县| 美姑县| 西平县| 沂水县| 霍城县| 竹山县| 大竹县| 花莲县| 湖口县| 邻水| 长武县| 门头沟区| 宁德市| 琼海市| 洛川县| 巴塘县| 安岳县| 临武县| 云阳县| 南漳县| 金乡县| 梅河口市| 徐闻县| 扎鲁特旗| 崇明县| 永登县| 马山县| 萝北县| 天全县| 星子县| 任丘市| 无棣县| 同德县| 镇赉县| 遂川县| 田林县| 合水县| 滨海县| 灌南县|