3D手勢識別背后的技術
3D 視覺技術的比較
不同的應用或市場適用于不同的 3D 視覺技術。圖 1 顯示了不同 3D 視覺技術的比較及其相關響應時間、軟件復雜性、成本及準確性的相對優缺點。
立體視覺技術需要極高的軟件復雜性才能獲得高精度 3D 深度數據,其通常可通過數字信號處理器 (DSP) 或多內核標量處理器進行處理。立體視覺系統支持小巧的外形與低成本,是移動電話等消費類設備的良好選擇。不過,立體視覺系統的精確度與響應時間不及其它技術,因此對于制造質量控制系統等要求高精度的系統來說不太理想。
結構光技術是包括 3D 計算機輔助設計 (CAD) 系統在內的 3D 對象掃描的良好解決方案。這些系統的相關軟件復雜性可通過硬接線邏輯解決(如 ASIC 與 FPGA 等),其需要高昂的開發及材料成本。此外,該計算復雜性還可導致較慢的響應時間。在實現微觀層面上的高精度方面,結構光模式技術優于其它 3D 視覺技術。
TOF 系統取得了性能與成本的平衡,非常適用于需要快速響應時間的制造與消費類電子設備等應用領域的設備控制。TOF 系統軟件復雜程度通常較低,不過這些系統需要昂貴的照明部件(LED、激光二極管)以及高速接口相關部件(快速 ADC、快速串行/并行接口、快速 PWM 驅動器),這將提升材料成本。圖 1 顯示了這三種 3D 傳感器技術的對比情況。
“z”(深度)如何影響人機界面
隨著“z”坐標的加入,顯示與影像更接近自然,更貼近人類。人們在顯示屏上能看到人眼從周邊環境所看到的逼真事物。增加這第三維坐標改變了可使用的顯示與應用類型。
顯示
立體顯示屏
立體顯示屏通常需要用戶佩戴 3D 眼鏡。這種顯示屏為左右眼提供不同的影像,兩眼看到的影像不同,讓大腦誤以為看到了 3D 影像。這種顯示屏目前廣泛用于眾多 3D 電視與 3D 電影院。
多視點顯示屏
多視點顯視屏不同于立體顯示屏,無需佩戴特殊眼鏡。這些顯示屏可同時投射多個影像,每個影像稍微有些位移,形成適當的角度,讓用戶可在每個視點角度看到相同對象的不同投射影像。這些顯示屏支持全息攝影效果,在不久的將來將實現全新的 3D 體驗。
檢測與應用
處理并顯示“z”坐標的功能將實現全新的應用,其中包括游戲、制造控制、安全、互動數字標牌、遠程醫療、汽車以及機器人視覺等。圖 2 是身體骨架與深度映射傳感技術所支持的某些應用領域視圖。
人類手勢識別(消費類)
人類手勢識別是一項深受歡迎的新技術,可為游戲、消費類以及移動產品帶來新的輸入方式。用戶能夠以極其自然、直觀的方法與設備進行互動,從而可促進產品推廣。這些人類手勢識別產品包括從 160 x 120 像素到 640 x 480 像素,30 到 60 fps 的各種分辨率的 3D 數據。原始數據到z深度解析、雙手跟蹤以及全身跟蹤等軟件模塊需要數字信號處理器 (DSP) 對 3D 數據進行高效快速處理,才能實現實時游戲與跟蹤。
工業
工業與制造傳感器等大多數 3D 視覺工業應用都采用至少 1 像素至數 100k 像素的影像系統。3D 影像可使用 DSP 技術進行控制分析,確定制造瑕疵或者從部件集中選擇正確的部件。
互動數字標牌(精確定位的市場營銷工具)
每天我們都在遭受廣告的轟炸,無論是看電視、開車還是在機場登機都是如此。有了互動數字標牌,企業就可通過精確定位的市場營銷工具提供適合每位消費者的內容。例如,有人走過一個數字標牌,標牌上可能就會馬上顯示額外的消息確認該客戶。如果客戶停下來閱讀信息,該標牌可能會理解為客戶對產品感興趣,并提供更有針對性的消息。麥克風則將讓廣告牌檢測并識別關鍵短語,進一步精確定位所提供的消息。
這些互動數字標牌系統將需要 3D 傳感器進行全面的身體跟蹤,2D 傳感器進行面部識別,并需要麥克風進行語音識別。這些系統的軟件將運行在更高級的 DSP 及通用處理器 (GPP) 上,不但可實現面部識別、全面的身體跟蹤以及 Flash 媒體播放器等應用,而且還可提供諸如 MPEG4 視頻解碼等功能。
醫療(無故障虛擬/遠程護理)
3D 視覺將為醫療領域帶來前所未有的全新應用。醫生無需跟患者共處一室就可問診。遠程虛擬護理采用高精度 3D 傳感器支持的醫學機器人視覺系統,可確保為每一位患者提供最優質的醫療護理,無論他們身處何方。
評論