三維視覺系統能提升復雜場景下視頻監控的準確率
文/趙勇
基于三維深度視覺信號處理技術的視覺傳感器網絡,對于智能分析在場景應用中的準確率將從本質上得到提升,并解決用戶從場景監控環境中獲得人的軌跡行為的迫切需求。
三維攝像機的基本性能介紹
芯片處理
三維攝像機的智能分析的核心是在前端進行人的軌跡跟蹤分析,同時在后端也開放了SDK,將SDK里面的內容傳到后臺的服務器,客戶可以根據業務需求在SDK的基礎上進行二次開發。
建模
三維攝像機產品模型是三維模型,一種是三維的背景模型,在使用的場景中,熱點和熱區都是屬于三維的。二維只能是在平面上畫一個禁區,缺陷在于有時候人根本沒有進入禁區,但是當人遮擋禁區的時候就會產生誤報,而三維的背景模型可以設一個球形、立方形,只要物體沒有進入這個立方形的幾何邊界,它就不會報警。另一種是前景建模,就是對所看到的物體進行形態的分析,比如一個人拉著一個箱子或者推著一輛車,三維攝像機看到的每個物體都會用深度學習判斷這個東西到底是不是人。
數據結構化和云計算
三維攝像機未來將是一個數據結構化的產品,在錄像中每個人從影像出來的軌跡,都會變成結構化的數據存儲到后臺的服務器,而后臺服務器的架構是標準的云計算的架構。每個攝像機自身就是一個云的Docker,三維攝像機安裝在銀行時,由于銀行都使用了標準的服務器結構,運營起來不會有問題。而對于零售機構的后臺服務器,因為直接可以部署在云端,所以在開始設計時,就是按照兼容云的結構去研發。
三維PK二維 智能分析算法優劣勢對比
要從根本上、光學上徹底解決二維智能算法準確率不高的難題,可以從三維計算機視覺去尋求突破。三維計算機視覺是采用了革命性的三維視覺傳感器和三維視覺算法,實時捕捉和分析場景的三維信息,解決了傳統二維圖像中的相互遮擋、影隨人動、比例混淆等問題,使得更高精確度和復雜度的智能分析成為現實。
相互遮擋的問題
我們知道,現在行業用的攝像機是二維的,成像原理是通過鏡頭實現小孔成像(如圖1),然后投影到一個二維的平面上,以前的平面是膠卷,現在是半導體芯片的數碼相機。成像的過程本質是沒有改變的,一個三維的世界,壓扁之后放在一個平面上,從智能算法的角度分析,這個過程是造成準確度下降的核心。比如當兩個人前后有遮擋時,那么在二維圖形里面要把這兩個人分開來,難度比較大。而三維的攝像機,首先傳感器是不一樣的,它捕捉的是三維圖像,每一個像素都是有顏色的,還有像素代表了物體到相機的絕對距離。目前市場的某些攝像機像雷達,除了被動的成像,還向外主動的發射微波的微觀紅外圖像,相當于在場景里發射出一束激光,打在物體上,返回時攜帶了物體的幾何信息。攝像機通過這種方式得到了立體的圖像,知道什么東西在什么地方,它的結構是怎么樣的。這種數據從本質上講,給出了更豐富的信息,可以讓攝像機去處理更復雜的場景,比如擁擠的場所(如圖2),即使一個人被擋住了,他露出的部分,還是可以非常清晰地在圖像里分析出來,這也是為什么在復雜的場景中,三維的智能分析對人的跟蹤遠遠比二維的要好。
影隨人動的問題
其實,三維對光影變化的處理抗噪性特別的好,在視覺領域,有一個現象叫“影隨人動”,當物體的影子比較強烈時,在二維的圖像里面,影子會隨著人的移動而跟著移動,所以要把影子與人分開很難,影子容易被誤當做人。但是這個過程有一點是確定的,那就是影子始終是投影在背景上的,三維的傳感器既然可以捕捉到物體的深度信息,所以即使有一個影子在背景上,攝像機也可以通過計算該影子與到相機的距離來分辨其是否在背景上,對整體的分析沒有造成干擾。
比例混淆的問題
在圖像里面,物體的大小與其實際大小并沒有關系,因為它還取決于這個物體到攝像機的距離(如圖3)。但是在三維圖像里面,可以很精確地知道,這個物體在什么地方,它有多大多小。三維的攝像機有一個絕對尺度的計算,有了絕對尺度之后,就可以做到大小、距離、加速度的測量等。但在二維攝像機里,沒有絕對的尺度,所有的都是相對尺度,所以所有的測量都是相對的。因此三維攝像機對人的行為可以進行更精確的測量,比如人走了多少距離、速度多快、身高多少,在三維分析里面都有非常準確的測量。
困難重重 三維攝像機在研發和應用上的難題
研發過程
首先從硬件上講,這是一個更復雜的產品,一些產品表面上看是有三個攝像機,其實是兩個攝像機加一個投影儀,投影儀是把紅外激光的影像進行投影。而另外兩個攝像機,一個是色彩攝像頭,一個是紅外攝像頭,紅外攝像頭就與投影儀相互配合,進行深度算法分析。
其次,從軟件上分析,相比二維更為復雜,表現在對人的暴力程度、跌倒行為需要有更深度、精確的算法分析。運算量越大,消耗的就越多。
另外,當前的產品應用,主要在室內,室外的產品也在研發當中。室內與室外最大的差別在于成像原理,而第一代產品是基于紅外結構光譜基礎成像,發出的紅外光如果在室外,就容易被太陽光沖淡。現在的產品在陰晴的氣候環境下也可以工作,但在強光下就無法工作,所以要在室外工作,必須要在成像原理上做突破。
場景應用
安防監控在過去的發展歷程中主要是鋪設備和提升攝像機的分辨率,但是這個過程給用戶帶來了巨大的痛苦——大多數安防監控的數據量更大了,而行為分析的能力沒有得到提升。很多客戶需要更智能的產品,那就是不需要人去監看,或者需要人去看的數據很少,所以這里蘊藏著非常大的市場需求,就是對人的行為的分析。我們知道,安防監控有很多目標,但最重要的目標是人,很多客戶希望行為分析里能把人的行為看得很清楚。
人的行為分很多層次,有些是微觀行為,比如人有沒有在桌上拿走一張錢,或者他的眉毛有沒有皺一下,這種非常細微的行為,這樣的行為分析目前還不能做到。當前行業做的行為分析是基于人的軌跡進行分析,比如在銀行里,有兩種需求:第一種需求是在銀行的營業廳里,客戶想知道秩序怎么樣,每個人在干什么,有沒有排隊,有沒有移動過快,有沒有異常的接近、跌倒或其他激烈的動作。實踐證明,如果在人群比較擁擠,人與人有遮擋等復雜的情況下,用二維的智能算法去做分析,精度非常差。
第二種需求是在銀行內部的操作空間——敏感的現金區、ATM加鈔間和金庫。在這些地方客戶有非常強的業務需求,比如在加鈔間的款箱被打開的時候,監控畫面要確保有兩名工作人員來完成操作;在金庫里面,人去了哪些地方,停留了多久……這些業務要求需要對人的行為進行檢查和跟蹤,再者如果人蹲了下去,或者人被遮擋了,攝像機還能精確檢測到這個人是誰,那就對智能分析算法的精度的要求比較高。而當前傳統的基于二維的智能算法,還不能滿足這些具體的業務需求。
未來發展
平安城市或者智慧城市建設,就是希望把單個攝像機所產生的非結構化數據進行鏈接。三維攝像機有一個功能“活地圖”,比如一個地方有一百個攝像機,擁有一百個畫面,但我們不是給客戶看一百個畫面,而是給他看一個畫面。里面每一個人的存在和移動都變成了一個小點,客戶只要看一張圖就可以知道這個場所發生了什么事情——人都在哪些地方,哪些地方人多、人少。白天的時候,客戶就可以利用這些信息對流量進行精確的控制;夜晚的時候,就是安全需求,當有任何人闖進空間時,客戶就可以對闖入者的位置、行為進行監控。這就是行業近期追求的目標,把海量的視頻數據查閱轉變成看一張圖,而更長遠的目標是進行人的識別——身份識別和人臉識別。
三維攝像機的身份識別,要做到當一個人離開一個攝像機進入另外一個攝像機時,三維攝像機能把他識別出來,也就是要判斷和確定兩個攝像機里面出現的是同一個人。而在人臉識別方面,雖然當前的安防監控行業在人臉識別中有了初級的應用,但是深度的識別還沒有成功。
(本文作者現任北京格靈深瞳信息技術有限公司聯合創始人兼CTO)
評論