人臉識別:在警察領域高級人臉識別技術的一致性
1
導讀
來自英國伯恩茅斯大學實驗室的研究人員作出的貢獻。近年來,人們對具有較高識別能力的人越來越感興趣。然而,對這些人的識別主要依賴于一次單一的人臉記憶測試的標準性能。目前調查旨在審查30名警察的高級人臉識別技能的一致性,既包括進入同一過程的測試,也包括進入人臉處理不同組成部分的測試之間的一致性。各相關指標的總體績效指標被發現,以孤立的測試分數確定不同的優秀表現。此外,不同表現的目標現值和目標缺席指數,表明信號檢測措施是最有用的績效指標。最后,觀察到優越的記憶和匹配性能之間的分離。因此,超級識別器篩選程序應該包括總結相關測試多次嘗試的總體指數,允許個人在不同(有時非常具體)的任務上進行高度排序。
2
引言
目前的研究旨在檢驗高級人臉識別技能的一致性,無論是在同一過程的測試中,還是在評估不同過程的測試之間。
本次,評估了一組30名警察的表現,他們此前曾接受過超級識別篩選,在兩項測試中至少一項超過了寬松的標準:CFMT測試和人臉匹配任務。這使我們能夠評估那些明顯精通記憶和匹配的人的人臉識別一致性,以及在這兩個過程中只有一個過程具有便利作用的人的人臉識別一致性。
所有警官都完成了五項測試:一項新的人臉記憶測試,該測試采用了cfmt范式,包括目標缺席試驗,這是人臉匹配任務的三個新版本,以及一種測試,要求參與者在同時呈現的顯示人群的圖像(“人群”任務)中決定是否存在一個復合目標臉(由整體合成系統生成)。
我們包括了人群測試,以檢查是否熟練的人臉識別技能,如上述兩種測試中的任何一種,延伸到一個新穎的,更真實的世界警務任務。所有測試都經過校準,以檢測光譜頂端的性能(允許至少三個與控制均值的標準差),使用外觀不同的自然人臉圖像。從參與者超過標準績效的次數和總體指數得分來考慮相關測試的一致性。
3
新框架方法
模型記憶測試
這一新的人臉記憶測試是對CFMT的一種適應,使用了在不同的日子和不同的環境中捕捉到的每一個人的自然彩色照片(如下圖)。
圖像被裁剪,以顯示從頸部以上的臉(圖像大小是8厘米高6厘米寬)。模型記憶測試(MMT)的完整描述可以在Bate等人提出的論文中找到。(Bate, S., Frowd, C., Bennetts, R., Hasshim, N., Murray, E., Bobak, A. K., Richards, S. (2018). Applied screening tests for the detection of superior face recognition. Cognitive Research: Principals and Implications. https://doi.org/10.1186/s41235‐018‐0116‐5, 3)
簡單地說,測試從一個與CFMT相似的編碼過程開始:對于六個目標面孔中的每一個,三個不同的人圖像(在不同的日期和不同的設置下拍攝)連續顯示3秒,然后立即進行三個測試試驗。在每個測試試驗中都會顯示三個面孔:一個編碼圖像和兩個錯誤的。在cfmt中,編碼階段以對六個目標面的20s回顧結束,同時呈現每個人的一個新的正面圖像。90個測試試驗(45個目標存在)隨后以隨機順序呈現。
在測試的前半部分,三分之一包含的圖像更接近于編碼階段使用的圖像,而在屏幕中斷后呈現的圖像則在更具挑戰性的條件下顯示目標(例如,有更多的胡須,或者面部被附件或視點的大變化遮住)。圖像保留在屏幕上,直到做出響應,并且沒有時間限制。
參與者可以針對每一次試驗做出目標在場或目標缺席的反應。使用指示目標在三位一體中目標位置的相應數字鍵(1-3)激發目標當前響應,而0鍵表示缺少目標的響應。在這個測試中,有五種類型的響應是可能的。對于目標目前的試驗,參與者可以正確識別目標臉(點擊),他們可能會錯誤地引發目標缺失的反應(失誤),或者他們可以錯誤地識別一個錯誤者的臉(錯誤識別)。在沒有目標的試驗中,參與者可以引起正確的反應(正確的拒絕)或錯誤地識別錯誤者的臉(假陽性)。我們記錄了每個參與者的每一次反應,并總結了點擊次數和正確的拒絕次數,以計算出一個整體的準確性評分。
配對匹配實驗
為這項調查開發了三個新的項目管理小組。當(A)人臉在兩幅圖像中發生嚴重變化(即45°以上)時,(B)演員只在一幅圖像中戴眼鏡時,這些參與者是否有能力同時匹配一對男性白種人臉,而且(C)演員在一張照片中有胡須,但在另一張照片中剃得很干凈(見下圖)。
這三個區塊中的每一個都包含48項試驗,其中24項在身份上匹配,其余的則顯示了兩個不同的個體。所有圖片都是從谷歌圖像搜索中下載的,并被裁剪成從頸部向上顯示整張臉。根據彼此感知到的相似性對不匹配的人臉進行配對,并將所有圖像調整為10cm寬和14cm高。
參與者以一個平衡的順序完成了這三個塊,每個塊內的試驗被隨機化。為了確保有效性,在作出反應之前,會顯示刺激,并且沒有規定時限。參與者按下鍵來引出“相同”或“不同”的反應。以點擊率(正確的“相同”回答的次數)和正確的拒絕次數(正確的“不同的”回答的次數)來計算分數,并將其加在一起以保證整體的準確性。
人群匹配試驗
最后一次測試旨在復制一個非常具體的警務場景,即警官有一個綜合目標臉(使用EvoFIT:一個綜合系統生成),他們必須在人群中找到這個人。
簡而言之,最初的一組參與者按照預先存在的程序生成了目標復合刺激。這一過程開始時,參與者盡可能詳細地描述指定的目標臉(一半來自最后測試中使用的人群圖像,另一半來自最終測試中沒有使用的人群圖像),而不進行猜測。
實驗者使用特征描述標簽將這一信息記錄在人臉描述表上。然后向參與者展示一個與年齡和性別相適應的數據庫,顯示一系列面部的內部區域。參與者選擇的面孔與目標的整體外觀最匹配;這些面孔被組合在一起,選擇過程重復進行。
然后,他們選擇了最佳匹配項目,并使用“整體”(針對臉部的年齡、體重和總體外觀)和“形狀”(處理面部特征的大小和位置)工具對其進行了改進。最后,選擇了最匹配的外部特征集(頭發、耳朵和頸部),參與者最后有機會使用相同的整體和形狀工具來改善面部。
最后實驗選擇了32種復合材料,包括32項試驗,參與者同時在屏幕頂部觀看目標合成臉,并在下面的圖片中顯示25-40人在自然背景下(例如,音樂會或體育活動的觀眾;見下圖)。
組合人臉高3cm,寬2cm,人群圖像高9cm,寬13cm。參與者被要求決定目標面孔是否存在于每一人群中,按下鍵盤上的一個鍵來做出反應。試驗按隨機順序顯示,沒有時間限制。命中和正確的拒絕被計算和總結整體準確性。
4
實驗結果
這項調查的主要目的是檢查不同測試之間的性能一致性,這些測試涉及相同的過程,以及度量不同進程的測試之間。由于現有的工作表明了在超級識別中目標-現在和目標-缺席性能的差異,分別輸入了每個測試的命中和正確拒絕的數據。主成分分析(PCA)的初始特征值表明,前三個因子解釋了方差的33.57%、23.39%和10.71%,其余8個因子的特征值小于1。2、3、4、5和6個因子的解分別使用因子負荷矩陣的varimax和oblimin旋轉進行了檢驗。5因素oblimin解決方案(解釋83.21%的方差)是首選的,因為它提供了最好的定義因子結構(見下表)。
第一個因素來自于目標當前的措施:命中了PMT的三個塊,命中了MMT,以及CFMT的總體性能。第二個因素來自三個匹配塊的正確的拒絕分數,以及來自CFMT的總體分數。在人群測試中,第三和第四個因素分別代表了成功和正確的拒絕;第五個因素對MMT的正確拒絕有很高的負載。下表顯示了一個完整的相關矩陣。
總之,這一分析表明:(A)兩種目標-現在的記憶測量是相關的,但目標-缺失記憶性能應該獨立考慮;(B)匹配測試的三個塊是相關的,但目標-現在和目標-缺失的測試應該再次被獨立地考慮;而且(C)在人群測試中,目標-現在和目標-缺失的表現都不同于所有其他的措施。這些調查結果被用來制定適當的指數,用以評估相關和無關措施之間業績的一致性。
人臉記憶性能一致性
在MMT上的總正確百分比是通過總結命中和正確的拒絕來計算的。每項措施的標準從控制平均數確定為1.96 SDS(見下表)。警官得分在53.33%~95.56%之間,有14人超標。這些人員中有11人按照CFMT的自由納入標準也優于對照組(其中9人也超過了對照平均數的1.96 SDS),而3人沒有(得分明顯在典型范圍內:73.53%、80.39%和80.39%)。超過自由CFMT標準的12名官員(8名超過1.96 SDS)在MMT上沒有這樣做,得分從64.44%到80.00%不等(見下圖)。
The relationship between officers' performance on the CFMT+ and (a) overall accuracy score on the MMT and (b) percentage hits on the MMT. Control cut‐offs (1.5 SDs from the mean on the CFMT+ and 1.96 SDs on the MMT) are indicated by grey dashed lines. Summary of performance for (c) the top 10 performers according to the Memory Hits Index and (d) the 12 officers that surpassed control performance by at least 1.96 SDs on the MMT d′ measure
人臉匹配性能一致性
我們的下一組分析檢查了三個新的人臉匹配測試塊(即姿態、眼鏡和面部毛發)的性能一致性。每個塊上所有參與者的命中、正確拒絕和總體準確性被總結,并使用控制數據計算每個度量的規范。
再次設定為1.96 SDS以上的控制均值(見下表)。我們最初檢查了每個區塊的總體準確率。首先,觀察了那些在PMT篩選版中表現優于控制的官員。在這20名警官中,15名超過了三個區塊中至少一個區的控制業績:三個區塊的控制成績優于所有三個區塊(見下圖a),九個超過了任何兩個區塊的控制(見下圖b),三個超過了任何一個區塊的控制業績(見下圖c)。5在任何塊上都沒有超過控制(見下圖d)。接下來,觀察了未通過初步PMT篩選的10名軍官的表現。值得注意的是,在任何一個板塊,只有一名官員沒有超過控制標準,只有兩名官員超過了任何一個板塊的控制標準(見下圖e)。兩名警官超過了所有三個板塊的控制業績,五個超過了任何兩個板塊(見下圖f)。總體而言,30名警官中只有5人在所有三個板塊都表現出一貫的高績效,而24人在任何一次嘗試中都超過了標準。
Consistency of officers' performance on the PMT at screening and in the three new blocks. Figures demonstrate those who outperformed controls at screening (according to the liberal 1.5 SD cut‐off); then by the more conservative 1.96 SD cut‐off on (a) all three blocks, (b) any two blocks, (c) any one block, and (d) no further block; and those who did not pass the initial screening criterion but outperformed controls on (e) only one or no block, or (f) on any two or three blocks
5
探討
主要做這個的原因,就是想通過以上一系列實驗,去挖掘經驗豐富的警官對人臉識別的一個特性,從中發現平時我們科研沒有發現的問題。比如,我一朋友做顯著性檢測,如果只在實驗中通過搭建框架、訓練測試,得出結果,那只是看到一個理論的表現,但是我朋友實驗室有專門的顯著性眼動儀,其可以通過現有模型的輔助,去人為進行實際實驗,觀察每一幅圖像的顯著性點及區域(說到這,我們平臺準備下期為大家帶來顯著性檢測),所以,本次分享的文獻有些乏味,但希望做人臉領域的小伙伴,可以通過實際生活中的一些經驗,通過數學的方式應用到模型當中,對實際場景的檢測或識別有一定的提升。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。