博客專欄

        EEPW首頁 > 博客 > 人臉識別精度提升 | 基于Transformer的人臉識別

        人臉識別精度提升 | 基于Transformer的人臉識別

        發布人:CV研究院 時間:2021-07-16 來源:工程師 發布文章

        現階段的人臉檢測識別技術已經特別成熟,不管在什么領域都有特別成熟的應用,比如:無人超市、車站檢測、犯人抓捕以及行跡追蹤等應用。但是,大多數應用都是基于大量數據的基礎,成本還是非常昂貴。所以人臉識別的精度還是需要進一步提升,那就要繼續優化更好的人臉識別框架。

        論文:https://arxiv.org/pdf/2103.14803.pdf

        1.png

        一、技術回顧——Transformer

        相比于卷積,Transformer有什么區別,優勢在哪?

        卷積有很強的歸納偏見(例如局部連接性和平移不變性),雖然對于一些比較小的訓練集來說,這毫無疑問是有效的,但是當我們有了非常充足的數據集時,這些會限制模型的表達能力。與CNN相比,Transformer的歸納偏見更少,這使得他們能夠表達的范圍更廣,從而更加適用于非常大的數據集;

        卷積核是專門設計用來捕捉局部的時空信息,它們不能夠對感受野之外的依賴性進行建模。雖然將卷積進行堆疊,加深網絡會擴大感受野,但是這些策略通過聚集很短范圍內的信息的方式,仍然會限制長期以來的建模。與之相反,自注意力機制通過直接比較在所有時空位置上的特征,可以被用來捕捉局部和全局的長范圍內的依賴;

        當應用于高清的長視頻時,訓練深度CNN網絡非常耗費計算資源。目前有研究發現,在靜止圖像的領域中,Transformer訓練和推導要比CNN更快。使得能夠使用相同的計算資源來訓練擬合能力更強的網絡。

        二、簡要

        最近,人們不僅對Transformer的NLP,而且對計算機視覺也越來越感興趣。我們想知道Transformer是否可以用于人臉識別,以及它是否比cnns更好。

        2.png

        因此,有研究者研究了Transformer模型在人臉識別中的性能。考慮到原始Transformer可能忽略inter-patch信息,研究者修改了patch生成過程,使相互重疊的滑動塊成為標識。這些模型在CASIA-WebFace和MSSeleb-1M數據庫上進行訓練,并在幾個主流基準上進行評估,包括LFW、SLLFW、CALFW、CPLFW、TALFW、CFP-FP、AGEDB和IJB-C數據庫。研究者證明了在大規模數據庫MS-Celeb-1M上訓練的人臉Transformer模型實現了與CNN具有參數和MACs相似數量的CNN相似的性能。

        二、FACE TRANSFORMER

        2.1 網絡框架愛

        人臉Transformer模型采用ViT[A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly et al., “An image is worth 16x16 words: Transformers for image recognition at scale,” arXiv preprint arXiv:2010.11929]體系結構,采用原Transformer。唯一的區別是,研究者修改了ViT的標記生成方法,以生成具有滑動塊的標記,即使圖像塊重疊,以便更好地描述塊間信息,如下圖所示。

        3.png

        具體地說,從圖像

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: 深度學習

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 仙居县| 金寨县| 三门峡市| 龙陵县| 岳西县| 绩溪县| 淅川县| 兖州市| 永仁县| 柳江县| 习水县| 临颍县| 太谷县| 巩留县| 济源市| 呼伦贝尔市| 南召县| 和田县| 崇仁县| 张掖市| 永安市| 砚山县| 花莲县| 民权县| 城口县| 天津市| 土默特左旗| 县级市| 延川县| 南投市| 黄浦区| 洞头县| 南京市| 大石桥市| 牡丹江市| 灌云县| 明星| 凤翔县| 怀化市| 渑池县| 翁牛特旗|