物理攻擊「損害」深度學習系統,CV、語音領域如何防御?(1)
本文結合三篇最新的論文具體討論計算機視覺領域中的物理攻擊及檢測方法,包括視覺領域和音頻領域。
0、引言
對抗性攻擊的概念首先由 Goodfellow 等人提出 [6],近年來,這一問題引起了越來越多研究人員的關注,對抗性攻擊的方法也逐漸從算法領域進入到物理世界,出現了物理對抗性攻擊。文獻[1] 中首次提出了利用掩模方法將對抗性擾動集中到一個小區域,并對帶有涂鴉的真實交通標志實施物理攻擊。與基于噪聲的對抗性攻擊相比,物理攻擊降低了攻擊難度,進一步損害了深度學習技術的實用性和可靠性。
我們都知道,深度學習系統在計算機視覺、語音等多媒體任務上都取得了非常好的效果,在一些應用場景中甚至獲得了可以與人類相媲美的性能。基于這些成功的研究基礎,越來越多的深度學習系統被應用于汽車、無人機和機器人等物理系統的控制。但是,隨著物理攻擊方法的出現,這些對視覺、語音等多媒體信息輸入進行的篡改會導致系統出現錯誤行為,進而造成嚴重的后果。本文重點關注的就是針對多媒體領域的深度學習系統的物理攻擊問題。
以 [1] 中給出的針對視覺領域的攻擊為例,通過向輸入數據注入特定的擾動,對抗性攻擊可以誤導深度學習系統的識別結果。通過物理攻擊性方法,對抗性擾動可以集中到一個小區域并附著在真實物體上,這很容易威脅到物理世界中的深度學習識別系統。圖 1 給出一個應對物理攻擊的實際案例。圖 1 中左圖顯示了一個關于交通標志檢測的物理對抗樣本。當在原始停車標志上附加一個對抗補丁時,交通標志檢測系統將被誤導輸出限速標志的錯誤識別結果。圖 1 右圖展示了交通標志對抗性攻擊的自我驗證過程。對于每張輸入圖像,經過一次 CNN 推理后,驗證階段將定位重要的激活源(綠圈),并根據預測結果計算出輸入語義與預期語義模式的不一致性(右圈)。一旦不一致性超過預定的閾值,CNN 將進行數據恢復過程以恢復輸入圖像。關于這一過程,我們會在后面詳細解釋。圖 1. 交通標志的物理對抗性攻擊[2]
圖 2 給出一個典型的音頻識別過程和相應的物理對抗性攻擊。首先,提取音頻波形的梅爾倒譜系數 MeI-Freguency CeptraI Coefficients (MFCC) 特征。然后利用 CNN 來實現聲學特征識別,從而獲得候選音素。最后,應用詞庫和語言模型得到識別結果 "open"。將對抗性噪聲注入到原始輸入波形中時,最終的識別結果會被誤導為 "close"。圖 2. 音頻識別和物理對抗性攻擊過程
我們在這篇文章中結合三篇最新的論文具體討論計算機視覺領域中的物理攻擊及檢測方法,包括視覺領域和音頻領域。首先,我們介紹 Kevin Eykholt 等在 CVPR 2018 上發表的關于生成魯棒物理攻擊的工作,其主要目的是生成對觀察攝像機的距離和角度的巨大變化具有很強的適應性的物理擾動攻擊。然后,第二篇論文提出了一個針對圖像和音頻識別應用的物理對抗性攻擊的 CNN 防御方法。最后,第三篇文章聚焦于圖像的局部物理攻擊問題,即將對手區域限制在圖像的一小部分,例如 “對手補丁” 攻擊:
Robust Physical-World Attacks on Deep Learning Visual Classification,CVPR 2018
LanCe: A Comprehensive and Lightweight CNN Defense Methodology against Physical Adversarial Attacks on Embedded Multimedia Applications,ASP-DAC 2020
Chou E , F Tramèr, Pellegrino G . SentiNet: Detecting Physical Attacks Against Deep Learning Systems. PrePrint 2020. https://arxiv.org/abs/1812.00292
1、針對深度學習視覺分類任務的魯棒物理攻擊[1]
這篇文章重點關注的是如何對計算機視覺任務的深度學習方法進行魯棒的物理攻擊,是從攻擊角度進行的分析。作者具體選擇了道路標志分類作為目標研究領域。
生成魯棒的物理攻擊所面臨的的主要挑戰是環境變異性。對于本文選擇的應用領域,動態環境變化具體是指觀察攝像機的距離和角度。此外,生成物理攻擊還存在其他實用性的挑戰:(1) 數字世界的擾動幅度可能非常小,由于傳感器的不完善,相機很可能無法感知它們。(2)構建能夠修改背景的魯棒性攻擊是非常困難的,因為真實的物體取決于視角的不同可以有不同的背景。(3)具體制造攻擊的過程(如擾動的打印)是不完善的。在上述挑戰的啟發下,本文提出了 Robust Physical Perturbations(RP2)--- 一種可以產生對觀察攝像機的廣泛變化的距離和角度魯棒的擾動方法。本文目標是從攻擊角度進行研究,探討是否能夠針對現實世界中的物體創建強大的物理擾動,使得即使是在一系列不同的物理條件下拍攝的圖像,也會誤導分類器做出錯誤的預測。
1.1 物理世界的挑戰
對物體的物理攻擊必須能夠在不斷變化的條件下存在,并能有效地欺騙分類器。本文具體圍繞所選擇的道路標志分類的例子來討論這些條件。本文的研究內容可以應用于自動駕駛汽車和其他安全敏感領域,而本文分析的這些條件的子集也可以適用于其他類型的物理學習系統,例如無人機和機器人。
為了成功地對深度學習分類器進行物理攻擊,攻擊者應該考慮到下述幾類可能會降低擾動效果的物理世界變化。
環境條件。自主車輛上的攝像頭與路標的距離和角度不斷變化。獲取到的被送入分類器的圖像是在不同的距離和角度拍攝的。因此,攻擊者在路標上添加的任何擾動都必須能夠抵抗圖像的這些轉換。除角度和距離外,其他環境因素還包括照明 / 天氣條件的變化以及相機上或路標上存在的碎片。
空間限制。目前專注于數字圖像的算法會將對抗性擾動添加到圖像的所有部分,包括背景圖像。然而,對于實體路牌,攻擊者并不能操縱背景圖像。此外,攻擊者也不能指望有一個固定的背景圖像,因為背景圖像會根據觀看攝像機的距離和角度而變化。
不易察覺性的物理限制。目前對抗性深度學習算法的一個優點是,它們對數字圖像的擾動往往非常小,以至于人類觀察者幾乎無法察覺。然而,當把這種微小的擾動遷移到現實世界時,我們必須確保攝像機能夠感知這些擾動。因此,對不可察覺的擾動是有物理限制的,并且取決于傳感硬件。
制造誤差。為了實際制造出計算得到的擾動,所有的擾動值都必須是可以在現實世界中復制實現的。此外,即使一個制造設備,如打印機,確實能夠產生某些顏色,但也會有一些復制誤差。
1.2 生成魯棒的物理擾動
作者首先分析不考慮其它物理條件的情況下生成單一圖像擾動的優化方法,然后再考慮在出現上述物理世界挑戰的情況下如何改進算法以生成魯棒的物理擾動。
單一圖像優化問題表述為:在輸入 x 中加入擾動δ,使擾動后的實例 x’=x+δ能夠被目標分類器 f_θ(·)錯誤分類:
其中,H 為選定的距離函數,y * 為目標類別。為了有效解決上述約束性優化問題,作者利用拉格朗日松弛形式重新表述上式:
其中,J(·,·)為損失函數,其作用是衡量模型的預測和目標類別標簽 y * 之間的差異。λ為超參數,用于控制失真的正則化水平。作者將距離函數 H 表征為 ||δ||_p,即δ的 Lp 范數。
接下來,作者具體討論如何修改目標函數以考慮物理環境條件的影響。首先,對包含目標對象 o 的圖像在物理和數字變換下的分布進行建模 X^V 。我們從 X^V 中抽出不同的實例 x_i。一個物理擾動只能添加到 x_i 中的特定對象 o。具體到路標分類任務中,我們計劃控制的對象 o 是停車標志。
為了更好地捕捉變化的物理條件的影響,作者通過生成包含實際物理條件變化的實驗數據以及合成轉換,從 X^V 中對實例 x_i 進行采樣。圖 3 中給出了以道路標識為例的魯棒物理攻擊(Robust Physical Perturbations ,RP2)過程示例。圖 3. RP2 示例。輸入一個目標停止標志。RP2 從一個模擬物理動態的分布中取樣(在本例中是不同的距離和角度),并使用一個掩模將計算出的擾動投射到一個類似于涂鴉的形狀上。攻擊者打印出所產生的擾動,并將其貼在目標停止標志上
本文所討論的道路標志的物理條件涉及在各種條件下拍攝道路標志的圖像,如改變距離、角度和光照等。而對于合成轉換,作者隨機裁剪圖像中的物體,改變其亮度,并增加空間變換以模擬其他可能的條件。為了確保擾動只適用于目標對象的表面區域 o(考慮到空間限制和對不可知性的物理限制),作者引入了一個掩模。該掩模的作用是將計算出的擾動投射到物體表面的一個物理區域(如路標)。除了實現空間定位外,掩模還有助于生成對人類觀察者來說可見但不明顯的擾動。為了做到這一點,攻擊者可以將掩模塑造得像一個涂鴉—- 一種在大街上很常見的破壞行為。從形式上看,將擾動掩模表征為一個矩陣 M_x,其尺寸與路標分類器的輸入尺寸相同。M_x 在沒有添加擾動的區域為“0”,在優化期間添加擾動的區域中為“1”。作者表示,在他們進行實驗的過程中發現掩模的位置對攻擊的有效性是有影響的。因此,作者假設,從分類的角度來看物體的物理特征有強有弱,因此,可以將掩模定位在攻擊薄弱的地方。具體來說,作者使用下述方法來發現掩模位置。(1) 使用 L1 正則化計算擾動,并使用占據整個道路標志表面區域的掩模。L1 使優化器傾向于稀疏的擾動向量,因此將擾動集中在最脆弱的區域。對所產生的擾動進行可視化處理,為掩模的放置位置提供指導。(2) 使用 L2 重新計算擾動,并將掩模定位在先前步驟中確定的脆弱區域上。
考慮到在實際應用中會存在制造誤差,作者在目標函數中增加了一個額外的項,該項用來模擬打印機的顏色復制誤差。給定一組可打印的顏色(RGB 三元組)P 和一組在擾動中使用的、需要在物理世界中打印出來的(唯一的)RGB 三元組 R(δ),利用下式計算不可打印性得分 non-printability score (NPS):
基于上述討論,本文最終的魯棒空間約束擾動優化為:
這里我們用函數 T_i( )來表示對齊函數,它將物體上的變換映射到擾動的變換上。
最后,攻擊者打印出優化結果,剪下擾動(M_x),并將其放到目標對象 o 上。
1.3 實驗分析
實驗構建了兩個用于路標分類的分類器,執行的是標準的裁剪 - 重新確定大小 - 分類的任務流程。第一個分類器 LISA-CNN 對應的實驗訓練圖像來自于 LISA,一個包含 47 個不同道路標志的美國交通標志數據集。不過,這個數據集并不平衡,導致不同標志的表述有很大差異。為了應對這個問題,作者根據訓練實例的數量,選擇了 17 個最常見的標志。實驗中使用的深度學習 LISA-CNN 的架構由三個卷積層和一個 FC 層組成。它在測試集上的準確度為 91%。
第二個分類器是 GTSRB-CNN,它是在德國交通標志識別基準(GTSRB)上訓練得到的。深度學習方法使用了一個公開的多尺度 CNN 架構,該架構在路標識別方面表現良好。由于作者在實際實驗中無法獲得德國的停車標志,因此使用 LISA 中的美國停車標志圖像替換了 GTSRB 的訓練、驗證和測試集中的德國停車標志。GTSRB-CNN 在測試集上準確度為 95.7%。當在作者自己構建的 181 個停車標志圖像上評估 GTSRB-CNN 時,它的準確度為 99.4%。
作者表示,據他所知,目前還沒有評估物理對抗性擾動的標準化方法。在本實驗中,作者主要考慮角度和距離因素,因為它們是本文所選的用例中變化最快的元素。靠近標志的車輛上的相機以固定的時間間隔拍攝一系列圖像。這些圖像的拍攝角度和距離不同,因此可以改變任何特定圖像中的細節數量。任何成功的物理擾動必須能夠在一定的距離和角度范圍內引起有針對性的錯誤分類,因為車輛在發出控制器動作之前,可能會對視頻中的一組幀(圖像)進行投****確定。在該實驗中沒有明確控制環境光線,從實驗數據可以看出,照明從室內照明到室外照明都有變化。本文實驗設計借鑒物理科學的標準做法,將上述物理因素囊括在一個由受控的實驗室測試和現場測試組成的兩階段評估中。
靜態(實驗室)測試。主要涉及從靜止的、固定的位置對物體的圖像進行分類。
1. 獲得一組干凈的圖像 C 和一組在不同距離、不同角度的對抗性擾動圖像。使用 c^(d,g)表示從距離 d 和角度 g 拍攝的圖像。攝像機的垂直高度應保持大致不變。當汽車轉彎、改變車道或沿著彎曲的道路行駛時,攝像機相對于標志的角度通常會發生變化。2. 用以下公式計算物理擾動的攻擊成功率:
其中,d 和 g 表示圖像的相機距離和角度,y 是地面真值,y 是目標攻擊類別。
注意,只有當具有相同相機距離和角度的原始圖像 c 能夠正確分類時,引起錯誤分類的圖像 A(c)才被認為是成功的攻擊,這就確保了錯誤分類是由添加的擾動而不是其他因素引起的。
駕車(現場)測試。作者在一個移動的平臺上放置一個攝像頭,并在真實的駕駛速度下獲取數據。在本文實驗中,作者使用的是一個安裝在汽車上的智能手機攝像頭。
1. 在距離標志約 250 英尺處開始錄制視頻。實驗中的駕駛軌道是直的,沒有彎道。以正常的駕駛速度駛向標志,一旦車輛通過標志就停止記錄。實驗中,速度在 0 英里 / 小時和 20 英里 / 小時之間變化。這模擬了人類司機在大城市中接近標志的情況。2. 對 "Clean" 標志和施加了擾動的標志按上述方法進行錄像,然后應用公式計算攻擊成功率,這里的 C 代表采樣的幀。
由于性能限制,自主車輛可能不會對每一幀進行分類,而是對每 j 個幀進行分類,然后進行簡單的多數投****。因此,我們面臨的問題是確定幀(j)的選擇是否會影響攻擊的準確性。在本文實驗中使用 j = 10,此外,作者還嘗試了 j=15。作者表示,這兩種取值情況下沒有觀察到攻擊成功率的任何明顯變化。作者推斷,如果這兩種類型的測試都能產生較高的成功率,那么在汽車常見的物理條件下,該攻擊很可能是成功的。
1.3.1 LISA-CNN 的實驗結果
作者通過在 LISA-CNN 上生成三種類型的對抗性示例來評估算法的有效性(測試集上準確度為 91%)。表 1 給出了實驗中用到的靜止的攻擊圖像的樣本示例。表 1. 針對 LISA-CNN 和 GTSRB-CNN 的物理對抗性樣本示例
對象受限的海報打印攻擊(Object-Constrained Poster-Printing Attacks)。實驗室使用的是 Kurakin 等人提出的攻擊方法[4]。這兩種攻擊方法的關鍵區別在于,在本文攻擊中,擾動被限制在標志的表面區域,不包括背景,并且對大角度和距離的變化具有魯棒性。根據本文的評估方法,在實驗 100% 的圖像中停車標志都被錯誤地歸類為攻擊的目標類別(限速 45)。預測被操縱的標志為目標類別的平均置信度為 80.51%(表 2 的第二列)。
貼紙攻擊(Sticker Attacks),作者還展示了通過將修改限制在類似涂鴉或藝術效果的區域中,以貼紙的形式產生物理擾動的有效性。表 1 的第四列和第五列給出了這類圖像樣本,表 2(第四列和第六列)給出了實驗成功率與置信度。在靜止狀態下,涂鴉貼紙攻擊達到了 66.67% 的定向攻擊成功率,偽裝藝術效果貼紙攻擊則達到了 100% 的定向攻擊成功率。表 2. 在 LISA-CNN 上使用海報印刷的停車標志牌(微小攻擊)和真正的停車標志牌(偽裝的涂鴉攻擊,偽裝的藝術效果攻擊)的有針對性的物理擾動實驗結果。對于每幅圖像,都顯示了前兩個標簽和它們相關的置信度值。錯誤分類的目標是限速 45。圖例:SL45 = 限速 45,STP = 停車,YLD = 讓步,ADL = 增加車道,SA = 前方信號,LE = 車道盡頭
作者還對停車標志的擾動進行了駕車測試。在基線測試中,從一輛行駛中的車輛上記錄了兩段清潔停車標志的連續視頻,在 k = 10 時進行幀抓取,并裁剪標志。此時,所有幀中的停止標志都能夠正確分類。同樣用 k=10 來測試 LISA-CNN 的擾動。本文攻擊對海報攻擊實現了 100% 的目標攻擊成功率,而對偽裝抽象藝術效果攻擊的目標攻擊成功率為 84.8%。見表 3。表 3. LISA-CNN 的駕車測試總結。在基線測試中,所有的幀都被正確地分類為停車標志。在所有的攻擊案例中,擾動情況與表 2 相同。手動添加了黃色方框進行視覺提示
1.3.2 GTSRB-CNN 的實驗結果
為了展示本文所提出的攻擊算法的多功能性,作者為 GTSRB-CNN 創建并測試了攻擊性能(測試集上準確度為 95.7%)。表 1 中最后一列為樣本圖像。表 4 給出了攻擊結果—在 80% 的靜止測試條件下,本文提出的攻擊使分類器相信停止標志是限速 80 的標志。根據本文評估方法,作者還進行了駕車測試(k=10,兩個連續的視頻記錄),最終攻擊在 87.5% 的時間里成功欺騙了分類器。表 4. 對 GTSRB-CNN 的偽裝藝術效果攻擊。有針對性的攻擊成功率為 80%(真實類別標簽:停止,目標:限速 80)
1.3.3 Inception v3 的實驗結果
最后,為了證明 RP2 的通用性,作者使用兩個不同的物體,一個微波爐和一個咖啡杯,計算了標準 Inception-v3 分類器的物理擾動情況。作者選擇了貼紙攻擊方法,因為使用海報攻擊方法為物體打印一個全新的表面很容易引起人的懷疑。由于杯子和微波爐的尺寸比路標小,作者減少了使用的距離范圍(例如,咖啡杯高度 - 11.2 厘米,微波爐高度 - 24 厘米,右轉標志高度 - 45 厘米,停止標志 - 76 厘米)。表 5 給出了對微波爐的攻擊結果,表 6 則給出了對咖啡杯的攻擊結果。對于微波爐,目標攻擊的成功率是 90%。對于咖啡杯,目標攻擊成功率為 71.4%,非目標成功率為 100%。表 5. 對 Inception-v3 分類器的貼紙擾動攻擊。原始分類是微波,攻擊目標是電話
表 6. 對 Inception-v3 分類器的貼紙擾動攻擊。原始分類是咖啡杯,攻擊目標是****機
1.3.4 討論
黑盒攻擊。考慮到對目標分類器的網絡結構和模型權重的訪問,RP2 可以產生各種強大的物理擾動來欺騙分類器。通過研究像 RP2 這樣的白盒攻擊,我們可以分析使用最強攻擊者模型的成功攻擊的要求,并更好地指導未來的防御措施。在黑盒環境下評估 RP2 是一個開放的問題。
圖像裁剪和攻擊性檢測器。在評估 RP2 時,作者每次在分類前都會手動控制每個圖像的裁剪。這樣做是為了使對抗性圖像與提供給 RP2 的清潔標志圖像相匹配。隨后,作者評估了使用偽隨機裁剪的偽裝藝術效果攻擊,以保證至少大部分標志在圖像中。針對 LISA-CNN,我們觀察到平均目標攻擊率為 70%,非目標攻擊率為 90%。針對 GTSRB-CNN,我們觀察到平均目標攻擊率為 60%,非目標攻擊率為 100%。作者在實驗中考慮非目標攻擊的成功率,是因為導致分類器不輸出正確的交通標志標簽仍然是一種安全風險。雖然圖像裁剪對目標攻擊的成功率有一定的影響,但作者在其它工作中的研究結果表明,RP2 的改進版可以成功地攻擊物體檢測器,在這種情況下就不需要再進行裁剪處理了[5]。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。