物理攻擊「損害」深度學習系統(tǒng),CV、語音領域如何防御?(3)
這篇文章重點關注的是圖像處理領域的物理攻擊檢測問題,具體是指針對圖像的局部物理攻擊,即將對手區(qū)域限制在圖像的一小部分,生成 “對抗性補丁” 攻擊。這種局部限制有利于設計魯棒的且物理上可實現的攻擊,具體攻擊形式可以是放置在視覺場景中的對手對象或貼紙。反過來,這些類型的攻擊通常使用****擾動來確保攻擊對角度、照明和其他物理條件的變化具有魯棒性。局部物理攻擊的一個缺點是,它們通常是肉眼可見和可檢測的,但在許多情況下,攻擊者仍然可以通過在自主環(huán)境中部署或偽裝這些方式來逃避檢測。
圖 9 給出一個深度學習系統(tǒng)示例,該系統(tǒng)為人臉識別系統(tǒng),其作用是解鎖移動設備或讓用戶進入建筑物。場景包括了用戶的臉和其他背景對象。傳感器可以是返回場景數字圖像的相機的 CCD 傳感器。圖像由預測用戶身份的人臉分類器處理。如果用戶身份有效,執(zhí)行器將解鎖設備或打開閘門。
圖 9. 部署在真實環(huán)境中的物理攻擊,使用物理模式和對象而不是修改數字圖像
3.1 SentiNet 介紹
本文提出了一種針對視覺領域物理攻擊檢測的方法:SentiNet。SentiNet 的目標是識別會劫持模型預測的對手輸入。具體而言,SentiNet 的設計目標是在無需事先了解攻擊內容的情況下,保護網絡免受對抗性樣本、觸發(fā)特洛伊木馬和后門的攻擊。SentiNet 的核心思想是利用對手錯誤分類行為來檢測攻擊。首先,SentiNet 使用模型可解釋性和對象檢測技術從輸入場景中提取對模型預測結果影響最大的區(qū)域。然后,SentiNet 將這些提取的區(qū)域應用于一組良性測試輸入,并觀察模型的行為。最后,SentiNet 使用模糊技術將這些合成行為與模型在良性輸入上的已知行為進行比較,以確定預測攻擊行為。SentiNet 完整結構見圖 10。
圖 10. SentiNet 架構概述。使用輸入的輸出和類別生成掩模,然后將掩模反饋到模型中以生成用于邊界分析和攻擊分類的值
3.1.1 對抗性目標定位
本文方法的第一步是在給定的輸入上定位可能包含惡意對象的區(qū)域,即識別輸入 x 中有助于模型預測 y 的部分。因為物理攻擊很小并且是局部的,在不包含攻擊部分的輸入上評估模型可能能夠恢復 x 的真實類別。
分段類別建議。本文提出的攻擊檢測從識別一組可能由模型 f_m 預測的類別開始。第一類是實際預測,即 y=f_m(x)。通過對輸入 x 進行分段,然后對每個分段上的網絡進行評估來識別其他類別。Algorithm 1 給出了通過輸入分段判斷類別的算法??梢允褂貌煌姆椒ǚ指罱o定的輸入 x,包括滑動窗口和基于網絡的區(qū)域建議等。本文方法使用了選擇性搜索圖像分割算法:選擇性搜索根據在自然場景中發(fā)現的模式和邊緣生成區(qū)域列表,然后,對每個給出的分段建議進行評估,并返回前 k 個置信度預測,其中 k 是 SentiNet 的配置參數。
掩模生成。針對模型預測的解釋和理解問題,在過去幾年中已經提出了多種針對性的方法。其中一種方法是 “量化” 輸入的單個像素的相關性。這種方法聚焦于單個像素,因此可能會生成非連續(xù)像素的掩模。而稀疏掩模則可能會丟失惡意對象的元素,并且不適用于模型測試階段。另外一種替代方法不在單個像素上操作,而是嘗試恢復模型用于識別同類輸入的可分性圖像區(qū)域。但是,其中許多方法需要對基本模型進行修改和微調,例如類別激活映射(Class Activation Mapping,CAM)[8],這些修改可能會改變模型的行為,甚至包括 SentiNet 執(zhí)行檢測并防止被利用的惡意行為。
作者表示,適合本文目標的方法是 Grad-CAM[9],這是一種模型解釋技術,可以識別輸入的連續(xù)空間區(qū)域,而不需要對原始模型進行修改。Grad-CAM 使用網絡最后幾層計算得到的梯度來計算輸入區(qū)域的顯著性。對于類別 c,Grad-CAM 計算模型輸出 y^c 相對于模型最終匯聚層的 k 個特征圖 A^k 的梯度(模型對類別 c 的 logit 得分),以得到(δ y^c)/(δ A^k)。每個過濾圖的平均梯度值,或 "神經元重要性權重" 記作:
最后,按神經元的重要性加權處理特征圖 A^k,并匯總以得到最終的 Grad-CAM 輸出:
Grad-CAM 的輸出是圖像正向重要性的一個粗略熱圖,由于模型的卷積層和池化層的下采樣處理,其分辨率通常比輸入圖像低。最后,通過對熱圖進行二值化處理,以最大強度的 15% 為閾值生成掩模。作者使用這個掩模來分割 salient 區(qū)域,以便進行下一步的工作。
精確的掩模生成。盡管 Grad-CAM 可以成功地識別與對抗性目標相對應的鑒別性輸入區(qū)域,但它也可能識別良性的 salient 區(qū)域。圖 11 給出了一個說明性示例,Grad-CAM 為一個人臉識別網絡生成的熱圖既覆蓋了木馬的觸發(fā)補丁,也覆蓋了原始的人臉區(qū)域。為了提高掩模準確性,作者提出需要對輸入圖像的選定區(qū)域進行額外預測。然后,對于每個預測,使用 Grad-CAM 來提取一個與預測最相關的輸入區(qū)域的掩模。最后,結合這些額外的掩模來完善初始預測 y 的掩模。圖 11. 上一行:使用漸變 CAM 生成掩模。左圖顯示了與目標 “0” 類別相關的 Grad-CAM 熱圖,右圖顯示了覆蓋了物理攻擊以外區(qū)域的提取掩模。下一行:左圖是相對于目標 “0” 類別的 Grad-CAM 熱圖,該行中間的圖是對應于給定類別的 Grad-CAM
一旦得到了圖片中可能存在的類別列表,我們就會劃出與每個預測類別更相關的區(qū)域 x。為簡單起見,作者假設每個輸入只能包含一個惡意對象。Algorithm 2 給出了從 x 中提取輸入區(qū)域的過程。
首先,使用 Grad-CAM 對輸入的 x 和預測的 y 提取掩模,同時還為每一個建議的類別 y_p 提取一個掩模。在其他的建議類別上執(zhí)行 Grad-CAM,可以讓我們在對抗性攻擊之外找到圖像的重要區(qū)域。此外,由于對抗性區(qū)域通常與非目標類別呈負相關性,熱圖主動避免突出圖像的對抗性區(qū)域。我們可以使用這些熱圖來生成二級掩模,通過減去掩模重疊的區(qū)域來改進原始掩模。這能夠保證掩模只突出局部攻擊,而不會突出圖像中的其他 salient 區(qū)域。由圖 11 我們可以看到使用這種方法生成了一個更精確的掩模,其中只包含了大部分對抗性區(qū)域。
3.1.2 攻擊檢測
攻擊檢測需要兩個步驟。首先,如上所述,SentiNet 提取可能包含對抗性補丁的輸入區(qū)域。然后,SentiNet 在一組良性圖像上測試這些區(qū)域,以區(qū)分對抗性區(qū)域和良性區(qū)域。
測試 - 一旦定位了輸入區(qū)域,SentiNet 就會觀察該區(qū)域對模型的影響,以確定該區(qū)域是對手的還是良性的。為此,SentiNet 將可疑區(qū)域疊加在一組良性測試圖像 X 上。將測試圖像反饋到網絡中,網絡計算被欺騙的樣本數量并用于對抗性圖像。直觀地說,可能欺騙模型的變異圖像數量越多,疑似區(qū)域就越有可能是對抗性攻擊。當恢復的掩模較小時,這種反饋技術能有效區(qū)分對抗性和良性輸入,因為小的良性物體通常不能影響到網絡的預測。然而,這種方法的一個問題是,一個覆蓋了輸入圖像較大區(qū)域的掩模在疊加到其他圖像上時,很可能會造成錯誤的分類。例如,考慮一個輸入圖像 x 的較大掩模,當疊加時,掩模內的特征可能比外面的特征相關性更強,這就提高了將變異的測試輸入分類為 y 的可能性。為了解決這一問題,作者引入了惰性模式(inert patterns),其作用是抑制掩模內部的特征,從而提高網絡對掩模外特征的反應。
檢測的決策邊界 - 有了這兩個指標(被欺騙的圖像數量和平均惰性模式置信值),我們可以確定在哪些條件下輸入的 x 是對抗性的。下一步,作者希望引入一種技術,使我們能夠根據攻擊無關的指標,將未見過的對抗性輸入識別為攻擊。圖 12 給出一個示例,其中紅色的三角點代表的是在對抗性樣本中發(fā)現的指標,藍色的圓點是根據清潔樣本計算得到的。我們可以看到對抗性樣本大多聚集在圖中右上角的位置。圖 12. 邊界檢測示例,左側,對抗性和良性指標分別被繪制成紅色三角形和藍色圓圈;右側,來自采樣點的曲線建議
作者提出,可以使用在清潔樣本上收集到的度量來近似一個曲線,其中位于曲線函數之外的點可以被歸類為對抗性攻擊。具體的,通過提取 x 間隔的最高 y 值的點來收集目標點,然后使用非線性最小二乘法函數來擬合生成目標曲線。然后,使用近似曲線計算曲線和點之間的距離(使用線性近似的約束優(yōu)化(the Constrained Optimization by Linear Approximation,COBYLA)方法)并確定該距離是否在由位于曲線之外的清潔樣本的距離所估計的閾值之內,來實現對攻擊的分類。具體的邊界決策過程如 Algorithm 4 所示。
3.2 實驗分析
作者利用三個公共可用網絡評估 SentiNet,其中包括兩個受損網絡和一個未受損網絡。受損網絡包括一個用于閱讀標志檢測的后門 Faster-RCNN 網絡 [11] 以及一個用于人臉識別的 VGG-16 trojaned 網絡[12]。未受損網絡是在 Imagenet 數據集上訓練的 VGG-16 網絡[13]。此外,SentiNet 還需要一個良性測試圖像集 X 和一個惰性模式 s 來生成決策邊界。作者利用實驗中所選網絡的每個測試集 X 生成良性測試圖像集,以及使用隨機噪聲作為惰性模式。SentiNet 利用 Tensorflow 1.5 為未受損網絡、利用 BLVC Caffe 為 trojaned 網絡以及利用 Faster-RCNN Caffe 為污染網絡生成對抗補丁。為了能夠并行生成類別建議,SentiNet 利用了由 Fast RCNN Caffe 版本實現的 ROI 池化層。最后,作者通過收集每次攻擊的 TP/TN 和 FP/FN 比率從準確性和性能兩個方面衡量 SentiNet 的有效性和魯棒性。
首先,作者評估了 SentiNet 在保護選定的網絡免受三種攻擊的有效性,即后門、特洛伊木馬觸發(fā)器和對手補丁。在實驗中,分別考慮了引入和未引入掩模改進的效果。對于對抗性補丁攻擊,作者考慮了另一種變體,即攻擊者同時使用多個補丁。實驗整體評估結果見表 9 所示。表 9. SentiNet 對已知攻擊的有效性
接下來,作者考慮攻擊者已知 SentiNet 的存在及其工作機制情況下,可能避免 SentiNet 檢測的情況。作者具體考慮了 SentiNet 的三個組件的情況:熱圖建議、類別建議和攻擊分類。
1)攻擊區(qū)域建議(熱圖建議)
本文方法的關鍵是能夠使用 Grad-CAM 算法成功定位圖像中的對抗性區(qū)域。Grad-CAM 算法生成 salient 區(qū)域的熱圖進而生成分類結果。一旦攻擊破壞了 Grad-CAM 并影響區(qū)域的檢測和定位,那么框架的后續(xù)組件將會失效。Grad-CAM 使用網絡反向傳播來衡量區(qū)域的重要性。因此,理論上我們可以使用有針對性的梯度擾動來修改熱圖輸出。作者通過實驗表明,在作者給出的防御背景下,Grad-CAM 對對抗性攻擊是穩(wěn)健的,Grad-CAM 對區(qū)域的捕捉能力并不會輕易被操縱。
圖 13 左上為一張狗的圖像,上面覆蓋著一個對抗性補丁。右側為對目標類別 "toast" 的 Grad-CAM 熱圖。我們從隨機噪聲開始,其中沒有任何 "toast" 類別的突出區(qū)域,對損失函數進行優(yōu)化輸入。圖 13 證明了在收斂時生成的噪聲的熱圖輸出與原始熱圖在視覺上是一致的。這表明,Grad-CAM 的輸出是可以通過梯度優(yōu)化來精確操縱的。然而,為了發(fā)動這樣的有效攻擊,攻擊者需要在整個圖像上添加噪聲,這在實際上是不可行的。
攻擊者還有一種攻擊策略:生成一個誤導熱圖區(qū)域(heatmap region misdirection),在該圖中增加一個不覆蓋對手區(qū)域的區(qū)域,以擴大捕獲的區(qū)域或完全規(guī)避檢測。
攻擊者也有可能通過誤導熱圖區(qū)域,即熱圖提出一個不包括對抗區(qū)域的區(qū)域,以擴大定位的區(qū)域或完全避免檢測。但是這種操作在對手對整幅圖像添加擾動噪聲時會失效,所以作者在實驗中限定攻擊者不能在局部攻擊區(qū)域之外添加噪聲,Grad-CAM 擾動也必須限制在對手區(qū)域中。因此,我們要考慮的威脅是攻擊者可以在圖像的一個區(qū)域中增加噪聲,從而增加不相交區(qū)域中的 Grad-CAM 輸出值。由圖 13 給出的實驗結果,如果噪聲區(qū)域與我們想要修改的 Grad-CAM 位置重疊,我們就能夠成功修改熱圖。圖 13 還顯示,如果噪聲區(qū)域與目標 Grad-CAM 區(qū)域不相交,則 Grad-CAM 優(yōu)化無法實現視覺相似性或與之等效的最終收斂損失。這些實驗表明,局部噪聲只會影響相應的 Grad-CAM 區(qū)域,同時表明不可能發(fā)生錯誤方向的攻擊。圖 13. 計算每個輸入上標簽 “toaster” 的 Grad-CAM。第一行顯示疊加在狗圖像上的對抗性補丁的 Grad-CAM 輸出。第二行為使用梯度擾動再現的 Grad-CAM 輸出。第三行顯示,如果補丁位于目標熱圖附近,仍然可以生成類似的熱圖。第四行顯示,如果不能在目標 Grad-CAM 位置上附加干擾噪聲,則無法直接影響 Grad-CAM 輸出
2)類別建議
類別建議模塊是使用選擇性搜索(Selective search)和一個根據包含 ROI 池化層的原始網絡修改后得到的建議網絡。選擇性搜索是一種傳統(tǒng)的圖像處理算法,它使用基于圖形的方法根據顏色、形狀、紋理和大小分割圖像。與 Faster-RCNN 中的網絡生成建議機制不同,選擇性搜索中不存在會被攻擊者擾亂的梯度成分,也不存在會嚴重限制攻擊者攻擊機制的會污染的訓練過程。本文的選擇性搜索算法還設計用于捕獲對手類別以外的類別建議,攻擊者將無法影響對手區(qū)域以外的選擇性搜索結果。此外,由于我們的建議網絡使用原始網絡權重,因此不會在原始網絡和建議網絡之間產生不同的行為。最后,攻擊者攻擊網絡類別建議過程的動機是有限的,因為成功的攻擊將破壞攻擊檢測的準確性,而不是破壞整個過程。由此,作者得出結論:類別建議機制是魯棒的,因為各個組件的屬性會共同抵抗擾動或污染攻擊。
3)攻擊分類
最后,通過分析攻擊分類的魯棒性,作者針對決策過程進行了實驗論證。本文的分類過程沒有使用梯度下降方法進行訓練,這就避免了使用梯度擾動來誤導分類的可能性。本文使用的閾值是根據可信數據集 X、X 誤導概率和 X 平均置信度確定的二維數據點。其中,X 平均置信度利用模式 s 來計算。
如果對手能夠操縱模型對惰性模式做出反應,那么他們就可以繞過防御后在良性輸入和對手輸入之間生成類似的輸出。作者通過使用標準隨機噪聲模式和一個新的棋盤格模式(如圖 14 所示),證明了我們可以保證模式 s 的隱私性。由表 9,我們可以看到隨機噪聲模式和棋盤格模式的 TP 和 TN 率在 ≤0.25% 范圍內。此外,防御方始終能夠通過使用梯度下降找到惰性模式,以最小化所有類別的響應置信度。只要模式 s 是保密的,SentiNet 的這個組件就是安全的。圖 14. 惰性模式:本文使用的惰性模式為左側顯示的隨機噪聲;可能使用的另一種模式是右側的棋盤格模式
如果攻擊者使用足夠大的補丁,X 上的平均置信度將降低,從而降低防御的有效性。由圖 15 可以看出,對于對抗性補丁,攻擊的 avgConf 隨著補丁大小的增加而下降。通過增加補丁的透明度,我們可以將攻擊降低到閾值以下,同時保持非常高的攻擊成功率。圖 15. 對抗性補丁大小分析
4、小結
我們在這篇文章中討論了多媒體領域的物理攻擊問題,包括圖像領域、音頻領域等。與算法攻擊相比,在圖像或音頻上施加物理攻擊的難度性低,進一步損害了深度學習技術的實用性和可靠性。我們選擇了三篇文章從攻擊和防御的角度分別進行了探討,同時包括了圖像領域和音頻領域的攻擊。由于物理攻擊對于人類來說是易于發(fā)現的,所以從文章給出的實驗結果來看,不同方法的防御效果都不錯。不過,幾篇文章中談到的防御都是限定攻擊類型的防御,如何對不可知的攻擊進行有效防御仍值得進一步研究和探討。
本文參考引用的文獻
[1] Kevin Eykholt; Ivan Evtimov; Earlence Fernandes; Bo Li; Amir Rahmati; Chaowei Xiao; Atul Prakash; Tadayoshi Kohno; Dawn Son,Robust Physical-World Attacks on Deep Learning Visual Classification,CVPR 2018, https://ieeexplore.ieee.org/document/8578273(https://robohub.org/physical-adversarial-examples-against-deep-neural-networks/)[2] Zirui Xu,Fuxun Yu; Xiang Chen,LanCe: A Comprehensive and Lightweight CNN Defense Methodology against Physical Adversarial Attacks on Embedded Multimedia Applications,25th Asia and South Pacific Design Automation Conference (ASP-DAC),2020,https://ieeexplore.ieee.org/document/9045584[3] Chou E , F Tramèr, Pellegrino G . SentiNet: Detecting Physical Attacks Against Deep Learning Systems. 2020. https://arxiv.org/abs/1812.00292[4] A. Kurakin, I. Goodfellow, and S. Bengio. Adversarial examples in the physical world. arXiv preprint arXiv:1607.02533, 2016.[5] K. Eykholt, I. Evtimov, E. Fernandes, B. Li, D. Song, T. Kohno, A. Rahmati, A. Prakash, and F. Tramer. Note on Attacking Object Detectors with Adversarial Stickers. Dec. 2017.[6] I. Goodfellow and et al., “Explaining and harnessing adversarial examples,” arXiv preprint arXiv:1412.6572, 2014.[7] J. Hayes, “On visible adversarial perturbations & digital watermarking,” in Proc. of CVPR Workshops, 2018, pp. 1597–1604.[8] Z. Yang and et al., “Characterizing audio adversarial examples using temporal dependency,” arXiv preprint arXiv:1809.10875, 2018.[9] Q. Zeng and et al., “A multiversion programming inspired approach to detecting audio adversarial examples,” arXiv preprint arXiv:1812.10199, 2018.[10] K. Rajaratnam and et al., “Noise flooding for detecting audio adversarial examples against automatic speech recognition,” in Proc. of ISSPIT, 2018, pp. 197–201.[11] T. Gu, B. Dolan-Gavitt, and S. Garg, “Badnets: Identifying vulnerabilities in the machine learning model supply chain,” CoRR, vol. abs/1708.06733, 2017. [Online]. Available: http://arxiv.org/abs/1708.06733[12] Y. Liu, S. Ma, Y. Aafer, W.-C. Lee, J. Zhai, W. Wang, and X. Zhang, “Trojaning attack on neural networks,” in NDSS, 2018.[13] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” CoRR, vol. abs/1409.1556, 2014. [Online]. Available: http://arxiv.org/abs/1409.1556
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
伺服電機相關文章:伺服電機工作原理