英偉達GPU被發現嚴重漏洞
針對英偉達GPU(搭載GDDR6顯存)黑客發現通過名為GPUHammer漏洞,這是一種Rowhammer(行錘攻擊)攻擊變體,可將英偉達顯卡上AI模型的準確率從80%直接掉到0.02%。多倫多大學的研究人員形容,這種攻擊就像在模型中引發災難性的腦損傷。
目前,該漏洞已在RTX A6000顯卡上測試驗證,不過H100或RTX5090不受影響,因為它們有片上ECC(系統級糾錯碼)。英偉達建議用戶實施一項防御措施,但這種措施會讓模型性能下降10%。
物理層面的攻擊
該攻擊由多所大學研究人員首次實證驗證,可通過誘發GPU顯存中的比特翻轉(bit flip)現象,即通過反復“錘擊”某一行內存,導致相鄰行的比特位發生翻轉(0變1或1變0),從而實現對AI模型等關鍵數據的破壞性篡改。這一物理層面的攻擊方式在現代GPU內存架構中極具破壞性,類似于針對CPU的Spectre和Meltdown擊,標志著這類曾廣泛威脅DRAM和CPU的硬件漏洞正在向GPU擴散,對AI基礎設施的構成重大風險。
在共享GPU平臺(如云端機器學習平臺、VDI虛擬桌面等)中,這種攻擊還可能演變為跨租戶風險:攻擊者無需直接訪問他人模型,僅憑顯存中可控的干擾就能操控鄰近任務的模型權重,誘導其輸出錯誤判斷。GPUHammer的影響遠不止于數據中心訓練節點 —— 邊緣計算設備、自主駕駛系統、金融風控引擎等也大量依賴GPU并實時推理。如果這些系統遭到顯存層級的「靜默破壞」,可能出現無法逆轉的誤判或合規失誤。
如何防御?
為防范GPUHammer攻擊,英偉達建議用戶通過命令nvidia-smi-e1啟用ECC功能,并使用nvidia-smi-q|grep ECC驗證狀態,通過為數據附加額外的校驗位,可自動檢測并修復單比特翻轉。不過它只能修復單個比特錯誤,遇上雙比特翻轉,只能發出警告無法修復。
研究團隊表示,系統一般默認禁用ECC,因為ECC啟用后可能導致A6000顯卡推理性能下降約10%、顯存減少6.25%,但其在AI模型完整性方面的保護能力至關重要。這是一場權衡:安全與速度,只能二選一。
此外,在云端環境中,英偉達的MIG和機密計算(CC)技術通過內存隔離,能有效阻止多租戶共享同一DRAM存儲,從而防止Rowhammer類攻擊生效。
評論