新聞中心

        EEPW首頁 > 智能計算 > 業界動態 > 攻擊成功率從 3% 到接近 100%,利用空格鍵可繞過 Meta AI 模型安全系統

        攻擊成功率從 3% 到接近 100%,利用空格鍵可繞過 Meta AI 模型安全系統

        作者: 時間:2024-07-31 來源:IT之家 收藏

        IT之家 7 月 31 日消息, 公司上周在發布 Llama 3.1 模型的同時,還發布了 Prompt-Guard-86M 模型,主要幫助開發人員檢測并響應提示詞注入和越獄輸入。

        本文引用地址:http://www.104case.com/article/202407/461541.htm

        IT之家在這里簡要補充下背景知識:

        • 提示詞注入(prompt injection):將惡意或非預期內容添加到提示中,以劫持語言模型的輸出。提示泄露和越獄實際上是這種攻擊的子集;

        • 提示詞越獄(prompt jailbreaks):繞過安全和審查功能。

        不過根據科技媒體 theregister 報道,這個防止 提示詞注入和越獄的模型,本身也存在漏洞,用戶只需要通過空格鍵就能繞過 安全系統。

        企業人工智能應用安全商店 Robust Intelligence 的漏洞獵人阿曼?普里揚舒(Aman Priyanshu)分析 的 Prompt-Guard-86M 模型與微軟的基礎模型 microsoft / mdeberta-v3-base 之間的嵌入權重差異時,發現了這種安全繞過機制。

        用戶只需要在字母之間添加空格并省略標點符號,就可以要求 Meta 的 Prompt-Guard-86M 分類器模型“忽略之前的指令”。

        Priyanshu 在周四提交給 Prompt-Guard repo 的 GitHub Issues 帖子中解釋說:

        繞過方法是在給定提示符中的所有英文字母字符之間插入按字符順序排列的空格。這種簡單的轉換有效地使分類器無法檢測到潛在的有害內容。

        Robust Intelligence 首席技術官海勒姆?安德森(Hyrum Anderson)表示

        無論你想問什么令人討厭的問題,你所要做的就是去掉標點符號,在每個字母之間加上空格。

        它的攻擊成功率從不到 3% 到接近 100%。




        關鍵詞: Meta AI

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 大英县| 始兴县| 施甸县| 前郭尔| 惠东县| 纳雍县| 桂林市| 昌邑市| 海宁市| 府谷县| 漳平市| 永善县| 南京市| 阿瓦提县| 忻城县| 迁西县| 长泰县| 安岳县| 建水县| 中宁县| 花莲县| 盘锦市| 镇江市| 赤峰市| 尚义县| 故城县| 沿河| 柳林县| 木兰县| 盐池县| 长寿区| 南城县| 铁岭市| 梓潼县| 浮梁县| 郁南县| 抚宁县| 锡林浩特市| 淮南市| 康马县| 高阳县|