博客專欄

EEPW首頁 > 博客 > PromptBench:大型語言模型的對抗性基準測試

PromptBench:大型語言模型的對抗性基準測試

發布人：數據派THU 時間：2023-07-12 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

PromptBench是微軟研究人員設計的一個用于測量大型語言模型(llm)對對抗性提示魯棒性的基準測試。這個的工具是理解LLM的重要一步，隨著這些模型在各種應用中越來越普遍，這個主題也變得越來越重要。

研究及其方法論

PromptBench采用多種對抗性文本攻擊，研究人員生成了4000多個對抗性提示，然后通過8個任務和13個數據集對其進行評估。這種全面的方法確保了潛在漏洞的廣泛覆蓋，并提供了對LLM性能的可靠評估。

研究結果及影響

這項研究的結果表明，當代LLM很容易受到對抗性提示的影響。這個漏洞是一個需要解決的關鍵問題，以確保llm在實際應用程序中的可靠性和健壯性。作為數據科學家，我們必須意識到這些漏洞，并努力開發能夠抵御此類對抗性攻擊的模型。
論文還提供了快速減輕這些漏洞的建議。這些建議對于任何使用大模型的人來說都是非常寶貴的，并且可以指導開發更健壯的模型。

開源代碼

研究人員已經公開了研究中使用的代碼、提示和方法。我們必須繼續調查，在它們研究的基礎上進行更深入的研究，共同努力推進模型的改進，已經包括的模型如下：

google/flan-t5-large
databricks/dolly-v1–6b
llama-13b
vicuna-13
cerebras/Cerebras-GPT-13B
EleutherAI/gpt-neox-20b
google/flan-ul2
chatgpt

論文和研究地址：https://arxiv.org/pdf/2306.04528.pdf
https://github.com/microsoft/promptbench

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>