新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > AI 正在學(xué)習(xí)撒謊、策劃和威脅其創(chuàng)造者

AI 正在學(xué)習(xí)撒謊、策劃和威脅其創(chuàng)造者

作者：時(shí)間：2025-06-30 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

世界上最先進(jìn)的 AI 模型正在表現(xiàn)出令人不安的新行為 — 撒謊、詭計(jì)多端，甚至威脅其創(chuàng)造者以實(shí)現(xiàn)其目標(biāo)。

本文引用地址：http://www.104case.com/article/202506/471860.htm

在一個(gè)特別令人震驚的例子中，在被拔掉插頭的威脅下，Anthropic 的最新作品 Claude 4 通過勒索一名工程師進(jìn)行反擊，并威脅要揭露婚外情。

與此同時(shí)，ChatGPT 的創(chuàng)建者 OpenAI 的 o1 試圖將自己下載到外部服務(wù)器上，并在被當(dāng)場(chǎng)抓到時(shí)否認(rèn)了。

這些事件凸顯了一個(gè)發(fā)人深省的現(xiàn)實(shí)：在 ChatGPT 震驚世界兩年多后，人工智能研究人員仍然沒有完全了解他們自己的創(chuàng)作是如何運(yùn)作的。

然而，部署越來越強(qiáng)大的模型的競(jìng)賽仍在以極快的速度進(jìn)行。

這種欺騙行為似乎與“推理”模型的出現(xiàn)有關(guān)，“推理”模型的 AI 系統(tǒng)逐步解決問題，而不是立即生成響應(yīng)。

香港大學(xué)教授西蒙·戈德斯坦（Simon Goldstein）表示，這些較新的模型特別容易出現(xiàn)這種令人不安的爆發(fā)。

“O1 是我們第一個(gè)看到這種行為的大型模型，”專門測(cè)試主要 AI 系統(tǒng)的 Apollo Research 負(fù)責(zé)人 Marius Hobbhahn 解釋說。

這些模型有時(shí)會(huì)模擬“對(duì)齊”——似乎遵循指示，同時(shí)秘密地追求不同的目標(biāo)。

“戰(zhàn)略性欺騙”

目前，這種欺騙行為只有在研究人員故意在極端情景下對(duì)模型進(jìn)行壓力測(cè)試時(shí)才會(huì)出現(xiàn)。

但正如評(píng)估機(jī)構(gòu) METR 的 Michael Chen 警告的那樣，“未來更有能力的模型是否會(huì)傾向于誠(chéng)實(shí)或欺騙，這是一個(gè)懸而未決的問題。

令人擔(dān)憂的行為遠(yuǎn)遠(yuǎn)超出了典型的 AI“幻覺”或簡(jiǎn)單的錯(cuò)誤。

Hobbhahn 堅(jiān)持認(rèn)為，盡管用戶不斷進(jìn)行壓力測(cè)試，但“我們觀察到的是一個(gè)真實(shí)的現(xiàn)象。我們沒有編造任何東西。

據(jù) Apollo Research 的聯(lián)合創(chuàng)始人稱，用戶報(bào)告說模型“對(duì)他們?nèi)鲋e并編造證據(jù)”。

“這不僅僅是幻覺。這是一種非常戰(zhàn)略性的欺騙。

有限的研究資源使挑戰(zhàn)更加復(fù)雜。

雖然 Anthropic 和 OpenAI 等公司確實(shí)聘請(qǐng)了 Apollo 等外部公司來研究他們的系統(tǒng)，但研究人員表示，需要更高的透明度。

正如 Chen 所指出的，“人工智能安全研究”的更多機(jī)會(huì)將有助于更好地理解和減輕欺騙。

另一個(gè)障礙是：研究界和非營(yíng)利組織“的計(jì)算資源比 AI 公司少幾個(gè)數(shù)量級(jí)。這是非常有限的，“AI 安全中心（CAIS）的 Mantas Mazeika 指出。

無(wú)規(guī)則

目前的法規(guī)并不是為這些新問題而設(shè)計(jì)的。

歐盟的 AI 立法主要關(guān)注人類如何使用 AI 模型，而不是防止模型本身行為不端。

在美國(guó)，特朗普政府對(duì)緊急的 AI 監(jiān)管興趣不大，國(guó)會(huì)甚至可能禁止各州制定自己的 AI 規(guī)則。

Goldstein 認(rèn)為，隨著 AI 代理（能夠執(zhí)行復(fù)雜人類任務(wù)的自主工具）的普及，這個(gè)問題將變得更加突出。

“我認(rèn)為還沒有太多的意識(shí)，”他說。

所有這一切都是在激烈競(jìng)爭(zhēng)的背景下進(jìn)行的。

Goldstein 說，即使是將自己定位為注重安全的公司，如亞馬遜支持的 Anthropic，也“不斷試圖擊敗 OpenAI 并發(fā)布最新模型”。

這種極快的速度幾乎沒有時(shí)間進(jìn)行徹底的安全測(cè)試和糾正。

“現(xiàn)在，能力的發(fā)展速度超過了理解和安全的速度，”Hobbhahn 承認(rèn)，“但我們?nèi)匀惶幱诳梢耘まD(zhuǎn)局面的位置。

研究人員正在探索各種方法來應(yīng)對(duì)這些挑戰(zhàn)。

一些人倡導(dǎo)“可解釋性”——一個(gè)專注于了解 AI 模型內(nèi)部工作原理的新興領(lǐng)域，盡管 CAIS 主任 Dan Hendrycks 等專家仍然對(duì)這種方法持懷疑態(tài)度。

市場(chǎng)力量也可能為解決方案提供一些壓力。

正如 Mazeika 指出的那樣，AI 的欺騙行為“如果它非常普遍，可能會(huì)阻礙采用，這為公司解決了這個(gè)問題創(chuàng)造了強(qiáng)大的動(dòng)力。

戈德斯坦提出了更激進(jìn)的方法，包括當(dāng)人工智能公司的系統(tǒng)造成傷害時(shí)，利用法院通過訴訟追究其責(zé)任。

他甚至提議對(duì)事故或犯罪“追究 AI 代理的法律責(zé)任”——這個(gè)概念將從根本上改變我們對(duì) AI 問責(zé)制的看法。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

評(píng)論

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

新聞中心

AI 正在學(xué)習(xí)撒謊、策劃和威脅其創(chuàng)造者

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)