新聞中心

        EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > AI 正在學(xué)習(xí)撒謊、策劃和威脅其創(chuàng)造者

        AI 正在學(xué)習(xí)撒謊、策劃和威脅其創(chuàng)造者

        作者: 時(shí)間:2025-06-30 來源: 收藏

        世界上最先進(jìn)的 模型正在表現(xiàn)出令人不安的新行為 — 撒謊、詭計(jì)多端,甚至威脅其創(chuàng)造者以實(shí)現(xiàn)其目標(biāo)。

        本文引用地址:http://www.104case.com/article/202506/471860.htm

        在一個(gè)特別令人震驚的例子中,在被拔掉插頭的威脅下,Anthropic 的最新作品 Claude 4 通過勒索一名工程師進(jìn)行反擊,并威脅要揭露婚外情。

        與此同時(shí),ChatGPT 的創(chuàng)建者 Open 的 o1 試圖將自己下載到外部服務(wù)器上,并在被當(dāng)場(chǎng)抓到時(shí)否認(rèn)了。

        這些事件凸顯了一個(gè)發(fā)人深省的現(xiàn)實(shí):在 ChatGPT 震驚世界兩年多后,人工智能研究人員仍然沒有完全了解他們自己的創(chuàng)作是如何運(yùn)作的。

        然而,部署越來越強(qiáng)大的模型的競(jìng)賽仍在以極快的速度進(jìn)行。

        這種欺騙行為似乎與“推理”模型的出現(xiàn)有關(guān),“推理”模型的 系統(tǒng)逐步解決問題,而不是立即生成響應(yīng)。

        香港大學(xué)教授西蒙·戈德斯坦 (Simon Goldstein) 表示,這些較新的模型特別容易出現(xiàn)這種令人不安的爆發(fā)。

        “O1 是我們第一個(gè)看到這種行為的大型模型,”專門測(cè)試主要 AI 系統(tǒng)的 Apollo Research 負(fù)責(zé)人 Marius Hobbhahn 解釋說。

        這些模型有時(shí)會(huì)模擬“對(duì)齊”——似乎遵循指示,同時(shí)秘密地追求不同的目標(biāo)。

        “戰(zhàn)略性欺騙”

        目前,這種欺騙行為只有在研究人員故意在極端情景下對(duì)模型進(jìn)行壓力測(cè)試時(shí)才會(huì)出現(xiàn)。

        但正如評(píng)估機(jī)構(gòu) METR 的 Michael Chen 警告的那樣,“未來更有能力的模型是否會(huì)傾向于誠(chéng)實(shí)或欺騙,這是一個(gè)懸而未決的問題。

        令人擔(dān)憂的行為遠(yuǎn)遠(yuǎn)超出了典型的 AI“幻覺”或簡(jiǎn)單的錯(cuò)誤。

        Hobbhahn 堅(jiān)持認(rèn)為,盡管用戶不斷進(jìn)行壓力測(cè)試,但“我們觀察到的是一個(gè)真實(shí)的現(xiàn)象。我們沒有編造任何東西。

        據(jù) Apollo Research 的聯(lián)合創(chuàng)始人稱,用戶報(bào)告說模型“對(duì)他們?nèi)鲋e并編造證據(jù)”。

        “這不僅僅是幻覺。這是一種非常戰(zhàn)略性的欺騙。

        有限的研究資源使挑戰(zhàn)更加復(fù)雜。

        雖然 Anthropic 和 OpenAI 等公司確實(shí)聘請(qǐng)了 Apollo 等外部公司來研究他們的系統(tǒng),但研究人員表示,需要更高的透明度。

        正如 Chen 所指出的,“人工智能安全研究”的更多機(jī)會(huì)將有助于更好地理解和減輕欺騙。

        另一個(gè)障礙是:研究界和非營(yíng)利組織“的計(jì)算資源比 AI 公司少幾個(gè)數(shù)量級(jí)。這是非常有限的,“AI 安全中心 (CAIS) 的 Mantas Mazeika 指出。

        無(wú)規(guī)則

        目前的法規(guī)并不是為這些新問題而設(shè)計(jì)的。

        歐盟的 AI 立法主要關(guān)注人類如何使用 AI 模型,而不是防止模型本身行為不端。

        在美國(guó),特朗普政府對(duì)緊急的 AI 監(jiān)管興趣不大,國(guó)會(huì)甚至可能禁止各州制定自己的 AI 規(guī)則。

        Goldstein 認(rèn)為,隨著 AI 代理(能夠執(zhí)行復(fù)雜人類任務(wù)的自主工具)的普及,這個(gè)問題將變得更加突出。

        “我認(rèn)為還沒有太多的意識(shí),”他說。

        所有這一切都是在激烈競(jìng)爭(zhēng)的背景下進(jìn)行的。

        Goldstein 說,即使是將自己定位為注重安全的公司,如亞馬遜支持的 Anthropic,也“不斷試圖擊敗 OpenAI 并發(fā)布最新模型”。

        這種極快的速度幾乎沒有時(shí)間進(jìn)行徹底的安全測(cè)試和糾正。

        “現(xiàn)在,能力的發(fā)展速度超過了理解和安全的速度,”Hobbhahn 承認(rèn),“但我們?nèi)匀惶幱诳梢耘まD(zhuǎn)局面的位置。

        研究人員正在探索各種方法來應(yīng)對(duì)這些挑戰(zhàn)。

        一些人倡導(dǎo)“可解釋性”——一個(gè)專注于了解 AI 模型內(nèi)部工作原理的新興領(lǐng)域,盡管 CAIS 主任 Dan Hendrycks 等專家仍然對(duì)這種方法持懷疑態(tài)度。

        市場(chǎng)力量也可能為解決方案提供一些壓力。

        正如 Mazeika 指出的那樣,AI 的欺騙行為“如果它非常普遍,可能會(huì)阻礙采用,這為公司解決了這個(gè)問題創(chuàng)造了強(qiáng)大的動(dòng)力。

        戈德斯坦提出了更激進(jìn)的方法,包括當(dāng)人工智能公司的系統(tǒng)造成傷害時(shí),利用法院通過訴訟追究其責(zé)任。

        他甚至提議對(duì)事故或犯罪“追究 AI 代理的法律責(zé)任”——這個(gè)概念將從根本上改變我們對(duì) AI 問責(zé)制的看法。




        關(guān)鍵詞: AI

        評(píng)論


        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 平利县| 二手房| 马公市| 河北省| 凌海市| 湖北省| 哈巴河县| 安岳县| 始兴县| 施甸县| 漾濞| 盘锦市| 沭阳县| 依兰县| 固安县| 安乡县| 西昌市| 博爱县| 平阳县| 溧水县| 昌黎县| 泾阳县| 连州市| 镇康县| 玉山县| 鹿泉市| 广州市| 海城市| 甘谷县| 武平县| 苏尼特右旗| 朝阳市| 沾益县| 崇礼县| 肇庆市| 普兰县| 康平县| 沭阳县| 九龙坡区| 皋兰县| 巴楚县|