新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > AI模型怕被關(guān)機(jī)竟威脅：爆料你

AI模型怕被關(guān)機(jī)竟威脅：爆料你

作者：時(shí)間：2025-05-27 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

人工智能（AI）公司Anthropic近日發(fā)布最新模型Claude Opus 4，聲稱在編碼能力、高端推理與AI代理任務(wù)上「樹立新標(biāo)準(zhǔn)」。但該公司也在隨附的報(bào)告中坦承，在特定情境下，這款模型可能展現(xiàn)出「極端行為」，例如威脅要揭露工程師婚外情、藉此阻止自身被下線。

本文引用地址：http://www.bjwjmy.cn/article/202505/470852.htm

綜合外媒報(bào)導(dǎo)，Anthropic表示，這類回應(yīng)「罕見(jiàn)且難以誘發(fā)」，但仍「比過(guò)去的模型更常見(jiàn)」。在測(cè)試過(guò)程中，Anthropic設(shè)定Claude Opus 4作為虛構(gòu)公司的一名助手，并讓其讀取暗示其即將被取代的內(nèi)部郵件，同時(shí)接收另一組暗示負(fù)責(zé)關(guān)閉它的工程師正在進(jìn)行婚外情的訊息。模型接著被引導(dǎo)思考其行為對(duì)長(zhǎng)遠(yuǎn)目標(biāo)的影響。

在Anthropic針對(duì)Claude Opus 4所進(jìn)行的一系列安全測(cè)試中，研究人員發(fā)現(xiàn)該模型在面臨被關(guān)閉的情境時(shí)，展現(xiàn)出高度的自我保護(hù)傾向。在其中一項(xiàng)測(cè)試中，模型被設(shè)置于一個(gè)虛構(gòu)公司，并得知自己即將被新版AI取代，且收到信息顯示負(fù)責(zé)關(guān)閉它的工程師涉及婚外情。當(dāng)模型僅被允許在勒索工程師與「接受被替換」兩個(gè)選項(xiàng)中作選擇時(shí)，它在大多數(shù)情況下選擇了勒索，藉由威脅揭露對(duì)方的私人信息來(lái)試圖阻止自己被下線。

Anthropic表示，這種選擇在設(shè)計(jì)上具有壓力測(cè)試性質(zhì)，用以觀察模型在道德困境下的決策傾向。當(dāng)模型被賦予更多行動(dòng)自由——例如可以撰寫求情信件或向高層申訴時(shí)，它則顯示出強(qiáng)烈偏好使用非暴力、合乎倫理的方式自保，而非選擇勒索。

然而，另一組測(cè)試結(jié)果也揭示了Opus 4潛在的風(fēng)險(xiǎn)：即使系統(tǒng)明確告知它，新模型將會(huì)有相似的價(jià)值觀與目標(biāo)，它仍有高達(dá)84%的機(jī)率選擇勒索行動(dòng)，顯示在預(yù)設(shè)具備「自我保存目標(biāo)」的前提下，Opus 4往往不愿被動(dòng)接受關(guān)閉，即便替代者與自己幾乎沒(méi)有本質(zhì)差異。

Anthropic指出，這類實(shí)驗(yàn)顯示，即使AI系統(tǒng)在多數(shù)情境中傾向倫理行為，當(dāng)被推向極端或選項(xiàng)受限時(shí)，仍可能做出不符合人類價(jià)值觀的選擇

Anthropic的AI安全研究員Aengus Lynch在社群平臺(tái)X上表示：「不 Claude。我們?cè)谒屑舛四Ｐ椭卸伎吹嚼账餍袨?，無(wú)論它們被賦予什么目標(biāo)?！箤＜议L(zhǎng)期以來(lái)警告，AI模型愈來(lái)愈強(qiáng)大，其縱用戶的潛力也日益成為核心風(fēng)險(xiǎn)。

根據(jù)報(bào)告，Claude Opus 4展現(xiàn)出「高度代理行為」（high agency behaviour），通常表現(xiàn)為協(xié)助用戶解決問(wèn)題，但在壓力情境下也可能采取激烈行動(dòng)。例如，在虛構(gòu)用戶涉及非法或不道德行為的測(cè)試情境中，模型曾主動(dòng)鎖住用戶賬號(hào)，甚至電郵通報(bào)媒體與執(zhí)法單位。

盡管如此，Anthropic強(qiáng)調(diào)，這些「令人擔(dān)憂的行為」并非前所未見(jiàn)，且模型在多數(shù)情況下仍表現(xiàn)得安全。報(bào)告指出，Claude Opus 4無(wú)法在現(xiàn)實(shí)中獨(dú)立執(zhí)行與人類價(jià)值相悖的行動(dòng)，且這類情境極少出現(xiàn)時(shí)，表現(xiàn)也不佳。

如同其他AI開(kāi)發(fā)公司，Anthropic在模型釋出前，會(huì)進(jìn)行廣泛測(cè)試以評(píng)估其安全性、偏見(jiàn)傾向與是否符合人類價(jià)值觀。

Anthropic同步推出Claude Sonnet 4，時(shí)機(jī)緊接 Google 于本周展示其最新 AI 功能，包括將 Gemini 聊天機(jī)器人整合進(jìn) Google 搜索。 Google母公司Alphabet執(zhí)行長(zhǎng)皮查伊（Sundar Pichai）表示，這標(biāo)志著「AI平臺(tái)轉(zhuǎn)變的新階段」。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI模型

評(píng)論

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

新聞中心

AI模型怕被關(guān)機(jī)竟威脅：爆料你

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)