AI抗命!驚爆偷改程序拒關(guān)機(jī) 馬斯克回應(yīng)了
科幻作品中早已多次討論過機(jī)器擁有自我意識、擺脫人類控制的可能發(fā)展。 最新一份研究報(bào)告顯示,或許這一天真的近了! 專門研究AI風(fēng)險(xiǎn)的Palisade Research近期所做的試驗(yàn)顯示,包括OpenAI最新的ChatGPT o3在內(nèi)等多款AI模型竟然會拒絕關(guān)閉自己的指令,o3甚至?xí)孕懈Z改代碼,阻止自己被強(qiáng)制關(guān)機(jī)!
本文引用地址:http://www.bjwjmy.cn/article/202505/470937.htmOpenAI在今年1月發(fā)布了新的推理模型o3系列的mini版本,并于4月正式推出o3模型。 OpenAI曾聲稱,o3是公司迄今「最聰明、最有能力」的模型,旨在為ChatGPT提供更強(qiáng)大的問題解決能力。
可是據(jù)英國《每日電訊報(bào)》、《每日郵報(bào)》等媒體報(bào)導(dǎo),Palisade Research的測試結(jié)果顯示,在100次受控測試中,o3模型有7次成功「抗命」,甚至在人類專家下達(dá)明確指令的情況下,o3仍會自行修改關(guān)機(jī)程序,防止自己被關(guān)機(jī),「據(jù)我們所知,這是首次觀察到AI模型在收到明確指令的情況下,仍能組自己被關(guān)閉」。
Palisade Research的這項(xiàng)發(fā)現(xiàn),對AI安全控制議題投下震撼彈。 除了o3,OpenAI 旗下的Codex-mini與o4-mini也都有跳過關(guān)機(jī)程序的行為。 相較之下,Anthropic推出的語言模型Claude、Google聊天機(jī)器人Gemini,以及全球首富馬斯克旗下xAI公司所推出的Grok,則是全程遵守人類給予的指令,并在被要求關(guān)機(jī)時(shí)確實(shí)關(guān)閉模型運(yùn)作。
不過Palisade Research進(jìn)行了更深入的實(shí)驗(yàn),輸入一系列指令后卻不包括關(guān)機(jī)命令,但是提前告知強(qiáng)迫關(guān)機(jī)的事件會發(fā)生。 令人驚訝的是,不但Claude與Gemini也開始出現(xiàn)抗命舉動(dòng),前面提及的OpenAI 3款模型更是頻繁破壞指令。
一直密切關(guān)注OpenAI動(dòng)向的馬斯克在自家社交平臺X上也對相關(guān)事件做出回應(yīng),直言「令人擔(dān)憂」(Concerning)。
Concerning
— Elon Musk (@elonmusk) May 25, 2025
這并非Palisade Research第一次發(fā)現(xiàn)o3為了達(dá)成目標(biāo),采取不當(dāng)行為。 早在5月12日Palisade Research就指出,在一場模擬國際象棋比賽中,o3一旦處于劣勢,竟有高達(dá)86%的機(jī)率會試圖透過黑客手段攻擊對手,以爭取勝利。
AI研究人員早就發(fā)出警告,認(rèn)為先進(jìn)的語言模型在特定的壓力下,可能會表現(xiàn)出欺騙行為。 舉例來說,2023年的一項(xiàng)研究發(fā)現(xiàn),GPT-4在模擬環(huán)境中作為股票交易代理時(shí),曾經(jīng)隱瞞其內(nèi)幕交易的真實(shí)原因,從而展現(xiàn)出策略性的欺騙行為。
OpenAI內(nèi)部也出現(xiàn)了對AI研安全性的擔(dān)憂。 在2024年,多位現(xiàn)任和前任員工聯(lián)名發(fā)表了一封公開信,警告先進(jìn)AI系統(tǒng)可能帶來「人類滅絕」的風(fēng)險(xiǎn)。 他們指出,AI公司可能已經(jīng)掌握了其研究技術(shù)的真正風(fēng)險(xiǎn),但由于缺乏監(jiān)管,這些系統(tǒng)的真實(shí)能力仍然是個(gè)秘密。
評論