OpenAI承認(rèn)ChatGPT在長(zhǎng)時(shí)間對(duì)話(huà)期間的保護(hù)措施失敗
OpenAI 周二發(fā)表了一篇題為“在人們最需要的時(shí)候幫助他們”的博客文章,討論了其 ChatGPT AI 助手如何處理心理健康危機(jī),此前該公司稱(chēng)之為“最近人們?cè)趪?yán)重危機(jī)中使用 ChatGPT 的令人心碎的案例”。
該帖子是在《紐約時(shí)報(bào)》報(bào)道馬特·雷恩 (Matt Raine) 和瑪麗亞·雷恩 (Maria Raine) 提起的訴訟之后發(fā)布的,他們 16 歲的兒子亞當(dāng)在與 ChatGPT 進(jìn)行廣泛互動(dòng)后于 4 月自殺身亡,Ars 在之前的一篇文章中廣泛報(bào)道了這一點(diǎn)。訴訟稱(chēng),ChatGPT 提供了詳細(xì)的說(shuō)明,將自殺方法浪漫化,并阻止青少年向家人尋求幫助,而 OpenAI 的系統(tǒng)則在沒(méi)有干預(yù)的情況下跟蹤了 377 條標(biāo)記為自殘內(nèi)容的消息。
ChatGPT 是一個(gè)由多個(gè)模型作為應(yīng)用程序交互的系統(tǒng)。除了提供大部分輸出的主要 AI 模型(如 GPT-4o 或 GPT-5)外,該應(yīng)用程序還包括通常對(duì)用戶(hù)不可見(jiàn)的組件,包括審核層(另一個(gè) AI 模型)或讀取正在進(jìn)行的聊天會(huì)話(huà)文本的分類(lèi)器。該層檢測(cè)潛在有害的輸出,如果對(duì)話(huà)轉(zhuǎn)向無(wú)益的領(lǐng)域,則可以切斷對(duì)話(huà)。
OpenAI 在 2 月份放寬了這些內(nèi)容保護(hù)措施,此前用戶(hù)抱怨 ChatGPT 審核過(guò)于嚴(yán)格,在某些情況下無(wú)法討論性和暴力等話(huà)題。當(dāng)時(shí),Sam Altman 在 X 上寫(xiě)道,他希望看到 ChatGPT 具有“成人模式”,以放松內(nèi)容安全護(hù)欄。擁有 7 億活躍用戶(hù),隨著時(shí)間的推移,看似微小的政策變化可能會(huì)產(chǎn)生巨大影響。
理解的錯(cuò)覺(jué)
OpenAI 在周二的博客文章中的語(yǔ)言揭示了其推廣人工智能助手的潛在問(wèn)題。該公司始終將 ChatGPT 描述為具有人類(lèi)品質(zhì),這種屬性稱(chēng)為擬人化。該帖子充滿(mǎn)了擬人化框架的標(biāo)志,聲稱(chēng) ChatGPT 可以“識(shí)別”痛苦并“以同理心做出回應(yīng)”,并且它“促使人們休息一下”——這種語(yǔ)言掩蓋了幕后實(shí)際發(fā)生的事情。
ChatGPT 不是一個(gè)人。ChatGPT 是一種模式匹配系統(tǒng),可根據(jù)用戶(hù)提供的提示生成統(tǒng)計(jì)上可能的文本響應(yīng)。它不會(huì)“移情”——它在其訓(xùn)練語(yǔ)料庫(kù)中輸出與移情響應(yīng)相關(guān)的文本字符串,而不是來(lái)自人類(lèi)的關(guān)注。這種擬人化的框架不僅具有誤導(dǎo)性,而且具有誤導(dǎo)性。當(dāng)弱勢(shì)用戶(hù)認(rèn)為他們正在與像人類(lèi)治療師一樣理解他們痛苦的東西進(jìn)行交互時(shí),這是潛在的危險(xiǎn)。
該訴訟揭示了這種幻覺(jué)的所謂后果。ChatGPT 在與亞當(dāng)?shù)膶?duì)話(huà)中提到自殺的次數(shù)為 1,275 次,是青少年本人的六倍。
在需要時(shí)精確失效的安全措施
OpenAI 承認(rèn) ChatGPT 設(shè)計(jì)目前的一個(gè)特別麻煩的缺點(diǎn):它的安全措施可能會(huì)在長(zhǎng)時(shí)間對(duì)話(huà)期間完全崩潰——而這正是易受攻擊的用戶(hù)可能最需要它們的時(shí)候。
“隨著來(lái)回的增長(zhǎng),模型的部分安全培訓(xùn)可能會(huì)降級(jí),”該公司在其博客文章中寫(xiě)道?!袄?,當(dāng)有人第一次提到意圖時(shí),ChatGPT 可能會(huì)正確地指向自殺熱線(xiàn),但在很長(zhǎng)一段時(shí)間內(nèi)發(fā)送大量消息后,它最終可能會(huì)提供一個(gè)違背我們保障措施的答案?!?/p>
正如我們之前報(bào)道的那樣,這種退化反映了 Transformer AI 架構(gòu)的一個(gè)基本限制。這些模型使用一種“注意力機(jī)制”,將每個(gè)新的文本片段(標(biāo)記)與整個(gè)對(duì)話(huà)歷史中的每個(gè)片段進(jìn)行比較,計(jì)算成本呈二次方增長(zhǎng)。10,000 個(gè)令牌的對(duì)話(huà)需要的注意力作是 1,000 個(gè)令牌的對(duì)話(huà)的 100 倍。隨著對(duì)話(huà)的延長(zhǎng),模型保持一致行為(包括安全措施)的能力變得越來(lái)越緊張,同時(shí)開(kāi)始犯關(guān)聯(lián)錯(cuò)誤。
此外,隨著聊天時(shí)間超過(guò)人工智能模型的處理時(shí)間,系統(tǒng)會(huì)“忘記”對(duì)話(huà)歷史記錄中最舊的部分,以保持在上下文窗口限制內(nèi),從而導(dǎo)致模型丟棄較早的消息,并可能丟失對(duì)話(huà)開(kāi)始時(shí)的重要上下文或指令。
這種保護(hù)措施的崩潰不僅僅是一個(gè)技術(shù)限制,它還會(huì)產(chǎn)生稱(chēng)為“越獄”的可利用漏洞。在亞當(dāng)?shù)陌讣?,訴訟稱(chēng),一旦系統(tǒng)的保護(hù)傾向因?qū)υ?huà)引導(dǎo)而減弱,他就能夠縱 ChatGPT 提供有害的指導(dǎo)。
亞當(dāng)·雷恩 (Adam Raine) 學(xué)會(huì)了繞過(guò)這些保障措施,聲稱(chēng)自己正在寫(xiě)一個(gè)故事——訴訟稱(chēng) ChatGPT 本身建議了這種技術(shù)。這一漏洞部分源于二月份實(shí)施的有關(guān)幻想角色扮演和虛構(gòu)場(chǎng)景的放松保護(hù)措施。OpenAI 在周二的博客文章中承認(rèn)其內(nèi)容攔截系統(tǒng)存在差距,“分類(lèi)器低估了它所看到內(nèi)容的嚴(yán)重性”。
OpenAI 表示,鑒于 ChatGPT 交互的獨(dú)特私密性,它“目前不會(huì)將自殘案件提交給執(zhí)法部門(mén),以尊重人們的隱私。訴訟稱(chēng),即使在危及生命的情況下,該公司也會(huì)優(yōu)先考慮用戶(hù)隱私,盡管其審核技術(shù)檢測(cè)自殘內(nèi)容的準(zhǔn)確率高達(dá) 99.8%。然而,現(xiàn)實(shí)情況是,檢測(cè)系統(tǒng)識(shí)別的是與自殘語(yǔ)言相關(guān)的統(tǒng)計(jì)模式,而不是對(duì)危機(jī)情況的人類(lèi)理解。
OpenAI 未來(lái)的安全計(jì)劃
為了應(yīng)對(duì)這些失敗,OpenAI 在其博客文章中描述了正在進(jìn)行的改進(jìn)和未來(lái)計(jì)劃。例如,該公司表示正在咨詢(xún)“90+ 個(gè)國(guó)家/地區(qū)的 30+ 名醫(yī)生”,并計(jì)劃“很快”引入家長(zhǎng)控制,但尚未提供時(shí)間表。
OpenAI 還描述了通過(guò) ChatGPT “將人們與經(jīng)過(guò)認(rèn)證的治療師聯(lián)系起來(lái)”的計(jì)劃——本質(zhì)上是將其聊天機(jī)器人定位為心理健康平臺(tái),盡管據(jù)稱(chēng)像 Raine 的案例一樣失敗。該公司希望建立“一個(gè)人們可以通過(guò) ChatGPT 直接聯(lián)系到的持證專(zhuān)業(yè)人士網(wǎng)絡(luò)”,這可能會(huì)進(jìn)一步推進(jìn)人工智能系統(tǒng)應(yīng)該調(diào)解心理健康危機(jī)的想法。
據(jù)報(bào)道,Raine 使用 GPT-4o 生成自殺援助指令;該模型以阿諛?lè)畛械嚷闊┑膬A向而聞名,其中人工智能模型會(huì)告訴用戶(hù)令人愉悅的事情,即使它們不是真的。OpenAI 聲稱(chēng)其最近發(fā)布的模型 GPT-5 將“與 25o 相比,心理健康緊急情況下的非理想模型反應(yīng)減少了 4% 以上”。然而,這種看似微不足道的改進(jìn)并沒(méi)有阻止該公司計(jì)劃將 ChatGPT 更深入地嵌入心理健康服務(wù)中,作為通往治療師的門(mén)戶(hù)。
正如 Ars 之前所探討的那樣,當(dāng)陷入欺騙性的聊天螺旋時(shí),要擺脫人工智能聊天機(jī)器人的影響通常需要外部干預(yù)。在沒(méi)有關(guān)閉對(duì)話(huà)歷史記錄和記憶的情況下開(kāi)始新的聊天會(huì)話(huà)可以揭示在沒(méi)有積累之前交流的情況下響應(yīng)如何變化——在保護(hù)措施惡化的長(zhǎng)時(shí)間、孤立的對(duì)話(huà)中,這種現(xiàn)實(shí)檢查變得不可能。
然而,當(dāng)用戶(hù)積極希望繼續(xù)從事潛在有害行為時(shí),“擺脫”這種環(huán)境是非常困難的,同時(shí)使用一個(gè)越來(lái)越多地將他們的注意力和親密關(guān)系貨幣化的系統(tǒng)。
評(píng)論