OpenAI如何打擊幻覺?
編者按:本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,編輯:桃子 拉燕,創業邦經授權發布。
(資料圖片僅供參考)
大模型的幻覺問題,就連馬斯克搬出TruthGPT也搞不定。
上個月,馬斯克瘋狂呼吁叫停超級AI研發6個月。
還沒等多久,老馬就坐不住了,直接官宣推出一個名為TruthGPT的AI平臺。
馬斯克曾表示,TruthGPT將是一個「最大的求真人工智能」,它將試圖理解宇宙的本質。
他強調,一個關心理解宇宙的人工智能不太可能滅絕人類,因為我們是宇宙中有趣的一部分。
然而,「幻覺」,到現在還沒有哪個語言模型能夠搞定。
最近,OpenAI聯合創始人便解釋為什么TruthGPT的遠大理想的實現是如此地困難。
TruthGPT理想是泡沫?馬斯克的X.AI想要建立的TruthGPT,是一種誠實的語言模型。
這么做,直接將矛頭對準ChatGPT。
因為,此前,像ChatGPT這樣的AI系統經常產生錯誤輸出等經典幻覺案例,甚至支持某些政治信仰的報道。
雖然ChatGPT可以讓用戶更多控制語言模型去解決問題,但「幻覺」仍然是OpenAI、谷歌以及未來馬斯克的人工智能公司必須處理的核心問題。
OpenAI聯合創始人兼研究員John Schulman在他的演講「RL和Truthfulness – Towards TruthGPT」中討論了這些挑戰以及如何應對這些挑戰。
為啥有「幻覺」?根據Schulman的說法,幻覺大致可以分為兩種類型:
1. 「模式完成行為」,即語言模型無法表達自己的不確定性,無法質疑提示中的前提,或者繼續之前犯的錯誤。
2. 模型猜測錯誤。
由于語言模型代表一種知識圖譜,其中包含來自其自身網絡中訓練數據的事實,因此微調可以理解為學習一個函數,該函數在該知識圖譜上運行并輸出token預測。
例如,微調數據集可能包含「星球大戰的類型是什么?」這個問題,以及答案「科幻」。
如果這些信息已經在原始訓練數據中,即它是知識圖譜的一部分,那么模型不會學習新信息,而是學習一種行為——輸出正確答案。這種微調也被稱為「行為克隆」。
但問題是,如果問題是關于「Han Solo的衍生電影的名字是什么」出現在微調數據集中。
但如果答案「Solo」不是原始訓練數據集的一部分(也不是知識圖譜的一部分),即使網絡不知道答案,它也會學習回答。
使用實際上正確但不在知識圖譜中的答案進行微調,從而教會網絡編造答案——即產生「幻覺」。相反,用不正確的答案進行訓練會導致網絡隱瞞信息。
因此,理想情況下,行為克隆應始終基于網絡知識,但創建或評估數據集的人類工作者來說,通常不知道這種知識,例如指令調優。
根據Schulman的說法,當其他模型創建微調數據集時也存在這個問題,就像羊駝公式的情況一樣。
他預測,具有較小知識圖譜的較小網絡,不僅會學會使用ChatGPT的輸出給出答案和遵循指令,而且學會更頻繁地產生幻覺。
OpenAI如何打擊幻覺?首先,對于簡單的問題來說,語言模型大部分情況下能預測自己是否知道答案,還能表達不確定性。
因此,Schulman表示,微調數據集的時候,必須得讓模型學會怎么表達不確定、怎么應對前提被更改的情況,以及錯誤被承認的情況。
要把這些情況的實例喂給模型,讓它們學習。
但是模型在時機方面還是欠練,也就是說,它們并不知道該何時執行這些操作。
Schulman表示,這就是強化學習(RL)該出場的地方了。比如,基于人類反饋的強化學習(Reinforcement Learning with Human Feedback,RLHF)。
應用RL,模型就可以學習「行為邊界」,學會何時做出何種行為。
而另一個難題,則是檢索和引用來源的能力,例如通過WebGPT中所展示的能力,或者最近在ChatGPT的瀏覽器插件中所呈現的機制。
問題在于,有了復制行為的能力和RLHF,為什么ChatGPT還會產生幻覺?
原因在于問題本身的難易。
雖然上述方法對于簡短的問題和答案效果不錯,但對于ChatGPT中常見的長格式設置就會出現其他問題了。
一方面,完全錯誤的答案也不太可能,大部分情況都是錯的和對的混在一起。
在極端情況下,可能就是100行代碼中的一個錯誤而已。
在其他情況下,這些信息在傳統意義上并不能說是錯的,而是有誤導性的。因此,在像ChatGPT這樣的系統中,人們很難根據信息量或者正確性來衡量輸出的質量。
但這種衡量對于旨在訓練復雜行為邊界的RL算法卻非常重要。
目前,OpenAI依托于RLHF的基于排名的獎勵模型,該模型能夠預測它認為兩個答案中哪個更好,但不會給出有效的信號來明確哪個答案好了多少、信息量大了多少或正確了多少。
Schulman表示,它缺乏向模型提供反饋以學習精細行為邊界的能力。而這種精細的行為邊界,才是有可能解決幻覺的道路。
此外,此過程還會因為RLHF標記過程中的人為出錯而變得更加復雜。
因此,雖然Schulman將RL視作減少幻覺的重要方式之一,但他認為仍然存在許多還沒解決的問題。
除了前面提到的獎勵模型究竟需要什么樣子才能引導正確的行為之外,RLHF目前僅依賴于人類的判準。
這可能會使知識的生成變得更加困難。因為對未來的預測有時會導致不那么令人信服的表述。
然而,Schulman認為,知識的生成是語言模型的下一個重要步驟,同時,他認為對未來的預測和給出推理規則等問題的理論構建,是亟待解決的下一類開放性問題。
Schulman說,一種可能的解決方案是,用其他AI模型來訓練語言模型。
OpenAI也認為,這種方法對于AI對齊來說,很有意義。
ChatGPT架構師作為ChatGPT架構師,John Schulman早在2015年還在讀博士學位的他,就加入OpenAI成為聯合創始人之一。
在一次采訪中,Schulman解釋了自己加入OpenAI的原因:
另外,據Schulman透露,OpenAI將人類反饋強化學習這一方法 (RLHF)引入ChatGPT的想法可以追溯到17年了。
當時,也是OpenAI的成員,曾發表了一篇論文「從人類偏好中進行深度強化學習」就提到了這一方法。
論文地址:https://arxiv.org/pdf/1706.03741.pdf
OpenAI安全團隊之所以致力于這項工作,是因為想讓自己的模型符合人類的偏好ーー試圖讓模型真正傾聽人類意見,并試圖做人類想做的事情。
在GPT-3完成訓練的時候,然后Schulman決定加入這股潮流,因為他看到了整個研究方向的潛力。
當被問到第一次使用ChatGPT時,第一反應是什么的時候,Schulman的話語中透露著「無感」。
還記得去年ChatGPT橫空出世,讓許多人瞬間炸腦。
而在OpenAI內部沒有人對ChatGPT感到興奮。因為發布的ChatGPT是一個基于GPT-3.5較弱的模型,那時候同事們在玩轉GPT-4了。
對于未來人工智能下一前沿領域看法,Schulman稱,AI在更艱難的任務上不斷進步,然后,問題就來了,人類應該做些什么,在哪些任務下,人類可以在大模型幫助下有更大影響力,做更多的工作。
參考資料:
https://the-decoder.com/elon-musks-truthgpt-is-complicated-says-openai-co-founder/
本文(含圖片)為合作媒體授權創業邦轉載,不代表創業邦立場,轉載請聯系原作者。如有任何疑問,請聯系editor@cyzone.cn。