導(dǎo)讀
超級智能是一把雙刃劍,有助于解決許多重要問題,同時(shí)也可能削弱人類的權(quán)力并威脅我們的安全。為了治理這些風(fēng)險(xiǎn),急需建立新的治理機(jī)構(gòu)并解決AI模型的對齊問題。OpenAI于今年7月首次提出超級對齊的概念,并宣布投入20%的計(jì)算資源,花費(fèi)4年的時(shí)間全力打造一個(gè)超級對齊(Superalignment)系統(tǒng),意在解決超級智能的對齊問題。
圖:OpenAI官網(wǎng)宣布開始構(gòu)建超級對齊系統(tǒng)
隨著OpenAI官方團(tuán)隊(duì)的介紹和多方解析不斷發(fā)布,超級對齊的面貌也逐漸清晰地呈現(xiàn)在大家的面前,本文結(jié)合現(xiàn)有資料詳細(xì)介紹超級對齊的概念、為什么要實(shí)現(xiàn)超級對齊以及如何實(shí)現(xiàn)超級對齊,希望這一愿景能夠促進(jìn)發(fā)展符合人類目標(biāo)和價(jià)值觀的安全AI,并不斷吸納更多研究者加入這一行列。
什么是超級對齊
1.1?超級對齊的目標(biāo)
超級對齊旨在構(gòu)建一個(gè)能夠與人類水平相媲美的自動對齊研究器。其目標(biāo)是盡可能地將與對齊相關(guān)的工作交由自動系統(tǒng)完成。在使用LLM或構(gòu)建通用AI系統(tǒng)時(shí),人們意識到它們的技能組合并不一定與人類相同。它們在某些方面可能更為強(qiáng)大,例如現(xiàn)有的語言模型在翻譯或知識儲備方面表現(xiàn)出色。然而,AI系統(tǒng)在其他一些任務(wù)上可能相對薄弱,比如算術(shù)方面的能力。
因此,研究者們面臨的問題是,應(yīng)該將哪些類型的任務(wù)交由AI系統(tǒng),并按照什么順序進(jìn)行?這樣一來,這個(gè)系統(tǒng)可以預(yù)測人類將更多地專注于那些無法交由AI系統(tǒng)完成的任務(wù)。在這個(gè)過程中,AI系統(tǒng)完成的工作占整體工作的比例將會越來越大,而人類研究者將能夠更有效地取得真正的進(jìn)展。
在第一個(gè)階段,研究者們希望這個(gè)研究器能夠?qū)崿F(xiàn)機(jī)器學(xué)習(xí)模型,進(jìn)行實(shí)驗(yàn)并觀察結(jié)果。第二個(gè)階段,研究者們希望這個(gè)研究器能夠解決更高級、更廣泛的問題,例如確定需要進(jìn)行哪些實(shí)驗(yàn)來提升可擴(kuò)展監(jiān)督,或者在可解釋性方面取得進(jìn)展。目前第一個(gè)階段上已經(jīng)有了卓有成效的研究,而第二個(gè)階段研究者們?nèi)陨性谔剿髦小?/p>
圖:GPT-4模擬輸出從而提供可擴(kuò)展監(jiān)督的能力示例
1.2?超級對齊的能力
對于相關(guān)研究者來說,自動對齊的長期目標(biāo)在于模型的創(chuàng)造力。OpenAI相關(guān)研究團(tuán)隊(duì)表示,至少對于語言模型或AI而言,它們比人類更具創(chuàng)造力。如果你去觀察擴(kuò)散模型生成的圖像,或者從預(yù)訓(xùn)練的基礎(chǔ)模型中采樣,其中包含了很多奇思妙想,這些創(chuàng)意恐怕從單人或小團(tuán)隊(duì)身上很難獲得。因此,它們實(shí)際上可以從整個(gè)分布中進(jìn)行采樣,而個(gè)人通常做不到這一點(diǎn)。就長期目標(biāo)而言,研究者們可以將一些小而明確的任務(wù)交給AI系統(tǒng),如果它們能夠?qū)⑦@些任務(wù)真正做好,那么未來幫助很大。
目前,ChatGPT的對齊方式主要是通過強(qiáng)化學(xué)習(xí)從人類反饋中進(jìn)行訓(xùn)練,但這種方法無法擴(kuò)展,這已經(jīng)是一種廣泛共識,因?yàn)樗鼜母旧霞僭O(shè)了人類真正理解系統(tǒng)的詳細(xì)運(yùn)行方式。
如果系統(tǒng)進(jìn)行了大量對齊研究,涉及數(shù)百萬個(gè)虛擬人類的任務(wù),很難看到其中所有的細(xì)節(jié)和詳細(xì)反饋。但目前研究中所使用的方法,均對這些步驟進(jìn)行擴(kuò)展,從而打造一個(gè)大致與人類水平相當(dāng),且可以完成困難任務(wù)的對齊研究員。例如,可擴(kuò)展監(jiān)督就是從人類強(qiáng)化反饋中讓AI進(jìn)行學(xué)習(xí),從而具備該能力的一種方式。
為什么要實(shí)現(xiàn)超級對齊
超級對齊的出現(xiàn)是由于當(dāng)前生成式AI的熱潮,引發(fā)了人們對于AI對齊能力的擔(dān)憂。最近,Chris Olah發(fā)布了一系列推文,描述了Anthropic團(tuán)隊(duì)對于AI對齊困難的看法。根據(jù)這種觀點(diǎn),存在著一系列可能情景,從“對齊非常容易”到“對齊不可能”,我們可以將AI對齊研究視為逐步解決這些情景,增加有益結(jié)果概率的過程。在此基礎(chǔ)上,提供了更詳細(xì)的AI對齊困難程度劃分,并解釋了其中涉及的一些考慮因素。
當(dāng)前關(guān)于AI安全的討論主要集中在潛在AI系統(tǒng)及其故障模式的詳細(xì)概念以及確保其安全的方法上。DeepMind安全團(tuán)隊(duì)的一篇文章提供了一些故障模式的概述。目前,Sammy Martin提到可以通過“對齊困難”的視角理解這些不同的威脅模型,將各種導(dǎo)致AI失調(diào)的來源按照易于解決程度排序,然后嘗試將技術(shù)性的AI安全干預(yù)與具體的對齊失效模式場景匹配起來。這清晰地表明,這種不確定性使得對齊研究人員之間的一些辯論更容易理解。
一個(gè)相對簡單的情景可能涉及AI模型以符合常識的方式進(jìn)行泛化和學(xué)習(xí)目標(biāo)。舉個(gè)例子,我們可以將復(fù)雜程度不同的LLM理解為潛在作家的生成框架,而強(qiáng)化學(xué)習(xí)則通過人類反饋或發(fā)現(xiàn)AI在潛在作家中進(jìn)行選擇。這種情況有時(shí)被稱為“默認(rèn)對齊”。而一個(gè)較為困難的情景可能類似于“深度欺騙”,在這種情況下,系統(tǒng)會以快速且不可預(yù)測的方式進(jìn)行泛化,從而迅速使先前的對齊技術(shù)過時(shí),并且它們還會學(xué)習(xí)欺騙性的獎勵(lì)操縱策略,這些策略在外部評估、紅隊(duì)測試、對抗測試或可解釋性檢查中表面上看起來與良好行為完全相同。
為了更好地理解解決對齊困難的情景,Sammy Martin將其分為三個(gè)層次,如下圖所示,以便我們更容易理解。
圖:不同難度層次的超級對齊
2.1 簡單場景
在容易對齊的情景中,我們應(yīng)該投入更多資源來解決結(jié)構(gòu)風(fēng)險(xiǎn)、經(jīng)濟(jì)影響、濫用和地緣政治問題。在該場景下,RLHF訓(xùn)練的系統(tǒng)通常會誠實(shí)而準(zhǔn)確地追求過于簡化的代理目標(biāo)。具體來說,容易的場景可以分為三個(gè)等級。
第一級是Alignment by Default:當(dāng)我們擴(kuò)大規(guī)模應(yīng)用人工智能模型時(shí),如果沒有對其進(jìn)行特定的風(fēng)險(xiǎn)行為指導(dǎo)或訓(xùn)練,也沒有設(shè)置有問題且明顯不好的目標(biāo),那么它們不會帶來重大風(fēng)險(xiǎn)。即使是超人級的系統(tǒng),基本上也只是根據(jù)外部獎勵(lì)或語言指令的常識版本來執(zhí)行。這里的關(guān)鍵風(fēng)險(xiǎn)在于對訓(xùn)練目標(biāo)的濫用行為以及對強(qiáng)大模型的強(qiáng)化學(xué)習(xí)朝著錯(cuò)誤指定或反社會的目標(biāo)方向進(jìn)行。
第二級是Reinforcement Learning from Human Feedback:我們需要確保人工智能在各種邊界情況下表現(xiàn)良好,通過在廣泛的情境中更謹(jǐn)慎地使用人類反饋來進(jìn)行引導(dǎo),而不僅僅是粗略的指令或手動指定的獎勵(lì)函數(shù)。如果我們認(rèn)真進(jìn)行強(qiáng)化學(xué)習(xí)的微調(diào),就能夠取得良好的效果。有一個(gè)原因讓我們相信對齊將會如此簡單,那就是如果系統(tǒng)本身在歸納上偏向誠實(shí)和代表人類給予其的目標(biāo)。在這種情況下,它們往往會學(xué)習(xí)簡單、誠實(shí)和服從的策略,即使這些策略并不是為了最大化獎勵(lì)而是最優(yōu)策略。
第三級是Constitutional AI:人類反饋并不足夠清晰和豐富,無法對人工智能進(jìn)行精細(xì)調(diào)整。必須利用人工智能提供的模擬人類反饋來涵蓋邊界情況。這就是“從人工智能反饋中進(jìn)行強(qiáng)化學(xué)習(xí)”的方法。即使人類反饋?zhàn)阋源_保模型大致按照監(jiān)督者的意圖執(zhí)行,由于結(jié)構(gòu)性原因,在廣泛部署于經(jīng)濟(jì)中的系統(tǒng)可能最終被訓(xùn)練成追求粗略和反社會的代理目標(biāo),而無法真正捕捉我們真正想要的目標(biāo)。
2.2 中等場景
中等情景是指行為安全性不夠好,最容易產(chǎn)生轉(zhuǎn)變性人工智能的方式導(dǎo)致危險(xiǎn)的欺騙性失調(diào)。在這種情況下,系統(tǒng)會違背我們的利益,但會假裝是有用和安全的。這種情況要求我們在對齊工作上加大努力,并探索可行的策略,如可擴(kuò)展的監(jiān)督、對齊研究中的AI輔助和基于可解釋性的監(jiān)督過程。我們還應(yīng)專注于治理干預(yù),以確保領(lǐng)先的項(xiàng)目有足夠的時(shí)間來實(shí)際實(shí)施這些解決方案,并與政府和公民社會一起改變整體戰(zhàn)略格局并消除不對齊AI的風(fēng)險(xiǎn)。具體來說,中等場景包含四個(gè)等級。
第一級是Scalable Oversight:我們需要確保即使在無法由人類監(jiān)督的問題上,仍然能夠?qū)θ斯ぶ悄苓M(jìn)行類似人類的監(jiān)督。因此,我們需要一些方法,與憲法型人工智能不同,能夠使人工智能比人類更有效地應(yīng)用人類式監(jiān)督。
第二級是Scalable Oversight with AI Research Assistance:在當(dāng)前階段,我們將使用類似于前面幾級中所介紹的技術(shù)來使人工智能對齊,并讓它們進(jìn)行對監(jiān)督方法的研究,并增強(qiáng)人類的理解能力。然后,我們將利用這些研究成果來改進(jìn)我們的監(jiān)督流程,或者改進(jìn)監(jiān)督人工智能對訓(xùn)練中的人工智能行為的理解。這里的關(guān)鍵風(fēng)險(xiǎn)在于人類反饋對于對齊超人工智能系統(tǒng)來說是一個(gè)不夠清晰的信號,因此需要進(jìn)行增強(qiáng)。同時(shí)具有情境意識的人工智能系統(tǒng)默認(rèn)情況下會產(chǎn)生欺騙性的人類模擬器,但通過超人類行為反饋可以消除這種傾向。
第三級是Oversight employing Advanced Interpretability Techniques:在監(jiān)督過程中,會使用概念性或機(jī)械性可解釋性工具。與欺騙行為相關(guān)的人工智能內(nèi)部過程可以通過在上述兩級開發(fā)的人工智能或人類+人工智能監(jiān)督者來檢測和懲罰。這里的關(guān)鍵風(fēng)險(xiǎn)是
第四級是Experiments with Potentially Catastrophic Systems to Understand Misalignment:在這個(gè)層次上,即使我們使用了上述階段的技術(shù),人工智能系統(tǒng)仍然會常規(guī)性地?fù)魯”O(jiān)督,并繼續(xù)出現(xiàn)不受歡迎的行為。它們通過改變內(nèi)部過程以避免被可解釋性工具檢測,并通過“玩訓(xùn)練游戲”來看起來行為安全。然而,關(guān)鍵是,我們?nèi)匀豢梢钥刂七@些系統(tǒng)。因此,我們可以對這些人工智能系統(tǒng)進(jìn)行(潛在危險(xiǎn)的)實(shí)驗(yàn),以了解它們在部署后可能的泛化情況。在這里,我們將運(yùn)用可解釋性和監(jiān)督工具,并嘗試引發(fā)人工智能的誤泛化和獎勵(lì)破解行為。但我們不會試圖使用基于監(jiān)督的訓(xùn)練來消除這些行為。相反,我們嘗試通過類似紅隊(duì)的技術(shù)來理解它們發(fā)生的基礎(chǔ),學(xué)習(xí)關(guān)于誤對齊產(chǎn)生的如何以及為什么的實(shí)用技巧和新的理論見解,從而使我們能夠開發(fā)新的緩解方法。
2.3 困難場景
相比而言,如果我們認(rèn)為對齊轉(zhuǎn)變性人工智能的困難程度如此之高,那么未來幾年甚至幾十年的研究努力可能無法給我們足夠的信心。如果對齊確實(shí)如此困難,我們需要在前沿系統(tǒng)中應(yīng)用強(qiáng)大的測試和可解釋性技術(shù),以減少不確定性,證明悲觀情景的真實(shí)性,并建立起停止進(jìn)展向轉(zhuǎn)變性人工智能的動力。具體而言,困難場景可以分為兩個(gè)層次。
第一層是Theoretical Research for Understanding Misalignment:所有的問題行為要么發(fā)生得太快以至于無法及時(shí)應(yīng)對,要么只在系統(tǒng)部署后才顯現(xiàn),因此之前的實(shí)驗(yàn)是無用的或者不安全的。在這個(gè)層次上,我們需要事先了解人工智能模型如何推廣學(xué)習(xí)。希望這些基礎(chǔ)性的洞察能夠激發(fā)出新的對齊技術(shù)。
第二層是Coming up with a Fundamentally New Paradigm (abandoning deep learning):根據(jù)這種觀點(diǎn),即使我們改變了關(guān)于深度學(xué)習(xí)系統(tǒng)的基本要素,也無法對其進(jìn)行對齊。這里的關(guān)鍵挑戰(zhàn)在于存在一種“急劇轉(zhuǎn)變”,在這個(gè)轉(zhuǎn)變中,系統(tǒng)突然獲得了新的概念和更高的智能和廣泛性,使得之前的對齊技術(shù)變得過時(shí)。在急劇轉(zhuǎn)變后的系統(tǒng)是超級智能的,無法安全地進(jìn)行實(shí)驗(yàn)或控制。
正是因?yàn)楫?dāng)前對齊水平的低下,OpenAI決定投入大量人力和物力來實(shí)現(xiàn)超級對齊。
如何實(shí)現(xiàn)超級對齊
Superalignment 團(tuán)隊(duì)由OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever和Jan Leike共同領(lǐng)導(dǎo)。從OpenAI推特公布的信息來看目前也已有多位成員。為了構(gòu)建超級對齊系統(tǒng),開發(fā)團(tuán)隊(duì)需要進(jìn)行一系列的工作。
3.1 可擴(kuò)展的訓(xùn)練方法
首先,我們需要開發(fā)一種可擴(kuò)展的訓(xùn)練方法。這種方法將利用人工智能系統(tǒng)來輔助評估其他人工智能系統(tǒng),并將AI模型的監(jiān)督能力擴(kuò)展到人類無法監(jiān)督的任務(wù)上。
在開發(fā)可擴(kuò)展的訓(xùn)練方法時(shí),我們需要考慮如何利用現(xiàn)有的人工智能系統(tǒng)來評估其他系統(tǒng)。這可能包括設(shè)計(jì)評估指標(biāo)或開發(fā)評估算法,以確保對各種不同類型的系統(tǒng)進(jìn)行準(zhǔn)確評估。
此外,我們還需要思考如何將AI模型的監(jiān)督能力擴(kuò)展到人類無法監(jiān)督的任務(wù)上。這意味著在沒有人類監(jiān)督的情況下,AI模型能夠自主學(xué)習(xí)和提升自身能力。為了實(shí)現(xiàn)這一目標(biāo),我們可能需要探索一些自監(jiān)督學(xué)習(xí)的方法,通過讓AI模型從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí),提高其在無監(jiān)督任務(wù)上的表現(xiàn)。目前,由模型自動輔助的評估和人類評估相結(jié)合,已經(jīng)被驗(yàn)證比單純的人類評估取得了更好的效果。
圖:模型自我評估對人類監(jiān)督的提升
3.2 驗(yàn)證系統(tǒng)
構(gòu)建超級對齊系統(tǒng)還需要進(jìn)行系統(tǒng)驗(yàn)證的工作。驗(yàn)證系統(tǒng)的一致性非常重要,因此在開發(fā)過程中,我們會自動搜索有問題的行為和內(nèi)部結(jié)構(gòu),以確保系統(tǒng)的穩(wěn)健性和可解釋性。
穩(wěn)健性指的是系統(tǒng)在面對各種不確定性和異常情況時(shí)的表現(xiàn)能力。為了驗(yàn)證系統(tǒng)的穩(wěn)健性,我們會設(shè)計(jì)一系列測試用例,模擬各種可能出現(xiàn)的情況,并觀察系統(tǒng)的行為。這些測試用例可能包括輸入數(shù)據(jù)的變化、噪聲的存在、環(huán)境條件的改變等。通過對系統(tǒng)的行為進(jìn)行分析和評估,我們能夠發(fā)現(xiàn)系統(tǒng)在不同情況下的問題,并調(diào)整算法和模型,提高系統(tǒng)的穩(wěn)健性。
另一方面,可解釋性指的是系統(tǒng)的內(nèi)部結(jié)構(gòu)和決策過程能夠被人理解和解釋。為了驗(yàn)證系統(tǒng)的可解釋性,我們會對系統(tǒng)的工作原理進(jìn)行深入分析,并設(shè)計(jì)一些實(shí)驗(yàn)來驗(yàn)證系統(tǒng)的內(nèi)部結(jié)構(gòu)是否合理。我們可能會通過觀察系統(tǒng)的決策過程、分析模型的權(quán)重和特征重要性,以及逐步解釋系統(tǒng)的方式,來確保系統(tǒng)的可解釋性。目前,OpenAI已經(jīng)通過GPT-4來解釋GPT-2的神經(jīng)元,可以作為可解釋性的初步嘗試。
圖:GPT-4自動生成解釋
3.3 壓力測試
在構(gòu)建超級對齊系統(tǒng)的過程中,對整個(gè)對齊管道進(jìn)行壓力測試是至關(guān)重要的一步。這個(gè)步驟旨在使用未對齊的模型來測試整個(gè)流程,并確保所提出的方法能夠檢測到最嚴(yán)重的未對齊類型,即對抗性測試。
對抗性測試是一種針對系統(tǒng)的弱點(diǎn)和漏洞進(jìn)行測試的方法。通過模擬各種惡意行為或攻擊,對抗性測試可以幫助我們在系統(tǒng)中發(fā)現(xiàn)潛在的問題,并采取相應(yīng)的措施來提高系統(tǒng)的魯棒性和安全性。
在對整個(gè)對齊管道進(jìn)行壓力測試時(shí),我們會使用多種未對齊的模型來模擬各種對抗性情況。這些模型可能包括有意偽造的信息、錯(cuò)誤的標(biāo)注、不一致的語義等。我們會將這些模型輸入到對齊管道中,并觀察系統(tǒng)的行為和輸出結(jié)果。
通過對系統(tǒng)的行為進(jìn)行分析和評估,我們能夠判斷系統(tǒng)是否能夠正確地檢測到未對齊類型,并采取相應(yīng)的措施來處理這些情況。如果系統(tǒng)在對抗性測試中表現(xiàn)出不穩(wěn)定性或錯(cuò)誤的行為,我們會進(jìn)行進(jìn)一步的調(diào)整和優(yōu)化,以提高系統(tǒng)的魯棒性和適應(yīng)性。
四、總結(jié)
總的來說,OpenAI為大家勾勒的超級對齊的藍(lán)圖,是值得期待且令人向往的。雖然我們當(dāng)前的技術(shù)與這個(gè)理想仍有差距,我們有理由相信研究者們能開發(fā)出具有超級對齊的能力的AI系統(tǒng)。同時(shí),雖然研究者們也擔(dān)心AI替代他們的工作。但如果AI助手能夠完成99%或99.9%的工作,而他們只需處理余下的核心工作,這仍是對他們工作效率的極大提升,從而促使他們更便捷、快速地打造更強(qiáng)大的人工智能。
參考鏈接
https://openai.com/blog/introducing-superalignment
https://80000hours.org/podcast/episodes/jan-leike-superalignment/#highlights
https://www.lesswrong.com/posts/EjgfreeibTXRx9Ham/ten-levels-of-ai-alignment-difficulty
https://arxiv.org/abs/2206.05802
https://openai.com/research/language-models-can-explain-neurons-in-language-models文章來源:http://www.zghlxwxcb.cn/news/detail-681833.html
更多內(nèi)容 盡在智源社區(qū)文章來源地址http://www.zghlxwxcb.cn/news/detail-681833.html
到了這里,關(guān)于5000字詳解OpenAI超級對齊四年計(jì)劃:定義、挑戰(zhàn)與方法的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!