OpenAI 再次強調(diào)模型安全性!AGI 安全團隊 Preparedness 發(fā)布模型安全評估與監(jiān)控框架!
這兩天關(guān)注 AI 圈新聞的小伙伴們可能也有發(fā)現(xiàn),近期的 OpenAI 可謂進行了一系列動作反復(fù)強調(diào)模型的“安全性”。
前有 OpenAI 安全系統(tǒng)(Safety Systems)負(fù)責(zé)人長文梳理針對 LLM 的對抗攻擊類型與防御方法,后有 Ilya Sutskever 領(lǐng)銜的“超級對齊”團隊(Superalignment)發(fā)布論文探索使用小模型監(jiān)督對齊大模型,這些工作無一例外都在開頭強調(diào)“伴隨著模型正在逼近 AGI……”
而就在今天,OpenAI 又官宣了一項安全性工作,由 OpenAI 負(fù)責(zé) AGI 安全性的新團隊 Preparedness 推出了“Preparedness 框架”——一個負(fù)責(zé)對模型安全性進行評估與監(jiān)控的系統(tǒng)文件,詳細(xì)介紹了目前 OpenAI 針對模型安全評估監(jiān)控的工作思路:
Preparedness 框架提出的背景
Preparedness 框架的提出主要基于 OpenAI 的兩個判斷:
(1)我們的系統(tǒng)正在逐漸逼近 AGI;?
(2)目前針對前沿 AI 的風(fēng)險研究還遠(yuǎn)遠(yuǎn)不足。
在這個背景下,OpenAI 針對不同風(fēng)險構(gòu)建了強大的“安全團隊”,分別是負(fù)責(zé)大模型系統(tǒng)安全的 Safety Systems,負(fù)責(zé)大模型與人類價值觀對齊的 Superalignment 以及直接對標(biāo)模型風(fēng)險監(jiān)控的 Preparedness 團隊。
Preparedness 作為在十月份 OpenAI 新成立的團隊,由 MIT 教授 Aleksander Madry 直接領(lǐng)導(dǎo)(OpenAI 組建安全 AGI 新團隊!應(yīng)對AI“潘多拉魔盒”),其目標(biāo)旨在:
-
在現(xiàn)在以及未來,前沿的 AI 系統(tǒng)被濫用,它們會有多危險?
-
如何構(gòu)建一個強大的框架來監(jiān)控、評估、預(yù)測與防御前沿 AI 系統(tǒng)可能的風(fēng)險?
-
如果前沿的 AI 系統(tǒng)被盜用,惡意行為者可能會如何使用它們?
Preparedness 內(nèi)容
而今天發(fā)布的 Preparedness 框架主要目標(biāo)在于通過評估與監(jiān)測來確定何時以及如何進行 AI 大模型的開發(fā)與部署才能確?!鞍踩?/strong>,“預(yù)備”框架主要包含:
-
實時監(jiān)控與評估,建立模型風(fēng)險檢測與評估體系,跟蹤模型風(fēng)險水平,并對未來可能風(fēng)險做出預(yù)測與預(yù)警;
-
挖掘與尋找 AGI 可能會帶來的未知風(fēng)險;
-
建立模型開發(fā)與部署的“安全紅線”,確保僅有低風(fēng)險模型才能部署,中風(fēng)險模型才能繼續(xù)研發(fā),高風(fēng)險模型進行必要調(diào)整;
-
開展實地工作,定期發(fā)布模型安全性評估綜述與報告,協(xié)調(diào)相關(guān)團隊貫徹安全性思想;
-
創(chuàng)建跨職能咨詢小組,對突發(fā)安全風(fēng)險進行緊急處理。
具體而言,在安全評估與檢測之上,Preparedness 團隊提到:“We bring a builder’s mindset to safety”,要將建筑師的思維帶入到模型的安全評估之中,把模型安全視為一項科學(xué)與工程緊密結(jié)合的工作
此外,Preparedness 將以“計分卡”的形式,評估目前所有的前沿模型:
目前主要跟蹤的風(fēng)險有網(wǎng)絡(luò)安全、CBRN(化學(xué)、生物、輻射、核威脅)、信仰以及模型自主性。
且OpenAI未來的模型:
-
必須確保高風(fēng)險以下,模型才能繼續(xù)研發(fā);
-
必須確保中低風(fēng)險以下,模型才能部署;
-
高風(fēng)險模型需要進行必要調(diào)整并采取相應(yīng)安全措施;
董事會有權(quán)隨時阻止發(fā)布AI模型
OpenAI正在創(chuàng)建一個跨職能跨部門的安全咨詢小組來審查所有報告并將其同時發(fā)送給領(lǐng)導(dǎo)層和董事會。雖然領(lǐng)導(dǎo)層是決策者,但董事會擁有推翻決定的權(quán)利。
這意味著董事會有權(quán)利隨時阻止OpenAI發(fā)布他們認(rèn)為對人類安全造成威脅的AI模型(假如GPT-5足夠強大可能不會被發(fā)布),哪怕是Sam Altman也要聽從董事會的安排(Sam Altman目前不在董事會席位)。
除了上述這些,預(yù)備框架還提到?Preparedness 團隊將會定期進行安全演習(xí),對緊急安全問題進行快速響應(yīng),與第三方審計團隊合作,幫助評估前沿模型等等……
對于 OpenAI 最近反復(fù)強調(diào)的 Safty,除了暗自揣測一下 AGI 是否將來以外,許多網(wǎng)友卻似乎并不對“安全”買賬,不少網(wǎng)友都認(rèn)為這種安全審查似乎只是為了避免“承擔(dān)責(zé)任”:
甚至這樣“嚴(yán)苛”的安全審查讓大家聯(lián)想起《1984》:
當(dāng)然,還有網(wǎng)友非常接地氣的吐槽:你們安全審查的連問 GPT 如何殺死一個進程都不敢說了……
另外有網(wǎng)友吐槽:這就是GPT寫代碼變得懶惰的原因嗎?
還有網(wǎng)友認(rèn)為安全措施既耗時又昂貴,會限制模型的能力,降低其對各種任務(wù)的效用。
當(dāng)然,技術(shù)風(fēng)險與技術(shù)進步似乎永遠(yuǎn)都處在一個博弈與"trade-off"的狀態(tài),到底是矯枉過正還是防患未然,可能只有時間能告訴我們答案。
最后,Preparedness 框架的全文鏈接如下:
https://cdn.openai.com/openai-preparedness-framework-beta.pdf
感興趣的朋友也可以關(guān)注網(wǎng)友整理的思維導(dǎo)圖~
最后插播一條消息,據(jù)The Information報道,為了應(yīng)對明年的美國大選,OpenAI 改革了內(nèi)容審核工作,主要是為了防止從 ChatGPT 等產(chǎn)品中根除虛假信息和攻擊性內(nèi)容的。
看來,OpenAI的AGI安全野心就算再大,還是要從這些內(nèi)容審核的“小事”做起啊。文章來源:http://www.zghlxwxcb.cn/news/detail-768480.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-768480.html
到了這里,關(guān)于OpenAI發(fā)布AGI安全風(fēng)險框架!董事會可隨時叫停GPT-5等模型發(fā)布,奧特曼也得乖乖聽話的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!