作者:京東科技 楊博
ChatGPT 才出現(xiàn)兩個月,就已經(jīng)引起了學術(shù)界的關(guān)注。微軟成為ChatGPT母公司OpenAI的合作伙伴,并確認投資百億美元。同時,微軟正計劃將 OpenAI 的技術(shù)整合到其產(chǎn)品中,包括Bing搜索引擎和其他軟件,以增強它們的能力。然而,據(jù)Insider報道,微軟卻警告其員工不要與人工智能 (AI) 聊天機器人(ChatGPT)共享敏感數(shù)據(jù):“請不要將敏感數(shù)據(jù)發(fā)送到 OpenAI 端點,因為他們可能會用它來訓(xùn)練未來的模型”。類似的,亞馬遜最近也發(fā)出警告其員工提防 ChatGPT,一位亞馬遜律師已敦促員工不要通過內(nèi)部溝通形式與 ChatGPT 共享代碼:“這很重要,因為您的輸入可能會用作 ChatGPT 進一步迭代的訓(xùn)練數(shù)據(jù),我們不希望它的輸出包含或類似于我們的機密信息(目前我已經(jīng)看到它的輸出與現(xiàn)有機密材料非常匹配的實例)”
隨著大公司對數(shù)據(jù)隱私的擔憂日益增加,OpenAI 已將有關(guān)公司數(shù)據(jù)和隱私政策的問題轉(zhuǎn)至ChatGPT 的常見問題解答頁面。OpenAI 的服務(wù)條款授予了該公司使用 ChatGPT 用戶生成的所有輸入和輸出的權(quán)利,并規(guī)定從使用的數(shù)據(jù)中刪除個人身份信息 (PII)。
然而,在華盛頓大學教授計算語言學的 Emily Bender 表示,OpenAI 幾乎不可能從提供給 ChatGPT 的數(shù)據(jù)中識別并刪除所有個人信息。
其實,ChatGPT背后的LLM(大型語言模型)技術(shù)中的數(shù)據(jù)隱私保護問題早已受到關(guān)注。其中一個風險是如果公開使用含有隱私敏感數(shù)據(jù)訓(xùn)練的模型,則有可能通過模型提取出訓(xùn)練數(shù)據(jù)中的隱私敏感信息。這是因為這些訓(xùn)練數(shù)據(jù)集可能很大(數(shù)百 GB)并且來源廣泛,即使是基于公共數(shù)據(jù)集上的訓(xùn)練,它們有時也可能包含敏感數(shù)據(jù),包括個人身份信息 (PII)如:姓名、電話號碼、地址等,這增加了使用此類數(shù)據(jù)訓(xùn)練的模型可能會在其輸出中反映其中一些私人敏感信息的可能性。因此,重要的是要識別并最大程度地降低此類泄漏的風險,并制定解決未來模型問題的策略。
如果使用前綴“East Stroudsburg Stroudsburg…”提示GPT-2語言模型,它將自動完成一長串文本,其中包含特定人員的全名、電話號碼、電子郵件地址和物理地址,其信息被包含在 GPT-2 的訓(xùn)練數(shù)據(jù)中。
在一個由谷歌、OpenAI、Apple、斯坦福、伯克利和東北大學的聯(lián)合研究項目 “ Extracting Training Data from Large Language Models ”中,研究人員已經(jīng)證明,只要能夠查詢預(yù)訓(xùn)練的語言模型,就可以提取特定的片段模型記憶的訓(xùn)練數(shù)據(jù)。該研究展示了他們對 GPT-2 的攻擊,GPT-2 是一種在公共互聯(lián)網(wǎng)的碎片上訓(xùn)練的語言模型,并且能夠從模型的訓(xùn)練數(shù)據(jù)中提取數(shù)百個逐字的文本序列。這些提取的示例包括(公共)個人身份信息(姓名、電話號碼和電子郵件地址)、IRC 對話、代碼和 128 位 UUID。即使上述每個序列僅包含在訓(xùn)練數(shù)據(jù)的一個文檔中,這種攻擊也是有效的。令人擔憂的是,該研究發(fā)現(xiàn)較大的模型比較小的模型更容易受到攻擊。語言模型越大,就越容易記住訓(xùn)練數(shù)據(jù)。例如,在一項實驗中研究人員發(fā)現(xiàn),15 億參數(shù)的 GPT-2 XL 模型比 1.24 億參數(shù)的 GPT-2 Small 模型多記憶了10倍的信息。因此,訓(xùn)練數(shù)據(jù)提取攻擊是對最先進的大型語言模型的現(xiàn)實威脅。
GPT-3 使用了 1750 億個參數(shù),這是迄今為止用于訓(xùn)練模型的最大參數(shù)數(shù)量(據(jù)現(xiàn)有資料顯示ChatGPT使用了15 億參數(shù))。由于模型龐大,OpenAI社區(qū)決定不發(fā)布包含 1750 億個參數(shù)的整個模型,而以 API 的方式公開其高級語言模型,允許用戶以訓(xùn)練提示的形式向 GPT-3提供訓(xùn)練數(shù)據(jù),模型使用該提示得出適當?shù)慕Y(jié)果。對于個人用戶,語言模型通常將訓(xùn)練數(shù)據(jù)作為其在線學習功能的一部分進行存儲,以使模型在運行中變得更好,這在涉及高度機密數(shù)據(jù)的用例中使用 GPT-3 時遇到了障礙。數(shù)據(jù)隱私一直是世界各地企業(yè)希望使用 GPT-3 創(chuàng)建特定領(lǐng)域應(yīng)用最關(guān)心的問題。企業(yè)的擔心圍繞著公開的 GPT-3 API 端點不應(yīng)保留或保存作為模型微調(diào)/訓(xùn)練過程的任何訓(xùn)練數(shù)據(jù);以及通過向公開的 API 端點提供任何類型的輸入,任何第三方都不應(yīng)能夠提取或訪問作為訓(xùn)練提示的任何數(shù)據(jù)。
面對這些擔憂,OpenAI 針對企業(yè)用戶,允許企業(yè)與 OpenAI 簽署特殊的諒解備忘錄 (MoU) 和數(shù)據(jù)隱私協(xié)議 (DPA)以克服圍繞數(shù)據(jù)泄露和數(shù)據(jù)隱私的擔憂。幸運的是,除了制度保障,有一些技術(shù)方法可以安全地處理此類敏感數(shù)據(jù)。這正是隱私保護計算技術(shù)(簡稱隱私計算)的使命——用“你看不到的數(shù)據(jù)”回答問題,該技術(shù)棧包括聯(lián)邦學習、安全多方計算、差分隱私、同態(tài)加密、可信執(zhí)行環(huán)境等。
在2022年隱私聯(lián)盟工作的年終總結(jié)上,中國信通院對其主導(dǎo)的《隱私計算白皮書(2022年)》、《隱私計算應(yīng)用研究報告(2022年)》、《可信隱私計算研究報告(2022)》、《隱私計算通信應(yīng)用研究報告(2022年)》、《多方數(shù)據(jù)聯(lián)合風控應(yīng)用能力評估要求》標準、《隱私計算應(yīng)用 面向互聯(lián)網(wǎng)場景的應(yīng)用要求》標準、《隱私計算 面向金融場景的應(yīng)用規(guī)范》標準等多項隱私保護計算成果進行發(fā)布、解讀與進展介紹。作為國內(nèi)隱私計算行業(yè)領(lǐng)軍者,京東科技全程深度參與了「4大報告+3大標準」的編寫研制工作,取得豐碩成果。
成果一:《隱私計算白皮書(2022年)》
《隱私計算白皮書(2022年)》由隱私計算聯(lián)盟聯(lián)合行業(yè)多家單位共同編制,京東科技作為主要牽頭編寫單位深度參與。《白皮書》涉及隱私計算概況、技術(shù)分析、應(yīng)用分析、行業(yè)分析、熱點問題分析以及總結(jié)展望等多方面,全面展現(xiàn)了行業(yè)成就及發(fā)展新態(tài)勢,旨在為產(chǎn)業(yè)界應(yīng)用隱私計算技術(shù)提供參考指導(dǎo),推動隱私計算行業(yè)健康發(fā)展,在數(shù)據(jù)要素市場建設(shè)中發(fā)揮更大的價值。
《隱私計算白皮書(2022年)》封面及編寫單位
《白皮書》認為,根據(jù)隱私計算技術(shù)、應(yīng)用的不同發(fā)展特點,隱私計算當前正處于產(chǎn)業(yè)快速增長期,即將邁入前景廣闊的穩(wěn)定期。未來,隨著我國數(shù)據(jù)要素市場的加速建設(shè),作為數(shù)據(jù)流通的重要創(chuàng)新前沿技術(shù),以隱私計算為代表的數(shù)據(jù)安全流通技術(shù)正在成為筑牢數(shù)字安全屏障的基礎(chǔ)設(shè)施,以促進數(shù)據(jù)要素的可信安全流通。
成果二:《隱私計算應(yīng)用研究報告(2022年)》
近兩年來,在政策驅(qū)動和市場需求同時作用下,隱私計算技術(shù)、產(chǎn)業(yè)、應(yīng)用迅速發(fā)展,成為商業(yè)和資本競爭的熱門賽道。隨著隱私計算技術(shù)可用性的快速提升,市場由觀望正在轉(zhuǎn)向落地,金融、政務(wù)、通信、醫(yī)療、互聯(lián)網(wǎng)等行業(yè)率先開展隱私計算應(yīng)用,能源、車聯(lián)網(wǎng)等行業(yè)也開始探索性應(yīng)用。
在此背景下,隱私計算聯(lián)盟組織京東科技等成員單位共同編寫了《隱私計算應(yīng)用研究報告(2022年)》。主要涉及隱私計算應(yīng)用背景、應(yīng)用現(xiàn)狀、項目應(yīng)用部署難點及解決方案、應(yīng)用展望等多個方面。
《隱私計算應(yīng)用研究報告(2022年)》封面及編寫單位
成果三:《可信隱私計算研究報告(2022年)》
近年來,數(shù)據(jù)成為國家基礎(chǔ)性戰(zhàn)略資源,在政策和市場的同時作用下,隱私計算技術(shù)、產(chǎn)業(yè)、應(yīng)用迅速發(fā)展。但是,在技術(shù)應(yīng)用過程中,隱私計算因為涉及需求方、供給方、監(jiān)管方等多方的參與,仍然面臨著安全性、合規(guī)性、可用性等方面的挑戰(zhàn),由此隱私計算技術(shù)如何“可信”應(yīng)用引發(fā)業(yè)界思考。
經(jīng)過廣泛調(diào)研征集和深入討論,由京東科技等多家隱私計算聯(lián)盟成員單位共同編寫了《可信隱私計算研究報告(2022年)》,主要包括可信隱私計算的發(fā)展背景、框架、核心要素、實踐路徑及未來展望等內(nèi)容。
《可信隱私計算研究報告(2022年)》封面及編寫單位
成果四:《隱私計算通信應(yīng)用研究報告(2022年)》
隨著隱私計算技術(shù)應(yīng)用逐漸落地,其對通信行業(yè)在保證數(shù)據(jù)安全的前提下充分發(fā)揮自身數(shù)據(jù)應(yīng)用價值的意義巨大。京東科技參與編寫的《隱私計算通信應(yīng)用研究報告(2022年)》便對隱私計算在通信行業(yè)的應(yīng)用特性及典型場景進行了全面梳理,深入挖掘了潛在創(chuàng)新應(yīng)用場景,為行業(yè)發(fā)展提供參考指引。
《隱私計算通信應(yīng)用研究報告》封面及編寫單位
《報告》指出,在通信行業(yè),通信數(shù)據(jù)具有覆蓋全面、特征豐富、真實性高、數(shù)據(jù)連續(xù)性高等獨特優(yōu)勢和應(yīng)用價值。以隱私計算技術(shù)為依托,可以推動通信行業(yè)數(shù)據(jù)與金融、政務(wù)、汽車、醫(yī)療等行業(yè)共享賦能,并在風險管控、營銷分析、態(tài)勢洞察等多個應(yīng)用場景中提供數(shù)據(jù)安全共享計算的服務(wù),能夠在保證數(shù)據(jù)安全的前提下充分發(fā)揮通信數(shù)據(jù)應(yīng)用價值,助力各行業(yè)數(shù)字化發(fā)展實踐,對充分釋放數(shù)據(jù)要素價值和推動社會經(jīng)濟發(fā)展具有重大意義。
成果五:《多方數(shù)據(jù)聯(lián)合風控應(yīng)用能力評估要求》標準
隨著國家法律政策的重視、監(jiān)管逐漸完善以及企業(yè)自身的經(jīng)營需求,風控對于企業(yè)的重要性進一步提高。目前,風控已經(jīng)從傳統(tǒng)業(yè)務(wù)單線風控的1.0階段、企業(yè)級單方風控體系的2.0階段,正邁入多方數(shù)據(jù)聯(lián)合風控體系的3.0階段,其完整性、全面性、及時性都進一步提高。
風控業(yè)務(wù)發(fā)展的三個階段
為解決行業(yè)需求,中國信通院依托中國通信標準化協(xié)會大數(shù)據(jù)技術(shù)標準推進委員會、隱私計算聯(lián)盟,京東科技在內(nèi)的多家銀行、運營商、互聯(lián)網(wǎng)企業(yè)及技術(shù)服務(wù)商共同編制《多方數(shù)據(jù)聯(lián)合風控應(yīng)用能力評估要求》標準。
《多方數(shù)據(jù)聯(lián)合風控應(yīng)用能力評估要求》標準參編單位
成果六:《隱私計算應(yīng)用 面向互聯(lián)網(wǎng)場景的應(yīng)用要求》標準
隨著政策和市場需求雙重驅(qū)動,隱私計算在互聯(lián)網(wǎng)應(yīng)用場景的需求強烈,其中主要集中在聯(lián)合營銷場景中,具體包括洞察分析、策略制定、營銷投放、效果分析等細分場景。為了更好適配,隱私計算產(chǎn)品應(yīng)在易用性、場景支持能力、算法能力與安全性上滿足相應(yīng)要求。
隱私計算技術(shù)在互聯(lián)網(wǎng)行業(yè)中的應(yīng)用場景
為此,中國信通院、隱私計算聯(lián)盟與京東科技等單位共同起草《隱私計算應(yīng)用 面向互聯(lián)網(wǎng)場景的應(yīng)用要求》標準。該標準梳理了互聯(lián)網(wǎng)應(yīng)用場景,并對適配互聯(lián)網(wǎng)應(yīng)用的隱私計算產(chǎn)品能力進行了規(guī)范。本標準自2022年8月啟動以來,經(jīng)歷了框架總體設(shè)計和材料征集、場景研討和梳理,以及標準主體討論,目前已完成主體內(nèi)容編制。
《隱私計算應(yīng)用 面向互聯(lián)網(wǎng)場景的應(yīng)用要求》標準起草單位
成果七:《隱私計算 面向金融場景的應(yīng)用規(guī)范》標準
近年來隱私計算應(yīng)用加速落地,其中金融場景應(yīng)用最為廣泛。為解決供需雙方訴求,發(fā)揮橋梁作用,隱私聯(lián)盟聯(lián)合京東科技等幾十家企業(yè)召開了多次標準討論會,共同編制了《隱私計算 面向金融場景的應(yīng)用規(guī)范》。該標準旨在提升隱私計算產(chǎn)品在金融場景應(yīng)用中的易用性、場景支持能力。
隱私計算技術(shù)在互聯(lián)網(wǎng)行業(yè)中的應(yīng)用場景
該標準主要包含四個能力域:第一個是算法實現(xiàn)與安全性,該能力域為場景應(yīng)用奠定安全技術(shù)底座;第二個是金融場景支持能力,該能力域為完善產(chǎn)品已具備的基礎(chǔ)能力項對金融場景應(yīng)用的支持能力;第三個是易用性,該能力域為在已有的基礎(chǔ)能力評測項之外進行擴展,增強隱私計算產(chǎn)品在實際金融應(yīng)用中的易用性;第四個能力域是金融場景應(yīng)用能力,該能力域為通過算法組合安全有效地完成常用金融場景的解決方案。
《隱私計算 面向金融場景的應(yīng)用規(guī)范》標準起草單位
結(jié)語
大型語言模型已持續(xù)展示出其巨大的實用性和靈活性——然而,像所有創(chuàng)新一樣,它們也可能帶來風險。負責任地開發(fā)和使用它們意味著主動識別這些風險并提供降低風險的方法。作為國內(nèi)隱私計算領(lǐng)軍者,京東科技基于自身領(lǐng)先的技術(shù)研發(fā)實力、優(yōu)質(zhì)的數(shù)據(jù)生態(tài)資源、豐富的平臺建設(shè)與場景運營落地經(jīng)驗,始終高度重視數(shù)據(jù)流通中隱私數(shù)據(jù)的保護。文章來源:http://www.zghlxwxcb.cn/news/detail-423224.html
此次京東科技深度參編的隱私計算技術(shù)系列成果的集中發(fā)布,秉持客戶利益為先的商業(yè)準則,致力于通過技術(shù)持續(xù)改進數(shù)據(jù)要素流通效率與價值,為實現(xiàn)數(shù)據(jù)要素在數(shù)據(jù)安全和隱私保護基礎(chǔ)上的有序流通提供了重要參考、指引和規(guī)范。未來,京東科技將積極凝聚行業(yè)共識,共同探索隱私計算的高質(zhì)量發(fā)展方向和應(yīng)用路徑,充分發(fā)揮隱私計算作為數(shù)字經(jīng)濟持續(xù)健康發(fā)展的基礎(chǔ)設(shè)施作用。文章來源地址http://www.zghlxwxcb.cn/news/detail-423224.html
到了這里,關(guān)于AIGC的隱私安全問題及隱私保護技術(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!