国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展

這篇具有很好參考價值的文章主要介紹了讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

標題: 大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展
作者: 錢文君, 沈晴霓,吳鵬飛 , 董春濤 , 吳中海


Abstract

批處理、流式計算和機器學習等分布式的大數(shù)據(jù)計算環(huán)境上的廣泛部署與應用,給云用戶帶來許多前所未有的便利的同時,也使得信息泄露時間越來越頻繁。如何在這種云上部署的大數(shù)據(jù)計算環(huán)境下保護數(shù)據(jù)隱私成為一個研究熱點,而本文也正是針對這一話題來 對國內(nèi)外的最新研究成果 來進行全面綜述:本文從計算過程涉及的數(shù)據(jù)輸入計算輸出等三個環(huán)節(jié)出發(fā),依據(jù)計算數(shù)據(jù)為明文、密文可信硬件保護條件下可能存在的隱私泄露風險,總結(jié)了對應的 5 類主要研究方向 :基于數(shù)據(jù)分離的隱私保護、基于數(shù)據(jù)干擾的隱私保護、基于安全多方計算的隱私保護、基于硬件增強的隱私保護和基于訪問模式隱藏的隱私保護等;從隱私性、可用性、性能等方面對比分析了現(xiàn)有研究工作的優(yōu)缺點;最后對于大數(shù)據(jù)環(huán)境下隱私保護技術的未來發(fā)展方向進行了一定的展望;

Key words: 大數(shù)據(jù)隱私保護;數(shù)據(jù)分離;數(shù)據(jù)干擾;安全多方計算;硬件增強;訪問模式隱藏


Introduction

隨著云計算與大數(shù)據(jù)技術的發(fā)展,現(xiàn)在許多云服務提供商都支持云端部署分布式存儲和計算框架,主要包括:批量計算框架(針對?規(guī)模數(shù)據(jù)的批量處理)、流式計算框(針對流數(shù)據(jù)的實時計算處理)以及機器學習框架(針對構(gòu)建機器學習模型)等,以上這些技術都為用戶提供持續(xù)可靠、可擴展且高吞吐量的大數(shù)據(jù)存儲和計算服務
缺點:由于 數(shù)據(jù)所有權(quán)和使用權(quán)的分離 ,在計算過程涉及的 數(shù)據(jù)輸入、計算和輸出 等階段都有可能發(fā)生隱私數(shù)據(jù)泄露的風險——>如何在大數(shù)據(jù)計算環(huán)境下保護敏感數(shù)據(jù)的隱私性(privacy),同時保證數(shù)據(jù)的可用性(utility)計算的高效性(efficiency)成為大數(shù)據(jù)隱私保護領域的研究熱點之一;
隱私泄露問題:數(shù)據(jù)輸入階段的原始數(shù)據(jù)(raw data)隱私泄露,計算過程中的
隱私數(shù)據(jù)被攻擊者竊取
,以及不可信的數(shù)據(jù)消費者在結(jié)果輸出階段試圖推斷出數(shù)據(jù)隱私;
應對手段:
(1)在數(shù)據(jù)輸入階段,目前有效的保護隱私手段是采取數(shù)據(jù)分離/數(shù)據(jù)干擾等方法:數(shù)據(jù)分離方法主要考慮到隱私數(shù)據(jù)的位置,一般將數(shù)據(jù)所有者的 非敏感數(shù)據(jù)上傳到公有云,敏感數(shù)據(jù)被分離到本地的私有云 ——>但是在實踐中這種方法往往會增加兩種云服務間的開銷,并且其通信數(shù)據(jù)有被截胡的風險;數(shù)據(jù)干擾方法則采用了本地化差分隱私(Local Differential Privacy, LDP)技術,它通過對敏感信息進行本地化隨機響應,達到干擾真實數(shù)據(jù)的效果——>在云端對失真數(shù)據(jù)(經(jīng)過一系列操作后與真實數(shù)據(jù)有偏差的數(shù)據(jù))進行分布式計算會嚴重地影響結(jié)果的準確性,而這也使如何在這一方面進行改進成為了熱門問題;
(2)在數(shù)據(jù)計算階段,通常會采用加密傳輸的方式來保證數(shù)據(jù)的機密性和計算隱私性,此外還要結(jié)合安全多方計算(SMC)硬件增強或者訪問模式隱藏等主流方法實現(xiàn)隱私計算。其中,設計SMC需要依賴需要依賴混淆電路(Garbled Circuits, GC)、秘密共享或者同態(tài)加密(Homomorphic Encryption, HE)等密碼學技術, 在互不信任的多個參與方之間協(xié)作計算時,SMC 保證任何一方都無法竊取其他各方的數(shù)據(jù)隱私。特別地,同態(tài)加密使得在密文上執(zhí)行計算成為可能,即密文計算——>是在實際應用中,對于復雜的計算任務其執(zhí)行效率較低且計算開銷較高——>學術界一邊對更加實用且高效的安全多方計算協(xié)議開展研究,另一方面依賴可信硬件保護提出“加密傳輸-明文計算”的優(yōu)化策略,其中最有代表性的當屬Intel SGX,這是一種硬件增強方法,它為明文計算提供了安全的可信執(zhí)行環(huán)境(TEE),這項技術既能保護數(shù)據(jù)的機密性和隱私性,也保證計算代碼的安全執(zhí)行,但是攻擊者還是可以通過觀察內(nèi)存層的訪問模式網(wǎng)絡層的訪問模式,進一步地推測出數(shù)據(jù)隱私——>主流訪問模式隱藏技術:不經(jīng)意隨機訪問機(Oblivious RAM, ORAM)和不經(jīng)意混洗(oblivious shuffle),他倆能夠?qū)崿F(xiàn)不經(jīng)意計算,防止攻擊者觀察計算過程中的訪問模式;
(3)在計算結(jié)果輸出階段,主要采用數(shù)據(jù)干擾方法來解決輸出隱私問題,比如數(shù)據(jù)匿名中心化差分隱私(Centralized Differential Privacy, CDP)技術——>但是干擾數(shù)據(jù)會影響數(shù)據(jù)的可用性,因此需要考慮隱私性和可用性權(quán)衡問題;

本文重點梳理了與大數(shù)據(jù)計算環(huán)境相關的隱私保護研究工作,如下圖所示:
讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展

展示了不同隱私保護技術之間的聯(lián)系與分類依據(jù)。文章于從計算過程涉及的數(shù)據(jù)輸入、計算和輸出等三個環(huán)節(jié)出發(fā),依據(jù)計算數(shù)據(jù)為明文、密文或可信硬件保護等條件下可能存在的隱私泄露風險和技術挑戰(zhàn),將分離執(zhí)行、聯(lián)邦學習、差分隱私、安全多方計算、Intel SGX 等主流的隱私保護技術劃分為 5 大類,包括基于數(shù)據(jù)分離的隱私保護、基于數(shù)據(jù)干擾的隱私保護、基于安全多方計算的隱私保護、基于硬件增強的隱私保護和基于訪問模式隱藏的隱私保護等。每一類隱私保護技術側(cè)重于解決不同階段所面臨的隱私問題,并依賴不同的解決思路

  • 差分隱私通過 拉普拉斯、指數(shù)和隨機響應 等擾動機制干擾數(shù)據(jù),保證數(shù)據(jù)輸入階段或輸出階段隱私
  • 安全多方計算依賴 混淆電路、秘密共享和同態(tài)加密等密碼學手段 ,設計協(xié)議保證計算過程中數(shù)據(jù)的機密性;
  • 聯(lián)邦學習通過 在本地聯(lián)合訓練模型 保護訓練數(shù)據(jù)的隱私,但是已有研究表明聯(lián)邦學習存在著參數(shù)泄露的風險,需要進一步地依賴差分隱私或者安全多方計算等技術保護訓練階段的模型隱私;
  • Intel SGX通過提供可信的執(zhí)行環(huán)境保證數(shù)據(jù)以明文形式計算的安全性;

綜述

一、大數(shù)據(jù)計算環(huán)境現(xiàn)狀及隱私問題

1.1 大數(shù)據(jù)計算環(huán)境現(xiàn)狀

經(jīng)典的基于云的大數(shù)據(jù)計算環(huán)境的參與角色可以分為:數(shù)據(jù)所有者(data owner)、數(shù)據(jù)持有者(data holder)、云服務提供商、數(shù)據(jù)消費者(data consumer)。一般都吧前兩者看作同一方,稱為數(shù)據(jù)提供方。但是在實際場景中,他們仨往往都不是同一方,他們的關系是:

  • (1)數(shù)據(jù)所有者:生成和創(chuàng)建原始數(shù)據(jù)的實體,對原始數(shù)據(jù)具有所有權(quán),負責控制其數(shù)據(jù)的生 成、收集和共享;
  • (2)數(shù)據(jù)持有者:經(jīng)過認證和授權(quán)持有數(shù)據(jù)的實體,一般情況下,能夠生成或創(chuàng)建文件的數(shù)據(jù)持有者也被視為數(shù)據(jù)所有者,可以認為是同一個實體;
  • (3)云服務提供商:它以按需付費的形式為數(shù)據(jù)持有者或者數(shù)據(jù)消費者提供各種各樣的資源和服務;
  • (4)數(shù)據(jù)消費者:也稱為云用戶,經(jīng)過數(shù)據(jù)所有者授權(quán)對數(shù)據(jù)具有使用權(quán);
    而云服務提供商所提供的框架主要有如下幾種:
  • (1)批量計算框架:批量計算的特點是數(shù)據(jù)存儲后再集中離線計算,即計算跟著數(shù)據(jù)走,適合延時較高的靜態(tài)數(shù)據(jù)處理場景;
  • (2)流式計算框架:流式計算的特點是數(shù)據(jù)流到來后直接在內(nèi)存中實時計算,不再對流式數(shù)據(jù)進行永久化存儲,即數(shù)據(jù)跟著計算走,適合低延時或?qū)崟r的流數(shù)據(jù)處理場景;
  • (3)機器學習框架:它支持基于大規(guī)模數(shù)據(jù)集的模型訓練和預測服務,適合集中式學習或者聯(lián)邦學習場景;

1.2 隱私問題、挑戰(zhàn)與主要研究方向

1.2.1 敵手模型

根據(jù)敵手角色的不同,可以分為不可信的云服務提供商和不可信的數(shù)據(jù)消費者,他們的攻擊能力又可以分為惡意敵手(主動攻擊)和半誠實敵手(被動攻擊);


1.2.2 問題與挑戰(zhàn)

大數(shù)據(jù)計算環(huán)境下的隱私泄露問題:

  • 數(shù)據(jù)輸入階段的原始數(shù)據(jù)隱私泄露,簡稱輸入隱私問題
  • 計算過程中的機密數(shù)據(jù)被攻擊者竊取,簡稱計算隱私問題;
  • 不可信的數(shù)據(jù)消費者在結(jié)果輸出階段試圖推斷出隱私數(shù)據(jù),簡稱輸出隱私問題

挑戰(zhàn)問題以及對應解決方法:

  • 數(shù)據(jù)輸入階段的隱私泄露:敏感數(shù)據(jù)保留在本地私有云進行存 儲及計算,而非敏感數(shù)據(jù)可以選擇是否上傳到公有云;
  • 云服務提供商不可信:原始數(shù)據(jù)在本地去隱私即脫敏之后再到云平臺進行計算;云服務提供商可信但是數(shù)據(jù)消費者不可信,計算結(jié)果需要在脫敏之后再發(fā)布給數(shù)據(jù)消費者;
  • 計算過程中不可信的云服務提供商會竊取隱私數(shù)據(jù):數(shù)據(jù)加密傳輸并被密文計算;
  • 密文計算給大數(shù)據(jù)處理帶來了計算開銷和通信開銷的性能瓶頸:更傾向于數(shù)據(jù)被加密傳輸?shù)?CSP 受信任的硬件環(huán)境高效地執(zhí)行明文計算;
  • 即使數(shù)據(jù)被加密傳輸且僅在可信環(huán)境下執(zhí)行明文計算,攻擊者也可以觀察內(nèi)存層的訪問模式和網(wǎng)絡層的訪問模式:相應的隱私保護技術主要是基于ORAM 或者不經(jīng)意混洗等技術隱藏訪問模式

1.2.3 主要研究方向

文章調(diào)研了近年來發(fā)表在信息安全頂級會議/期刊上關于大數(shù)據(jù)計算環(huán)境下隱私保護技術的國內(nèi)外研究進展,總結(jié)了 5 個研究方向:

  • (1)基于數(shù)據(jù)分離的隱私保護:考慮到敏感數(shù)據(jù)或者全部原始數(shù)據(jù)在本地或者私有云環(huán)境被處理的隱私保護需求,該類研究方向主要借助數(shù)據(jù)分離技術抵抗不可信的CSP,解決了輸入隱私問題;
  • (2)基于數(shù)據(jù)干擾的隱私保護:考慮到數(shù)據(jù)需要去隱私后發(fā)布到不可信第三方的隱私保護需求,為了抵抗不可信的 CSP 或者不可信的數(shù)據(jù)消費者,該類研究方向主要是在數(shù)據(jù)輸入或者計算結(jié)果發(fā)布之前,利用數(shù)據(jù)匿名或者差分隱私技術泛化、壓縮或者隨機擾動真實數(shù)據(jù),解決輸入隱私和輸出隱私問題;
  • (3)基于安全多方計算的隱私保護:考慮到云服務提供商不可信,需要數(shù)據(jù)加密上傳后并密文計算的隱私保護要求,該類研究方向主要借助安全多方計算協(xié)議允許互不信任的參與方安全地執(zhí)行聯(lián)合計算,同時也不泄露計算數(shù)據(jù)隱私;
  • (4)基于硬件增強的隱私保護:由于密文計算在實際應用中面臨性能瓶頸,考慮數(shù)據(jù)被加密傳輸?shù)?TEE 環(huán)境下執(zhí)行明文計算的隱私保護需求;
  • (5)基于訪問模式隱藏的隱私保護:由于 IntelSGX 技術在實際應用中面臨側(cè)信道攻擊,例如切換內(nèi)存頁會暴露內(nèi)存層訪問模式,計算節(jié)點間的通信流量會暴露網(wǎng)絡層訪問模式;
    讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展
    讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展

二、基于數(shù)據(jù)分離的隱私保護

  • 定義: 根據(jù)數(shù)據(jù)的敏感性分離存儲和計算數(shù)據(jù),該方法保證了敏感數(shù)據(jù)在本地或者私有云環(huán)境被安全高效的處理,而不會被遷移到不可信的公有云環(huán)境

2.1 基于敏感數(shù)據(jù)標記的分布式計算

  • 主要思想: 首先對原始數(shù)據(jù)中包含的敏感數(shù)據(jù)進行標記,將數(shù)據(jù)劃分為敏感數(shù)據(jù)集和非敏感數(shù)據(jù)集;然后將在不同數(shù)據(jù)集上的相關計算任務也進行劃分,并將非敏感數(shù)據(jù)及其相關的計算任務外包到公有云存儲并計算,而小規(guī)模的敏感數(shù)據(jù)及其相關的計算任務保留在本地或者安全的私有云執(zhí)行;
  • 主要的挑戰(zhàn)點:
    (1)數(shù)據(jù)的敏感性標記:一方面需要依據(jù)數(shù)據(jù)所有者的隱私保護需求對原始數(shù)據(jù)集打標簽,另一方面,對于大規(guī)模數(shù)據(jù)集而言,標記效率也是值得思考的問題;
    (2)混合云中的分離執(zhí)行:由于缺失支持混合云環(huán)境的計算框架,迫使編程人員需要手動分割并提交每個計算任務到公有云或私有云,這嚴重地妨礙了數(shù)據(jù)代碼的重用;
  • 解決方法
    (1)針對敏感性標記方法:使用兩種不同標簽將輸入數(shù)據(jù)劃分為敏感和非敏感兩個部分,但是要在作業(yè)執(zhí)行前手動標記,影響效率;于是就有其他學者提出了一種能夠根據(jù)安全等級自動劃分和執(zhí)行任務的框架;但是數(shù)據(jù)在計算過程中的敏感度也會發(fā)生變化,就有科學家提出了相應的數(shù)據(jù)標記方法;
    (2)混合云中的分離執(zhí)行模型:使用了一種可以提供四種分離執(zhí)行策略的安全計算框架,但是其效率低下并且開銷較大;于是就有人提出了采用自動化分析和代碼轉(zhuǎn)換技術的方法,但是這又限制了其擴展性,不適用于處理復雜問題;為此,又有科研人員提出采用更細粒度的元組標記策略;
    讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展

Map 混合:敏感數(shù)據(jù)的map 階段在私有云中執(zhí)行,非敏感數(shù)據(jù)的 map 階段在公有云中執(zhí)行;
水平分割:數(shù)據(jù)存儲在私有云,map 階段在私有云中執(zhí)行,然后數(shù)據(jù)混洗后加密傳輸?shù)焦性疲瑘?zhí)行 reduce 階段,該執(zhí)行模型適用于長期歸檔數(shù)據(jù)的應用場景;
垂直分割:敏感數(shù)據(jù)和非敏感數(shù)據(jù)分別獨立地在私有云和公有云中執(zhí)行map/reduce 階段,不允許跨云傳輸數(shù)據(jù);
混合:分別獨立地在私有云和公有云中對敏感數(shù)據(jù)和非敏感數(shù)據(jù)執(zhí)行 map階段,混洗后跨云傳輸數(shù)據(jù),然后在私有云和公有云中分別執(zhí)行 reduce 階段。

讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展

2.2 基于數(shù)據(jù)分離的聯(lián)邦學習

允許在遠程設備或者孤立的數(shù)據(jù)中心來訓練機器學習模型

  • 通用聯(lián)邦學習架構(gòu):多個本地設備(數(shù)據(jù)持有者)與中央?yún)?shù)服務器之間經(jīng)過本地訓練、上傳本地更 新、服務器端安全聚合以及下載全局模型等步驟保證聯(lián)合訓練模型的一致性;
  • 挑戰(zhàn)問題及研究進展
    (1)通信開銷:由于本地設備的帶寬、電力和功率等資源有限,使得聯(lián)邦學習中的通信可能比本地計算慢許多數(shù)量級。學術界主要從減少通信輪數(shù)以及每個輪傳輸?shù)南⒋笮蓚€方面提高通信效率;
    (2)系統(tǒng)異構(gòu):由于聯(lián)邦學習中每個設備的硬件及網(wǎng)絡等配置不同,因此系統(tǒng)特性存在很大差異。學術界主要采用異步通信、主動采樣設備和容錯等方式來解決系統(tǒng)異構(gòu)性挑戰(zhàn);
    (3)數(shù)據(jù)異構(gòu):由于本地設備的不同,它們經(jīng)常生成和收集 Non-IID 數(shù)據(jù),導致數(shù)據(jù)中包含設備之間的關系及相關分布。學術界主要從異構(gòu)數(shù)據(jù)建模和相關訓練過程的收斂分析兩個方面展開研究;

2.3 小結(jié)

  • 共同點是通過敏感數(shù)據(jù)集在本地或者私有云環(huán)境存儲和計算,保證了原始數(shù)據(jù)集中敏感數(shù)據(jù)的輸入隱私。但是,基于數(shù)據(jù)分離的隱私保護面臨著通信開銷較高的局限,以及聯(lián)邦學習中本地設備與中央?yún)?shù)服務器之間的通信開銷,未來還需要進一步地降低通信成本;
  • 不同之處在于基于敏感數(shù)據(jù)標記的分布式計算將非敏感的數(shù)據(jù)分配到公有云環(huán)境,充分利用公有云的計算能力提高大數(shù)據(jù)處理效率,更適合處理敏感數(shù)據(jù)不密集的原始數(shù)據(jù)集;而基于數(shù)據(jù)分離的聯(lián)邦學習要求所有數(shù)據(jù)在本地存儲并訓練,更適合處理敏感數(shù)據(jù)密集的原始數(shù)據(jù)集

三、基于數(shù)據(jù)干擾的隱私保護

相比其他的隱私保護方法,該方法會造成數(shù)據(jù)失真,通過犧牲數(shù)據(jù)的精度來增強隱私保護水平,因此隱私性和可用性的權(quán)衡問題一直是該研究方向的熱點問題

3.1 數(shù)據(jù)匿名技術

  • 主要思想:主要采用泛化、抑制、解剖、置換和擾動等五種類型的匿名化操作,限制準標識符與敏感信息之間的鏈接關系;
  • 主要挑戰(zhàn)
    (1)多維數(shù)據(jù)的匿名發(fā)布:在多維的大規(guī)模數(shù)據(jù)集上直接執(zhí)行上述匿名化操作會嚴重地降低數(shù)據(jù)可用性,帶來大量的信息損失;
    (2)高效的大數(shù)據(jù)匿名并行處理:在大數(shù)據(jù)計算環(huán)境下,將上述匿名化操作直接應用到大規(guī)模數(shù)據(jù)匿名處理時,會帶來擴展性和效率的挑戰(zhàn);
  • 解決方法
    (1)多維靜態(tài)數(shù)據(jù)的匿名化研究工作主要基于k-匿 名算法展開,研究如何對原始數(shù)據(jù)集進行有效的匿名化,盡可能地實現(xiàn)匿名效果最好、數(shù)據(jù)可用性最高且時間空間開銷最小的匿名算法;而多維數(shù)據(jù)流的匿名化主要基于擾動、樹狀結(jié)構(gòu)、偽造值和聚類等方面展開研究;
    (2)一種是借助主流的大數(shù)據(jù)計算框架實現(xiàn)分布式的匿名并行處理;另一種是將已有的匿名算法并行化,以適應大數(shù)據(jù)計算環(huán)境下的分布式處理特性。大多數(shù)研究工作基于第一種思路展開,它們充分利用了計算框架本身的擴展性和高效優(yōu)勢,在大數(shù)據(jù)計算環(huán)境下更加實用;
    讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展

3.2 差分隱私技術

主要通過添加噪音干擾真實數(shù)據(jù),能夠抵抗攻擊者實施的背景知識攻擊和差分攻擊

3.2.1 基于 LDP 的隱私保護
  • 主要思想:原始數(shù)據(jù)在本地編碼和擾動后,擾動數(shù)據(jù)被收集到云端進行聚合。由于本地客戶端執(zhí)行的隨機擾動函數(shù)符合本地化差分隱私ε-LDP(其將數(shù)據(jù)隱私化的工作轉(zhuǎn)移到每個用戶,用戶自己來處理和保護個人數(shù)據(jù),極大地降低了隱私泄露的可能性)因此無論 CSP 內(nèi)部攻擊者具有怎樣的背景知識,它都無法區(qū)分擾動元組的原始元組是哪個;
    讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展

3.2.2 基于 CDP 的隱私保護
  • 主要思想:原始數(shù)據(jù)被集中聚合后再添加適當?shù)脑胍簦罱K返回給用戶隱私保證的聚合結(jié)果。因此,它能夠抵抗惡意敵手的差分攻擊,避免輸出隱私泄露;
    讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展

3.3 小結(jié)

  • 數(shù)據(jù)匿名技術思想簡單易理解,匿名算法更容易應用到主流的大數(shù)據(jù)計算框架中,執(zhí)行高效的大規(guī)模數(shù)據(jù)匿名處理。但是,相比差分隱私技術,數(shù)據(jù)匿名技術在安全性方面較弱,仍然面臨著背景知識攻擊和差分攻擊;
  • 差分隱私技術基于更嚴格的隱私定義能夠量化隱私保護水平,更適用于對隱私保護需求比較嚴格的大數(shù)據(jù)應用場景。相比其他的隱私保護技術,差分隱私技術應用到大數(shù)據(jù)計算環(huán)境時一般不會給復雜的計算任務帶來過多額外的計算開銷和通信開銷,因此該技術具有較高的研究價值和應用前景。但是對于可用性要求比較高的機器學習應用,目前影響其在產(chǎn)業(yè)界實際應用的瓶頸是隱私性和可用性的合理權(quán)衡問題,未來還需要進一步地改善
    讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展

四、基于安全多方計算的隱私保護

如果對于共享的數(shù)據(jù)不進行加密或去隱私處理,那么將會直接破壞共享數(shù)據(jù)的機密性和隱私性。要么在數(shù)據(jù)共享之前對其進行干擾,但是會嚴重制約聯(lián)合分析的任務類型和數(shù)據(jù)可用性,不適用于復雜的聯(lián)合計算任務。要么對數(shù)據(jù)集進行加密后傳輸

4.1 基于混淆電路的安全多方計算

  • 主要思想:基于姚氏混淆電路的安全多方計算主要關注兩方的場景,它使用布爾電路(boolean circuit)表述待計算函數(shù),結(jié)合不經(jīng)意傳輸(Oblivious Transfer, OT)技術設計安全多方計算協(xié)議;
  • 為了使它們擴展到大數(shù)據(jù)計算中,許多研究工作從降低通信成本、縮減執(zhí)行時間和減少電路門數(shù)等角度在一定程度上優(yōu)化通信、優(yōu)化執(zhí)行和優(yōu)化電路;
    (1)關于通信優(yōu)化,研究工作旨在減少計算過程中參與方之間必須要傳輸?shù)臄?shù)據(jù)量,達到降低通信成本的目的;
    (2)關于執(zhí)行優(yōu)化,研究工作旨在減少執(zhí)行相同數(shù)量的電路門所需要的計算時間,保證高效的大數(shù)據(jù)隱私計算;
    (3)關于電路優(yōu)化,研究工作旨在降低某個計算操作的電路門數(shù),從而降低隱私計算的復雜度

——>綜上分析可知,目前主要采取剪切和選擇、并行處理以及預處理等手段從不同的角度優(yōu)化基于混淆電路的安全多方計算協(xié)議,使其能應用到實際的大數(shù)據(jù)計算場景


4.2 基于秘密共享的安全多方計算

  • 主要思想:算主要關注三方及以上的場景,它將每個敏感值分割為多個“秘密共享”,這樣每個秘密共享都不能泄露任何有關原始值的信息,但是當重組時原始值被重構(gòu);
  • Sharemind SMC 框架:輸入數(shù)據(jù)和指令被發(fā)送到多個計算參與方,數(shù)據(jù)庫和堆棧中的數(shù)據(jù)在計算參與方之間秘密共享,即使存在妥協(xié)且合謀的參與方仍然能夠提供安全計算和數(shù)據(jù)隱私保護;
  • 然而,隨著參與方數(shù)量的增加,基于秘密共享的安全多方計算在計算過程中會帶來較高的通信成本,這限制了方案的可伸縮性。為了能夠擴展到多個參與方,一些研究工作借助主流的大數(shù)據(jù)計算框架實施并行處理,這能夠有效地減少通信開銷。陸續(xù)實現(xiàn)了將Spark與Sharemind SMC 框架相結(jié)合以及建立在 TensorFlow 機器學習框架之上的安全多方計算開源庫等諸多方法;

4.3 基于同態(tài)加密的安全多方計算

  • 主要思想:允許計算參與方在加密數(shù)據(jù)上執(zhí)行計算,同時能夠保證公有云中數(shù)據(jù)隱私,其安全性和執(zhí)行效率取決于底層同態(tài)加密方案的安全假設和加解密效率。為了使其能夠應用到大數(shù)據(jù)計算環(huán)境下,一方面要設計能夠支持大數(shù)據(jù)復雜操作的安全方案,另一方面需要重點解決加解密帶來的高計算成本問題;
  • 現(xiàn)狀:學術界主要基于已有的同態(tài)加密方案構(gòu) 造支持大數(shù)據(jù)計算環(huán)境的安全多方計算協(xié)議,主要
    挑戰(zhàn)在于如何在多方之間安全地共享和管理密鑰;
  • 支持隱私計算的多方計算協(xié)議:是基于帶門限的全同態(tài)加密所構(gòu)建的,在每次計算階段,所有計算參與方生成秘密密鑰、公共密鑰和評估密鑰等系統(tǒng)參數(shù),并以較低的通信成本進行多方計算和交互;
  • 支持云上實時多方計算的安全協(xié)議:采用了多密鑰參與的全同態(tài)加密滿足大數(shù)據(jù)實時計算的
    要求,在安全計算的過程中,每個計算參與方都有他們自己的長期公私密鑰對;
  • 保護 MapReduce 計算隱私的全同態(tài)加密優(yōu)化方案:解決了當云服務提供商不可信時,密鑰參數(shù)有可能會被惡意敵手獲取,降低協(xié)議的安全性與隱私保證的問題;

雖然全同態(tài)加密具有較高的安全保證,但是其計算成本較高。


4.4 小結(jié)

(1)基于混淆電路的安全多方計算其安全性和復雜性在于設計混淆電路,它能夠在參與方之間互不串通的假設下保證安全計算;
(2)基于秘密共享的安全多方計算能夠更好地擴展到多方,即使大多數(shù)參與方被妥協(xié)或者參與方之間存在合謀時,它仍然能夠執(zhí)行安全計算并有效地保證數(shù)據(jù)的隱私性;
(3)基于同態(tài)加密的安全多方計算的架構(gòu)簡單,其應用到大數(shù)據(jù)計算環(huán)境的實用性依賴底層同態(tài)加密方案的執(zhí)行效率
讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展


五、基于硬件增強的隱私保護

出于隱私性和高效性的權(quán)衡,研究學者提出了基于硬件增強的“加密傳輸,明文計算”思路,即數(shù)據(jù)被加密傳輸?shù)诳尚庞布С窒赂咝У貓?zhí)行明文計算;

  • Intel SGX基于安全硬件的最小可信計算基(Trusted Computing Base, TCB)提供了用戶空間的安全隔離執(zhí)行環(huán)境,同時能夠兼容虛擬化及容器技術;
  • 而AMD硬件虛擬化技術基于可信的特權(quán)軟件提供了操作系統(tǒng)級別的安全隔離執(zhí)行環(huán)境,其安全性依賴特權(quán)軟件的安全性,特別是當特權(quán)軟件被妥協(xié)時其安全性受到威脅;
  • TrustZone 技術通過 CPU 將系統(tǒng)劃分為安全和非安全的兩種隔離執(zhí)行環(huán)境,其主要應用到嵌入式
    平臺;

5.1 基于硬件增強的大數(shù)據(jù)計算框架

  • Intel SGX:通過一組新的指令集擴展和內(nèi)存訪問機制,依靠受信任的硬件來保護用戶級的代碼和數(shù)據(jù)不受潛在的惡意特權(quán)軟件的攻擊。而后又有其他科研人員基于Intel SGX實現(xiàn)了各種其他功能:保護MapReduce分布式計算的安全系統(tǒng)的VC3系統(tǒng)、將Java代碼劃分為可信和不可信的部分并對于可信部分代碼使用 Intel SGX 提供的應用程序接口將其重寫為C/C++代碼,同時采取不經(jīng)意計算保護訪問模式的Opaque系統(tǒng)等;

5.2 基于硬件增強的計算性能優(yōu)化

  • 由于 Intel SGX 需要對受保護的代碼和數(shù)據(jù)提供機密性和完整性保證,因此數(shù)據(jù)加密和完整性驗
    證過程增加了系統(tǒng)性能開銷。在實際應用中,考慮到大數(shù)據(jù)隱私計算的高效性要求,需要對基于硬件增強的大數(shù)據(jù)計算進行性能優(yōu)化;
  • 三種可選的 enclave 安全接口設計方案

讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展

  • 難點:如何合理劃分程序
    ——>Glamdring將應用程序劃分為可信和不可信兩個部分:保護數(shù)據(jù)隱私性基于開發(fā)人員對于敏感數(shù)據(jù)的標記,執(zhí)行靜態(tài)數(shù)據(jù)流分析以檢測所有訪問敏感數(shù)據(jù)的函數(shù);為了保證數(shù)據(jù)完整性,它采用靜態(tài)向后切片來識別可能影響數(shù)據(jù)完整性的函數(shù);
    Drawbridge 沙箱機制提供了粗粒度地隔離執(zhí)行應用程序的安全容器,將應用程序、標準庫以及Windows 庫操作系統(tǒng)都放入 enclave,保護未修改的應用程序抵御外部特權(quán)軟件攻擊或者物理攻擊;
    SCONE則是為多租戶環(huán)境提供了一種安全容器機制,它也能保護未修改應用程序不受外部惡意特權(quán)軟件的攻擊,但是它在enclave 內(nèi)放置修改的 C 標準庫縮小了 TCB 大?。?br> Ryoan保護數(shù)據(jù)所有者的數(shù)據(jù)免受不可信 CSP 或用戶的竊取,即使分布式計算平臺不可信,仍然能夠提供沙箱實例保護機密數(shù)據(jù)的隱私性,保證分布式計算隱私;

讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展
讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展


5.3 小結(jié)

從兩個角度總結(jié)如 何擴展 Intel SGX 應用保證安全且實用:
(1)將受保護的大數(shù)據(jù)應用程序放入 enclave中安全執(zhí)行并非易事,在實際應用中仍面臨著諸多問題。此外,對于復雜的大數(shù)據(jù)應用程序而言,劃分敏感代碼的開發(fā)量一般比較大,并且沒有通用標準界定哪些代碼應該被劃分為敏感的代碼;
(2)在 enclave 中執(zhí)行明文計算可以在一定程度上降低系統(tǒng)開銷。但是目前 IntelSGX 支持的 EPC 內(nèi)存大小受限,當受保護的應用程序規(guī)模比較大時,特別是主流的大數(shù)據(jù)計算框架都支持內(nèi)存密集型計算,enclave 需要頻繁地換出/進頁面以切換上下文,這也帶來了較高的通信開銷;


六、基于訪問模式隱藏的隱私保護

盡管數(shù)據(jù)加密可以很好地隱藏數(shù)據(jù)的機密性,但是不能隱藏一些元數(shù)據(jù),比如訪問模式、數(shù)據(jù)來源和去向等。云平臺內(nèi)部攻擊者可以利用這些元數(shù)據(jù)獲得兩種隱私信息,一種是根據(jù)訪問模式推測出數(shù)據(jù)的相關屬性,而另一種則是是根據(jù)數(shù)據(jù)來源和去向推測數(shù)據(jù)發(fā)送方和接收方的身份;

6.1 基于ORAM的不經(jīng)意計算

  • 現(xiàn)有工作指出 ORAM 協(xié)議具有一個對數(shù)級別的性能下界,因此將其應用在數(shù)據(jù)頻繁訪問的大數(shù)據(jù)計算場景中,它依然面臨著性能較低的瓶頸;
  • 挑戰(zhàn)問題:安全方案設計和性能優(yōu)化,研發(fā)人員指出攻擊者可以從一個拼寫檢查應用程序的機密文檔中提取數(shù)百 KB 的數(shù)據(jù),甚至可以從一個運行在 enclave 內(nèi)部的圖像處理應用程序中提取出可辨別的圖像輪廓。此外,許多代表性的框架都有著性能較低的問題;
  • ObliVM 系統(tǒng):采用 ORAM 技術設計了通用的不經(jīng)意計算平臺,并提供了支持安全計算程序的編程框架。它旨在將程序編譯成適用于安全計算要求的高效且遺忘式表示形式,并提供了一種功能強大且表現(xiàn)力較強的編程語言,以及用戶友好型的隱蔽編程抽象;

通過以上分析,從安全性的角度,ORAM 技術能夠保護讀寫操作的訪問模式,并且具有可解釋性。但是,在主流的大數(shù)據(jù)計算框架下,直接采用ORAM 實現(xiàn)不經(jīng)意計算將會帶來非常高的性能開銷,嚴重地影響大數(shù)據(jù)分析的高效要求。因此,未來急需設計一種優(yōu)化的分布式 ORAM 解決方案


6.2 基于不經(jīng)意混洗的不經(jīng)意計算

  • 學術界提出了在大數(shù)據(jù)計算中采用不經(jīng)意混洗技術來實現(xiàn)不經(jīng)意的分布式計算以達到降低成本的目的;
  • 實現(xiàn)方式:不經(jīng)意排序和級聯(lián)混合網(wǎng)絡,它們試圖產(chǎn)生具有足夠可擴展性和效率的安全隨機排列;
    (1)不經(jīng)意排序:主要以數(shù)據(jù)獨立的方式選擇不可預測的排列并對數(shù)據(jù)進行相應排序,其有效性取決于具體排序算法的復雜度;
    (2)級聯(lián)混合網(wǎng)絡:主要通過執(zhí)行 k 個串級混合步驟實現(xiàn)任意隨機排列,其有效性取決于執(zhí)行混合步驟的輪數(shù);
  • 已有研究基于以上方式在 Intel SGX 可信硬件支持下對訪問的數(shù)據(jù)執(zhí)行不經(jīng)意混洗,既能夠隱藏訪問模式實現(xiàn)不經(jīng)意計算,也能夠保證數(shù)據(jù)和關鍵代碼的隱私性:實現(xiàn)了隱私數(shù)據(jù)分析的不經(jīng)意計算可并行化的墨爾本混洗算法、可以同時防止內(nèi)存層和網(wǎng)絡層的訪問模式泄漏的Opaque 系統(tǒng)以及能 夠防止攻擊者在不可信 CSP 的安全假設下實施網(wǎng)絡層的訪問模式泄露的M2R系統(tǒng)等;

6.3 小結(jié)

兩種實現(xiàn)不經(jīng)意計算的技術對比分析如下 (1)ORAM通過將每一次讀或者寫訪問都隨機地轉(zhuǎn)換為一次讀取和一次寫回操作,使得攻擊者無法區(qū)別數(shù)據(jù)的具體訪問方式,從而隱藏了處理器訪問內(nèi)存的操作序列和地址序列訪問模式。然而,由此帶來的額外操作在實際應用中往往帶來較高的計算開銷,嚴重制約了其實際應用; (2)不經(jīng)意混洗通過對數(shù)據(jù)的重排列使得攻擊者無法關聯(lián)輸入數(shù)據(jù)和輸出數(shù)據(jù)的分布,從而阻止攻擊者判斷計算過程中的訪問模式。在基于 IntelSGX 硬件支持的條件下,采用不經(jīng)意排序或者級聯(lián)混合網(wǎng)絡手段實現(xiàn)不經(jīng)意混洗方法要比 ORAM 高效的多;

總結(jié)

本文對大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展進行了綜述:首先分析了大數(shù)據(jù)計算環(huán)境下的敵手模型、隱私問題與挑戰(zhàn),以及隱私保護的研究方向;接著,根據(jù)隱私保護技術的不同,分別總結(jié)分析了基于數(shù)據(jù)分離的隱私保護、基于數(shù)據(jù)干擾的隱私保護、基于安全多方計算的隱私保護、基于硬件增強的隱私保護、以及基于訪問模式隱藏的隱私保護等研究方向的最新研究進展,并對比分析了不同隱私保護技術的優(yōu)缺點;最后,展望了大數(shù)據(jù)計算環(huán)境下隱私保護技術的未來研究方向;
通過綜合分析可知,不同隱私保護技術具有不同的技術特點、局限性和適用場景。而且由于每個技術其自身的缺點,未來在大數(shù)據(jù)計算環(huán)境下應用這些隱私保護技術,仍然存在很多問題需要亟待解決。文章來源地址http://www.zghlxwxcb.cn/news/detail-434943.html


未來展望

  • 五個問題
    (1)研究低帶寬網(wǎng)絡環(huán)境下的高效數(shù)據(jù)分離保護;
    (2)研究針對復雜數(shù)據(jù)類型的高可用差分隱私保護;
    (3)研究實用型的安全多方計算協(xié)議,進一步提升性能;
    (4)研究安全增強的 Intel SGX 應用,進一步提升性能;
    (5)研究高效的通用訪問模式隱藏結(jié)構(gòu);
  • 未來方向
    (1)適用于大數(shù)據(jù)計算各個環(huán)節(jié)的通用隱私保護方案;
    (2)針對端邊云計算架構(gòu)的可行隱私保護;
    (3)面向多數(shù)據(jù)源協(xié)同訓練的隱私保護框架;

到了這里,關于讀論文:大數(shù)據(jù)計算環(huán)境下的隱私保護技術研究進展的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 邊緣計算的挑戰(zhàn)和機遇——數(shù)據(jù)安全與隱私保護

    邊緣計算面臨著數(shù)據(jù)安全與隱私保護、網(wǎng)絡穩(wěn)定性等挑戰(zhàn),但同時也帶來了更強的實時性和本地處理能力,為企業(yè)降低了成本和壓力,提高了數(shù)據(jù)處理效率。因此,邊緣計算既帶來了挑戰(zhàn)也帶來了機遇,需要我們不斷地研究和創(chuàng)新,以應對日益復雜的應用場景和技術需求。

    2024年01月18日
    瀏覽(21)
  • 數(shù)據(jù)隱私與云計算:保護數(shù)據(jù)安全的最佳實踐

    數(shù)據(jù)隱私和云計算是當今世界最大的挑戰(zhàn)之一。隨著互聯(lián)網(wǎng)和數(shù)字技術的快速發(fā)展,人們生活中的數(shù)據(jù)量日益增加,這些數(shù)據(jù)包括個人信息、商業(yè)秘密、國家機密等等。保護這些數(shù)據(jù)的安全和隱私成為了一個重要的問題。 云計算提供了一種新的方式來存儲和處理這些數(shù)據(jù),但

    2024年04月16日
    瀏覽(32)
  • 云計算的數(shù)據(jù)安全與隱私保護:了解如何實現(xiàn)數(shù)據(jù)安全

    隨著云計算技術的發(fā)展,數(shù)據(jù)在各種應用中的使用也日益增多。云計算為企業(yè)和個人提供了更高效、更便宜的數(shù)據(jù)存儲和處理方式。然而,隨著數(shù)據(jù)的存儲和處理方式的變化,數(shù)據(jù)安全和隱私保護也成為了重要的問題。在這篇文章中,我們將討論云計算的數(shù)據(jù)安全與隱私保護

    2024年04月29日
    瀏覽(24)
  • 邊緣計算中的數(shù)據(jù)安全與隱私保護:挑戰(zhàn)與應對策略

    隨著邊緣計算的快速發(fā)展,數(shù)據(jù)安全與隱私保護問題已經(jīng)成為了一個亟待解決的問題。邊緣計算將數(shù)據(jù)處理和分析的任務從中心化的數(shù)據(jù)中心轉(zhuǎn)移到了設備端,這種分布式計算模式雖然帶來了許多優(yōu)勢,如更快的響應速度、更低的網(wǎng)絡帶寬需求以及更好的隱私保護,但也帶來

    2024年01月21日
    瀏覽(25)
  • 云計算與大數(shù)據(jù)第11章 大數(shù)據(jù)隱私保護習題帶答案

    1、以下(? D? )通常不是導致數(shù)據(jù)隱私泄露問題的來源。 A.? 數(shù)據(jù)被肆意收集?? B. 數(shù)據(jù)集成融合?? C. 大數(shù)據(jù)分析?? D. DDOS攻擊 2、以下(? C? )不是數(shù)據(jù)隱私保護的主要目標。 A.? 機密性?? B. 完整性?? C. 合理性?? D. 可用性 3、發(fā)布數(shù)據(jù)時將隱私數(shù)據(jù)中的顯式標識符刪

    2024年02月13日
    瀏覽(26)
  • 邊緣計算 數(shù)據(jù)安全與隱私保護、網(wǎng)絡穩(wěn)定性的挑戰(zhàn)與方案

    邊緣計算概念: ????????邊緣計算是一種分散計算模型,旨在將數(shù)據(jù)處理、數(shù)據(jù)存儲和應用程序執(zhí)行等計算任務從傳統(tǒng)的云端數(shù)據(jù)中心轉(zhuǎn)移到距離數(shù)據(jù)源更接近的邊緣設備或邊緣節(jié)點,以提供更快速、低延遲和可靠的計算能力。 ????????傳統(tǒng)的云計算模型中,數(shù)據(jù)存儲

    2024年01月22日
    瀏覽(22)
  • 人工智能隱私保護中的跨隱私數(shù)據(jù)保護與跨隱私數(shù)據(jù)治理策略

    作者:禪與計算機程序設計藝術 引言 1.1. 背景介紹 隨著人工智能技術的快速發(fā)展,各種應用場景及業(yè)務需求不斷涌現(xiàn),個人隱私保護問題日益凸顯。在眾多隱私保護技術中,跨隱私數(shù)據(jù)保護與跨隱私數(shù)據(jù)治理策略技術受到越來越多的關注。 1.2. 文章目的 本文旨在闡述跨隱私

    2024年02月09日
    瀏覽(28)
  • 深度丨一文了解隱私計算的前世今生,它真的可以保護我們的隱私嗎?

    深度丨一文了解隱私計算的前世今生,它真的可以保護我們的隱私嗎?

    7月底,一則新聞爆出,Restore Privacy報告稱,海外知名社交軟件推特因安全漏洞被黑客入侵,有超過540萬個賬戶的聯(lián)系方式泄露,泄露的賬戶信息包括推特ID與其關聯(lián)的電話號碼和電子郵件信息,同時,這些信息已在一個黑客論壇上出售,價格為3萬美元(約20.28萬元人民幣)。

    2023年04月10日
    瀏覽(21)
  • 云計算的未來:如何應對網(wǎng)絡安全與隱私保護挑戰(zhàn)

    隨著互聯(lián)網(wǎng)的普及和發(fā)展,云計算技術在各行各業(yè)中得到了廣泛的應用。云計算提供了一種高效、靈活、可擴展的計算資源共享方式,使得企業(yè)和個人可以在需要時輕松獲取計算能力。然而,隨著云計算技術的發(fā)展和應用,網(wǎng)絡安全和隱私保護也成為了重要的挑戰(zhàn)之一。 云計

    2024年04月25日
    瀏覽(23)
  • 保護隱私:5 種隱藏計算機 IP 地址的方法

    IP 地址是您在互聯(lián)網(wǎng)上的名片。每當您訪問網(wǎng)站或使用在線服務時,目的地服務器都會看到它。問題出在哪里?那么,你的 IP 地址足以確定你的位置,甚至你的身份,它可以用來發(fā)動網(wǎng)絡攻擊你的網(wǎng)絡。然而,有辦法留下一個較小的在線線索直接導致你的家庭網(wǎng)絡和身份。在

    2024年02月06日
    瀏覽(10)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包