導(dǎo)讀:本次分享題目為字節(jié)跳動(dòng)大數(shù)據(jù)平臺(tái)安全與權(quán)限治理實(shí)踐,文章會(huì)圍繞下面四點(diǎn)展開:
字節(jié)大數(shù)據(jù)安全體系現(xiàn)狀和難點(diǎn)
細(xì)粒度權(quán)限管控和治理
資產(chǎn)保護(hù)能力
數(shù)據(jù)刪除能力
分享嘉賓|許從余 火山引擎 數(shù)據(jù)平臺(tái)產(chǎn)品經(jīng)理
編輯整理|楊佳慧
出品社區(qū)|DataFun
01字節(jié)大數(shù)據(jù)安全體系現(xiàn)狀和難點(diǎn)
第一部分首先分享字節(jié)跳動(dòng)大數(shù)據(jù)平臺(tái)安全與權(quán)限治理平臺(tái)的完整體系以及目前的現(xiàn)狀和面臨的難點(diǎn)。
1. 字節(jié)跳動(dòng)大數(shù)據(jù)安全產(chǎn)品體系

數(shù)據(jù)分類分級(jí):根據(jù)字節(jié)內(nèi)部數(shù)據(jù)既定的分類分級(jí)標(biāo)準(zhǔn)進(jìn)行管理,并形成自動(dòng)識(shí)別及確認(rèn)落標(biāo)的完整閉環(huán)。
權(quán)限管理:涵蓋了從申請(qǐng)數(shù)據(jù)使用授權(quán)到庫(kù)表行列權(quán)限的管控,其中包括數(shù)據(jù)擁有權(quán)限、數(shù)據(jù)權(quán)限有效期、數(shù)據(jù)權(quán)限主動(dòng)交還以及冗余權(quán)限回收治理等。
風(fēng)控審計(jì):主要包括 6 部分其中可根據(jù)對(duì)象不同分為用戶風(fēng)控審計(jì)和數(shù)據(jù)風(fēng)控審計(jì)。風(fēng)控審計(jì)能夠主動(dòng)識(shí)別用戶是否為風(fēng)險(xiǎn)用戶、用戶行為的定級(jí)、用戶高危行為識(shí)別以及人員異動(dòng)監(jiān)控識(shí)別等,比如人員轉(zhuǎn)崗和離職時(shí)對(duì)數(shù)據(jù)的處置。數(shù)據(jù)審計(jì):數(shù)據(jù)審計(jì)主要分為三部分,數(shù)據(jù)的訪問行為審計(jì)、數(shù)據(jù)授權(quán)的審計(jì)以及聚焦于數(shù)據(jù)安全產(chǎn)品本身可操作行為的審計(jì)。
資產(chǎn)保護(hù):主要包含三部分,數(shù)據(jù)加密存儲(chǔ)、數(shù)據(jù)解密使用以及數(shù)據(jù)脫敏。
數(shù)據(jù)銷毀:作為全數(shù)據(jù)生命周期最終階段,也是字節(jié)跳動(dòng)大數(shù)據(jù)平臺(tái)的最后一部分。由于數(shù)據(jù)刪除所對(duì)應(yīng)法律法規(guī)的要求,字節(jié)內(nèi)部應(yīng)合規(guī)管控衍生出處理數(shù)據(jù)刪除的專項(xiàng)產(chǎn)品從而使數(shù)據(jù)刪除工作滿足法律法規(guī)的要求。
2. 治理原則:保證合規(guī)兼顧效率

(1)數(shù)據(jù)安全治理的壓力=外部壓力+內(nèi)部壓力
外部壓力:數(shù)據(jù)安全外部壓力主要來自于安全合規(guī)的風(fēng)險(xiǎn)壓力。數(shù)據(jù)作為業(yè)務(wù)的驅(qū)動(dòng)力如果不能夠在使用時(shí)提供足夠的靈活篩選、保留和刪除等操作就會(huì)使業(yè)務(wù)處于巨大的風(fēng)險(xiǎn)境地。
內(nèi)部壓力:數(shù)據(jù)作為內(nèi)部核心業(yè)務(wù)流轉(zhuǎn)的血液,提供首要數(shù)據(jù)效率作用的同時(shí)要兼顧外部剛性的要求和合規(guī)機(jī)制。
(2)數(shù)據(jù)治理原則=保證合規(guī)+兼顧效率
根據(jù)數(shù)據(jù)安全治理內(nèi)外部壓力的分布,其實(shí)可以清晰的得知數(shù)據(jù)治理原則會(huì)主要圍繞著《保證合規(guī)、兼顧效率》這八個(gè)字展開。
那如何能夠保證合規(guī)的同時(shí)兼顧效率實(shí)現(xiàn)和諧共處,以下部分會(huì)從字節(jié)跳動(dòng)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)權(quán)限模型的升級(jí):權(quán)限模型三大特性和原子層級(jí)的權(quán)限管控和治理來討論。
02細(xì)粒度權(quán)限管控和治理
1. 列級(jí)權(quán)限控制
情況一:數(shù)據(jù)權(quán)限管理升級(jí)新特性,權(quán)限申請(qǐng)可以按照數(shù)據(jù)列來提交,同時(shí)也體現(xiàn)了字節(jié)大數(shù)據(jù)平臺(tái)升級(jí)后的最小化數(shù)據(jù)維度為列。

2. 表/列權(quán)限附帶行限制
情況一:行數(shù)據(jù)最小原則,表權(quán)限+行限制
用戶在擁有訪問表權(quán)限的同時(shí)對(duì)行進(jìn)行數(shù)據(jù)權(quán)限的限制。例如E部分?jǐn)?shù)據(jù)限制的情況為擁有表權(quán)限的同時(shí)附帶行限制,此部分限制為性別為男且國(guó)家為美國(guó)和加拿大。

情況二:行數(shù)據(jù)最小原則,列權(quán)限+行限制
用戶在擁有訪問敏感列權(quán)限和 Country、Age 列權(quán)限的同時(shí)對(duì)行進(jìn)行數(shù)據(jù)權(quán)限的限制。例如F部分,此部分?jǐn)?shù)據(jù)限制為敏感列權(quán)限和 Country、Age 列且行限制為國(guó)家,且國(guó)家必須為英國(guó)和美國(guó)。

3. 敏感表/列單獨(dú)管控
情況一:用戶權(quán)限為可訪問全數(shù)據(jù)庫(kù)
此時(shí)用戶能夠訪問到除敏感列(敏感列權(quán)限是獨(dú)立單獨(dú)管控的)之外的所有列,即 A 區(qū)域內(nèi)的數(shù)據(jù)部分。

情況二:用戶權(quán)限為可訪問數(shù)據(jù)表
此時(shí)用戶能夠訪問的數(shù)據(jù)權(quán)限與情況一一致,可以訪問到除敏感列(敏感列權(quán)限是獨(dú)立單獨(dú)管控的)之外的所有列,即B區(qū)域內(nèi)的數(shù)據(jù)部分。

情況三:用戶權(quán)限為訪問數(shù)據(jù)表權(quán)限+訪問 Race(敏感列)權(quán)限
此時(shí)用戶擁有訪問數(shù)據(jù)表和訪問敏感列的權(quán)限此時(shí)用戶能夠訪問到完整的數(shù)據(jù),即 C 區(qū)域內(nèi)的數(shù)據(jù)部分。

4. 靈活的權(quán)限授權(quán)機(jī)制
授權(quán)機(jī)制主要分為兩部分:數(shù)據(jù)資源和授權(quán)主體
數(shù)據(jù)資源可以將數(shù)據(jù)庫(kù)表和行列的權(quán)限進(jìn)行打包形成資源包,資源包可以通過授權(quán)賬號(hào)進(jìn)行權(quán)限的統(tǒng)一管理。
授權(quán)主體對(duì)象可以使個(gè)人、具體的部門、應(yīng)用賬號(hào)或是用戶組。
個(gè)人授權(quán):部門內(nèi)的所有員工都擁有數(shù)據(jù)權(quán)限;應(yīng)用賬戶:將賬號(hào)進(jìn)行授權(quán)從而對(duì)外提供數(shù)據(jù)服務(wù);用戶組:將個(gè)人或部門生成新的用戶組,以用戶組為單位統(tǒng)一管理此部分用戶的數(shù)據(jù)權(quán)限。
數(shù)據(jù)資源與授權(quán)主體可以進(jìn)行自定義組合形成靈活且互斥留痕的權(quán)限審批流,在此基礎(chǔ)上可以通過智能風(fēng)險(xiǎn)判斷輔助從而達(dá)成自動(dòng)審批。
在自動(dòng)審批流中可增加審批節(jié)點(diǎn),增加的審批節(jié)點(diǎn)可以自定義附帶觸發(fā)審批的條件。
5. 智能審批

智能審批模型主要包括三個(gè)子模型,通過子模型綜合識(shí)別判斷所提交數(shù)據(jù)工單的風(fēng)險(xiǎn)。
人員風(fēng)險(xiǎn)模型
資源風(fēng)險(xiǎn)模型
人員資源關(guān)聯(lián)模型
風(fēng)險(xiǎn)等級(jí)分為高中低三種,每一個(gè)風(fēng)險(xiǎn)等級(jí)都會(huì)產(chǎn)出相應(yīng)的風(fēng)險(xiǎn)標(biāo)簽。低風(fēng)險(xiǎn)等級(jí)的工單會(huì)自動(dòng)審批。高風(fēng)險(xiǎn)等級(jí)的工單會(huì)進(jìn)行數(shù)據(jù)攔截流轉(zhuǎn)至人工審批并輸出數(shù)據(jù)風(fēng)險(xiǎn)標(biāo)簽。通過一年的打磨,智能審批模型取得了令人驕傲的成效。
低風(fēng)險(xiǎn)工單節(jié)省審批時(shí)長(zhǎng)十萬小時(shí)。
高風(fēng)險(xiǎn)工單的駁回率相較于其他人工審批工單高7%。
6. 冗余權(quán)限治理回收

數(shù)據(jù)權(quán)限的使用應(yīng)滿足時(shí)間最小化原則
冗余權(quán)限的治理原則建立在數(shù)據(jù)權(quán)限時(shí)間最小化原則,數(shù)據(jù)權(quán)限的有效期取決于具體的業(yè)務(wù)周期。
冗余權(quán)限的判斷
冗余權(quán)限的判斷由訪問日志和鑒權(quán)日志雙重界定。雙重界定的原因主要源于兩種不同的使用場(chǎng)景。
第一種情況:系統(tǒng)為雙鑒權(quán)機(jī)制,包括用戶鑒權(quán)和賬戶鑒權(quán),系統(tǒng)識(shí)別機(jī)制為賬戶權(quán)限,實(shí)際訪問日志也為賬戶權(quán)限。此情況下需通過鑒權(quán)日志匹配出賬戶的權(quán)限。
第二種情況:豁免權(quán)限的開放使部分用戶無需鑒權(quán)即可訪問數(shù)據(jù)。此情況下只能通過訪問日志來確定賬戶的權(quán)限。
白名單:白名單為賬戶和權(quán)限資源的組合,在白名單中的資源不會(huì)被判斷為冗余且可長(zhǎng)期保留。
03資產(chǎn)保護(hù)能力
1. 資產(chǎn)保護(hù)應(yīng)用場(chǎng)景

資產(chǎn)保護(hù)場(chǎng)景貫穿數(shù)據(jù)從在線數(shù)據(jù)的落庫(kù)到使用整個(gè)生命周期。
數(shù)據(jù)集成過程中會(huì)將數(shù)據(jù)進(jìn)行靜態(tài)脫敏或加密存儲(chǔ),而數(shù)據(jù)的實(shí)際使用中會(huì)通過按需加解密或脫敏的 API 網(wǎng)關(guān)的形式進(jìn)行對(duì)外數(shù)據(jù)服務(wù)的提供。員工訪問數(shù)據(jù)時(shí)會(huì)識(shí)別其是否有解密權(quán)限進(jìn)行鑒權(quán)識(shí)別處理。
2. 加密方案介紹

大數(shù)據(jù)平臺(tái)加密方案主要分為四種:數(shù)據(jù)內(nèi)容加密、文件格式透明加密、HDFS加密以及磁盤加密。
由于加密會(huì)使數(shù)據(jù)鏈路變變長(zhǎng)數(shù)據(jù)量變大,同時(shí)使用數(shù)據(jù)的用戶增多因此數(shù)據(jù)平臺(tái)應(yīng)滿足高數(shù)據(jù)一致性,高數(shù)據(jù)可用性,高效率的數(shù)據(jù)重寫以及密文需要具備可識(shí)別性。同樣基于以上原因數(shù)據(jù)平臺(tái)一般使用數(shù)據(jù)內(nèi)容加密和文件格式加密兩種方案。
04數(shù)據(jù)刪除能力

1. 數(shù)據(jù)刪除應(yīng)用場(chǎng)景
數(shù)據(jù)刪除主要目的為響應(yīng)隱私合規(guī)政策,需要在規(guī)定的時(shí)間期限內(nèi)將用戶某些個(gè)人信息刪除。刪除操作包括滾動(dòng)刪除和賬戶刪除。一般情況下賬戶刪除的觸發(fā)方為用戶主動(dòng)刪除,滾動(dòng)刪除會(huì)將數(shù)據(jù)分門別類進(jìn)行時(shí)間期限的判斷后進(jìn)行刪除操作。
2. 大數(shù)據(jù)刪除技術(shù)面臨的挑戰(zhàn)
大數(shù)據(jù)刪除相較于在線數(shù)據(jù)刪除會(huì)面臨以下幾點(diǎn)挑戰(zhàn):
第一:傳統(tǒng) HDFS 數(shù)據(jù)刪除采取覆寫文件的方式,會(huì)對(duì)系統(tǒng)I/O消耗造成負(fù)擔(dān);
第二:HDFS 的存儲(chǔ)方式為列存儲(chǔ),但用戶數(shù)據(jù)是以行為單位,會(huì)造成數(shù)據(jù)刪除效率較低;
第三:離線數(shù)據(jù)量較大,在海量數(shù)據(jù)中進(jìn)行刪除會(huì)對(duì)磁盤 IO、網(wǎng)絡(luò)吞吐、計(jì)算資源和 ETL 任務(wù)調(diào)度造成極大的挑戰(zhàn);
第四:刪除服務(wù)無法單獨(dú)資源隔離,在資源使用高峰期時(shí)就會(huì)造成資源搶占的問題;
第五:由于刪除服務(wù)需重寫文件,當(dāng)讀取數(shù)據(jù)任務(wù)和刪除任務(wù)同時(shí)被調(diào)度執(zhí)行時(shí)會(huì)出現(xiàn) ETL 任務(wù)臟讀、幻讀或不可讀的問題。
3. 性能提升和調(diào)度系統(tǒng)的優(yōu)化
針對(duì)以上挑戰(zhàn),對(duì)數(shù)據(jù)刪除性能包括任務(wù)調(diào)度和系統(tǒng)上做了一定程度的優(yōu)化。
性能提升:降低覆寫總量。對(duì) HDFS 進(jìn)行改造自主研發(fā) Bytelake,其原理為將數(shù)據(jù)存儲(chǔ)格式拆分為用戶數(shù)據(jù)和非用戶數(shù)據(jù)的分部存儲(chǔ),那么在刪除過程中只將用戶數(shù)據(jù)進(jìn)行刪除即可,Bytelake 可將刪除速度提升 15 倍。
調(diào)度系統(tǒng)能力:自研數(shù)據(jù)刪除平臺(tái)支持字節(jié)內(nèi)部百萬量級(jí)的數(shù)據(jù)任務(wù)的調(diào)度,解決了海量 ETL 任務(wù)的并發(fā)問題;支持錯(cuò)峰調(diào)度,大大降低了刪除服務(wù)對(duì)線上任務(wù)造成的影響。
計(jì)算能力:利用調(diào)度能力強(qiáng)制使用 Spark 的微批處理模式,優(yōu)化了 Join 算子的物理執(zhí)行計(jì)劃,節(jié)省了 Shuffle 的過程消耗,提升了 50%+ 的計(jì)算速度,緩解了磁 盤IO、網(wǎng)絡(luò)吞吐的性能問題。
存儲(chǔ)能力:提高 HDFS 的穩(wěn)定性;通過刪除場(chǎng)景自動(dòng)捕捉存儲(chǔ)瓶頸,提前擴(kuò)增 HDFS NameNode 節(jié)點(diǎn)從而保證刪除服務(wù)和業(yè)務(wù)的穩(wěn)定運(yùn)行。
數(shù)據(jù)庫(kù)能力:推動(dòng)了 ByteLake 支持 ACID 和 MVCC 特性,ACID 保障數(shù)據(jù)可見一致性,解決了臟讀、幻讀的問題,MVCC 保障了在讀數(shù)據(jù)不丟失、可訪問,解決了不可讀問題。
以上介紹的大數(shù)據(jù)平臺(tái)安全與權(quán)限管理是數(shù)據(jù)治理的重要組成部分,主要在字節(jié)跳動(dòng)內(nèi)部應(yīng)用。
目前,字節(jié)跳動(dòng)也將沉淀的數(shù)據(jù)治理經(jīng)驗(yàn),通過火山引擎大數(shù)據(jù)研發(fā)治理套件 DataLeap 對(duì)外提供服務(wù)。作為一站式數(shù)據(jù)中臺(tái)套件,DataLeap 匯集了字節(jié)內(nèi)部多年積累的數(shù)據(jù)集成、開發(fā)、運(yùn)維、治理、資產(chǎn)、安全等全套數(shù)據(jù)中臺(tái)建設(shè)的經(jīng)驗(yàn),助力 ToB 市場(chǎng)客戶提升數(shù)據(jù)研發(fā)治理效率、降低管理成本,歡迎大家點(diǎn)擊“閱讀原文”來體驗(yàn)。
05問答環(huán)節(jié)
Q1:如何定義資源包,資源包會(huì)包含行列權(quán)限嗎?
A1:資源包可以將特定的庫(kù)表行列以及對(duì)應(yīng)的讀寫權(quán)限打包成資源。資源包中會(huì)包含行列權(quán)限且會(huì)將其授權(quán)給用戶。
Q2:如何計(jì)算治理前后權(quán)限冗余的提升比例?
A2:以單人來舉例,一個(gè)用戶在治理前擁有 100 個(gè)權(quán)限,其中 50 個(gè)長(zhǎng)期不訪問,那么他的權(quán)限冗余占比為50%,通過治理回收了長(zhǎng)期不訪問的 50 個(gè)權(quán)限中的 40 個(gè),那么治理后的權(quán)限冗余占比為 10/60=16.67%。
Q3:冗余權(quán)限的回收是否會(huì)產(chǎn)生數(shù)據(jù)應(yīng)用風(fēng)險(xiǎn)?文章來源:http://www.zghlxwxcb.cn/news/detail-705294.html
A3:答案是否定的。第一,正常情況下數(shù)據(jù)應(yīng)用是經(jīng)常性的,并且數(shù)據(jù)權(quán)限是全鑒權(quán)機(jī)制,若在用戶數(shù)據(jù)同時(shí)出現(xiàn)在雙日志中此部分?jǐn)?shù)據(jù)權(quán)限不會(huì)被判定為冗余權(quán)限也不用影響到數(shù)據(jù)的應(yīng)用。其次補(bǔ)充介紹一下權(quán)限回收除了冗余權(quán)限回收機(jī)制外,負(fù)責(zé)人可進(jìn)行權(quán)限主動(dòng)回收。在主動(dòng)回收過程中會(huì)二次提醒,提醒內(nèi)容為該權(quán)限目前應(yīng)用在某些數(shù)據(jù)任務(wù)中以便負(fù)責(zé)人知曉。文章來源地址http://www.zghlxwxcb.cn/news/detail-705294.html
原文: https://mp.weixin.qq.com/s/qzAS7vVn9YIbKcneOC1olA
如有侵權(quán)請(qǐng)聯(lián)系刪除
到了這里,關(guān)于信息安全-數(shù)據(jù)安全-字節(jié)大數(shù)據(jù)平臺(tái)安全與權(quán)限治理實(shí)踐的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!