0、前言
盡管數(shù)據(jù)行業(yè)的新詞熱度,由大數(shù)據(jù)平臺->數(shù)據(jù)治理->數(shù)據(jù)中臺->數(shù)字化轉(zhuǎn)型(現(xiàn)代數(shù)據(jù)技術(shù)棧)轉(zhuǎn)換,做為這些新詞的基礎(chǔ)組成部分,數(shù)據(jù)資產(chǎn)管理平臺/元數(shù)據(jù)管理平臺/數(shù)據(jù)目錄管理平臺等技術(shù)方案,依舊處于Gartner曲線的爬升恢復(fù)期,相關(guān)平臺百花齊放,一統(tǒng)江湖的開源平臺或者商用產(chǎn)品還沒出現(xiàn),在推進(jìn)企業(yè)數(shù)字化轉(zhuǎn)型落地過程中,實現(xiàn)數(shù)據(jù)治理、數(shù)據(jù)資產(chǎn)管理平臺/元數(shù)據(jù)管理平臺/數(shù)據(jù)目錄管理平臺的選型,依舊是一項考驗人能力的活。
一、Atlas
開源地址:https://github.com/apache/atlas
Atlas最早由大數(shù)據(jù)平臺三駕馬車(Cloudera,Hortonworks,MapR)之一HortonWorks公司開發(fā),用來管理Hadoop項目里面的元數(shù)據(jù),進(jìn)而設(shè)計為數(shù)據(jù)治理的框架,它為Hadoop集群提供了包括數(shù)據(jù)分類、集中策略引擎、數(shù)據(jù)血緣、安全和生命周期管理在內(nèi)的元數(shù)據(jù)治理核心能力。
后來開源出來給Apache社區(qū)進(jìn)行孵化,得到Aetna,Merck,Target,SAS,IBM等公司的支持進(jìn)行發(fā)展演進(jìn)。因其支持橫向海量擴(kuò)展、良好的集成能力和開源的特點,國內(nèi)大部分廠家選擇使用Atlas或?qū)ζ溥M(jìn)行二次開發(fā)。目前,Cloudera,Hortonworks已經(jīng)并購,MapR也鮮有新品。
大數(shù)據(jù)技術(shù)領(lǐng)域,相較于Hadoop技術(shù)平臺風(fēng)頭正盛的2016年,已經(jīng)發(fā)生了巨大的變化,Hadoop體系正在逐步淡出舞臺中央。MPP、現(xiàn)代技術(shù)棧、云原生數(shù)據(jù)庫等登上舞臺,例如Clickhouse、Doris、StarRocks、Databend、Materialize、Ringswave。
Atlas的優(yōu)點:
-
大廠開源,深度集成Hadoop生態(tài)中的Hive,支持表級、字段級血緣
-
與HDP原生集成,支持對接Ranger實現(xiàn)行列級數(shù)據(jù)權(quán)限管控,安裝便捷省心
-
強(qiáng)大的元數(shù)據(jù)元模型,支持元數(shù)據(jù)定制及擴(kuò)展
-
源代碼不復(fù)雜,國內(nèi)有大量平臺基于Atlas定制修改為商用產(chǎn)品
Atlas的不足:
-
其優(yōu)勢也是劣勢,母開源公司已被并購,歷史悠久,不再是一種優(yōu)勢,反而是一種負(fù)擔(dān)
-
Hadoop體系已經(jīng)走向衰退,如何只是完美支持Hive和Hadoop體系,已經(jīng)無法滿足現(xiàn)在快速發(fā)展的技術(shù)要求
-
其設(shè)計界面復(fù)雜,體驗老舊、數(shù)據(jù)目錄及數(shù)據(jù)檢索都不夠便捷
-
使用體驗復(fù)雜及產(chǎn)品功能更聚焦于解決技術(shù)人員的問題,而非數(shù)據(jù)的最終用戶,比如業(yè)務(wù)人員
-
生態(tài)漸漸失去新鮮感、新的類似平臺不斷發(fā)展
相關(guān)介紹:https://mp.weixin.qq.com/s/MvaxSF74NE0E43i4rQEb3g
選型建議:
1)如果您只有Hadoop生態(tài),可以試試。
2)如果您的數(shù)據(jù)資產(chǎn)是面向數(shù)據(jù)團(tuán)隊的技術(shù)人員,可以試試。
二、DataHub
開源地址:https://github.com/datahub-project/datahub 7.2K star
DataHub是由Linkedin開源的,官方Slogan:The Metadata Platform for the Modern Data Stack - 為現(xiàn)代數(shù)據(jù)棧而生的元數(shù)據(jù)平臺。目的就是為了解決多種多樣數(shù)據(jù)生態(tài)系統(tǒng)的元數(shù)據(jù)管理問題,它提供元數(shù)據(jù)檢索、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)監(jiān)測和數(shù)據(jù)監(jiān)管能力,幫助大家解決數(shù)據(jù)管理的復(fù)雜性。
DataHub基于Apache License 2開源,采用基于推送的數(shù)據(jù)收集架構(gòu)(當(dāng)然也支持pull拉取的方式),能夠持續(xù)收集變化的元數(shù)據(jù)。當(dāng)前版本已經(jīng)集成了大部分流行數(shù)據(jù)生態(tài)系統(tǒng)接入能力,包括但不限于:Kafka, Airflow, MySQL, SQL Server, Postgres, LDAP, Snowflake, Hive, BigQuery。
Datahub的優(yōu)點:
-
名門開源,與Kafka同家庭。社區(qū)活躍,發(fā)展勢頭迅猛,版本更新迭代迅速。
-
定位清晰且宏遠(yuǎn),Slogan可以看出團(tuán)隊的雄心壯志及后期投入,且不斷迭代更新的版本也應(yīng)證了這一點。
-
底層架構(gòu)靈活先進(jìn),未擴(kuò)展集成而生,支持推送和拉去模式,詳見:https://datahubproject.io/docs/architecture/architecture/
-
UI界面簡單易用,技術(shù)人員及業(yè)務(wù)人員友好
-
接口豐富,功能全面
Datahub的不足:
-
前端界面不支持國際化,界面的構(gòu)建和使用邏輯不夠中國化
-
版更更新迭代快,使用后升級是個難題
-
較多功能在建設(shè)中,例如Hive列級血緣
-
部分功能性能還需要優(yōu)化,例如SQL Profile
-
中文資料不多,中文交流社群也不多
相關(guān)介紹:
https://mp.weixin.qq.com/s/74gK3hTt7-j1lTbKFagbTQ
https://mp.weixin.qq.com/s/iP6sc2DzPaeAKpSWNmf8hQ
選型建議:1)如果有至少半個前端開發(fā)人員+后臺開發(fā)人員;2)如果需要用戶體驗較好的數(shù)據(jù)資產(chǎn)管理平臺;3)如果有需要擴(kuò)展支持各種平臺、系統(tǒng)的元數(shù)據(jù)。請把Datahub列為最高選擇。盡管列舉了一些不足,但是開源產(chǎn)品中Datahub目前是相對最好的選擇。筆者也在生產(chǎn)中使用,有問題的可以隨時溝通交流。
商用版本: Metaphor(https://metaphor.io/)是Datahub的SaaS版本。
三、Marquez
開源地址:https://github.com/MarquezProject/marquez 1.3K star
Marquez的優(yōu)點:
-
界面美觀,操作細(xì)節(jié)設(shè)計比較棒
-
部署簡單,代碼簡潔
-
依靠底層OpenLineage協(xié)議,結(jié)構(gòu)較好
Marquez的不足:
-
聚焦數(shù)據(jù)資產(chǎn)/血緣的可視化,數(shù)據(jù)資產(chǎn)管理的一些功能,需要較多開發(fā)工作
相關(guān)介紹:https://mp.weixin.qq.com/s/OMm6QEk9-1bFdYKuimdxCw
選型建議:1)如果您有功能強(qiáng)大的元數(shù)據(jù)及數(shù)據(jù)資產(chǎn)管理平臺后端,僅需要數(shù)據(jù)資產(chǎn)的可視化及血緣展示,可以考慮使用體驗。2)界面展示比較棒,支持選擇依賴線路高亮及隱藏支線依賴。要做到數(shù)據(jù)資產(chǎn)管理、元數(shù)據(jù)采集有較多的工作要做。
商用版本: Datakin(https://datakin.com/) 是Marquez的SaaS版本. 支持 Apache Hive, Amazon RDS, Teradata, Amazon Redshift, Amazon S3, and Cassandra.
四、Amundsen
開源地址:https://github.com/amundsen-io/amundsen 3.8K star
Amundsen 是來自Lyft 開源的元數(shù)據(jù)管理、數(shù)據(jù)發(fā)現(xiàn)平臺,功能點很全,有一個比較全的前端、后端以及數(shù)據(jù)處理框架
Amundsen的優(yōu)點:
-
Lyft大廠開源,社區(qū)活躍,版本更新較多
-
定位清晰明確,與Datahub類似,致力于成為現(xiàn)代數(shù)據(jù)棧中的數(shù)據(jù)目錄產(chǎn)品
-
支持對接較多的數(shù)據(jù)平臺與工具
Amundsen的不足:
-
中規(guī)中矩的UI界面,操作便捷性不足
-
中文文檔不多
-
血緣、標(biāo)簽、術(shù)語等功能方面不如Datahub使用便捷
-
較多支持友好的組件,國內(nèi)使用的不多
相關(guān)介紹:?
https://mp.weixin.qq.com/s/yGZ1RJs2seu943sswxYYzw
https://mp.weixin.qq.com/s/5w6euvUWzm5RWXgisB-rMg
https://mp.weixin.qq.com/s/iVocnMV8zuQN-jcID83nSg
選型建議:
1)如果有人折騰,建議選擇Datahub,如果沒人折騰,選擇Amundsen夠折騰
商用版本: Stemma(https://www.stemma.ai/)是Amundsen的SaaS 版本。
五、Open Data Discovery
?開源地址:https://github.com/opendatadiscovery/odd-platform (692 star)
Open Data Discover是一個開源的數(shù)據(jù)發(fā)現(xiàn)和可觀測性平臺。它旨在通過使數(shù)據(jù)更易于發(fā)現(xiàn)、管理、可觀察、可靠和安全,幫助數(shù)據(jù)驅(qū)動企業(yè)實現(xiàn)數(shù)據(jù)民主化。由于ODD支持開放數(shù)據(jù)標(biāo)準(zhǔn),因此數(shù)據(jù)團(tuán)隊能夠在各種數(shù)據(jù)工具之間進(jìn)行更高效的數(shù)據(jù)交換。
說實在,平臺的UI確實非常漂亮。它的攝取是基于規(guī)范的。但是,該平臺正在開發(fā)中,因此一些功能仍在開發(fā)中。
Open Data Discovery的優(yōu)點:
-
提供在線體驗Demo環(huán)境,有助于推廣拉新
-
UI界面美觀漂亮,界面操作邏輯符合國人使用習(xí)慣
-
項目年輕,能夠在已有的眾多數(shù)據(jù)資產(chǎn)項目中吸取經(jīng)驗
-
集成了數(shù)據(jù)質(zhì)量模塊
-
Datahub有的一些優(yōu)秀功能都做了規(guī)劃
-
支持開放數(shù)據(jù)標(biāo)準(zhǔn),感覺也沒啥用,國內(nèi)玩不轉(zhuǎn)
-
提供了調(diào)度工作流告警接口
-
基于數(shù)據(jù)可觀測的新理念設(shè)計
-
ML是第一等公民,這個是對賭未來的AI發(fā)展預(yù)期
Open Data Discovery的不足:
-
項目處于起步階段,社區(qū)還不太活躍
-
與Datahub大量功能重疊
-
中文資料少的可憐
-
產(chǎn)品的定位?
相關(guān)介紹:https://demo.oddp.io/ 百聞不如一見,百見不如一干。
選型建議:項目處于早期,國內(nèi)生態(tài)還未起來。有嘗新意識和樂于折騰精神的人,可以去跟蹤、研究。生產(chǎn)環(huán)境搭建使用,需要做好前、后端問題,都去深挖源碼的準(zhǔn)備。
六、Open Metadata
?
開源地址:https://github.com/open-metadata/OpenMetadata?(1.9K star)
OpenMetadata是元數(shù)據(jù)的開放標(biāo)準(zhǔn),為端到端元數(shù)據(jù)管理解決方案提供了基礎(chǔ)能力。提供數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)治理、數(shù)據(jù)協(xié)同、數(shù)據(jù)質(zhì)量和可觀測性的所有必要組件。
與Open Data Discover類似,其UI非常美觀,其操作和使用邏輯,也符合業(yè)務(wù)人員的習(xí)慣。
Open Metadata的優(yōu)點:
-
提供在線體驗Demo環(huán)境,有助于推廣拉新
-
UI界面美觀漂亮,界面操作邏輯符合國人使用習(xí)慣
-
項目年輕,能夠在已有的眾多數(shù)據(jù)資產(chǎn)項目中吸取經(jīng)驗
-
集成了數(shù)據(jù)質(zhì)量模塊
-
支持開放數(shù)據(jù)標(biāo)準(zhǔn),感覺也沒啥用,國內(nèi)玩不轉(zhuǎn)
-
基于數(shù)據(jù)可觀測的新理念設(shè)計
Open Metadata的不足:
-
項目處于起步階段,國人參與不多
-
與Open Data Discovery的區(qū)分度不是特別大
-
產(chǎn)品還在快速開發(fā)中
-
中文資料少的可憐
相關(guān)介紹:https://sandbox.open-metadata.org/ 百聞不如一見,百見不如一干。
選型建議:項目處于早期,國內(nèi)生態(tài)還未起來。有嘗新意識和樂于折騰精神的人,可以去跟蹤、研究。生產(chǎn)環(huán)境搭建使用,需要做好前、后端問題,都去深挖源碼的準(zhǔn)備。
商用版本:collate(https://www.getcollate.io/)是Open Metadata的SaaS版本。
七、Magda
?開源地址:https://github.com/magda-io/magda (408 star)
Magda是一個數(shù)據(jù)目錄系統(tǒng),提供數(shù)據(jù)編目、增強(qiáng)、搜索、跟蹤和排序等功能。支持內(nèi)部、外部數(shù)據(jù)源,支持大數(shù)據(jù)及小數(shù)據(jù)處理,支持通過文件、數(shù)據(jù)庫或API的方式對外提供數(shù)據(jù)資產(chǎn)服務(wù)。
目標(biāo)用戶:數(shù)據(jù)技術(shù)人員,例如數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師。
價值目標(biāo):為數(shù)據(jù)技術(shù)人員,提供歷史數(shù)據(jù)版本管理、重復(fù)數(shù)據(jù)檢測等輔助功能,提高數(shù)據(jù)查詢、管理的效率及質(zhì)量。
Magda的優(yōu)點:
-
輕量、簡單的數(shù)據(jù)目錄管理平臺
-
支持?jǐn)?shù)據(jù)預(yù)覽
-
功能聚焦,獨立部署
-
界面樸素簡潔
-
支持地圖數(shù)據(jù)
Magda的不足:
-
功能單一,與下面的CKAN一樣,定位于數(shù)據(jù)編目,數(shù)據(jù)展示及共享
-
海量數(shù)據(jù)傳輸,性能有問題
-
不支持現(xiàn)代大數(shù)據(jù)同步、集成
-
功能相對單一
相關(guān)介紹:https://demo.dev.magda.io/ 百聞不如一見,百見不如一試。
選型建議:現(xiàn)在的數(shù)據(jù)中臺、數(shù)據(jù)資產(chǎn)平臺都會包含類似的數(shù)據(jù)門戶,Magda的功能會被集成,企業(yè)基本上比較少的場景會單獨使用。
八、CKAN
?開源地址:https://github.com/ckan/ckan (3.7K star)
CKAN是世界領(lǐng)先的開源數(shù)據(jù)門戶平臺,用于制作開放數(shù)據(jù)網(wǎng)站的工具。CKAN使發(fā)布、共享和處理數(shù)據(jù)變得容易。這是一個數(shù)據(jù)管理系統(tǒng),它為編目、存儲和訪問數(shù)據(jù)集提供了強(qiáng)大的平臺,具有豐富的前端、完整的API(用于數(shù)據(jù)和目錄)、可視化工具等。
上面的描述,是直接百度翻譯CKAN github主頁的描述。用大白話說,CKAN就是一個工具,可以幫助您把個人或者企業(yè)的數(shù)據(jù)集通過網(wǎng)站的方式展示出去。其他人可以瀏覽、檢索、預(yù)覽、編目、下載。CKAN非常適合國家、地方政府、研究機(jī)構(gòu)、學(xué)校和其他組織用于開放數(shù)據(jù)。
CKAN的優(yōu)點:
-
Python主要開發(fā)語言,上手入門似乎不是問題哈
-
歷史悠久,有大量的政府、研究組織用來開放公開數(shù)據(jù)
-
使用簡單、獨立部署
-
功能聚焦,中小規(guī)模數(shù)據(jù)編目、開發(fā)、預(yù)覽及下載
CKAN的不足:
-
聚焦于數(shù)據(jù)門戶,即編目組織數(shù)據(jù)、提供數(shù)據(jù)預(yù)覽及下載。
-
海量數(shù)據(jù)傳輸,性能有問題
-
不支持現(xiàn)代大數(shù)據(jù)同步、集成
-
功能相對單一
相關(guān)介紹:https://blog.csdn.net/iCloudEnd/article/details/125676123
選型建議:現(xiàn)在的數(shù)據(jù)中臺、數(shù)據(jù)資產(chǎn)平臺都會包含類似的數(shù)據(jù)門戶,CKAN的功能會被集成,企業(yè)基本上比較少的場景會單獨使用。政府、學(xué)校等機(jī)構(gòu)有不少應(yīng)用場景。
總結(jié)
數(shù)據(jù)治理、數(shù)據(jù)資產(chǎn)管理等工作,是企業(yè)數(shù)字化轉(zhuǎn)型中的底層基建,很重要,卻又很難體現(xiàn)出效果和價值。上層數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)架構(gòu)、數(shù)據(jù)流程、數(shù)據(jù)規(guī)范等問題,在組織層面沒有解決;不論數(shù)據(jù)資產(chǎn)平臺等工作規(guī)劃和實現(xiàn)得如何好,都只能體現(xiàn)出杯水車薪的效果。
參考資料:
1.wx公眾號(大數(shù)據(jù)流動)-《12款開源數(shù)據(jù)資產(chǎn)(元數(shù)據(jù))管理平臺選型分析(一)》文章來源:http://www.zghlxwxcb.cn/news/detail-821932.html
2.wx公眾號(大數(shù)據(jù)與數(shù)字化轉(zhuǎn)型)-《12款開源數(shù)據(jù)資產(chǎn)(元數(shù)據(jù))管理平臺選型分析(二)》文章來源地址http://www.zghlxwxcb.cn/news/detail-821932.html
到了這里,關(guān)于開源數(shù)據(jù)資產(chǎn)(元數(shù)據(jù))管理平臺選型對比的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!