一、AllData數(shù)字化方案數(shù)據(jù)治理平臺(tái)
AllData科學(xué)護(hù)城河:一種在數(shù)據(jù)驅(qū)動(dòng)的科學(xué)和研究領(lǐng)域中,
保護(hù)和維護(hù)數(shù)據(jù)的競(jìng)爭(zhēng)優(yōu)勢(shì)和獨(dú)特性的解決方案。
AllData通過匯聚大數(shù)據(jù)與AI領(lǐng)域生態(tài)組件,提供自定義化數(shù)據(jù)中臺(tái)。
包括大數(shù)據(jù)生態(tài)方案,人工智能生態(tài)方案,
大數(shù)據(jù)組件運(yùn)維方案,大數(shù)據(jù)開發(fā)治理方案,
機(jī)器學(xué)習(xí)方案,大數(shù)據(jù)SQL開發(fā)ChatGPT方案,
數(shù)據(jù)集成方案,湖倉(cāng)分析方案。文章來源地址http://www.zghlxwxcb.cn/news/detail-431748.html
數(shù)據(jù)平臺(tái)的數(shù)據(jù)治理:數(shù)據(jù)治理是一個(gè)大而全的治理體系。
需要數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)管理、主數(shù)據(jù)管理、模型管理管理、數(shù)據(jù)價(jià)值管理、
數(shù)據(jù)共享管理和數(shù)據(jù)安全管理等等模塊是一個(gè)活的有機(jī)體。
1、數(shù)據(jù)質(zhì)量: 依托Griffin平臺(tái),為您提供全鏈路的數(shù)據(jù)質(zhì)量方案,
包括數(shù)據(jù)探查、對(duì)比、質(zhì)量監(jiān)控、SQL掃描和智能報(bào)警等功能:
開源方案: Apache Griffin + ES + SparkSql
2、元數(shù)據(jù): 描述數(shù)據(jù)的數(shù)據(jù),對(duì)數(shù)據(jù)及信息資源的描述性信息,
例如字段元數(shù)據(jù)描述字段的類型、長(zhǎng)度、默認(rèn)值。
發(fā)布:指將某一元數(shù)據(jù)發(fā)布為數(shù)據(jù)資產(chǎn)的動(dòng)作。
數(shù)據(jù)資產(chǎn)是指可以對(duì)外提供服務(wù)并且產(chǎn)生價(jià)值的數(shù)據(jù)。
表/字段血緣:即表/字段的來龍去脈,
主要包含表/字段的來源、加工方式、映射關(guān)系及數(shù)據(jù)出口。
血緣是元數(shù)據(jù)的一部分,有利于數(shù)據(jù)變更影響分析以及數(shù)據(jù)問題排查。
開源方案: Apache Atlas + ES + Hbase + JanusGraph + Hive + Kafka
3、數(shù)據(jù)標(biāo)準(zhǔn): 參考阿里的DataWorks,
數(shù)據(jù)標(biāo)準(zhǔn)是用于描述公司層面需共同遵守的數(shù)據(jù)含義和業(yè)務(wù)規(guī)則,
它描述了公司層面對(duì)某個(gè)數(shù)據(jù)的共同理解,
這些理解一旦確定下來,就應(yīng)作為企業(yè)層面的標(biāo)準(zhǔn)在企業(yè)內(nèi)被共同遵守。
數(shù)據(jù)標(biāo)準(zhǔn),也稱數(shù)據(jù)元,由一組屬性規(guī)定其定義、標(biāo)識(shí)、表示和允許值的數(shù)據(jù)單元,
是不可再分的最小數(shù)據(jù)單元。您可以將數(shù)據(jù)標(biāo)準(zhǔn)關(guān)聯(lián)到各個(gè)業(yè)務(wù)上的數(shù)據(jù)庫(kù)中。
其中,標(biāo)識(shí)符、數(shù)據(jù)類型、表示格式、值域是數(shù)據(jù)交換的基礎(chǔ),
它們用于描述表的字段元信息,規(guī)范字段所存儲(chǔ)的數(shù)據(jù)信息。
暫無事實(shí)性標(biāo)準(zhǔn)的開源方案:Mysql + SpringBoot
4、數(shù)據(jù)服務(wù):參考阿里的DataWorks,
數(shù)據(jù)服務(wù)旨在為企業(yè)搭建統(tǒng)一的數(shù)據(jù)服務(wù)總線,幫助企業(yè)統(tǒng)一管理對(duì)內(nèi)對(duì)外的API服務(wù)。
數(shù)據(jù)服務(wù)為您提供快速將數(shù)據(jù)表生成API的能力,
同時(shí)支持您快速注冊(cè)現(xiàn)有的API至數(shù)據(jù)服務(wù)平臺(tái),進(jìn)行統(tǒng)一的管理和發(fā)布。
數(shù)據(jù)服務(wù)已經(jīng)與API網(wǎng)關(guān)(API Gateway)連通,支持一鍵發(fā)布API服務(wù)至API網(wǎng)關(guān)。
數(shù)據(jù)服務(wù)與API網(wǎng)關(guān)為您提供了安全穩(wěn)定、低成本、易上手的數(shù)據(jù)開放共享服務(wù)。
數(shù)據(jù)服務(wù)采用Serverless架構(gòu),
您只需要關(guān)注API本身的查詢邏輯,無需關(guān)心運(yùn)行環(huán)境等基礎(chǔ)設(shè)施,
數(shù)據(jù)服務(wù)會(huì)為您準(zhǔn)備好計(jì)算資源,并支持彈性擴(kuò)展,零運(yùn)維成本。
開源方案:Apache Kong + Mysql + Lua + Postgresql + ES
二、AllData數(shù)字化方案核心價(jià)值定位
在生產(chǎn)實(shí)踐中,為了更好地實(shí)施數(shù)據(jù)中臺(tái)提供數(shù)據(jù)服務(wù),
總會(huì)需要將其與外部服務(wù)集成,例如代碼倉(cāng)庫(kù)、指標(biāo)監(jiān)控頁(yè)面、
實(shí)時(shí)日志記錄或 HDFS/OSS 上的檢查點(diǎn)/保存點(diǎn)文件夾等。
AllData作為一站式大數(shù)據(jù)開發(fā)與治理平臺(tái),
如果能夠提供以擴(kuò)展鏈接的形式集成這些服務(wù)的能力,
在統(tǒng)一的地方集中定義,并自動(dòng)應(yīng)用于每個(gè)數(shù)據(jù)開發(fā)服務(wù),將為用戶帶來更多價(jià)值
三、AllData數(shù)字化方案混合數(shù)倉(cāng)引擎
基于Kylin3.1.3 DataSourceSDK + Calcite進(jìn)行開發(fā)
1、增加ClickHouseAdapter
2、基于Calcite進(jìn)行語(yǔ)法詞法解析
3、根據(jù)Calcite解析SQL進(jìn)行規(guī)則路由
4、封裝JDBC轉(zhuǎn)發(fā)查詢不同OLAP引擎
5、返回SQL查詢結(jié)果
四、AllData社區(qū)與Dinky社區(qū)分享
Dlink為Apache Flink而生,讓Flink SQL盡享絲般順滑,
致力于實(shí)時(shí)計(jì)算平臺(tái)的構(gòu)建
Dinky項(xiàng)目:https://github.com/DataLinkDC/dlink
AllData項(xiàng)目:https://github.com/alldatacenter/alldata
感謝社區(qū)成員@yg9538的會(huì)議紀(jì)要
第一:如何激發(fā)社區(qū)對(duì)用戶來參與到項(xiàng)目的建設(shè),一起推動(dòng)項(xiàng)目的發(fā)展?
第二:完成整個(gè)項(xiàng)目的基本功能路線,流程是如何的?
我首先回答第二個(gè)問題。
首先AllData用到的技術(shù)棧包括我們所設(shè)想的整個(gè)流程是非常全面豐富的。
但然,凡事都是有利有弊的,技術(shù)棧的全面會(huì)導(dǎo)致各個(gè)技術(shù)功能點(diǎn)實(shí)現(xiàn)復(fù)雜度增高。
2.1 最小MVP
對(duì)于第一個(gè)問題,其實(shí)跟第二個(gè)問題是非常有關(guān)系的。
當(dāng)我們具備了一個(gè)可使用的一個(gè)MVP最小可行性產(chǎn)品時(shí)候,
用戶將產(chǎn)品用在測(cè)試或者生產(chǎn)實(shí)踐將會(huì)給項(xiàng)目帶來極大的益處
最大的好處是用戶將會(huì)主動(dòng)參與到我們那個(gè)項(xiàng)目的推動(dòng)中。
比如說項(xiàng)目的在實(shí)踐中進(jìn)行的測(cè)試和提出的ISSUE作為項(xiàng)目經(jīng)驗(yàn)必不可少,
其次用戶在實(shí)際生產(chǎn)中遇到的二開需求,
對(duì)于我們整個(gè)項(xiàng)目提升也是有極大的幫助。
2.2 門戶與KM知識(shí)庫(kù)
當(dāng)然就是除了有一個(gè)最小可行性產(chǎn)品門戶和知識(shí)庫(kù)也必不可少,
門戶可以對(duì)整個(gè)項(xiàng)目進(jìn)行一個(gè)詳細(xì)的介紹。
比如我們要進(jìn)行部署的話我們可以進(jìn)行搜索,百度上也會(huì)提供許多文檔。
但是百度的文檔質(zhì)量參差不齊,非常影響用戶的體驗(yàn)。
我看到AllData有提到三個(gè)概念我是非常贊同的:
重設(shè)計(jì)
輕編碼
中度測(cè)試
對(duì)于社區(qū)來說,我們可以總結(jié)自己的經(jīng)驗(yàn)形成文檔放在社區(qū)中。
2.3 用戶分類
然后第三點(diǎn),因?yàn)轫?xiàng)目前期用戶是較少,在前期用戶對(duì)項(xiàng)目的發(fā)展至關(guān)重要。
這就不僅需我們仔細(xì)的聆聽用戶的需求,用戶的反饋,
還要積極的為用戶來進(jìn)行解答,一般用戶會(huì)劃分為兩大類:
有完整的技術(shù)經(jīng)驗(yàn)——較少數(shù)
無完整的技術(shù)經(jīng)驗(yàn)——占多數(shù)
第一種用戶是自身具備一定的技術(shù)棧,一定的能力。
第二種用戶是作為項(xiàng)目經(jīng)理或技術(shù)他引入該開源項(xiàng)目來作為解決方案的
門戶網(wǎng)站和知識(shí)庫(kù)至關(guān)重要,它可以幫助客戶進(jìn)行部署。
所以問題點(diǎn)就是如何教導(dǎo)用戶會(huì)用我們的產(chǎn)品。
2.4 工作推動(dòng)
然后,就是進(jìn)行一個(gè)分工推這方面。
如果作為一個(gè)領(lǐng)導(dǎo)者要去領(lǐng)導(dǎo)我們的協(xié)作者去完成一件事情的時(shí)候,
首先要達(dá)到一個(gè)統(tǒng)一的共識(shí)才可以,然后如何如何來達(dá)到這個(gè)統(tǒng)一的共識(shí)呢
2.4.1 獲得認(rèn)可
首先就得需要認(rèn)可你的方案,認(rèn)可你的思路。
2.4.2 產(chǎn)品定位
就是說你不要讓用戶上生產(chǎn)的時(shí)候就把你所有的功能都要上去,
而是可以用你幾塊核心功能就可以完成一個(gè)產(chǎn)品。
2.5 技術(shù)選型
2.5.1 大數(shù)據(jù)平臺(tái)選型
基于這些平臺(tái),你可以獨(dú)立完整的跑起一個(gè)MVP。
這樣不僅僅能享受到社區(qū)福利也可以獲得用戶的認(rèn)可
2.5.2 MLOPS平臺(tái)選型
2.5.3 CI/CD
CI/CD那一塊我認(rèn)為就比較獨(dú)立了。這些也是有現(xiàn)成的項(xiàng)目,
然后我們要做的其實(shí)就是調(diào)研好現(xiàn)成的項(xiàng)目。然后把它集成進(jìn)來。
2.6 需求場(chǎng)景
我個(gè)人對(duì)AllData的定位是一個(gè)把很多開源的項(xiàng)目平臺(tái)統(tǒng)一管理、集成起來,
提供一個(gè)能力開放的平臺(tái)
2.6.1 定義場(chǎng)景
一般離線開發(fā)都是需要開發(fā)需求。
2.7 其他要求
2.7.1 文檔要求
第一,文檔永遠(yuǎn)沒有交流重要,文檔的規(guī)范可以放松,但是交流是最主要的。
2.7.2 設(shè)計(jì)邏輯
第二就是設(shè)計(jì)。先是高層級(jí)設(shè)計(jì),再是具體細(xì)節(jié)設(shè)計(jì)。
這具體如何實(shí)現(xiàn)呢?例如我們?nèi)绾稳グ褦?shù)據(jù)開發(fā)平臺(tái)、調(diào)度平臺(tái)、管理平臺(tái)關(guān)聯(lián)?
首先就需要把他們打通,作為一個(gè)底層Base先把他們真正的打通起來。
然后讓他們可以再以流一個(gè)流程化的方式來跑起來。
建議總結(jié):
壓縮技術(shù)棧
理念轉(zhuǎn)變?yōu)閳F(tuán)隊(duì)思想
多于其他社區(qū)溝通,達(dá)到互幫互助引流的效果
五、社區(qū)知識(shí)庫(kù)與加入開源社區(qū)
【騰訊文檔】AllData社區(qū)進(jìn)群必讀最全資料-最新
https://docs.qq.com/doc/DVHlkSEtvVXVCdEFo
文章來源:http://www.zghlxwxcb.cn/news/detail-431748.html
到了這里,關(guān)于AllData一站式大數(shù)據(jù)平臺(tái)【二】的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!