技術(shù)與產(chǎn)品概覽
架構(gòu)設(shè)計(jì)

?文章來源地址http://www.zghlxwxcb.cn/news/detail-558695.html文章來源:http://www.zghlxwxcb.cn/news/detail-558695.html
元數(shù)據(jù)的接入
-
元數(shù)據(jù)接入支持T+1和近實(shí)時(shí)兩種方式
-
上游系統(tǒng):包括各類存儲(chǔ)系統(tǒng)(比如Hive、 Clickhouse等)和業(yè)務(wù)系統(tǒng)(比如數(shù)據(jù)開發(fā)平臺(tái)、數(shù)據(jù)質(zhì)量平臺(tái)等)
-
中間層:
-
ETL Bridge:T+1方式運(yùn)行,通常是從外部系統(tǒng)拉取最新元數(shù)據(jù),與當(dāng)前Catalog系統(tǒng)的元數(shù)據(jù)做對(duì)比,并更新差異的部分
-
MQ:用于暫存各類元數(shù)據(jù)增量消息,供Catalog系統(tǒng)近實(shí)時(shí)消費(fèi)
-
與上游系統(tǒng)打交道的各類Clients,封裝了操作底層資源的能力
-
核心服務(wù)層
-
Catalog Service:支持元數(shù)據(jù)的搜索、詳情、修改等核心服務(wù)
-
Ingestion Service:接受外部系統(tǒng)調(diào)用,寫入元數(shù)據(jù),或主動(dòng)從MQ中消費(fèi)增量元數(shù)據(jù)
-
Resource Control Plane:通過各類Clients,與底層的存儲(chǔ)或業(yè)務(wù)系統(tǒng)交互,操作底層資源,比如建庫(kù)建表,能力可插拔
-
Q&A Service:?jiǎn)柎鹣到y(tǒng)相關(guān)能力,支持對(duì)元數(shù)據(jù)的字段含義、使用場(chǎng)景等提問和回答,能力可插拔
-
ML Service:負(fù)責(zé)封裝與機(jī)器學(xué)習(xí)相關(guān)的能力,能力可插拔
-
API Layer:以RESTful API的形式整合系統(tǒng)中的各類能力
存儲(chǔ)層
-
Meta Store:存放全量元數(shù)據(jù)和血緣關(guān)系,當(dāng)前使用的是HBase
-
Index Store:存放用于加速查詢,支持全文索引等場(chǎng)景的索引,當(dāng)前使用的是ElasticSearch
-
Model Store:存放推薦、打標(biāo)等的算法模型信息,使用HDFS,當(dāng)ML Service啟用時(shí)使用
元數(shù)據(jù)的消費(fèi)
-
數(shù)據(jù)的生產(chǎn)者和消費(fèi)者,通過Data Catalog的前端與系統(tǒng)交互
-
下游在線服務(wù)可通過OpenAPI訪問元數(shù)據(jù),與系統(tǒng)交互
-
Metadata Outputs Layer:提供除了API之外的另外一種下游消費(fèi)方式
-
MQ:用于暫存各類元數(shù)據(jù)變更消息,格式由Catalog系統(tǒng)官方定義
-
Data warehouse:以數(shù)倉(cāng)表的形式呈現(xiàn)的全量元數(shù)據(jù)
-
產(chǎn)品功能升級(jí)

?
-
基礎(chǔ)能力建設(shè)(2017-2019):數(shù)據(jù)源主要是離線數(shù)倉(cāng)Hive,支持了Hive相關(guān)庫(kù)表創(chuàng)建、元數(shù)據(jù)搜索與詳情展示、表之間血緣,以及將相關(guān)表組織成業(yè)務(wù)視角的數(shù)據(jù)專題等
-
中階能力建設(shè)(2019-2020年中):數(shù)據(jù)源擴(kuò)展了Clickhouse與Kafka,支持了Hive列血緣,Q&A問答系統(tǒng)等
-
架構(gòu)升級(jí)(2020年中-2021年初):產(chǎn)品能力迭代放緩,基于新設(shè)計(jì)升級(jí)架構(gòu)
-
能力提升與快速迭代(2021年至今):數(shù)據(jù)源擴(kuò)展為包含離線、近實(shí)時(shí)、業(yè)務(wù)等端到端系統(tǒng),搜索和血緣能力有明顯增強(qiáng),探索機(jī)器學(xué)習(xí)能力,產(chǎn)品形態(tài)更成熟穩(wěn)定。另外我們還具備了ToB售賣的能力。
大數(shù)據(jù)研發(fā)治理套件-火山引擎 |
到了這里,關(guān)于火山引擎 DataLeap 構(gòu)建Data Catalog系統(tǒng)的實(shí)踐(二):技術(shù)與產(chǎn)品概覽的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!