目錄
一 datahub安裝
1.1 datahub在線安裝
1.1.1 docker在線安裝
1.1.2 python在線安裝
1.1.3 datahub在線安裝并啟動(dòng)
1.2 datahub離線安裝
1.2.1 docker離線安裝
1.2.2 python離線安裝
1.2.3 datahub離線安裝并啟動(dòng)
1.3 本地環(huán)境替換datahub docker
1.3 安裝過(guò)程中可能遇到的問(wèn)題
1.3.1 python3安裝后導(dǎo)致yum不能正常使用
1.3.2 python控制臺(tái)中按backspace返回^H
二 datahub使用
2.1 使用命令攝取
2.1.1 ?攝取前準(zhǔn)備工作
2.1.2 編輯yml文件執(zhí)行攝取操作(未完)
2.2 datahub命令詳解
2.2.1 check
?2.3 攝取調(diào)度中心
2.3.1 mysql源攝取流程
2.4 Settings
2.4.1 Access Tokens
2.4.2 Users & Groups
2.4.3 Permissions
2.4.4 MyViews
2.5管理中心
2.5.1 Govern—Glossary
2.5.2 Govern—Domains
2.6 Analytics
2.7 數(shù)據(jù)血緣
2.7.1 UI手動(dòng)創(chuàng)建
2.7 后續(xù)升級(jí)
2.8 新用戶創(chuàng)建
2.9 接口調(diào)用
三 datahub原理與支持
3.1支持的數(shù)據(jù)源
3.2 DataSets元數(shù)據(jù)模型
優(yōu)點(diǎn):
缺點(diǎn):
3.x datahub相關(guān)容器研究
3.x.x datahub的元數(shù)據(jù)庫(kù)
一 datahub安裝
1.1 datahub在線安裝
1.1.1 docker在線安裝
(1)下載docker-ce.repo文件
yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo
(2)注意如果下載配置過(guò)python3,yum-config-manager命令可能會(huì)報(bào)錯(cuò),
記得修改/usr/bin/yum-config-manager開頭到python2
這是我的軟連接路徑,具體情況依照個(gè)人的配置
(3)按照官網(wǎng)文檔,需要安裝docker和dockerCompose v2!!! ,實(shí)測(cè)啟動(dòng)后內(nèi)存占用4G多一點(diǎn),最低配置6G內(nèi)存應(yīng)該可以。
(4)下載docker-ce、docker
① yum下載docker
yum install docker-ce docker –y
② 開啟服務(wù)
systemctl start docker
③ 設(shè)置開機(jī)自啟
systemctl enable docker
(5)下載docker-compose
注意??!務(wù)必使用以下方法或去github(Releases · docker/compose (github.com)下載docker-compose 2.x,沒(méi)試過(guò)其余版本但2.16以上絕對(duì)可以。yum install下載的版本為docker-compose 1.x,運(yùn)行會(huì)報(bào)非常多錯(cuò),一開始沒(méi)注意走了很多彎路,
① curl-SL下載命令
curl -SL https://github.com/docker/compose/releases/download/v2.16.0/docker-compose-linux-x86_64 -o /usr/local/lib/docker/cli-plugins/docker-compose
② chmod +x賦予運(yùn)行權(quán)限
③到/usr/bin下創(chuàng)建軟鏈接
④ docker-compose version查看安裝是否成功
(6)docker運(yùn)行hello-world檢查是否安裝成功
docker run hello-world
1.1.2 python安裝
?
1.1.3 datahub在線安裝并啟動(dòng)
不知是不是老虛擬機(jī)的緣故,網(wǎng)上別的教程里要求的python庫(kù)我都沒(méi)有特地去安,只按官網(wǎng)要求安裝庫(kù)就可以運(yùn)行了
(1)更新pip、wheel、setuptools工具
python3 -m pip install --upgrade pip wheel setuptools
(2)下載acryl-datahub
python3 -m pip install --upgrade acryl-datahub
(3)datahub version查看是否成功
如果看到“command not found”,嘗試運(yùn)行前綴為python3 -m的cli命令,例如python3 -m datahub version,注意數(shù)據(jù)中心CLI不支持 Python 2.x。
(4)快速啟動(dòng)datahub
datahub docker quickstart
直接執(zhí)行quickstart可能會(huì)報(bào)錯(cuò):
ConnectionError: HTTPSConnectionPool(host='raw.githubusercontent.com', port=443): Max retries exceeded with url: /linkedin/datahub/master/docker/quickstart/docker-compose-without-neo4j.quickstart.yml (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x7fe29e5fe760>: Failed to establish a new connection: [Errno -2] Name or service not known'))
這個(gè)網(wǎng)址國(guó)內(nèi)有可能連不上,不過(guò)命令的原理就是到raw.githubusercontent.com下載docker-compose-without-neo4j.quickstart.yml,可以在github上下載這個(gè)yml到本地
然后使用命令:
datahub docker quickstart --quickstart-compose-file ~/docker-compose-without-neo4j.quickstart.yml
源碼可以不整個(gè)git clone,文件很大加上github下載速度慢,只下載docker-compose-without-neo4j.quickstart.yml就可以
注意如果虛擬機(jī)上安裝過(guò)mysql或者mariadb記得systemctl stop ,不然會(huì)報(bào)端口占用錯(cuò)誤,另外啟動(dòng)容器時(shí)還需要開放如下端口
不建議在已安裝上述常見組件的服務(wù)器上運(yùn)行datahub,
(5)出現(xiàn)下圖則證明各個(gè)容器啟動(dòng)完成
(6) 攝取官方提供的測(cè)試用元數(shù)據(jù)
datahub docker ingest-sample-data
(7)登陸${hostname}:9002查看前端界面
1.2 datahub離線安裝
對(duì)于公司開發(fā)內(nèi)網(wǎng)環(huán)境來(lái)說(shuō),無(wú)法pip、yum在線下載,無(wú)法在線pull docker鏡像,這一章嘗試離線安裝所有需要的組件。
1.2.1 docker離線安裝
(1)進(jìn)入官網(wǎng)下載tgz包(https://download.docker.com/linux/static/stable/x86_64/)
(2)將安裝包上傳后tar –zxvf解壓
(3)創(chuàng)建docker.service
vi /etc/systemd/system/docker.service
[Unit]
Description=Docker Application Container Engine
Documentation=https://docs.docker.com
After=network-online.target firewalld.service
Wants=network-online.target
[Service]
Type=notify
# the default is not to use systemd for cgroups because the delegate issues still
# exists and systemd currently does not support the cgroup feature set required
# for containers run by docker
ExecStart=/usr/bin/dockerd
ExecReload=/bin/kill -s HUP $MAINPID
# Having non-zero Limit*s causes performance problems due to accounting overhead
# in the kernel. We recommend using cgroups to do container-local accounting.
LimitNOFILE=infinity
LimitNPROC=infinity
LimitCORE=infinity
# Uncomment TasksMax if your systemd version supports it.
# Only systemd 226 and above support this version.
#TasksMax=infinity
TimeoutStartSec=0
# set delegate yes so that systemd does not reset the cgroups of docker containers
Delegate=yes
# kill only the docker process, not all processes in the cgroup
KillMode=process
# restart the docker process if it exits prematurely
Restart=on-failure
StartLimitBurst=3
StartLimitInterval=60s
[Install]
WantedBy=multi-user.target
chmod +x /etc/systemd/system/docker.service
systemctl daemon-reload
systemctl start docker
(4)用1.1.1(5)中g(shù)ithub(Releases · docker/compose (github.com))下載安裝包的方式安裝docker-compose
(5)啟動(dòng)datahub后docker ps 查看所有啟動(dòng)的容器
(6)使用命令保存鏡像,注意把相關(guān)的鏡像都下載到本地docker save –o 包名 鏡像名
例如:docker save -o localimage/datahub-actions.tar acryldata/datahub-actions:head
將所有datahub相關(guān)鏡像全部下載到本地,最后效果是這樣的:
(7)將鏡像包發(fā)送到無(wú)網(wǎng)絡(luò)環(huán)境的服務(wù)器上
(8)docker load –I 包名
將鏡像加載到無(wú)網(wǎng)絡(luò)環(huán)境的服務(wù)器上
1.2.2 python離線安裝
(1)使用國(guó)內(nèi)華為源(https://mirrors.huaweicloud.com/python)下載tar.xz包
(2)xz –d將tar.xz解壓為tar
xz -d Python-3.9.11.tar.xz
(3)tar –xvf 將tar包解壓
tar -xvf Python-3.9.11.tar
(4)注意安裝之前必須保證有g(shù)cc、libffi-devel、zlib(否則pip無(wú)法安裝)、openssl≥1.1.1、bzip2-devel(dathub所需)
離線安裝gcc等命令可以在有網(wǎng)絡(luò)的服務(wù)器使用repotrack命令將相關(guān)rpm包下載下來(lái),然后傳至無(wú)網(wǎng)服務(wù)器使用rpm -Uvh *rpm --nodeps –force安裝
以gcc舉例:
① 在有網(wǎng)絡(luò)服務(wù)器創(chuàng)建目錄package/gccpkg
② 進(jìn)入package/gccpkg
③ repotrack gcc
④ 將gccpkg發(fā)送到無(wú)網(wǎng)服務(wù)器
⑤ 進(jìn)入gccpkg目錄
⑥ rpm -Uvh *rpm --nodeps --force安裝所有rpm包
⑦ gcc –v查看是否安裝成功
(5)安裝openssl
下載openssl安裝包(Releases · openssl/openssl (github.com))
tar -zxvf openssl-1.1.1t.tar.gz
./config --prefix=/usr/local/lib/openssl-1.1.1
make
make install
rm /usr/lib64/libssl.so.1.1
rm /usr/lib64/libcrypto.so.1.1
cd /usr/bin
rm openssl
ln -s /usr/local/lib/openssl-1.1.1/lib/libssl.so.1.1 /usr/lib64/libssl.so.1.1
ln -s /usr/local/lib/openssl-1.1.1/lib/libcrypto.so.1.1 /usr/lib64/libcrypto.so.1.1
cd /usr/bin
ln -s /usr/local/lib/openssl-1.1.1/bin/openssl usr/bin/openssl
openssl version
(6)./configure --prefix=/usr/python3 --with-openssl=/usr/local/lib/openssl-1.1.1
No module named _ssl
(7)make&&make install
(8)刪除原來(lái)的python->python2軟連接,添加python->python3,python3->安裝目錄
查看python版本
(9)添加軟連接pip->pip3,pip3->安裝目錄
pip查看版本
1.2.3 datahub離線安裝并啟動(dòng)
(1)與在線安裝一樣,需要安裝pip、wheel、setuptools、acryl-datahub,pip也可以將包下載到本地
① 將本地安裝過(guò)的所有庫(kù)名記錄到requirements.txt中
pip freeze > requirements.txt
② 遍歷requirements.txt中的內(nèi)容,下載
pip install -r requirements.txt
③ 將某個(gè)<package_name>庫(kù)下載到本地<dir>下
pip download -d <dir> <package_name>
④ 遍歷requirements.txt中的內(nèi)容,下載到本地<dir>下
pip download -d <dir> -r requirements.txt
⑤ 將<dir>下某個(gè)<package_name>安裝到環(huán)境中
pip install --no-index -f <dir> <package_name>
例如:
pip download -d acryl-datahub acryl-datahub
pip install –no-index –f acryl-datahub/*
(2)運(yùn)行命令時(shí)-f指定yml地址,-no-pull-images不pull,使用本地鏡像
datahub docker quickstart -f /usr/datahub/docker-compose-without-neo4j.quickstart.yml --no-pull-images
(3)與在線安裝一樣,登錄${hostname}:9002查看前端界面,用戶名密碼datahub/datahub
(4)上傳官方測(cè)試json至離線服務(wù)器,攝取官方測(cè)試數(shù)據(jù)
(5)可以看到界面中已經(jīng)出現(xiàn)了測(cè)試信息
1.3 本地環(huán)境替換datahub docker
(cd docker && COMPOSE_DOCKER_CLI_BUILD=1 DOCKER_BUILDKIT=1 docker-compose -p datahub -f docker-compose-without-neo4j.yml -f docker-compose-without-neo4j.override.yml -f docker-compose.dev.yml up -d --no-deps --force-recreate datahub-gms)
1.4 安裝過(guò)程中可能遇到的問(wèn)題
1.4.1 python3安裝后導(dǎo)致yum不能正常使用
python3會(huì)導(dǎo)致yum不能正常使用
vi /usr/bin/yum
把 #! /usr/bin/python 修改為 #! /usr/bin/python2
vi /usr/libexec/urlgrabber-ext-down
把 #! /usr/bin/python 修改為 #! /usr/bin/python2
vi /usr/bin/yum-config-manager
#!/usr/bin/python 改為 #!/usr/bin/python2
沒(méi)有提示的不用修改
1.4.2 python控制臺(tái)中按backspace返回^H
臨時(shí)解決:
Ctrl+退格鍵
永久解決:
安裝readline,readline 是 bash shell 用的庫(kù),包含許多使用功能
yum install readline readline-devel
安裝完成后,需要再重新編譯安裝 Python,重復(fù)1.2.2
二 datahub使用
2.1 使用命令攝取
2.1.1 ?攝取前準(zhǔn)備工作
檢查插件
datahub check plugins --verbose
如果插件不可用pip install acryl-datahub[插件名],無(wú)網(wǎng)絡(luò)環(huán)境可以參考1.2.3將pip包download至本地,再load -o
這里我pip install 'acryl-datahub[mysql]'
確保插件無(wú)disable后再進(jìn)行攝取操作
2.1.2 編輯yml文件執(zhí)行攝取操作(未完)
編輯攝取文件
vi /usr/datahub/mysqlmaster.yml
source:
? type: mysql
? config:
??? # Coordinates
??? host_port: master:3306
??? database: dolphinscheduler
??? # Credentials
??? username: root
??? password: lovol
??? # If you need to use SSL with MySQL:
??? # options:
??? #?? connect_args:
??? #???? ssl_ca: "path_to/server-ca.pem"
??? #???? ssl_cert: "path_to/client-cert.pem"
??? #???? ssl_key: "path_to/client-key.pem"
sink:
? # sink configs
? type: datahub-rest
? config:
server: http://slave1:8080
執(zhí)行命令
datahub ingest -c /usr/datahub/mysqlmaster.yml
5 0 * * * datahub ingest -c /usr/datahub/mysqlmaster.yml
可以調(diào)度執(zhí)行攝取任務(wù),corn用法教程網(wǎng)上有很多,這里就不介紹了
在2.3中介紹另一種攝取方法
2.2 datahub命令詳解
datahub --help查看所有命令
2.2.1 check
常用命令:
檢查插件 –v輸出詳細(xì)信息
datahub check plugins -v
datahub delete
命令行刪除元數(shù)據(jù)
datahub delete --env prod --entity_type dataset -p mysql --query dolphinscheduler --hard
?
任何命令加 –n則空跑,不會(huì)產(chǎn)生實(shí)際影響,例如
datahub delete --env prod --entity_type dataset -p mysql --query dolphinscheduler --hard -n
由于cli命令原理是依靠輸入?yún)?shù)快速構(gòu)建rest,如果按照2.4.1開放了tokens,再使用命令時(shí)相當(dāng)于無(wú)token運(yùn)行,會(huì)報(bào)http連接錯(cuò)誤
?2.3 攝取調(diào)度中心
由于UI界面創(chuàng)建的攝取任務(wù)是在容器內(nèi)運(yùn)行的,容器內(nèi)沒(méi)有添加hostname,使用hostname格式不能運(yùn)行,
且進(jìn)入容器的租戶無(wú)權(quán)添加hosts,UI界面創(chuàng)建的任務(wù)只有用服務(wù)器IP才能成功執(zhí)行
2.3.1 mysql源攝取流程
(1)選擇數(shù)據(jù)源
(2)選擇設(shè)置項(xiàng)
在Connection中輸入服務(wù)器ip、端口號(hào)、mysql用戶名密碼
由于UI界面創(chuàng)建的攝取任務(wù)是在容器內(nèi)運(yùn)行的,容器內(nèi)沒(méi)有添加hostname,使用hostname格式不能運(yùn)行,
嘗試進(jìn)入容器修改hosts,無(wú)效
查看datahub-actions的containerID
修改服務(wù)器/var/lib/docker/containers/ 36d5ece46eb8546cb95fe9ea6305bfe90c92a84aa0fe8281130eb2364181cdf7/hosts
添加master后才可以在前端使用host進(jìn)行攝取
每次重啟docker后hosts文件都會(huì)重置,所以如果頻繁啟停的話建議使用ip進(jìn)行攝取
Filter中編輯的是過(guò)濾條件,可以對(duì)數(shù)據(jù)庫(kù)、MySQL源數(shù)據(jù)、表、視圖做出限制,只攝取符合限制的表,Deny優(yōu)先級(jí)高于allow
在Advanced中可以勾選附加選項(xiàng)
(3)調(diào)度運(yùn)行時(shí)間
必須將Run on a schedule打開才能啟用調(diào)度
(4)為攝取任務(wù)取名
2.4 Settings
2.4.1 Access Tokens
個(gè)人訪問(wèn)令牌允許向數(shù)據(jù)中心的 API 發(fā)出編程請(qǐng)求。令牌持有者繼承發(fā)出人的權(quán)限,并且壽命有限。最好不要共享令牌
datahub令牌功能默認(rèn)是關(guān)閉的,界面報(bào)
Token based authentication is currently disabled. Contact your DataHub administrator to enable this feature.(忘截圖了)
需要修改1.1.3(4)中的的配置文件docker-compose-without-neo4j.quickstart.yml,在datahub-frontend-react和datahub-gms下的environment添加- METADATA_SERVICE_AUTH_ENABLED=true,開啟令牌功能,注意更改yml后容器會(huì)類似重置,2.8中用戶文件夾會(huì)刷新,記得重新編輯,添加用戶
創(chuàng)建令牌
創(chuàng)建完成后界面不能重復(fù)打開,只能刪除,建議保存到安全的位置
curl -X POST 'http://slave1:9002/api/graphql' \
--header 'Authorization: Bearer eyJhbGciOiJIUzI1NiJ9.eyJhY3RvclR5cGUiOiJVU0VSIiwiYWN0b3JJZCI6Imxpa2FpIiwidHlwZSI6IlBFUlNPTkFMIiwidmVyc2lvbiI6IjIiLCJqdGkiOiI4MWZjN2E0NC1mNmQ2LTRhODAtYmU0MS02NmE4MmI3OTlmZmYiLCJzdWIiOiJsaWthaSIsImV4cCI6MTY4ODk3Mzg3NywiaXNzIjoiZGF0YWh1Yi1tZXRhZGF0YS1zZXJ2aWNlIn0.t1Mz27Jiw4r18wqIFqgl3CfFBQTwFAEA1vY3Sl0_DFU' \
--header 'Content-Type: application/json' \
--data-raw '{"query":"{\n? me {\n??? corpUser {\n??????? username\n??? }\n? }\n}","variables":{}}'
2.4.2 Users & Groups
Users界面可以快速分配角色,但不能創(chuàng)建用戶,創(chuàng)建用戶見2.8
Group界面創(chuàng)建用戶組
進(jìn)入組后可以添加用戶
2.4.3 Permissions
1、Roles
點(diǎn)擊快速分配
2、Policies
默認(rèn)root user,admin,editors和readers策略,無(wú)法刪除無(wú)法編輯
可以點(diǎn)擊創(chuàng)建新策略
① 輸入名稱和選擇策略的類型,類型有Platform和Metadata兩種
平臺(tái)策略類型允許向用戶分配數(shù)據(jù)中心平臺(tái)權(quán)限。其中包括管理用戶和組、創(chuàng)建策略、查看分析圖等。
元數(shù)據(jù)策略類型允許向用戶分配元數(shù)據(jù)權(quán)限。其中包括操作元數(shù)據(jù)的能力比如所有權(quán),標(biāo)簽,數(shù)據(jù)集、圖表之類的文檔。
②
2.4.4 MyViews
2.5管理中心
2.5.1 Govern—Glossary
術(shù)語(yǔ)字典,可以定義一組標(biāo)準(zhǔn)化的概念,使用共享詞匯描述數(shù)據(jù)
術(shù)語(yǔ):分配有特定業(yè)務(wù)定義的字詞或短語(yǔ)。
術(shù)語(yǔ)組:充當(dāng)文件夾,包含術(shù)語(yǔ)甚至其他術(shù)語(yǔ)組,以允許嵌套結(jié)構(gòu)。
描述文檔可編輯加粗、傾斜、下劃線、橫線、刪除線、項(xiàng)目列表、代碼塊、圖片、鏈接和表格
創(chuàng)建后是這樣的,右側(cè)可以添加owner
創(chuàng)建術(shù)語(yǔ)詞條,父組選剛創(chuàng)建的組
然后在數(shù)據(jù)資產(chǎn)中可以添加術(shù)語(yǔ)
注意刪除術(shù)語(yǔ)組的時(shí)候必須先刪除所有子項(xiàng),暫時(shí)不支持級(jí)聯(lián)刪除
2.5.2 Govern—Domains
DataHub在0.8.25版本開始支持將數(shù)據(jù)資產(chǎn)分組到稱為域的邏輯集合中。域是精選的頂級(jí)文件夾或類別,可在其中對(duì)相關(guān)資產(chǎn)進(jìn)行顯式分組
創(chuàng)建和添加域需要管理域的權(quán)限
可以在權(quán)限中心創(chuàng)建策略賦予或刪除權(quán)限,詳見2.5.2 Permissions—Policies
2.6 Analytics
2.7 數(shù)據(jù)血緣
想編輯血緣需要有編輯血緣權(quán)限,用戶必須擁有AB數(shù)據(jù)集編輯血緣權(quán)限的情況下才能將AB設(shè)為上下游
2.7.1 UI手動(dòng)創(chuàng)建
0.9.5后允許手動(dòng)創(chuàng)建血緣,使用此功能可以補(bǔ)充自動(dòng)血緣提取或在不支持自動(dòng)提取的源中建立關(guān)系
進(jìn)入數(shù)據(jù)集后右上角lineage進(jìn)入血緣圖形界面
可以搜索并添加上下游表
保存完成后圖形界面會(huì)顯示血緣關(guān)系
刪除
下游設(shè)置同理
2.7.2 api創(chuàng)建
2.7 后續(xù)升級(jí)
2.8 新用戶創(chuàng)建
① 進(jìn)入運(yùn)行前端的容器
docker exec -it c991cdb47c0b(linkedin/datahub-frontend-react:head鏡像的容器id) sh
② 添加用戶到user.props
cat >>datahub-frontend/conf/user.props <<EOF
用戶名:密碼
……
EOF
③ 重啟datahub
④ 新創(chuàng)建的用戶在Users&Groups里找不到
需要用新用戶登錄后編輯一下個(gè)人信息
?
⑤ 在Users&Groups里就可以找到了
同一瀏覽器不能支持同時(shí)登錄多個(gè)用戶,新開窗口再次輸入前端網(wǎng)址后會(huì)直接以上次登陸用戶進(jìn)入,其中一個(gè)窗口退出登錄后原窗口也退出登錄,一窗口再登陸其他賬號(hào)后,另一窗口也登陸同一賬號(hào)。不同瀏覽器則可以保持多用戶登陸
2.9 接口調(diào)用
https://datahubproject.io/docs/api/openapi/openapi-usage-guide
三 datahub原理與支持
3.1支持的數(shù)據(jù)源
Airflow; Spark; Great Expectations; Protobuf Schemas; Athena; Azure AD; BigQuery; Business Glossary; ClickHouse; CsV; Databricks; dbt; Delta Lake; Demo Data; Druid; Elasticsearch; Feast; File; File Based Lineage; Glue; Hive; Iceberg; JSON Schemas; Kafka; Kafka Connect; LDAP; Looker; MariaDB; Metabase; Microsoft SQL Server; Mode; MongoDB; MySQL; NiFi; Okta; OpenAPI; Oracle; Postgres; PowerBI; Presto; Presto on Hive; Pulsar; Redash; Redshift; S3 Data Lake; SageMaker; Salesforce; SAP HANASnowflakeSQLAIchemy; Superset; Tableau; Trino; Vertica;
前端:react框架
官方demo:https://demo.datahubproject.io/
3.2 DataSets元數(shù)據(jù)模型
DataSets元數(shù)據(jù)模型
DataSets元數(shù)據(jù)模型支持由三部分組成:
??? Data Platform (e.g. urn:li:dataPlatform:mysql)
??? Name (e.g. db.schema.name)
??? Env or Fabric (e.g. DEV, PROD, etc.)
??? 完整的: urn:li:dataset:(urn:li:dataPlatform:<platform>,<name>,ENV)
優(yōu)點(diǎn):
1、基于docker,易于安裝,在無(wú)網(wǎng)絡(luò)環(huán)境下可離線導(dǎo)入鏡像
2、輕量級(jí)、體積不大,占用內(nèi)存少
3、數(shù)據(jù)清晰,功能較全,前端界面完成度高
4、更新頻繁,團(tuán)隊(duì)響應(yīng)迅速
缺點(diǎn):
1、全英文界面,對(duì)非專業(yè)人事不友好,需自行漢化
2、封裝得太死,不好擴(kuò)展,沒(méi)有提供元數(shù)據(jù)庫(kù)的建表語(yǔ)句,容器內(nèi)部無(wú)權(quán)限更改系統(tǒng)文件、無(wú)權(quán)限進(jìn)入mysql,難以二開
3、數(shù)據(jù)血緣功能目前不太完善,主要依靠方式為手動(dòng)編輯,自動(dòng)獲取僅支持MongoDB、SageMaker、Feast、Postgres、Athena、Airflow、BigQuery
4、國(guó)內(nèi)用戶少、教程少、用例少、文檔全英文,難以查詢資料
5、列級(jí)血緣僅支持Snowflake、Databricks、Looker,不支持自動(dòng)創(chuàng)建
3.x datahub相關(guān)容器研究
dataHub-frontend-react 前端
datahub-gms 服務(wù)
datahub-action
datahub-frontend-react/datahub-frontend/conf/user.props 用戶名密碼
——————————————————————
application_1680189248070_0087
Interrupted while waiting for queue
java.lang.InterruptedException: null
?????? at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.reportInterruptAfterWait(AbstractQueuedSynchronizer.java:2014) ~[?:1.8.0_331]
確保有rpm和另一臺(tái)可以聯(lián)網(wǎng)的虛擬機(jī)的情況下可以離線安裝任何包
3.x.x datahub的元數(shù)據(jù)庫(kù)
查看
CREATE TABLE `metadata_index` (
? `id` bigint(20) NOT NULL AUTO_INCREMENT,
? `urn` varchar(200) COLLATE utf8mb4_bin NOT NULL,
? `aspect` varchar(150) COLLATE utf8mb4_bin NOT NULL,
? `path` varchar(150) COLLATE utf8mb4_bin NOT NULL,
? `longVal` bigint(20) DEFAULT NULL,
? `stringVal` varchar(200) COLLATE utf8mb4_bin DEFAULT NULL,
? `doubleVal` double DEFAULT NULL,
? PRIMARY KEY (`id`),
? KEY `longIndex` (`urn`,`aspect`,`path`,`longVal`),
? KEY `stringIndex` (`urn`,`aspect`,`path`,`stringVal`),
? KEY `doubleIndex` (`urn`,`aspect`,`path`,`doubleVal`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-461037.html
CREATE TABLE `metadata_aspect_v2` (
? `urn` varchar(500) COLLATE utf8mb4_bin NOT NULL,
? `aspect` varchar(200) COLLATE utf8mb4_bin NOT NULL,
? `version` bigint(20) NOT NULL,
? `metadata` longtext COLLATE utf8mb4_bin NOT NULL,
? `systemmetadata` longtext COLLATE utf8mb4_bin,
? `createdon` datetime(6) NOT NULL,
? `createdby` varchar(255) COLLATE utf8mb4_bin NOT NULL,
? `createdfor` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL,
? PRIMARY KEY (`urn`,`aspect`,`version`),
? KEY `timeIndex` (`createdon`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-461037.html
到了這里,關(guān)于datahub元數(shù)據(jù)管理平臺(tái)從安裝到使用一站式指南(未完)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!