歡迎來到袋鼠云07期產(chǎn)品功能更新報告!在瞬息萬變的市場環(huán)境中,袋鼠云始終將客戶需求和反饋置于優(yōu)化工作的核心位置,本期也針對性地推出了一系列實用性強的功能優(yōu)化,以滿足客戶日益增長的業(yè)務需求。
以下為袋鼠云產(chǎn)品功能更新報告07期內(nèi)容,更多探索,請繼續(xù)閱讀。
離線開發(fā)平臺
新增功能更新
1.數(shù)據(jù)源引入支持對接審批中心
背景:數(shù)據(jù)源的使用讓用戶走審批流程,而非只是由管理員分配,方便進行審計記錄。
新增功能說明:項目管理員、項目所有者角色可在數(shù)據(jù)源中心進行數(shù)據(jù)源的申請,數(shù)據(jù)源權限經(jīng)超級管理員、租戶所有者、租戶管理員審批通過后,引入數(shù)據(jù)源彈窗才會出現(xiàn)審批通過的數(shù)據(jù)源,項目管理員和項目所有者可以在項目中引入。
2.計算引擎功能完善
? Trino 支持 explain
? Trino、Inceptor、Oracle、SQLServer、MySQL 支持語法提示
? Inceptor、Oracle、SQLServer、MySQL 支持表聯(lián)想、支持血緣解析
? Oracle、SQLServer、MySQL 支持界面創(chuàng)建存儲過程、自定義函數(shù)、系統(tǒng)函數(shù),支持任務依賴推薦,支持元數(shù)據(jù)同步和整庫同步
? 所有 SQL 的子查詢生效
3.所有 SQL 任務支持異步運行
背景:目前我們的 RDB SQL 任務大部分采用的是同步運行,同步運行很可能會導致任務運行超時還未返回結果,考慮和 GP 一樣全部調(diào)整為異步運行,優(yōu)化用戶體驗。
新增功能說明:Spark SQL、Hive SQL、Trino SQL、Impala SQL、Inceptor SQL、GaussDB SQL、Oracle SQL、TiDB SQL、Greenplum SQL、MySQL、SQL Server、Hana SQL、ADB SQL、StarRocks SQL、HashData SQL,所有 SQL 類任務支持異步運行。
4.支持臨時運行停止,臨時運行停止和殺任務時支持從數(shù)據(jù)庫底層停止任務運行
背景:運維中心 RDB 類型殺任務,只是在界面上停止運行任務,并沒有在數(shù)據(jù)庫底層讓 SQL 停止運行,治標不治本。
新增功能說明:Spark SQL、Hive SQL、Trino SQL、Impala SQL、Inceptor SQL、GaussDB SQL、Oracle SQL、TiDB SQL、Greenplum SQL、MySQL、SQL Server、Hana SQL、ADB SQL、StarRocks SQL、HashData SQL,運維中心殺任務時,數(shù)據(jù)庫底層也停止運行。
5.on yarn 任務日志實時打印
? 運維中心任務日志實時打印
范圍:周期任務實例、手動任務實例、補數(shù)據(jù)任務實例
任務類型:Spark SQL、Hive SQL、數(shù)據(jù)同步任務、HadoopMR、PySpark、Spark、Flink
? 臨時運行任務日志實時打印
范圍:周期任務、手動任務、臨時查詢
任務類型:FileCopy、數(shù)據(jù)同步任務、Spark SQL、Hive SQL
? 原數(shù)據(jù)同步中的「錯誤記錄數(shù)」「讀取字節(jié)數(shù)」等信息打印位置調(diào)整
6.分段運行時,展示每段 SQL 的執(zhí)行進度,并展示當前執(zhí)行的 SQL 內(nèi)容
7.新增 Python on Agent 任務
背景:支持 Python on Agent 任務的原因主要有以下三點:
? agent 能跑的任務更多
? on yarn 查詢速率太慢了
? yarn 上跑 python 需要手動上傳很多包,影響效率
新增功能說明:支持新建 Python on Agent 任務,Python on Agent 任務將獨立在控制臺配置的節(jié)點上運行,不會占用 yarn 的資源。
8.表查詢中的 GP 數(shù)據(jù)源,除了顯示集群下所有表,還支持僅顯示當前用戶有權限的表
背景:目前 RDB 數(shù)據(jù)源,在離線項目中的表權限是通過控制臺綁定的集群數(shù)據(jù)庫地址控制的,所有角色和用戶擁有的權限都一樣,無法做區(qū)分。
新增功能說明:
? 控制臺支持按用戶去綁定 GP 數(shù)據(jù)庫賬號
? 離線新增「僅展示有權限的表」按鈕,用戶可查看綁定的數(shù)據(jù)庫賬號下有權限的表
? 表查詢中支持查看權限范圍,例如 Select、Insert 等
9.新增 Shell 組件模版
10.開啟嚴格模式下的數(shù)據(jù)同步問題解決
背景:如果平臺單獨開啟了嚴格模式,平臺的 HiveSQL 中會要求指定分區(qū),否則運行會報錯。但是,如果當前集群已經(jīng)對接了數(shù)據(jù)安全,并且平臺的數(shù)據(jù)同步任務是通過 explain 語句來評估當前查詢用戶的權限,如果實際用戶沒有分區(qū)字段的查詢條件,數(shù)據(jù)同步任務也會因為沒有分區(qū)字段的查詢條件而報錯。
Hive SQL 報錯客戶可以理解,因為自己開啟了嚴格模式,但是當對接數(shù)據(jù)安全后的數(shù)據(jù)同步任務報錯,這個其實是不符合邏輯的。
新增功能說明:新增了一個配置項。如果客戶是嚴格模式且關閉了 web 層權限管控(對接數(shù)據(jù)安全/ranger),可以將這個配置項打開,則不會報錯。
11.數(shù)據(jù)同步支持源表為空校驗
背景:數(shù)據(jù)同步過程中,如果源表為空,則會向目標表寫入空數(shù)據(jù)。在某些客戶的場景下,這樣可能是合理的;但是在另一些客戶的場景下,源表可能是業(yè)務方的表,數(shù)據(jù)同步過程中并不清楚源表為空,也不希望源表的空數(shù)據(jù)去向目標表寫入。
新增功能說明:
數(shù)據(jù)來源高級配置中新增高級參數(shù)「checkTableEmpty」。
若為“true”,數(shù)據(jù)同步任務的臨時運行/周期實例運行/補數(shù)據(jù)實例運行/手動實例運行前檢查源表是否為空,如果為空則實例狀態(tài)為提交失?。ㄅR時運行為運行失?。?。若任務配置了告警,則告警中會包含失敗原因“任務已開啟源表為空不運行的校驗,源表${表名稱}為空”。
若為“false”,數(shù)據(jù)同步任務的臨時運行/周期實例運行/補數(shù)據(jù)實例運行/手動實例運行前源表為空時,任務正常運行。
12.新增發(fā)布狀態(tài)
背景:用戶無法區(qū)分發(fā)布頁面的對象是否已經(jīng)打包發(fā)布過,可能會造成部分任務重復發(fā)布,導致數(shù)據(jù)覆蓋。
新增功能說明:發(fā)布頁面增加了「狀態(tài)」字段,包含「已打包」和「未打包」兩種狀態(tài),重新提交的「周期任務」「手動任務」等對象,狀態(tài)會變?yōu)椤肝创虬範顟B(tài)。
13.支持 OushuDB 計算引擎
支持SQL開發(fā)、版本回滾、表查詢、語法提示、函數(shù)管理、存儲過程管理、血緣解析、組件等功能。
14.支持 GitLab 代碼倉庫同步
背景:許多客戶存在很多存量的代碼,但是沒有一種方便快捷的方式進行遷移。離線支持了 GitLab 代碼倉庫的拉取和推送后,客戶可以基于 GitLab 進行代碼遷移和代碼管理。
新增功能說明:支持通過賬號密碼或是個人訪問令牌的方式訪問遠端 GIt 倉庫,可以從項目層面或任務層面進行代碼的拉取和推送。
功能優(yōu)化
1.數(shù)據(jù)預覽全局管控優(yōu)化
背景:之前在數(shù)據(jù)源中心做了數(shù)據(jù)預覽管控的功能,可以針對單個數(shù)據(jù)源或全局進行數(shù)據(jù)預覽功能的管控。但之前僅管控到數(shù)據(jù)同步的數(shù)據(jù)預覽,離線產(chǎn)品需要進行優(yōu)化,實現(xiàn)管控到表查詢和數(shù)據(jù)地圖的數(shù)據(jù)預覽。
體驗優(yōu)化說明:meta 數(shù)據(jù)源根據(jù)數(shù)據(jù)源中心的預覽功能,實現(xiàn)了管控到離線產(chǎn)品的數(shù)據(jù)同步、表查詢、數(shù)據(jù)地圖的數(shù)據(jù)預覽等功能。
2.所有 SQL 任務的默認運行方式調(diào)整為整段運行
Hive SQL、Spark SQL、Greenplum SQL、GaussDB SQL、Oracle SQL、TiDB SQL、Trino SQL、MySQL、SQL Server、Hana SQL、ADB SQL、HashData SQL、StarRocks SQL、Inceptor SQL、Impala SQL 所有 SQL 默認運行方式調(diào)整為整段運行。
3.臨時運行時記錄臟數(shù)據(jù)
臨時運行產(chǎn)生的臟數(shù)據(jù)表也需要記錄在臟數(shù)據(jù)管理中,并且對各種情況的臟數(shù)據(jù)表分區(qū)命名進行了優(yōu)化:
? 臟數(shù)據(jù)臨時運行分區(qū)的命名規(guī)則:task_name=任務ID_test_instance/time=時間戳
? 臟數(shù)據(jù)周期實例分區(qū)的命名規(guī)則:task_name=任務ID_scheduled_instance/time=時間戳
? 臟數(shù)據(jù)手動實例分區(qū)的命名規(guī)則:task_name=任務ID_manual_instance/time=時間戳
臟數(shù)據(jù)補數(shù)據(jù)實例分區(qū)的命名規(guī)則:task_name=任務ID_temporary_instance/time=時間戳
4.表查詢和語法提示范圍優(yōu)化
離線開發(fā)中的表查詢和語法提示范圍優(yōu)化為資產(chǎn)元數(shù)據(jù)管理中所有的表(包含底層同步到資產(chǎn)的非 meta schema 的表)。
5.一鍵生成目標表功能優(yōu)化
背景:目前我們在進行一鍵建表功能需求設計的時候,通常使用 varchar、string 等通用類型來覆蓋所有字段類型,如果客戶有需求自行調(diào)整。但是實際上客戶的場景是復雜的,還涉及到數(shù)據(jù)精度等問題。因此我們在這個版本對常用數(shù)據(jù)源之間的字段映射關系做了梳理修改,盡量讓客戶使用一鍵建表功能時能直接使用,無需再進行調(diào)整。
體驗優(yōu)化說明:RDB->Hive,Hive->RDB,RDB->HANA,HANA->RDB,RDB->ADB,RDB->Doris 等數(shù)據(jù)同步中的一鍵生成目標表功能,支持字段根據(jù)映射關系匹配。
6.切分鍵填寫優(yōu)化
背景:「源表切分鍵」的填寫入口在「數(shù)據(jù)來源」時,客戶經(jīng)常會漏填,并在「通道控制」頁面選擇了大于1的并發(fā)數(shù),在執(zhí)行任務后才報錯,客戶需要再去添加切分鍵,產(chǎn)品體驗差,效率低。
體驗優(yōu)化說明:將「源表切分鍵」填寫入口從「數(shù)據(jù)來源」移至「通道控制」頁面;新增「開啟并發(fā)」按鈕,開啟后支持填寫源表切分鍵。
7.同步任務中選擇和其他同步任務相同的目標表時,會進行提示
背景:在一般的 ETL 場景中,一張表只會在一個數(shù)據(jù)同步中作為目標表存在,如果在多個同步任務中配置了同一個目標表,很有可能會造成數(shù)據(jù)丟失、數(shù)據(jù)覆蓋等問題。
體驗優(yōu)化說明:在數(shù)據(jù)同步選擇目標表時,若選擇的目標表在當前租戶下的某些數(shù)據(jù)同步任務中已經(jīng)作為目標表存在,則會進行提示,并告知任務名稱、任務責任人和所屬項目。
8.置成功、重跑、殺任務生效范圍調(diào)整
背景:目前置成功限制了特定狀態(tài)下的實例才可操作,實際置成功的主要目的是當依賴鏈路中出現(xiàn)了暫時無法快速修復的阻塞實例時,在某些情況下其下游實例如果對這個或這些實例不是強依賴并且不能延遲時,希望平臺提供一種強制或者臨時處理方式從而讓下游可以繼續(xù)跑起來。
導致這種阻塞的情況不止現(xiàn)在的失敗、取消,而是包含除“成功”外的所有狀態(tài),因此,能夠支持置成功的實例為除“成功”狀態(tài)之外的所有狀態(tài)的實例;重跑同理,更加不用關心實例狀態(tài)。
體驗優(yōu)化說明:
? 所有狀態(tài)的實例支持「置成功」
? 除運行中外所有狀態(tài)的實例支持「重跑」
? 等待提交、提交中、等待運行、正在運行、凍結狀態(tài)的實例支持「殺任務」
9.跨租戶/項目/產(chǎn)品的實例支持在離線運維中心運維
背景:補數(shù)據(jù)鏈路中若存在指標實例,指標實例出現(xiàn)失敗的情況,目前無法實現(xiàn)重跑操作。因為離線內(nèi)暫不支持對其他產(chǎn)品實例的運維,導致修復處理非常麻煩。
體驗優(yōu)化說明:跨租戶/項目/產(chǎn)品的實例支持在離線運維中心展示,支持「緊急去依賴」「終止」「置成功」「重跑」等操作。
10.實例置成功操作時,若綁定有質量任務,質量任務實例不執(zhí)行
背景:置成功一般發(fā)生在當前任務暫時無法運行成功,但是下游要正常執(zhí)行下去的情況。這種情況下當前任務一定存在問題,如果繼續(xù)走質量校驗沒有意義。
體驗優(yōu)化說明:當對離線任務實例置成功時,如果有質量任務綁定,質量任務實例不執(zhí)行。
11.實例依賴視圖優(yōu)化
背景:任務依賴視圖和實例依賴視圖應該有所區(qū)分。任務依賴視圖展示任務間依賴關系;實例依賴視圖應該展示當前實例的依賴視圖,包含實例間依賴和跨周期依賴。這樣有助于用戶全鏈路查看實例依賴關系,理解運行流程。
體驗優(yōu)化說明:運維中心實例依賴視圖,展示當前實例的跨周期依賴實例視圖。
實時開發(fā)平臺
新增功能更新
1.FlinkSQL 開發(fā),Kafka ChunJun-json 支持自動映射
上個迭代已經(jīng)支持了 OGG-JSON 的自動映射,本次迭代支持了實時平臺自身采集工具打到 Kafka 的格式(ChunJun-json)。
2.Kafka 讀取類型新增 Raw Format
如果你的 Kafka 中具有原始日志數(shù)據(jù),并希望使用 Flink SQL 讀取和分析此類數(shù)據(jù)時,需要用到 raw format。如:
47.29.201.179 - - [28/Feb/2019:13:17:10 +0000] "GET /?p=1 HTTP/2.0" 200 5316 "https://domain.com/?p=1" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36" "2.75"
如果讀取類型使用 raw format,請避免使用 upsert-kafka。因為 raw format 會將 null 值編碼成 byte[ ] 類型的 null,而在 upsert-kafka 中會將 null 視為刪除值的操作。
3.FlinkSQL 維表、結果表新增 Hyperbase 數(shù)據(jù)源
4.Flink1.12 中重構 PGWAL 插件
背景:Flink1.10 已支持過 PGWal 插件,之前插件遷移1.12的時候,漏測了 PGWal,目前在 Flink1.12 上測試發(fā)現(xiàn)存在比較大的問題。
新增功能說明:
5.Hive Catalog 支持開啟 keberos 認證;DT Catalog 中的 Flink 映射表,源表支持開啟 keberos 認證
表管理處的 Kerberos 認證,分為兩種程度:
? Catalog 的認證:此處是通過控制臺的 Flink 組件維護 krb 文件。(如果 hive catalog 的 hms 也自帶 krb 認證文件,平臺不做校驗)
? Flink 映射表的認證:支持 Flink 映射表的源頭,如 kafka/hbase 數(shù)據(jù)源開啟 krb 認證。(用戶需要保障 Flink 開啟的 krb 認證和表數(shù)據(jù)源的 krb 一致,不然任務可能會運行失?。?/p>
6.IDE 執(zhí)行新增 Select 在線查詢能力
背景:之前數(shù)開人員排錯想要查看代碼邏輯,需要將結果打印到日志中查看,操作成本較高。
新增功能說明:在 IDE 中可以對平臺中的 DT+hive catalog 表進行 select 查詢、執(zhí)行 DDL 語句,結果在控制臺進行查看,對于已停止的任務可以下載導出 csv 文件數(shù)據(jù)。
7.新增實時數(shù)倉 demo,支持自動造數(shù)據(jù),運行全鏈路任務
背景:給客戶演示產(chǎn)品時需要配置數(shù)據(jù)源等信息,門檻較高。
新增功能說明:在演示產(chǎn)品時點一點按鈕就能自動造數(shù)據(jù),并運行起全鏈路任務。點擊試運行后平臺將在任務運維自動生成并提交四個任務,在一小時后自動下線(點擊取消試運行直接刪除下線),這些任務不支持在任務運維界面進行操作。
8.新增代碼模板中心,支持使用系統(tǒng)內(nèi)置模板以及創(chuàng)建自定義模板
實時平臺內(nèi)置各種 FlinkSQL 場景的開發(fā)模版,方便開發(fā)理解、上手,也可以根據(jù)業(yè)務自己創(chuàng)建自定義模版,提高開發(fā)效率,模版支持直接引用到自己的任務上做調(diào)整。
9.其他新增功能
? 引擎版本:實時采集、FlinkSQL、Flink 和 PyFlink 任務的引擎選擇支持 Flink1.16 版本
? 產(chǎn)品 logo:產(chǎn)品 logo 和名稱從控制臺的配置內(nèi)容讀取,不再固定寫死
功能優(yōu)化
1.Flink 版本查詢接口直接獲取控制臺信息,平臺不維護
實時平臺幾個 Flink 版本選擇的地方,直接查詢控制臺維護的數(shù)據(jù),平臺自身不再寫死版本號。(如果控制臺只添加了1.12,實時平臺只顯示1.12;如果控制臺添加了1.12和1.10,實時平臺則顯示兩種)
2.【實時采集】向導模式中將前端的配置項抽象化
背景:如果要支持向導模式,每新增一個數(shù)據(jù)源,前端都需要開發(fā)一套配置項。用戶/定開團隊開發(fā)的自定義 connector,如果不進行前端定開,只能在腳本模式中使用。
體驗優(yōu)化說明:在向導模式中將前端配置項抽象化,后端開發(fā)完自定義 connector+SQL 刷入前端配置項+少量/甚至沒有前端開發(fā)工作,完成一個自定義 connector 的開發(fā)應用。
3.其他功能優(yōu)化
? Phoenix5.x:Flink1.12 版本支持 phoenix5.x sink 的選擇
? Kafka 集群:移除集群管理功能模塊,kafka 管理模塊后續(xù)的定位就是做 Topic 的增刪改查,不會提供集群管理相關的能力
? SDK 接口:新增根據(jù)任務查詢 sqltext 的接口;新增根據(jù)項目標識獲取項目信息的接口
數(shù)據(jù)資產(chǎn)平臺
新增功能更新
1.告警通道中的自定義告警通道支持顯示多通道
背景:業(yè)務中心配置多個自定義告警通道時資產(chǎn)平臺只展示一個,但實際發(fā)送告警時將對每個自定義告警通道進行告警信息發(fā)送,存在告警信息發(fā)送冗余,且與其他子產(chǎn)品的邏輯不一致。
新增功能說明:對于自定義告警通道像其他子產(chǎn)品一樣顯示所有告警通道,且可選擇一個或多個進行告警信息的發(fā)送,修改范圍包括元數(shù)據(jù)訂閱、質量規(guī)則等所有涉及告警配置的位置。
2.數(shù)據(jù)模型支持 inceptor 建表
當前租戶的資產(chǎn)中存在自動引入的 inceptor meta 數(shù)據(jù)源時,可在數(shù)據(jù)模型--規(guī)范建表模塊進行 Inceptor 建表,支持配置表的基礎信息和表結構,其中配置表結構時新增支持對分桶字段、分桶數(shù)配置。
若新建表已完成審批,在元數(shù)據(jù)查看時針對分桶字段增加分桶標識展示。
3.【數(shù)據(jù)質量】質量規(guī)則對接資源組
在質量規(guī)則中,單表校驗和多表校驗中跑在 yarn 上的任務,以及實時校驗任務的調(diào)度屬性彈窗中新增資源組的必選項。
4.其他新增功能
? OushuDB 支持元數(shù)據(jù)同步和查看:離線對接了 OushuDB 引擎生成的 meta schema,資產(chǎn)支持自動引入,并支持元數(shù)據(jù)的同步和查看。
? 數(shù)據(jù)源:新增數(shù)據(jù)源支持 Hive_MRS、Trin
? 規(guī)范建表支持 AnalyticDB PostgreSQL 表
功能優(yōu)化
1.規(guī)范建表數(shù)倉層級綁定數(shù)據(jù)庫邏輯優(yōu)化
背景:一個數(shù)倉層級只能綁一個庫,實際用戶在數(shù)倉時可能存在跨庫多主題或者多主題單庫,需要數(shù)倉層級與庫的綁定關系更為靈活。
體驗優(yōu)化說明:數(shù)倉層級與庫不再與數(shù)據(jù)庫配置綁定關系,規(guī)范建表時可在選擇數(shù)倉層級后另外選擇數(shù)據(jù)源。
2.Inceptor 表支持表血緣
3.表生命周期到期后處理方式調(diào)整
背景:資產(chǎn)數(shù)據(jù)模型和質量的臟數(shù)據(jù)表生命周期到期邏輯不一致,資產(chǎn)數(shù)據(jù)模型在表生命周期到期后將保存元數(shù)據(jù)信息,導致無用元數(shù)據(jù)信息不斷累積,元數(shù)據(jù)查詢性能受到影響;質量的臟數(shù)據(jù)表在生命周期到期后則會刪除元數(shù)據(jù)信息,僅 Hive 表支持了生命周期。
體驗優(yōu)化說明:
資產(chǎn)數(shù)據(jù)模型中的表生命周期到期后也刪除元數(shù)據(jù)信息,即最后統(tǒng)一為:
例如將表生命周期設置為10天,則:
? 對于非分區(qū)表,當前日期 - 最后一次數(shù)據(jù)修改日期 > 10天后,平臺將自動刪除該表
? 對于分區(qū)表,當前日期 - 某分區(qū)最后一次數(shù)據(jù)修改日期 > 10天后,平臺將自動刪除該分區(qū),分區(qū)全部刪除后表將被刪除
另外 Inceptor 表也支持了生命周期設置。
4.資產(chǎn)監(jiān)聽離線 IDE 的 DDL 語句,SQL 解析后元數(shù)據(jù)變更實時更新在資產(chǎn)數(shù)據(jù)地圖
目前支持的 meta 數(shù)據(jù)源范圍:Hive、AnalyticDB PostgreSQL、TiDB、Inceptor、Hashdata、StarRocks
5.數(shù)據(jù)地圖優(yōu)化
數(shù)據(jù)地圖查詢性能優(yōu)化:每張表200個字段,200w張表的元數(shù)據(jù)存儲,在數(shù)據(jù)地圖頁面查詢響應達到5s以內(nèi)
血緣顯示內(nèi)容優(yōu)化:血緣中各節(jié)點內(nèi)容包含表名、schema 名稱等顯示完整
6.其他體驗優(yōu)化
? 離線刪除項目后資產(chǎn)自動引入的 meta 數(shù)據(jù)源將同步刪除
? Hive 元數(shù)據(jù)技術屬性增加表類型說明,可標識其為 Iceberg 表或者其他格式的表
? 數(shù)據(jù)脫敏優(yōu)化:脫敏方式除覆蓋外另支持轉義和算法加密,支持對指定人群脫敏/指定人群不脫敏,并支持按用戶組進行用戶范圍選擇
? 數(shù)據(jù)地圖遷移后,所有租戶下?lián)碛须x線產(chǎn)品權限的用戶都自動增加資產(chǎn)平臺的訪客權限
? 支持離線創(chuàng)建項目生成的 Oracle、SQL Server meta 數(shù)據(jù)源在資產(chǎn)平臺的自動授權
? 產(chǎn)品 Logo 可在業(yè)務中心統(tǒng)一配置
? 所有下拉框增加 loading 效果,質量校驗規(guī)則、任務、數(shù)據(jù)源管理、元數(shù)據(jù)管理、文件治理的列表篩選框增加模糊搜索
? 數(shù)據(jù)質量告警的告警top20增加告警時間的顯示
? 元數(shù)據(jù)同步優(yōu)化:元數(shù)據(jù)模塊中的數(shù)據(jù)同步功能,在點擊列表中的立即同步操作后,在按鈕旁邊加狀態(tài)標識,避免重復操作
數(shù)據(jù)服務平臺
新增功能更新
1.支持對接自定義角色
平臺角色管理中,admin、租戶所有者和租戶管理員可在租戶層為 API 創(chuàng)建自定義角色(可自由配置角色權限點),此角色創(chuàng)建后會在該租戶的每個項目中存在。此外還可修改固定角色,如項目管理員、數(shù)據(jù)開發(fā)等的權限點。
API 內(nèi)的項目管理-角色管理中展示當前項目中的所有固定角色和自定義角色(僅查看不可編輯)。
2.Python 函數(shù)增加支持3.9版本
背景:python 主流版本分為2.x和3.x,數(shù)據(jù)服務之前僅支持 python2.7 是因為 Jython 執(zhí)行框架僅支持到2.7版本且無法進行包含c語言的三方庫拓展。但是 python2.7 版本較老,大部分客戶用 python3.x 較多,且有拓展三方庫的需求。
新增功能說明:后續(xù)運維部署時默認增加3.9版本,2.7和3.9并存,2.7仍用 Jython 框架,3.9改為 Runtime 框架。通過 Runtime 調(diào)用 Python 程序與直接執(zhí)行 Python 程序的效果是一樣的,所以其天然支持任意三方庫的依賴,同時可以在 Python 中讀取傳遞的參數(shù),也可以在 Java 中讀取到 Python 的執(zhí)行結果。
另外 api-server 服務增加了一個配置項,這里我們提供的默認環(huán)境是沒有三方庫依賴的,客戶可替換為客戶環(huán)境的 python 可執(zhí)行文件。
python3.exe.path = /opt/dtstack/DTGateway/Apiserver/python3/bin/python3.9
3.API 市場的調(diào)用預覽增加支持服務編排、注冊 API
功能優(yōu)化
1.審計內(nèi)容完善
支持了更加完善的關鍵操作審計,以下為部分:
2.安全組中的ip地址黑白名單校驗
背景:同一 API 所選的安全組黑白名單沒有做校驗,導致同一ip同時出現(xiàn)在一個 API 的安全組白名單和黑名單中。
體驗優(yōu)化說明:API 在配置安全組時會對所選黑白名單進行ip地址是否沖突的校驗,如果沖突則無法添加成功;歷史已經(jīng)存在沖突的情況,黑名單將生效。
3.注冊 API 返回結果是否帶平臺默認結構支持配置
背景:目前在數(shù)據(jù)服務注冊的 API 會外面包一層內(nèi)容,導致注冊以后的返回結果與原生 API 不一致。
體驗優(yōu)化說明:后端增加一個配置項,可配置返回結果是否加上我們自己的內(nèi)容,默認加上。
客戶數(shù)據(jù)洞察平臺
新增功能更新
1.產(chǎn)品名稱對接業(yè)務中心
背景:當前標簽產(chǎn)品名稱、logo 等信息是系統(tǒng)內(nèi)置的,不可更改,但客戶根據(jù)自己實際需求會有需要變更的情況,此時需要我們配合做調(diào)整。為提高變更效率,將信息的配置統(tǒng)一對接到業(yè)務中心,客戶有需要時通過業(yè)務中心修改即可。
新增功能說明:
? 通過數(shù)棧首頁進入「頁面配置」界面,更新「客戶數(shù)據(jù)洞察設置」內(nèi)的配置內(nèi)容,配置頁面見下圖:
配置生效后,下述頁面內(nèi)容將分別引用上方的特定設置。
(1)產(chǎn)品 loading 頁:使用「Loading 頁文案」的輸入文字、顏色
(2)標簽產(chǎn)品項目列表頁、系統(tǒng)內(nèi)所有頁面左上角:使用「產(chǎn)品主頁左上角名稱」的輸入文字、顏色,「產(chǎn)品主頁左上角 icon」設置的圖片
(3)瀏覽器標簽欄:使用「瀏覽器標簽頁名稱」的輸入文字、「產(chǎn)品主頁左上角 icon」設置的圖片
? 通過數(shù)棧首頁進入「頁面配置」界面,更新「首頁設置」內(nèi)的各功能模塊的名稱配置內(nèi)容后,標簽內(nèi)部關于子產(chǎn)品名稱的引用,將引用此處設置內(nèi)容。首頁設置內(nèi)容如下:
配置生效后,標簽產(chǎn)品內(nèi)部引用位置,如項目列表中的項目空間關聯(lián)子產(chǎn)品,如下:
2.個體畫像支持文件導出
背景:根據(jù)標簽數(shù)據(jù)洞察用戶特點,需要將數(shù)據(jù)分享給其他業(yè)務人員做報告輸出。
新增功能說明:進入個體畫像頁面,通過模糊/精確匹配顯示搜索結果,點擊「畫像導出」可導出所有搜索結果。
導出結果將以PDF格式放至下載中心,可前往下載中心進行文件下載。若搜索結果大于2萬個,將根據(jù)用戶輸入的單文件存儲數(shù)量將數(shù)據(jù)分別存于多個PDF文件中,并壓縮成zip文件供用戶下載。
3.群組列表支持導出元數(shù)據(jù)信息
背景:梳理群組數(shù)量狀態(tài),將數(shù)據(jù)分享給其他業(yè)務人員做報告輸出。
新增功能說明:進入群組管理頁面,點擊「群組元信息下載」可導出所有篩選后結果。導出結果將以CSV格式放至下載中心,可前往下載中心進行文件下載。
功能優(yōu)化
1.【SQL優(yōu)化】提升查詢效率
背景:Hive 表創(chuàng)建 SQL 中,涉及到 $partitions 參數(shù)引用,Trino 會進行全表掃描,從而占用大量內(nèi)存空間。在現(xiàn)有功能上,需要縮短實體表的生命周期才能保證任務正常運行,需要對 SQL 進行優(yōu)化從而實現(xiàn)在表生命周期長的情況下,任務依然可以正常運行。
體驗優(yōu)化說明:
Trino SQL 中涉及 $partitions 的地方調(diào)整為子查詢,包括標簽加工任務、標簽圈群、群組任務。
2.支持查詢項目所在 schema 下的所有表、視圖
背景:客戶數(shù)據(jù)存在一個表被不同的項目使用的情況(不同項目使用不同的 schema),需要在創(chuàng)建實體的時候可以選到需要的表,當前因查不到視圖類的數(shù)據(jù)導致業(yè)務阻塞。
體驗優(yōu)化說明:創(chuàng)建/編輯實體的第一步中的主表、輔表支持選擇當前項目數(shù)據(jù)源 schema 下的所有表、視圖。
3.群組列表中,創(chuàng)建人支持篩選
下拉框默認展示前20個創(chuàng)建人,其余內(nèi)容需通過搜索查詢。
4.項目管理頁成員管理支持對角色做篩選
指標管理平臺
新增功能更新
1.共享指標支持綁定維度對象、維度屬性
背景:上一版本新增了維度管理功能,后續(xù)指標加工將依賴綁定的維度內(nèi)容識別維度一致性,共享指標需綁定已有維度才能與自有指標做復合指標加工。
新增功能說明:「指標中心」-「指標開發(fā)」-「指標定義」-「共享指標」中顯示了共享給當前項目的指標,點擊「關聯(lián)維度」即可與自有維度綁定。
2.模型支持共享給其他項目使用
背景:原指標共享使用過程中,客戶會有根據(jù)自己項目的業(yè)務需求基于源表做指標加工的需要,因源表無法獲取導致數(shù)據(jù)無法正常加工。
新增功能說明:
? 「指標共享」-「模型共享」新增模型共享
? 點擊「新增模型共享」可將指定項目的模型共享給其他項目。整體設置內(nèi)容與指標共享類似,特殊地方為模型共享粒度當前支持表級別共享,即根據(jù)共享規(guī)則設置的條件分別針對模型中的每張表設置過濾條件,將過濾結果以視圖形式共享到目標項目
? 共享的模型可在項目內(nèi)的「指標中心」-「數(shù)據(jù)管理」-「數(shù)據(jù)模型」中的「共享模型」tab 查看,對于需要在原模型基礎上增加自有表形成新模型的需求場景,可通過復制功能實現(xiàn)。點擊復制,填寫模型名稱、編碼等信息,生成新模型后,編輯模型,設置對應的維度信息、模型存儲信息后即可發(fā)布,發(fā)布后的模型可正常用于后續(xù)指標加工
3.維度支持共享給其他項目使用
背景:在指標管理過程中,會有對維度做全平臺統(tǒng)一管理的需要,當進行指標共享時,便于理解指標維度的含義。
新增功能說明:
? 「指標共享」-「維度共享」新增維度共享
? 點擊「新增維度共享」可將指定項目的維度共享給其他項目,整體設置內(nèi)容與指標共享類似,只需設置基礎共享內(nèi)容即可
? 共享的維度可在項目內(nèi)的「指標中心」-「數(shù)據(jù)管理」-「維度管理」中的「共享維度」tab 查看,模型、自定義指標加工時選擇的維度信息可引用共享來的維度
4.指標共享時支持同步共享血緣上游指標、數(shù)據(jù)模型、維度對象
新增功能說明:
新建指標共享時,【第一步:設置通用共享信息】中的作用范圍可增加血緣上游指標、數(shù)據(jù)模型、維度對象。
增加后,【第二步:設置共享條件】將針對每個單獨的指標、模型設置共享條件,對于其中存在的共同的條件,可在第一步的公共維度共享規(guī)則中進行批量設置,最終共享規(guī)則將以第二步設置的內(nèi)容為準。
5.上游內(nèi)容更新后,下游內(nèi)容支持聯(lián)動更新
? 統(tǒng)計周期變更后,引用該統(tǒng)計周期的派生指標的自動更新版本,變更統(tǒng)計周期相關的 SQL 片段
? 數(shù)據(jù)模型的維度增加并發(fā)布時,原子指標維度自動更新,增加新維度;減少時,所有使用到該維度的指標均更新,去除引用維度
? 原子指標技術信息變更并發(fā)布后(計算邏輯、精度、為空默認值),引用該原子指標的派生指標自動更新計算公式
? 派生指標、復合指標、自定義指標的維度減少并發(fā)布時,下游指標自動更新,去除引用維度
功能優(yōu)化
1.模型詳情中顯示存儲方式、維度管理信息、調(diào)度信息
? 模型詳情中的「基本信息」中的【模型信息】模塊增加存儲方式顯示
? 模型詳情中的「基本信息」中的【數(shù)據(jù)信息】模塊中的維度增加維度對象、維度屬性信息顯示
? 模型詳情中的「調(diào)度信息」顯示調(diào)度相關信息,包括表/任務信息、調(diào)度信息、數(shù)據(jù)生命周期等
2.任務選擇中支持選擇落表模型對應的模型任務
模型、指標調(diào)度信息設置中,選擇上游任務時,可選擇落表模型生成的任務。
3.模型 SQL 顯示內(nèi)容優(yōu)化
當前模型 SQL 顯示頁面較多,不同頁面顯示內(nèi)容不完全一致,有些增加了調(diào)度信息、有些只展示選中的維度、度量信息,增加理解難度,本次優(yōu)化統(tǒng)一 SQL 顯示內(nèi)容。
4.模型詳情中的「版本變更」中去除「恢復」功能
背景:增加維度管理后,因后續(xù)指標是依賴最新維度信息生成的指標維度,若對版本進行恢復,將導致模型與指標的維度信息不一致的情況。
體驗優(yōu)化說明:頁面去除恢復功能,僅支持查看功能。
5.編輯模型時,不支持修改表別名
背景:模型落表后,將根據(jù)表別名生成模型表字段,修改表別名后,模型表字段將發(fā)生變更,導致后續(xù)計算時查詢不到歷史字段。
體驗優(yōu)化說明:編輯關聯(lián)表時,表別名不可修改。
6.模型支持源表字段類型變更或字段減少
源表字段類型變更或字段減少時,系統(tǒng)將彈出受影響的業(yè)務限定、指標、權限設置、API,用戶需手動編輯后生效。
7.其他功能優(yōu)化
· 數(shù)據(jù)權限、API 的公共維度判斷調(diào)整為基于維度對象、維度屬性判斷
· 指標市場的原子指標結果查詢將返回根據(jù)公式計算的結果
《數(shù)棧產(chǎn)品白皮書》:https://www.dtstack.com/resources/1004?src=szsm
《數(shù)據(jù)治理行業(yè)實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm
想了解或咨詢更多有關袋鼠云大數(shù)據(jù)產(chǎn)品、行業(yè)解決方案、客戶案例的朋友,瀏覽袋鼠云官網(wǎng):https://www.dtstack.com/?src=szbky文章來源:http://www.zghlxwxcb.cn/news/detail-709988.html
同時,歡迎對大數(shù)據(jù)開源項目有興趣的同學加入「袋鼠云開源框架釘釘技術qun」,交流最新開源技術信息,qun號碼:30537511,項目地址:https://github.com/DTStack文章來源地址http://www.zghlxwxcb.cn/news/detail-709988.html
到了這里,關于袋鼠云產(chǎn)品功能更新報告07期|智能、高效、安全,一個都不能少!的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!