采訪嘉賓 | 郭煒、高俊
編輯 | Tina
北京時間 2023 年 6 月 1 日,全球最大的開源軟件基金會 Apache Software Foundation(以下簡稱 ASF)正式宣布 Apache SeaTunnel 畢業(yè)成為 Apache 頂級項目 (TLP, Top Level Project)。
Apache SeaTunnel 于 2021 年 10 月申請加入 Apache 孵化器,不到 2 個月,便以“全票通過”的優(yōu)秀表現(xiàn)正式成為 Apache 孵化器項目。2023 年 5 月 17 日,Apache 董事會通過 Apache SeaTunnel 畢業(yè)決議,結(jié)束了為期 18 個月的孵化,正式確定 Apache SeaTunnel 成為 Apache 頂級項目。
這是首個由國人主導(dǎo)并貢獻到 ASF 的大數(shù)據(jù)集成領(lǐng)域的頂級項目,為了了解項目的起源、發(fā)展過程,以及開源心得,InfoQ 采訪了 Apache SeaTunnel 項目的關(guān)鍵成員。
采訪嘉賓簡介:
郭煒,Apache 基金會成員;Apache DolphinScheduler PMC Member;Apache SeaTunnel Mentor。
高俊,Apache SeaTunnel PMC Chair。
Apache SeaTunnel 的起源
** InfoQ:在大數(shù)據(jù)體系里,Apache SeaTunnel 起到的主要作用是什么?**
郭煒:目前,大數(shù)據(jù)體系里有各種各樣的數(shù)據(jù)引擎,有大數(shù)據(jù)生態(tài)的 Hadoop、Hive、Kudu、Kafka、HDFS,也有泛大數(shù)據(jù)庫體系的 MongoDB、Redis、ClickHouse、Doris,更有云上的 AWS S3、Redshift、BigQuery、Snowflake,還有各種各樣數(shù)據(jù)生態(tài) MySQL、PostgresSQL、IoTDB、TDEngine、Salesforce、Workday 等。我們需要工具讓這些數(shù)據(jù)之間能互聯(lián)互通,那么 Apache SeaTunnel 就是打通這些復(fù)雜數(shù)據(jù)源的利器,它可以簡單、準確、實時地把各種數(shù)據(jù)源整合到目標(biāo)數(shù)據(jù)源當(dāng)中,成為大數(shù)據(jù)流動的“高速公路”。
** InfoQ:Apache SeaTunnel 是如何發(fā)揮作用的,其關(guān)鍵原理、核心設(shè)計是什么?**
郭煒:面對成百上千的數(shù)據(jù)源,我們需要一個簡單高效的架構(gòu)來解決各種各樣的數(shù)據(jù)源之間數(shù)據(jù)集成的問題。Apache SeaTunnel 由三大部分組成,源連接器(Source Connector)、傳輸計算引擎(SeaTunnel Zeta、Flink、Spark),目標(biāo)連接器(Sink Connector)。簡單來說,源連接器就是實時地讀取數(shù)據(jù)源端(也許是 JDBC,也許是 Binlog,也許是非結(jié)構(gòu)化 Kafka 或者 SaaS API,AI 數(shù)據(jù)模型),把這些數(shù)據(jù)轉(zhuǎn)化成 SeaTunnel 可以理解的標(biāo)準數(shù)據(jù)格式再傳送給傳輸計算引擎,傳輸計算引擎將對這些數(shù)據(jù)進行處理(例如數(shù)據(jù)格式變化,分詞等)和分發(fā),最終 Sink Connector 將 SeaTunnel 數(shù)據(jù)格式變化為目標(biāo)端的格式存入目標(biāo)數(shù)據(jù)庫。當(dāng)然,其中有非常復(fù)雜的高性能數(shù)據(jù)傳輸、分布式快照、全局 Checkpoint、兩階段提交等,來確保數(shù)據(jù)可以高效、快速地傳遞到目標(biāo)端。
最近社區(qū)還提交了 SeaTunnel-Web,讓用戶不僅可以用類 SQL 語言來做 Transform,還可以利用界面拖拽來直接打通不同的數(shù)據(jù)源。任何一個開源用戶都可以方便地擴展自己使用數(shù)據(jù)源的 Connector,然后提交到 Apache 社區(qū),讓更多的人一起使用它。同時,你也可以快速使用別人貢獻的 Connector 來快速解決自己企業(yè)數(shù)據(jù)源之間的打通問題。目前,SeaTunnel 已經(jīng)支持了包括 CDC、云存儲、數(shù)據(jù)庫、SaaS 等 100 多個數(shù)據(jù)源,讓企業(yè)方便地打通各種各樣的數(shù)據(jù)源。人人為我、我為人人 ,這在開源的 Apache SeaTunnel 項目中體現(xiàn)得淋漓盡致。
Apache SeaTunnel 的演進過程
** InfoQ:Apache SeaTunnel 項目的演進,主要有哪幾個發(fā)展階段?**
高?。篈pache SeaTunnel,起初名為 Waterdrop,是一個易用且高效的海量數(shù)據(jù)集成平臺,主要基于 Apache Spark 和 Apache Flink 構(gòu)建。它支持海量數(shù)據(jù)的實時同步與轉(zhuǎn)換。
Waterdrop 階段。這一階段的主要目標(biāo)是幫助 Spark 更簡單地處理異構(gòu)數(shù)據(jù)源數(shù)據(jù)。在此期間,Waterdrop 的主要使命是通過提供一個簡單易用、能夠支持每天數(shù)百億條海量數(shù)據(jù)同步的開源軟件,將海量數(shù)據(jù)同步的能力傳播到全世界。
SeaTunnel 初期。在 2021 年 Waterdrop 更名為 SeaTunnel 之后,它的主要目標(biāo)是更簡單地進行異構(gòu)數(shù)據(jù)源同步和集成。SeaTunnel 的設(shè)計目標(biāo)是要大大降低用戶使用 Spark、Flink 等技術(shù)做數(shù)據(jù)集成的門檻。這個階段的重點是利用 Spark 和 Flink 作為底層數(shù)據(jù)同步引擎,提高數(shù)據(jù)同步的吞吐性能。此外,SeaTunnel 還開始引入可插拔的插件體系,支持超過 100 種數(shù)據(jù)源,從而增強其數(shù)據(jù)集成的能力。
SeaTunnel 中期。在 SeaTunnel 的中期階段,SeaTunnel 建立了Zeta引擎,專為數(shù)據(jù)同步集成而設(shè)計。新的引擎減少了對第三方服務(wù)的依賴,使得那些沒有大數(shù)據(jù)平臺或不愿意依賴大數(shù)據(jù)平臺進行數(shù)據(jù)同步的用戶也能輕松使用 SeaTunnel。Zeta 引擎利用 Dynamic Thread Sharing 技術(shù)優(yōu)化資源使用,提供數(shù)據(jù)同步任務(wù)的 Checkpoint 和容錯機制,以及執(zhí)行計劃優(yōu)化器以減少網(wǎng)絡(luò)傳輸,從而提高數(shù)據(jù)同步效率。SeaTunnel 的這一階段重點在于支持全場景數(shù)據(jù)同步,包括離線批量同步、全量同步、增量同步、實時同步以及 CDC。
SeaTunnel 最新階段。最近,SeaTunnel 進入了一個新的發(fā)展階段,這個階段的目標(biāo)是使得更廣泛的用戶群體,包括數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家,也能從 SeaTunnel 高效、簡單的數(shù)據(jù)集成功能中受益。為了實現(xiàn)這個目標(biāo),SeaTunnel 引入了可視化界面,讓用戶能更直觀、更方便地實現(xiàn)異構(gòu)數(shù)據(jù)的實時同步和集成,其目標(biāo)已經(jīng)擴展到為工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、AI 算法工程師等人群提供更高效、更簡單的異構(gòu)數(shù)據(jù)同步、實時同步集成功能。
從 Waterdrop 到 SeaTunnel ,再到 Zeta 引擎的自主設(shè)計,再到現(xiàn)在的可視化界面融合,Apache SeaTunnel 的發(fā)展歷程凸顯了其持續(xù)創(chuàng)新,致力于降低大數(shù)據(jù)處理難度,并提升數(shù)據(jù)處理效率的使命。未來,我們期待 SeaTunnel 能在大數(shù)據(jù)領(lǐng)域持續(xù)推動創(chuàng)新,為更多用戶提供優(yōu)質(zhì)的數(shù)據(jù)集成解決方案。
** InfoQ:Apache SeaTunnel 經(jīng)歷過重構(gòu)?那么改進了哪些功能,并如何保證穩(wěn)定性的?**
高?。哼@里主要指的是對 Apache SeaTunnel 連接器的重構(gòu),連接器是負責(zé)將具體的上下游數(shù)據(jù)源進行打通,是數(shù)據(jù)集成的關(guān)鍵組成部分。加入 Apache 之前,Waterdrop 的定位是讓 Flink 和 Spark 使用起來更簡單,所以整個架構(gòu)設(shè)計都是基于 Flink 和 Spark 之上。特別是連接器,基本是將 Spark 和 Flink 的連接器引入進來就行了,對于 Spark 和 Flink 沒有的連接器,需要使用 Spark 和 Flink 的 API 分別開發(fā)一套代碼,早期批和流還是不同的 Flink API,意味著同一個數(shù)據(jù)源為了實現(xiàn)批同步和流同步,也需要開發(fā)兩套代碼。
代碼的開發(fā)量和維護成本太高了。于是去年年初社區(qū)發(fā)起了重構(gòu)連接器的討論,目標(biāo)是定義 SeaTunnel 自己的連接器 API,與具體的引擎解耦,不依賴具體的引擎 API,真正的實現(xiàn)批流一體,同一個數(shù)據(jù)源只需要一套代碼就可以同時運行在 Spark 和 Flink 引擎上。
在討論初期有不少人持反對意見,認為 Flink 和 Spark 這些引擎很成熟,強依賴它們也沒什么問題,有些貢獻者覺得我們應(yīng)該放棄 Spark 全面依賴 Flink,在 Flink 的基礎(chǔ)上把功能做好做完善。而且,重構(gòu)連接器 API 意味著之前的 50 多個連接器的工作都白費了,一切要從零開始。但最終社區(qū)達成了共識,一切從 SeaTunnel 項目的定位出發(fā),所以技術(shù)方向應(yīng)該服從項目的目標(biāo)和定位。目標(biāo)確立后,社區(qū)花了一個月設(shè)計新的連接器 API,然后用了 4、5 個月就已經(jīng)支持到了 100 多個連接器,速度之快是之前的架構(gòu)不可能達到的,并真正實現(xiàn)了 SeaTunnel 支持多引擎和多引擎版本的能力。
現(xiàn)在,SeaTunnel 已經(jīng)支持了 Spark2、Spark3、Flink 1.14、Flink 1.15、Flink 1.16 等多個引擎和版本,同時也有了自己的專注于解決同步領(lǐng)域問題的超高性能引擎 Zeta。
** InfoQ:SeaTunnel CDC 與 Flink CDC、DataX 的主要區(qū)別是什么?我們應(yīng)該如何選型?**
郭煒:SeaTunnel 是批量處理和 CDC 處理同時支持,它可以自動化地切換批和流的切換點,同時在引擎方面,它支持了 Flink CDC 不支持的 DDL 變更檢測,第三方 Kafka 緩沖支持,多表公用一個任務(wù)等。相比 DataX,除了批量性能超過其 30% 之外,更是支持了實時 CDC 同步場景。當(dāng)然,最大的差別還是在于 SeaTunnel CDC 是一個支持 100 多個數(shù)據(jù)源的同步工具,它支持非結(jié)構(gòu)化到結(jié)構(gòu)化的自動轉(zhuǎn)化,不僅支持數(shù)據(jù)庫,也支持 Kafka、SaaS API 等復(fù)雜數(shù)據(jù)的實時抽取。更是有強大的 SeaTunnel-Web 界面,讓大家拖拖拽拽就可以建立同步任務(wù),同時可以監(jiān)控處理各種同步情況。總之,SeaTunnel 的目標(biāo)就是讓異構(gòu)數(shù)據(jù)源簡單、高效、準確地集成到用戶指定的目標(biāo)端去。
** InfoQ:Snowflake、AWS 在 Zero-ETL 數(shù)據(jù)轉(zhuǎn)換、流通和集成上有一些投入,您們?nèi)绾慰创@個技術(shù)方向?它會是未來嗎?**
郭煒:Zero-ETL 和 DataMesh 類似,目標(biāo)都是盡量不移動數(shù)據(jù)或者少量移動數(shù)據(jù)的情況下來達到實現(xiàn)查詢數(shù)據(jù)結(jié)果的目標(biāo)。在一些場景下,例如,KV 查詢和 OLAP 聯(lián)合查詢或者 OLTP+OLAP 聯(lián)合查詢有一定優(yōu)勢。但是,數(shù)據(jù)應(yīng)用的場景非常復(fù)雜,否則就不會出現(xiàn)幾千種數(shù)據(jù)引擎來處理各種各樣的事項,同時,數(shù)據(jù)集成不僅僅是數(shù)據(jù)庫之間的數(shù)據(jù)集成,還包括 SaaS 到數(shù)據(jù)源,向量數(shù)據(jù)到 AI 引擎,各種各樣新興的場景會層出不窮,這些其實都是 DataMesh 和 Zero-ETL 無法處理的場景。所以,從我的觀點來看,DataMesh 和 Zero-ETL 可以解決用戶 20% 左右的數(shù)據(jù)集成的場景問題,隨著 AI 和 SaaS 的流行,更多的場景需要更專業(yè)的數(shù)據(jù)集成工具來解決。
Apache SeaTunnel 的開源故事
** InfoQ:Apache SeaTunnel 是如何和開源結(jié)緣的?能具體說說其中的故事嗎?**
高?。篠eaTunnel 的誕生。Apache SeaTunnel 開始叫做 Waterdrop,主要致力于更簡單在不同數(shù)據(jù)源上使用 Spark、Flink 處理數(shù)據(jù),后來遇到了郭煒和白鯨開源的代立冬,我們一眼看中了這個領(lǐng)域無限的空間。此時,Apache Sqoop 已經(jīng)退役,Apache 基金會領(lǐng)域當(dāng)中也沒有一款可以替代 Sqoop 解決大數(shù)據(jù)同步生態(tài)的項目,而在國內(nèi) DataX 也只能支持批量同步數(shù)據(jù)源,同時數(shù)據(jù)源支持也有限,而在海外有 FiveTran、Airbyte 這些爆火的項目,在業(yè)界的確非常需要一個可以高效、簡單、準確打通各種數(shù)據(jù)源的開源項目。
于是,在 Apache 董事會成員姜寧、歐洲 PMC Jean-Baptiste Onofré、Apache 大佬 Ted Liu 等人的支持下,SeaTunnel 進入到了 Apache 孵化器,成為一個專業(yè)的,以高效數(shù)據(jù)集成、打通各個數(shù)據(jù)源的 Apache 孵化項目。
進入 Apache 孵化器之后,SeaTunnel 得到了快速的發(fā)展,Connector 數(shù)量也從過去的 20 個變成現(xiàn)在的 100 多個連接器,涵蓋了大部分公司使用的數(shù)據(jù)源,不僅是國內(nèi)的 B 站、頭條、新浪,連美國 JP Morgan 的用戶都被如此多、高效的數(shù)據(jù)連接器吸引使用,印度第二大運營商 Bharti Airtel 更是在生產(chǎn)環(huán)境中使用了 SeaTunnel。
SeaTunnel 的第一個挑戰(zhàn)。不過此時 SeaTunnel 也遇到它的第一個挑戰(zhàn),那就是曾經(jīng)以 Spark、Flink 為核心引擎的時候,我們在大數(shù)據(jù)同步場景里多處受挫,例如,無法支持 CDC 場景下的表自動變更,同步幾千個表的時候,Spark、Flink 要么都在一個任務(wù)里,任何一個表出問題,整個任務(wù)失敗,要么就是一個表一個任務(wù),資源和源數(shù)據(jù)庫都受不了,SeaTunnel 用戶在數(shù)據(jù)量大了之后苦不堪言。這時候,我提出一個想法,那就是建立 Apache SeaTunnel 自己的引擎——一個專門為數(shù)據(jù)同步集成而生的引擎。它不依賴于以計算為主的 Flink、Spark,可以自由地滿足數(shù)據(jù)同步場景中的 Schema Evolution,錯誤數(shù)據(jù)采集,數(shù)據(jù)限流等,還可以節(jié)約 Flink、Spark 為復(fù)雜計算預(yù)留的內(nèi)存、CPU slot,同時采用類似 Apache Arrow 的內(nèi)存技術(shù),在保證全局一致性前提下,最大限度提升數(shù)據(jù)傳輸效率。而且,社區(qū)小伙伴們給這個引擎起了一個很有想象力的名字,Zeta,它是宇宙里速度最快小行星的名字,意味著可以載著宇宙的數(shù)據(jù)快速穿梭于星際之間。(后來發(fā)現(xiàn)也是澤塔奧特曼的英文名,我想既可以幫助數(shù)據(jù)星際傳輸,如果遇到怪獸也可以打小怪獸吧 _)。
從零開始直接寫一個引擎談何容易,一遍一遍的設(shè)計討論,一遍一遍地推翻原有設(shè)計,大概做了四到五版的設(shè)計和原型實現(xiàn)后,在 2022 年的 10 月份,第一個版本的 SeaTunnel Zeta 才發(fā)布了 Alpha 版。這個版本一經(jīng)發(fā)布就技驚四座,不僅支持了 DataX 不支持的 CDC 場景,還在框架上支持 DDL 變更同步,性能更是好得出奇,比海外類似開源的產(chǎn)品要快 40 倍。SeaTunnel Zeta 的出現(xiàn)一下子打開了 Apache SeaTunnel 的天花板,無論將來有幾千上萬的數(shù)據(jù)源連接器,都可以乘坐著 Zeta 小星星以光速 1/3 的速度遨游宇宙了~
SeaTunnel 的第二個挑戰(zhàn),開源和開源商業(yè)界限怎么分?這時候,Apache SeaTunnel 的 Committer 們各個頗有大將風(fēng)范,劍鋒所指各種數(shù)據(jù)源,數(shù)據(jù)源連接器數(shù)量一下增長了 5 倍,從 2022 年 1 月份 20 個數(shù)據(jù)源變?yōu)?2022 年 12 月的 104 個數(shù)據(jù)源。
但是問題又來了,用戶紛紛抱怨,寫類 SQL 的代碼還是太麻煩,普通人用不了,能不能更簡單地用界面使用 SeaTunnel?的確,讓數(shù)據(jù)同步能力平民化就是 SeaTunnel 這個項目建立的初衷。此時,已經(jīng)加入白鯨開源的我跟白鯨開源的聯(lián)合創(chuàng)始人代立冬商量,能不能把基于 SeaTunnel 的商業(yè)版 WhaleTunnel 的界面貢獻給 Apache 社區(qū),讓更多的人擁更簡單的數(shù)據(jù)同步的能力。一直推崇開源文化的開源積極分子代立冬十分明白一個簡單易用的界面對于解決用戶問題有多么的重要,可是如果界面也開源了,那么白鯨開源這家商業(yè)公司將來收入靠什么呢?怎么能養(yǎng)活這些熱愛開源的人繼續(xù)貢獻開源呢?
我找到了白鯨開源商業(yè)合伙人,也是前 Informatica 中國區(qū)總經(jīng)理李晨和運營合伙人聶勵峰商量這個事情,雖然大家熱愛開源,但是大家也要吃飯養(yǎng)家糊口啊...... 這次討論非常激烈,持續(xù)了一整天。最終李晨講到,“白鯨開源”的基因就是開源,如果我們?yōu)榱松虡I(yè)訂單,把能幫助到大家快速解決問題的核心功能閉源了,這樣閉源和開源會對立,那么白鯨開源和 Informatica、Fivetran 這些閉源軟件公司有什么區(qū)別?我們要走就走一條在中國持續(xù)開源的路,堅信在更多的用戶對于開源產(chǎn)品的打磨,一定會讓白鯨開源商業(yè)產(chǎn)品做的更好,而不是走一條閉源產(chǎn)品的路!
于是,在 2023 年一個春天的夜晚,幾個人一致同意把商業(yè) WhaleTunnel 的界面全部貢獻到 SeaTunnel 當(dāng)中,讓更多的人具有更簡單異構(gòu)數(shù)據(jù)實時同步的能力。在后面 SeaTunnel 周例會上,我一公布這個消息,一下子好多用戶都興奮了,說我們就等著 web 開源了,趕緊做好,我們馬上上線?。ù⒍?、李晨、聶勵峰周會聽到這里,淺淺一笑,偷偷地下線,不留功與名——如果將來這幾個人出來拿著碗“化緣”,也請大家多多支持啊,支持他們就是支持 SeaTunnel 這些原創(chuàng)的開源力量了)。
SeaTunnel 畢業(yè)啦!過五關(guān)、斬六將,在 Apache 基金會 7 位 Mentor 的輔導(dǎo)下,Apache SeaTunnel 社區(qū)共加入了 28 位 Commiter、18 位 PMC,也在社區(qū)的共同努力下發(fā)布了 8 個 Apache Releases。通過透明的開發(fā)過程和開源的代碼管理,Apache SeaTunnel 項目在社區(qū)中獲得了廣泛的參與。中間還克服了社區(qū)的建立和本土化、精力分配、團隊協(xié)作和社區(qū)成長等重重困難和挑戰(zhàn),最終于 2023 年 6 月 1 日兒童節(jié)這一天,給所有社區(qū)的小兒童和大兒童們獻上了兒童節(jié)的賀禮!
中國終于有了自己的開源數(shù)據(jù)同步集成的頂級項目啦!這是 SeaTunnel 的一大步,但只是中國開源的一小步,相信更多的優(yōu)秀開源項目在中國如春筍般出現(xiàn),中國的開源商業(yè)也可以支持中國開源的愛好者們更好地兼顧養(yǎng)家糊口和開源貢獻!
** InfoQ:SeaTunnel 畢業(yè)成為首個國人主導(dǎo)的數(shù)據(jù)集成領(lǐng)域 Apache 基金會頂級項目,有什么經(jīng)驗可以分享?特別是在運營一個全球化的社區(qū)方面?**
高?。壕拖裎覀兗尤胍患倚鹿拘枰私膺@家公司的文化一樣,參與 Apache 開源項目之前,我們也需要了解 ASF 的文化。ASF 文化就是 The Apache Way。
深入進入開源就會發(fā)現(xiàn),開源不只是開放源碼這么簡單的一件事,開源還關(guān)乎社區(qū)管理、社區(qū)活躍、社區(qū)溝通交流、社區(qū)文化等,這就需要我們對 Apache way 有更加深刻的理解。
鑒于此前的經(jīng)驗,Apache SeaTunnel 在進入 Apache 孵化器初期就對 Apache Way 的重要性有著深刻的理解,比如對于開源社區(qū)來說,Community Over Code 的理念要植根心中,為此也需要社區(qū)做出準備和努力,盡可能降低每個有興趣參與項目人的門檻,甚至打造 0 門檻,比如制定社區(qū)激勵計劃,制作新手入門指南,精選 Good First Issue,重要 Feature 進展跟蹤,通過定期的用戶訪談獲取反饋和優(yōu)化建議,定期解答社區(qū)關(guān)于項目和社區(qū)的疑問等。
社區(qū)貢獻不僅限于代碼,非代碼的貢獻甚至有時會發(fā)揮比代碼更加有價值的作用,比如利用自身影響力為項目引發(fā)關(guān)注做貢獻,寫作項目相關(guān)技術(shù)和非技術(shù)文章,參與社區(qū)組織的各種活動、在各種時機和場合為 Apache SeaTunnel“代言”,把它推薦給更多的用戶等,都是參與社區(qū)的渠道。
同時,Community Over Code 還強調(diào)開放、交流、合作,Apache SeaTunnel 秉持著這些理念,堅持社區(qū)內(nèi)與海內(nèi)外社區(qū)保持溝通,相互學(xué)習(xí)交流,堅持與 Apache 社區(qū)建立溝通,所有討論發(fā)生在郵件內(nèi),issue 中,并通過社區(qū)自媒體渠道公布項目和社區(qū)的重大進展和計劃,讓社區(qū)保持公開透明。
從進入孵化期至今,Apache SeaTunnel 先后與多個海內(nèi)外開源項目舉辦線上線下 Meetup 20 余場,包括已先于 Apache SeaTunnel 順利從 ASF 孵化器畢業(yè)的 Apache Shenyu、Apache InLong、Apache Linkis,Apache Doris、IoTDB、StarRocks、TDengine 等成熟開源項目,以及在美國、印度等海外地區(qū)與 Trino、APISIX、Shopee、ALC Indore 聯(lián)合舉辦的 Meetup 等。社區(qū)之間的合作與交流推動開源技術(shù)的發(fā)展和應(yīng)用,Apache SeaTunnel 與其他開源項目合作,共同解決了技術(shù)難題,有利于提升開源生態(tài)的整體水平,拓展了開源生態(tài)的邊界。
Apache SeaTunnel 還積極參與國內(nèi)外的技術(shù)大會和展覽,展示開源項目和技術(shù)成果,通過與業(yè)界專家和開發(fā)者的交流,擴大項目的影響力和知名度。
經(jīng)過時間的積累,社區(qū)已有了質(zhì)的變化。從社區(qū)的郵件討論、GitHub 的數(shù)據(jù)展示中,你會發(fā)現(xiàn) Apache SeaTunnel 的社區(qū)開始真正變得活躍與多元化。
** InfoQ:在開源上,Apache SeaTunnel 還有哪些未來規(guī)劃?**
高?。褐饕俏鍌€方面:文章來源:http://www.zghlxwxcb.cn/news/detail-502085.html
- SeaTunnel 將進一步提高 Zeta 引擎的性能和穩(wěn)定性,并將過去規(guī)劃的 DDL 變更,錯誤數(shù)據(jù)處理,流速控制、多表同步等落地完成。
- SeaTunnel-Web 也將從 Alpha 狀態(tài)進入 Release 狀態(tài),讓大家可以直接從界面來定義、控制整個同步流程。
- 加強AGI組件配合關(guān)系,除了可以使用ChatGPT自動生成Connector之外,加強向量數(shù)據(jù)庫,大模型 插件的打通,讓現(xiàn)有100多種數(shù)據(jù)源無縫對接大模型。
- 完善和上下游生態(tài)的關(guān)系,與 Apache DolphinScheduler、Apache Airflow 等 Apache 生態(tài)的整合和互聯(lián)互通。
- 在 Google Sheet、飛書、騰訊文檔支持之后,加強 SaaS Connector 的構(gòu)造,例如 ChatGPT、Salesforce、Workday 等。
本文由 白鯨開源 提供發(fā)布支持!文章來源地址http://www.zghlxwxcb.cn/news/detail-502085.html
到了這里,關(guān)于SeaTunnel畢業(yè)!首個國人主導(dǎo)的數(shù)據(jù)集成項目成為Apache頂級項目的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!