引言
在當(dāng)前人工智能革命的推動下,圖形比以往任何時候都更加重要和有用。工程師們正在思考與Gen-AI相關(guān)的機(jī)遇,利用開放的Gen-AI解決方案,如動態(tài)提示、數(shù)據(jù)基礎(chǔ)和掩碼,從而進(jìn)一步思考知識圖譜等有效解決方案。
例如工程師張三正在解決一個數(shù)據(jù)基礎(chǔ)問題,并考慮為工作中的個性化產(chǎn)品推薦AI解決方案構(gòu)建它們的知識圖譜,并開始思考以下問題:
如何構(gòu)建這些圖譜?
在哪里存儲它們?
如何與來自不同數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖的大量數(shù)據(jù)集成?
張三的關(guān)切似乎非常合理。如果他現(xiàn)在必須編寫應(yīng)用程序邏輯來生成圖形,并連接到新的圖數(shù)據(jù)庫以存儲它們,這將帶來一系列挑戰(zhàn),如集成、安全性、成本、可靠性和技術(shù)學(xué)習(xí)等。
然而,張三可以通過簡單而強大的原生圖分析引擎應(yīng)用來克服這些麻煩的問題。
是的,今天可以在現(xiàn)有數(shù)據(jù)上實現(xiàn)圖查詢,而無需物化圖形或使用圖數(shù)據(jù)庫。
你是否想知道如何在現(xiàn)有的數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖中原生地實現(xiàn)圖分析和圖查詢呢?讓我們偷窺一下。
圖與圖分析
在軟件工程中,圖是用于建模和表示實體之間關(guān)系的數(shù)據(jù)結(jié)構(gòu)。它們由節(jié)點(vertices)和關(guān)系(edges)組成,這些節(jié)點和關(guān)系相互連接,可以是有向或無向的、加權(quán)或非加權(quán)的。
圖分析是一種強大的新興數(shù)據(jù)分析形式,用于分析基于圖的數(shù)據(jù),幫助企業(yè)理解各種數(shù)據(jù)實體之間的復(fù)雜關(guān)系。它有助于理解、可視化并從復(fù)雜關(guān)系中獲得有意義的見解。
圖分析與傳統(tǒng)SQL分析的比較
圖分析 | 傳統(tǒng)SQL分析 | |
---|---|---|
性能 | 更高的性能 | 較低的性能 |
靈活性 | 更加靈活和可擴(kuò)展 | 相對較少的靈活性和可擴(kuò)展性 |
可擴(kuò)展性 | 更容易處理大型圖數(shù)據(jù)集 | 處理大型數(shù)據(jù)集相對困難 |
關(guān)系導(dǎo)向性 | 通過關(guān)系導(dǎo)向的查詢更好地理解數(shù)據(jù)實體之間的復(fù)雜關(guān)系 | 通過表查詢來理解數(shù)據(jù)實體之間的關(guān)系 |
智能分析 | 對于智能和AI分析更具相關(guān)性 | 不太適用于智能和AI分析 |
從上表可以看出,圖分析在智能和AI分析方面的效果更好,具有更高的性能、靈活性、可擴(kuò)展性和關(guān)系導(dǎo)向性。
如何實現(xiàn)圖分析
目前,大多數(shù)企業(yè)為了利用圖分析而生成圖形并將其存儲在圖數(shù)據(jù)庫中。Neo4j、TigerGraph、Amazon Neptune和OrientDB是業(yè)界廣泛采用的圖數(shù)據(jù)庫。
然而,原生圖分析引擎是一種新的范式,可以直接在現(xiàn)有的關(guān)系型/SQL數(shù)據(jù)上實現(xiàn)圖查詢和可視化,無需使用圖數(shù)據(jù)庫,并且仍然可以利用圖分析和傳統(tǒng)分析方法帶來的所有優(yōu)勢。
這似乎是一個非常強大的工具,具有許多與圖分析相關(guān)的機(jī)會,可以完全拋棄冗余的圖數(shù)據(jù)庫,并轉(zhuǎn)向這種新的原生圖分析范式。
從流程中刪除圖形數(shù)據(jù)庫
最終用戶流程圖
通過移除流程中的圖數(shù)據(jù)庫,我們可以同時實現(xiàn)以下三個目標(biāo):
零ETL:無需復(fù)制、遷移或ETL數(shù)據(jù),即可構(gòu)建和存儲圖形。也不需要從一個數(shù)據(jù)湖復(fù)制基本關(guān)系數(shù)據(jù)到另一個數(shù)據(jù)湖。你可以在運行時進(jìn)行實時查詢的虛擬層。
不需要新的圖數(shù)據(jù)庫:無需物化和存儲圖格式的數(shù)據(jù),可以在運行時實時執(zhí)行。無需引入新的圖數(shù)據(jù)庫,也無需擔(dān)心集成、成本和安全限制。
高性能:同時實現(xiàn)圖查詢對關(guān)系型數(shù)據(jù)的所有性能優(yōu)勢。
業(yè)界正在迅速跟進(jìn)這種新方法,已經(jīng)有一些相關(guān)的參與者。
開源開發(fā)庫
Apache Spark GraphX:GraphX是Spark的一個新組件,用于圖形和圖并行計算,包含了越來越多的圖算法和構(gòu)建器,以簡化圖分析任務(wù)。
Apache Flink Gelly:Gelly是Apache Flink的圖處理API和庫。Flink對迭代的本地支持使其成為大規(guī)模圖分析的適當(dāng)平臺。
提供原生支持的現(xiàn)成產(chǎn)品/引擎
PuppyGraph:使用PuppyGraph,你可以在倉庫、數(shù)據(jù)湖和數(shù)據(jù)湖屋中以無縫的無ETL集成的方式進(jìn)行圖查詢。支持以下開放表格式:
還支持以下數(shù)據(jù)庫的關(guān)系型數(shù)據(jù):
MySQL
PostgreSQL
Apache Iceberg
Apache Hudi
Apache Hive
Delta Lake
Timbr.ai:Timbr的語義圖平臺是一個SQL原生知識圖,可以將你的數(shù)據(jù)庫轉(zhuǎn)換為推理機(jī),因此我們可以在數(shù)據(jù)上應(yīng)用優(yōu)化的圖形,如SQL查詢。它支持與符合SQL / ANSI SQL標(biāo)準(zhǔn)或可通過SQL查詢的任何關(guān)系型數(shù)據(jù)庫的完全后端集成。連接可以通過JDBC或ODBC連接器建立,無需ETL。
支持的關(guān)系型數(shù)據(jù)庫:MySQL、MariaDb、SqlServer、PostgreSQL、SAP Hana、Aurora Oracle
支持的NoSQL數(shù)據(jù)庫:MongoDB
支持的數(shù)據(jù)湖:S3、GCS、Microsoft ADLS
支持的數(shù)據(jù)倉庫:RedShift、BigQuery、Snowflake、Databricks、Synapse、Athena
支持的引擎:Apache Spark、Presto、Trino文章來源:http://www.zghlxwxcb.cn/article/651.html
支持的數(shù)據(jù)格式:Parquet/JSON/CSV文章來源地址http://www.zghlxwxcb.cn/article/651.html
到此這篇關(guān)于無需圖數(shù)據(jù)庫的知識圖譜和分析,為Gen-AI提供解決方案的文章就介紹到這了,更多相關(guān)內(nèi)容可以在右上角搜索或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!