摘要:本文以華為云圖引擎 GES 為例,來介紹如何使用圖查詢語言 Cypher 表達(dá)一些需要做數(shù)據(jù)局部遍歷的場景。
本文分享自華為云社區(qū)《使用 Cypher 子查詢進(jìn)行圖探索 -- 以華為云圖引擎 GES 為例》,作者:蜉蝣與海。
在圖數(shù)據(jù)庫/圖計(jì)算領(lǐng)域,很多查詢可以使用圖查詢語言Cypher、Gremlin或者指令式API進(jìn)行表達(dá),如多跳過濾、全局檢索以及對過濾后的結(jié)果進(jìn)行聚集排序等操作。然而有些查詢不是那么容易表達(dá),常常需要對圖中的一組數(shù)據(jù)去做局部遍歷,例如在社交網(wǎng)絡(luò)(人-人,人-興趣的關(guān)聯(lián)網(wǎng)絡(luò))場景中,常常涉及以下場景:
- 朋友推薦:看看小明的朋友的朋友中,哪些不是小明的朋友,進(jìn)而推薦給小明。
- 潛在二度人脈分析:選取一組點(diǎn),每個(gè)點(diǎn)代表一個(gè)人,在他們朋友的朋友中,統(tǒng)計(jì)他們各自有多少不認(rèn)識的男性朋友和女性朋友。
- 興趣推薦A:興趣愛好也是社交網(wǎng)絡(luò)中的點(diǎn),看看小明的朋友有哪些興趣愛好(人-INTEREST-興趣),從每個(gè)朋友的興趣愛好中選取至多N個(gè)興趣愛好推薦給小明。
- 興趣推薦B:看小明有哪些朋友還沒有錄入興趣愛好,允許小明把自己的興趣愛好推薦給他們。
這些查詢往往只關(guān)注圖中的某個(gè)局部,對局部進(jìn)行多跳查詢,且局部上往往有類似下列限制:
- 數(shù)量限制:例如興趣推薦A場景中,限制了每個(gè)朋友的興趣數(shù)目,而不是總數(shù)目。
- 條件限制:例如朋友推薦場景中,“哪些不是小明的朋友”需要先查詢小明和朋友的朋友間有沒有邊,并將結(jié)果作為查詢條件輸入用來過濾。
在查詢語言Cypher中,常常使用子查詢來解決這類問題。本文會以華為云圖引擎GES為例(圖引擎版本>=2.3.6),來介紹如何使用Cypher表達(dá)上述場景。
注:?本文同步發(fā)布至華為云AI Gallery,文中所有代碼皆可以在AI Gallery上運(yùn)行:【AI Gallery】使用Cypher子查詢進(jìn)行圖探索 – 以華為云圖引擎GES為例。
閱讀前準(zhǔn)備
基礎(chǔ)知識
閱讀前需要了解如下基礎(chǔ)知識
-
Cypher查詢語言的基本結(jié)構(gòu):
- 關(guān)于Cypher樣例語句,可以參考:圖引擎服務(wù)幫助文檔-業(yè)務(wù)面API-Cypher-基本操作和兼容性
- 關(guān)于Cypher的文法說明,可以參考o(jì)penCypher 9官方頁面。
-
Cypher的列表表達(dá)式:
- 華為云圖引擎GES支持的列表表達(dá)式,可以參考圖引擎服務(wù)幫助文檔-業(yè)務(wù)面API-Cypher-支持的表達(dá)式,函數(shù)及過程
- Neo4j 3.5 Cypher Manual - Lists - List Comprehension
- 對本文中使用到的列表表達(dá)式,提前做下述解釋:
下方三個(gè)小節(jié)會指導(dǎo)如何配置一個(gè)GES實(shí)例并使用notebook連接GES服務(wù)進(jìn)而做查詢演示。如果你只想了解如何編寫查詢語句,對輸入的Cypher查詢獲取返回結(jié)果沒有需求,可以直接跳過下方三個(gè)小節(jié)。
本文使用的數(shù)據(jù)集
本教程使用LDBC-SF0.1社交數(shù)據(jù)集中截選的人物關(guān)系數(shù)據(jù)集,數(shù)據(jù)集可以從此處下載。下載后需要在GES中創(chuàng)建圖并導(dǎo)入數(shù)據(jù)集,詳細(xì)指導(dǎo)流程可參見華為圖引擎文檔-快速入門和華為云圖引擎服務(wù) GES 實(shí)戰(zhàn)——創(chuàng)圖。
如何調(diào)用GES的Cypher API
GES官網(wǎng)幫助文檔上有GES Cypher的API,為了方便用戶調(diào)用,API設(shè)計(jì)為基于http/https請求,響應(yīng)體的設(shè)計(jì)也兼容的neo4j的json格式。這里放置一下鏈接執(zhí)行Cypher查詢。調(diào)用API時(shí)需要將Token輸入請求頭中進(jìn)行鑒權(quán),有關(guān)Token的獲取問題請參考業(yè)務(wù)面API認(rèn)證鑒權(quán)。
本文會使用ges4jupyter工具腳本進(jìn)行相關(guān)查詢的演示,該腳本中封裝了剛剛提到的鑒權(quán)&Cypher查詢API,并對結(jié)果進(jìn)行了一些處理,提供了相關(guān)可視化的能力。
本文使用的代碼包
ges4jupyter是jupyter連接GES服務(wù)的工具文件。文件中封裝了使用 GES 查詢的預(yù)置條件,包括配置相關(guān)參數(shù)和對所調(diào)用 API 接口的封裝,如果你對這些不感興趣,可直接運(yùn)行而不需要了解細(xì)節(jié),這對理解后續(xù)具體查詢沒有影響。本文的所有語句請求都會訪問一個(gè)GES實(shí)例并得到實(shí)際的響應(yīng)。
import moxing as mox mox.file.copy('obs://obs-aigallery-zc/GES/ges4jupyter/beta/ges4jupyter.py', 'ges4jupyter.py') mox.file.copy('obs://obs-aigallery-zc/GES/ges4jupyter/beta/ges4jupyter.html', 'ges4jupyter.html')
GESConfig的參數(shù)都是與調(diào)用 GES 服務(wù)有關(guān)的參數(shù),依次為“公網(wǎng)訪問地址”、“項(xiàng)目ID”、“圖名”、“終端節(jié)點(diǎn)”、“IAM 用戶名”、“IAM 用戶密碼”、“IAM 用戶所屬賬戶名”、“所屬項(xiàng)目”,其獲取方式可參考調(diào)用 GES 服務(wù)業(yè)務(wù)面 API 相關(guān)參數(shù)的獲取。這里通過read_csv_config方法從配置文件中讀取這些信息。如果沒有配置文件,可以根據(jù)自己的需要補(bǔ)充下列字段。對于開啟了https安全模式的圖實(shí)例,參數(shù)port的值為443。
from ges4jupyter import GESConfig, GES4Jupyter, read_csv_config eip = '' project_id = '' graph_name = '' iam_url = '' user_name = '' password = '' domain_name = '' project_name = '' port = 80 eip, project_id, graph_name, iam_url, user_name, password, domain_name, project_name, port = read_csv_config('cn_north_4_graph.csv') config = GESConfig(eip, project_id, graph_name, iam_url = iam_url, user_name = user_name, password = password, domain_name = domain_name, project_name = project_name, port = port) ges_util = GES4Jupyter(config, True);
首先在GES中創(chuàng)建索引,這有利于后續(xù)查詢加速。
import time def wait_job_finish(util, job_id, max_loop): job_result = util.get_job(job_id) if 'errorCode' not in job_result: for i in range(max_loop): if job_result['status'] == 'success': break else: time.sleep(1) job_result = util.get_job(job_id) print(job_result) job_id = ges_util.build_vertex_index() wait_job_finish(ges_util, job_id, 100) job_id = ges_util.build_edge_index() wait_job_finish(ges_util, job_id, 100)
可以使用下列語句查看schema信息:
import time body = ges_util.generate_schema_structure() job_id = body["jobId"] print('開始構(gòu)造schema結(jié)構(gòu):') wait_job_finish(ges_util, job_id, 100) print('schema結(jié)構(gòu)構(gòu)造完成') cypher_result = ges_util.cypher_query("call db.schema()",formats=['row','graph']); ges_util.format_cypher_result(cypher_result, candidate_title = ['description', 'name'])
如圖是本文使用的數(shù)據(jù)集的schema,主要包括下列類型的點(diǎn)邊:
使用子查詢
一般來說,使用Cypher查詢朋友的朋友是相對容易的,下列語句演示了如何查詢頂點(diǎn)p367朋友的朋友。
match (n)-[:KNOWS]->(a)-[:KNOWS]->(b) where id(n)='p367' return distinct b
然而,使用一般的Cypher語義,從朋友的朋友中移除所有的朋友,表達(dá)朋友推薦場景中的“朋友的朋友而非我的朋友”卻很困難。文章如何使用GES進(jìn)行社交關(guān)系考據(jù)?—GES查詢能力介紹中,描述了一種常規(guī)的查詢語句寫法:
match (n)-[:KNOWS]->(a) where id(n)='p367' with n, collect(a) as neighbor match (n)-[:KNOWS]->(a)-[:KNOWS]->(b) where not (b in neighbor) return b
由于cypher的結(jié)果是使用行(Row)組織數(shù)據(jù),所有的計(jì)算以“行”作為單元進(jìn)行,如果要進(jìn)行過濾,只能進(jìn)行行內(nèi)過濾。所以上述語句第一步,先通過collect(a),將“朋友”這個(gè)集合組織到了一行里,而后才能將collect(a)作為過濾條件,進(jìn)行二次查詢。
將子查詢作為查詢條件
在GES 2.3.6版本,實(shí)現(xiàn)了子查詢能力,支持Neo4j中的SemiApply算子,該算子支持類似于下列語句的運(yùn)行,使得查詢更為簡潔:
match (n) where id(n)='p367' match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) return id(b) limit 10 cypher_result = ges_util.cypher_query(""" match (n) where id(n)='p367' match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) return id(b) limit 10""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result)
注意到這里where條件后面跟從的不是一個(gè)一般的條件表達(dá)式,不是大于小于這樣的比較運(yùn)算,在條件運(yùn)算not后跟隨了一個(gè)圖模式(Graph Pattern),整個(gè)where條件表示“不存在從頂點(diǎn)n連向頂點(diǎn)b,且label為KNOWS的邊”。這樣的表達(dá)方式使得整條查詢語句看起來更為簡潔。
也可以使用explain查看其查詢計(jì)劃,可以看到是AntiSemiApply在發(fā)揮作用。這里條件查詢主要包含兩個(gè)算子:
- SemiApply: 用于支撐“where (n)-[:KNOWS]->(b)”這樣的條件,表示對應(yīng)的查詢模式存在。
- AntiSemiApply:用于支撐“where not (n)-[:KNOWS]->(b)”這樣的條件,表示對應(yīng)的查詢模式不存在。
這兩個(gè)算子對每個(gè)左子樹生成的結(jié)果,都去檢查右子樹是否會/不會產(chǎn)生滿足條件的結(jié)果,并將右子樹的結(jié)果作為過濾條件,輔助左子樹的結(jié)果過濾。
通過這兩個(gè)算子,即可實(shí)現(xiàn)簡單的條件子查詢。
cypher_result = ges_util.cypher_query("""explain match (n) where id(n)='p367' match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) return id(b) limit 10""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result)
?文章來源:http://www.zghlxwxcb.cn/news/detail-440343.html
子查詢作為條件,也可以用來描述興趣推薦B場景:看小明有哪些朋友還沒有錄入興趣愛好,允許小明把自己的興趣愛好推薦給他們。
match (n:Person) where id(n)='p933' match (n)-[r]->(m) where not (m)-[:HAS_INTEREST]-() return id(m)
將子查詢作為中間結(jié)果
此外,還可以將子查詢作為中間結(jié)果,朋友推薦場景下,cypher語句還可以這么寫:
match (n) where id(n)='p367' with [(n)-[:KNOWS*2..2]->(b)|id(b)] as hop2, [(n)-[:KNOWS]->(b)|id(b)] as hop1 return [x in hop2 where not x in hop1|x] limit 10
在這條查詢語句中,Graph Pattern出現(xiàn)在了with子句中,用于收集某個(gè)點(diǎn)的多跳結(jié)果。
另外采用類似的寫法還可以篩選三度好友中“我不認(rèn)識的人”的數(shù)目,示例如下:
match (n) where id(n)='p367' with [(n)-[:KNOWS*3..3]->(b)|id(b)] as hop3, [(n)-[:KNOWS*1..2]->(b)|id(b)] as hop2 return size([x in hop3 where not x in hop2|x]) cypher_result = ges_util.cypher_query(""" match (n) where id(n)='p367' with [(n)-[:KNOWS*3..3]->(b)|id(b)] as hop3, [(n)-[:KNOWS*1..2]->(b)|id(b)] as hop2 return size([x in hop3 where not x in hop2|x])""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result, boxHeight=200)
?
同時(shí)這種子查詢后續(xù)步驟也可以跟隨一些過濾條件,進(jìn)行各類統(tǒng)計(jì)操作,如上述提到的潛在二度人脈分析:
match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] with n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet return id(n) as key, size([x in recSet where x.gender='male']) as maleNumber, size([x in recSet where x.gender='female']) as femaleNumber cypher_result = ges_util.cypher_query(""" match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] with n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet return id(n), size([x in recSet where x.gender='male']),size([x in recSet where x.gender='female']) """,formats=['row','graph']); ges_util.format_cypher_result(cypher_result, boxHeight=200)
?
下列元素出現(xiàn)在with子句中,描述了一個(gè)子查詢:
[(n)-[:KNOWS*2..2]->(m) where some-condition|m] as recSet
這里會對每個(gè)遍歷到的n,都進(jìn)行二跳查詢, 取二跳查詢的末端節(jié)點(diǎn)m,然后組裝成一個(gè)列表。
注意到where條件中,使用了剛剛提到的條件子查詢:
where not (n)-->(m)
這里條件使用where條件,對子查詢的結(jié)果進(jìn)行了過濾,且過濾時(shí),是將一個(gè)Graph Pattern作為的過濾條件,最后使用豎線進(jìn)行投影。
在return子句中,使用了Cypher中List Comprehension的語法,進(jìn)行列表過濾,并獲取大小:
return id(n) as key, size([x in recSet where x.gender='male']) as maleNumber, size([x in recSet where x.gender='female']) as femaleNumber
支撐子查詢結(jié)果作為中間結(jié)果的,是RollUpApply算子,可以通過explain看到其在查詢計(jì)劃中發(fā)揮價(jià)值:
cypher_result = ges_util.cypher_query("""explain match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] return n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result, boxHeight=200)
?
對每個(gè)左子樹生成的結(jié)果(這里是 (n:Person))都會作為變量輸入,并執(zhí)行右子樹,將右子樹的結(jié)果打包返回為 list。
此外還可以限制子查詢的數(shù)目,對查詢進(jìn)行 PerNodeLimit(單點(diǎn)跳出限制:每個(gè)點(diǎn)每層只能向外跳出限定個(gè)數(shù)的頂點(diǎn))。
例如興趣推薦 A?場景中,看看小明的朋友有哪些興趣愛好(人 - INTEREST - 興趣),從每個(gè)朋友的興趣愛好中選取至多 N 個(gè)興趣愛好推薦給小明。
match (n:Person) where id(n)='p367' match (n)-[r]->(m) return [(m)-[:HAS_INTEREST]-(a)|a][0..3]
?
為了可視化演示效果,可視化時(shí)同步打印了“朋友”和“INTEREST”邊。
同樣的,也可以使用RollUpApply+Limit對每跳做PerNodeLimit,例如統(tǒng)計(jì)和小明的朋友有共同興趣愛好的朋友,每個(gè)頂點(diǎn)每跳最多找3個(gè)點(diǎn),最后一跳每個(gè)點(diǎn)最多找1個(gè)點(diǎn):
match (n:Person) where id(n)='p367' match (n)-[r]->(m) with m limit 3 with m,[(m)<-[r1:HAS_INTEREST]-(a)|a][0..3] as interests unwind interests as interest with interest, [(interest)-[r1:HAS_INTEREST]->(a) where not (a)--(m)|[r1,a]][0..1] as soulMate return *
?
其他子查詢
使用with也可以實(shí)現(xiàn)其他子查詢?nèi)蝿?wù),例如上一跳的查詢結(jié)果經(jīng)過limit限制后輸入下一跳,成為查詢條件:
match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] with n limit 10 match (m:Person{lastName:n.lastName}) return n.lastName, m.firstName
使用explain也可以看到其查詢計(jì)劃:
cypher_result = ges_util.cypher_query("""explain match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] with n limit 10 match (m:Person{lastName:n.lastName}) return n.lastName, m.firstName""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result)
?
由于不同的n,其n.lastName的值是不固定的,所以需要針對每個(gè)n,去做match (m:Person{lastName:n.lastName})
這樣的查詢,因此需要使用Apply子查詢算子支撐這樣的語句。
總結(jié)借助子查詢進(jìn)行局部遍歷是圖查詢中的常用操作,將子查詢作為過濾條件或者中間結(jié)果輔助查詢,可以滿足某些業(yè)務(wù)場景下對查詢局部有限制的訴求,
如文中提到的社交網(wǎng)絡(luò)分析,再如股權(quán)關(guān)系中穿透層數(shù)分析、裝備制造和配置管理(IT設(shè)備管理)領(lǐng)域依賴識別和變更影響分析等。
此外,由于Cypher以行的形式組織數(shù)據(jù),某些情況下使用子查詢可以節(jié)省中間結(jié)果產(chǎn)生,加速Cypher查詢的執(zhí)行。
當(dāng)然,使用更高效的API(如GES產(chǎn)品中有多跳過濾API)或者使用非行存的查詢執(zhí)行引擎也是可選的解決方案。
?
點(diǎn)擊關(guān)注,第一時(shí)間了解華為云新鮮技術(shù)~文章來源地址http://www.zghlxwxcb.cn/news/detail-440343.html
到了這里,關(guān)于如何更好的分析潛在人脈?聊聊華為云圖引擎GES的Cypher子查詢的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!