前?
??知識(shí)圖譜(knowledge graph)?度被專家稱為“AI皇冠上的明珠”,因?yàn)橹R(shí)圖譜技術(shù)是??智能技術(shù)?向中的重要?環(huán)。它不僅可以為其他??智能應(yīng)?提供?持,如?然語(yǔ)?處理、推薦系統(tǒng)等,更可以幫助??智能系統(tǒng)?主構(gòu)建和增?知識(shí)庫(kù),提升計(jì)算機(jī)的理解和分析能?,實(shí)現(xiàn)“認(rèn)知智能”的?標(biāo)。Gartner預(yù)測(cè),到2025年,知識(shí)圖譜技術(shù)將應(yīng)?于80%的數(shù)據(jù)分析,?2021年這??例僅為10%。
??最近爆?的ChatGPT也是?然語(yǔ)?處理和理解領(lǐng)域的?個(gè)重要應(yīng)?,雖然ChatGPT在?成和理解?然語(yǔ)???表現(xiàn)出?,但它的知識(shí)表?和推理能?有限,?法直接獲取和處理結(jié)構(gòu)化知識(shí)。因此,知識(shí)圖譜可以為ChatGPT提供豐富的結(jié)構(gòu)化知識(shí),以增強(qiáng)其對(duì)話?成和理解的能?,進(jìn)?提升對(duì)話系統(tǒng)的智能?平。
?、知識(shí)圖譜基礎(chǔ)概念
通?知識(shí)圖譜的構(gòu)建?般包含以下內(nèi)容:本體、概念、屬性、關(guān)系、實(shí)體、屬性值。
上圖簡(jiǎn)單描述了知識(shí)圖譜中各個(gè)概念的關(guān)系。
本體指的是?向某?領(lǐng)域概念的集合;
概念指的是具有同種特性的實(shí)體的抽象,例如國(guó)家、?族、?然?、電腦、汽?等;
屬性指的是概念所擁有的特性,例如國(guó)家的屬性有?積、??、?都等;
關(guān)系指的是兩個(gè)概念或?qū)嶓w之間的相互關(guān)系,例如?個(gè)城市和國(guó)家的關(guān)系可以是?都關(guān)系、經(jīng)濟(jì)中?關(guān)系等,?具體到實(shí)例時(shí)北京和中國(guó)的關(guān)系是?都關(guān)系;
實(shí)體指的是概念的實(shí)例,例如國(guó)家的實(shí)例有中國(guó)、美國(guó)等;
屬性值指的是針對(duì)某個(gè)實(shí)例其具體的某個(gè)屬性的取值,例如中國(guó)的?積屬性其取值為960萬(wàn)平?公?等。
?、知識(shí)建模
??對(duì)于通?領(lǐng)域知識(shí)圖譜,通常只需要寬泛的定義schema或者直接使?OpenKG等開放知識(shí)圖譜的結(jié)構(gòu),甚?采??schema模式,直接將數(shù)據(jù)結(jié)構(gòu)化為SPO的三元組結(jié)構(gòu)即可。
??但特定領(lǐng)域的應(yīng)?,對(duì)知識(shí)的精確性要求較?。因此需要構(gòu)建領(lǐng)域數(shù)據(jù)的Schema模式,包括定義數(shù)據(jù)的概念、類別、關(guān)聯(lián)、屬性約束等。
??如上所述,基于領(lǐng)域知識(shí)本?的內(nèi)在關(guān)聯(lián)定義良好的,能夠幫助梳理業(yè)務(wù)邏輯,為數(shù)據(jù)分析準(zhǔn)備關(guān)聯(lián)稠密、特征清晰的結(jié)構(gòu)化數(shù)據(jù)。此外,還能為未來(lái)打破領(lǐng)域內(nèi)外的知識(shí)壁壘,促進(jìn)知識(shí)共享,知識(shí)融合和知識(shí)重?奠定基礎(chǔ)。
??領(lǐng)域本體建模(即schema構(gòu)建),可以認(rèn)為有“?上?下”和“?下?上”兩種?法。
??“?上?下”即先對(duì)領(lǐng)域所具備的知識(shí)點(diǎn)、概念、術(shù)語(yǔ)進(jìn)? high-level 的認(rèn)知和抽象,提煉出最具?泛性的概念,然后在此基礎(chǔ)上逐步細(xì)化,定義更多的屬性和關(guān)系來(lái)約束更為具體的類別。本?法適?于對(duì)領(lǐng)域知識(shí)體系已有深刻的洞察和全?了解的情況,例如對(duì)領(lǐng)域業(yè)務(wù)場(chǎng)景熟悉的業(yè)務(wù)專家,從專業(yè)?度去層層分解、細(xì)化出概念模型。
??例如針對(duì)武器領(lǐng)域,定義?層概念“武器領(lǐng)域?qū)嶓w”。并從“武器領(lǐng)域?qū)嶓w”繼承出“冷武器”、“熱武器”;從“冷武器”擴(kuò)展出“?”、“劍”、“?弩”、“??”、“棍棒”等;從“熱武器”擴(kuò)展出“輕武器”、“重武器”、“?規(guī)模殺傷性武器”等,基于“輕武器”再細(xì)化出“步槍”、“?槍”等單兵武器,基于“重武器”再細(xì)化出“?炮”、“坦克”、“坦克?”、“?箭”、“?機(jī)”、“軍艦”等。
???“?下?上”則是反向的認(rèn)知路徑。在已有?量數(shù)據(jù)表、?本時(shí),先基于業(yè)務(wù)分析數(shù)據(jù),根據(jù)數(shù)據(jù)定義具體的概念及其屬性、關(guān)系。再對(duì)擁有?重疊屬性/關(guān)系的概念進(jìn)?聚類,抽象出共同的上級(jí)概念。這種?法對(duì)應(yīng)數(shù)據(jù)和聚類算法要求較?,聚類后的概念、關(guān)系準(zhǔn)確度需要??檢驗(yàn)。
??可以根據(jù)實(shí)際場(chǎng)景選擇合適的本體構(gòu)建?法,在有條件的情況下建議還是第?種?式。
??特定領(lǐng)域,構(gòu)建schema的通?流程:
- 劃定專業(yè)領(lǐng)域和業(yè)務(wù)范疇、業(yè)務(wù)的場(chǎng)景、處理的意圖、數(shù)據(jù)的范圍。
- 收集數(shù)據(jù)
? 獲取業(yè)務(wù)語(yǔ)料、?本、表格和已有知識(shí)庫(kù)等;
? 列出領(lǐng)域相關(guān)的重要術(shù)語(yǔ);
? 收集是否已存在領(lǐng)域本體。 - 分析數(shù)據(jù)
??使??本聚類、詞頻分析、聚類、統(tǒng)計(jì)分析等,統(tǒng)計(jì)出領(lǐng)域?頻特征詞、術(shù)語(yǔ);
??考查復(fù)?現(xiàn)有本體的可能性;
??schema 初步開發(fā);
??從通?本體或復(fù)?領(lǐng)域本體,列出相對(duì) high-level 的概念集合。
??概念劃分,區(qū)分領(lǐng)域特定的概念和跨領(lǐng)域的概念??珙I(lǐng)域概念盡量從通?概念擴(kuò)展,并注意語(yǔ)義兼容性,如:經(jīng)銷商,?商。領(lǐng)域特定概念要注意語(yǔ)義上的特異性:如,?融事件、研報(bào)、汽?配件、故障。
概念定義:
- 基于領(lǐng)域詞典和數(shù)據(jù)分析的結(jié)果,選擇領(lǐng)域術(shù)語(yǔ)和?頻詞轉(zhuǎn)換為概念。
- 確定概念所繼承的 super-concept。
- 參考領(lǐng)域術(shù)語(yǔ)的定義、注釋、解釋,以及業(yè)務(wù)數(shù)據(jù)的結(jié)構(gòu)、語(yǔ)料信息,為概念添加屬性。
- 建?概念間的關(guān)系:isA(類/實(shí)例,繼承),hasA(部分與整體的組成關(guān)系),useA??關(guān)系、屬性關(guān)系)及其它關(guān)聯(lián)關(guān)系。
??schema 優(yōu)化與驗(yàn)證。
領(lǐng)域schema的構(gòu)建原則是:
- 規(guī)范性:概念定義明確、客觀,概念命名符合領(lǐng)域標(biāo)準(zhǔn)。
- 完全性:定義是完整的,完全能表達(dá)所描述術(shù)語(yǔ)的含義。
- ?致性:由概念定義的實(shí)例、約束得出的推論與概念本?的語(yǔ)義不會(huì)產(chǎn)??盾。
- 可擴(kuò)展性:添加?概念時(shí),不需要修改已有?概念的內(nèi)容。
- 最?承諾:盡可能少的約束。
- 語(yǔ)義區(qū)分性:?層級(jí)別(meta-concept)語(yǔ)義區(qū)分度?,兄弟概念間的語(yǔ)義差別應(yīng)盡可能?。
??判斷領(lǐng)域Schema是否優(yōu)良的標(biāo)準(zhǔn),在于能夠?泛的建?領(lǐng)域內(nèi)各場(chǎng)景、業(yè)務(wù)單元下數(shù)據(jù)的關(guān)聯(lián),并兼顧與領(lǐng)域外數(shù)據(jù)融合;減少數(shù)據(jù)冗余并為?路徑推理提供邏輯基礎(chǔ)。
??領(lǐng)域schema在構(gòu)建初期,是?個(gè)基于業(yè)務(wù)實(shí)際不斷優(yōu)化迭代的過(guò)程,直到schema的完全結(jié)構(gòu)確定
下來(lái)不再修改(可以繼承),則可以基于此將領(lǐng)域知識(shí)結(jié)構(gòu)化了。
三、知識(shí)抽取
1、功能描述
??本體抽取?持從結(jié)構(gòu)化數(shù)據(jù)中?動(dòng)抽取實(shí)體,同時(shí)提供從?本中抽取實(shí)體、實(shí)體屬性、實(shí)體關(guān)系,?持??的?式進(jìn)??本實(shí)體標(biāo)注,提供實(shí)體融合和實(shí)體消歧能?。
2、功能分析
- 實(shí)體抽取
??在技術(shù)上我們更多稱為NER(named entity recognition,命名實(shí)體識(shí)別),指的是從原始語(yǔ)料中?動(dòng)識(shí)別出命名實(shí)體。由于實(shí)體是知識(shí)圖譜中的最基本元素,其抽取的完整性、準(zhǔn)確性、召回率等將直接影響到知識(shí)庫(kù)的質(zhì)量。因此,實(shí)體抽取是知識(shí)抽取中最為基礎(chǔ)與關(guān)鍵的?步。
??通常,早期的信息抽取將實(shí)體抽取和關(guān)系抽取看作串聯(lián)的任務(wù),這樣的串聯(lián)模型在建模上相對(duì)更簡(jiǎn)單,但這樣將實(shí)體識(shí)別和關(guān)系抽取當(dāng)作兩個(gè)獨(dú)?的任務(wù)明顯會(huì)存在?系列的問(wèn)題;兩個(gè)任務(wù)的解決過(guò)程中沒(méi)有考慮到兩個(gè)?任務(wù)之間的相關(guān)性,從?導(dǎo)致關(guān)系抽取任務(wù)的結(jié)果嚴(yán)重依賴于實(shí)體抽取的結(jié)果,導(dǎo)致誤差累積的問(wèn)題,對(duì)于?對(duì)多的問(wèn)題,也就是關(guān)系重疊問(wèn)題,串聯(lián)模型?法提供較好的解決?案。因此,近年來(lái)有許多?作都考慮將實(shí)體識(shí)別與關(guān)系抽取任務(wù)進(jìn)?聯(lián)合建模,這種 end-to-end 的模型直覺(jué)上會(huì)有更優(yōu)的效果。
??可以通過(guò)聯(lián)合模型抽取?式對(duì)實(shí)體和實(shí)體關(guān)系進(jìn)?關(guān)聯(lián)抽取。 - 關(guān)系抽取
???標(biāo)是解決實(shí)體間語(yǔ)義鏈接的問(wèn)題,早期的關(guān)系抽取主要是通過(guò)??構(gòu)造語(yǔ)義規(guī)則以及模板的?法識(shí)別實(shí)體關(guān)系。隨后,實(shí)體間的關(guān)系模型逐漸替代了??預(yù)定義的語(yǔ)法與規(guī)則。
??實(shí)體關(guān)系抽取是從?本中的句??抽取出?對(duì)實(shí)體并給出實(shí)體間關(guān)系的任務(wù)。該任務(wù)的輸?是?句話,輸出是?個(gè)SPO三元組(subject-predicate-object)。
??實(shí)體關(guān)系抽取任務(wù)根據(jù)抽取思路的不同,可以按下圖所??式分類:
對(duì)于實(shí)體關(guān)系抽取任務(wù),按照模型結(jié)構(gòu)劃分,?共有兩種?式如下:
(1) 管道模型
??先抽取句?中的實(shí)體,然后在對(duì)實(shí)體對(duì)進(jìn)?關(guān)系分類,從?找出SPO三元組,這種思想被稱作管道模型(Pipeline)。管道模型把實(shí)體關(guān)系抽取分成了兩個(gè)?任務(wù),實(shí)體識(shí)別和關(guān)系分類,兩個(gè)?任務(wù)按照順序依次執(zhí)?,它們之間沒(méi)有交互。
(2) 聯(lián)合模型
??同時(shí)進(jìn)?實(shí)體識(shí)別和關(guān)系分類的是聯(lián)合模型,此模型實(shí)現(xiàn)了兩個(gè)?任務(wù)之間的信息交互,??提升了實(shí)體關(guān)系抽取的效果,?前針對(duì)實(shí)體關(guān)系抽取任務(wù)?多采?聯(lián)合模型。?聯(lián)合模型?可以細(xì)分為基于參數(shù)共享的聯(lián)合模型和基于聯(lián)合解碼的聯(lián)合模型。
??參數(shù)共享?法和聯(lián)合解碼?法的對(duì)?:
① 參數(shù)共享的經(jīng)典模型
???種聯(lián)合實(shí)體關(guān)系識(shí)別,基于參數(shù)共享的關(guān)系抽取模型,模型中有兩個(gè)雙向的LSTM-RNN,?個(gè)基于word sequence,主要?于實(shí)體檢測(cè);?個(gè)基于Tree Structures ,主要?于關(guān)系抽??;后者堆在前者上,前者的輸出和隱含層作為后者輸?的?部分。
??這是?種典型的基于參數(shù)共享的聯(lián)合模型,兩個(gè)雙向LSTM-RNN結(jié)構(gòu)分別?于檢測(cè)實(shí)體和分類關(guān)系,它們是單獨(dú)訓(xùn)練的,但是loss是加在?起同時(shí)進(jìn)?反向傳播和更新的。
② 聯(lián)合解碼的經(jīng)典模型
??將實(shí)體識(shí)別和關(guān)系分類轉(zhuǎn)化為序列標(biāo)注問(wèn)題,然后提出了?個(gè)端到端模型,通過(guò)編碼層對(duì)句?進(jìn)?編碼,將隱藏層向量輸?解碼層然后直接得到SPO三元組,沒(méi)有將抽取過(guò)程分為實(shí)體識(shí)別和關(guān)系分類兩個(gè)?過(guò)程。
??對(duì)輸?的句?,?先,編碼層使?Bi-LSTM來(lái)進(jìn)?編碼;之后,解碼層再使?基于LSTM的改進(jìn)型進(jìn)?解碼;最終,輸出模型標(biāo)注好的實(shí)體、關(guān)系三元組。
??參數(shù)共享?法和聯(lián)合解碼?法的優(yōu)缺點(diǎn)對(duì)?,通過(guò)如下對(duì)?,參數(shù)共享?式在模型選擇中會(huì)相對(duì)有優(yōu)勢(shì)。
??除了從模型結(jié)構(gòu)上分析管道模型和聯(lián)合抽取模型外,同樣對(duì)于實(shí)體關(guān)系抽取任務(wù),也需要考慮解碼?式,解碼?式對(duì)實(shí)體關(guān)系抽取性能的影響也很?,按照解碼?式劃分,?共有三種?式如下:
(1) 序列標(biāo)注
??基于序列標(biāo)注的解碼?式通常會(huì)使?CRF作為解碼器,使?結(jié)合BIO或者BIOES標(biāo)簽的聯(lián)合標(biāo)簽,每個(gè)token標(biāo)記?個(gè)tag標(biāo)簽。解碼層的任務(wù)就是確定每個(gè)token的tag,CRF能夠進(jìn)?標(biāo)簽約束,解碼效果?直接使?Softmax更好。
(2) 指針?絡(luò)
??使?MRC機(jī)器閱讀理解中?量使?的指針?絡(luò)來(lái)對(duì)關(guān)系抽取中的輸?句?進(jìn)?標(biāo)注,使?多個(gè)標(biāo)簽序列(多層label?絡(luò))來(lái)表??個(gè)句?。該指針?絡(luò)采?了兩個(gè)標(biāo)簽序列,?個(gè)表?實(shí)體的起始位置,另?個(gè)表?實(shí)體的結(jié)束位置。在解碼時(shí)使?Sigmoid代替Softmax,預(yù)測(cè)每個(gè)token對(duì)應(yīng)的標(biāo)簽是0還是1。
(3) ?段分類
???段分類?法找出所有可能的?段組合,然后針對(duì)每?個(gè)?段組合求其是否是實(shí)體的概率。針對(duì)?個(gè)句?,?段排序?法從開始位置起依次選取?個(gè)token,兩個(gè)token組成實(shí)體可能的?段,然后求該?段是否是實(shí)體的概率。在確定所有的實(shí)體之后,對(duì)所有實(shí)體兩兩配對(duì),然后求每?對(duì)實(shí)體對(duì)之間存在關(guān)系的概率。例如,如果有N個(gè)實(shí)體,M種關(guān)系,那么存在N × N個(gè)實(shí)體對(duì)(實(shí)體對(duì)是有序的),需要求N × N × M個(gè)概率,來(lái)判斷每個(gè)實(shí)體對(duì)之間的關(guān)系。如果?本過(guò)?,?段分類會(huì)產(chǎn)??量的負(fù)樣本,在實(shí)際中需要限制span?度并合理削減負(fù)樣本。
三種解碼?式的對(duì)?如下:
??對(duì)不同模型結(jié)構(gòu)和解碼?式的分析對(duì)?,以及業(yè)界的經(jīng)驗(yàn)推薦,可以選擇如下?種實(shí)體關(guān)系抽取任務(wù)的最佳模型,對(duì)?如下:
(1) ETL-span
??該模型的抽取?案借鑒了 seq2seq 的概率圖思路。在 seq2seq 解碼器的解碼過(guò)程是層次遞歸進(jìn)?的,其實(shí)際上是在建模
??P(y1,y2,…,yn∣x)=P(y1∣x)P(y2∣x,y1)…P(yn∣x,y1,y2,R,yn?1)
???對(duì)于信息抽取任務(wù),三元組的抽取過(guò)程也能夠轉(zhuǎn)化為上述層次遞歸的?式進(jìn)?抽取,對(duì)于三元組(s, o, p),其抽取過(guò)程可以建模為:
??P(s,p,o)=P(s)P(o∣s)P(p∣s,o)
??整個(gè)模型可以分為三?部分,第?部分Shared Encoder,是模型的編碼層,將輸?的每個(gè)字編碼為字向量。第?部分HE Extractor使?Shared Encoder的結(jié)果抽?。╯,o,p)三元組中的主體s,第三部分TER Extractor也使?Shared Encoder的結(jié)果作為輸?,同時(shí)還要使?HE Extractor抽取出的s作為觸發(fā)詞,抽取o和p。模型的loss是HE Extractor和TER Extractor兩部分的loss之和,通過(guò)共享參數(shù)的?式訓(xùn)練。
??HE Extractor和TER Extractor都使?了?種新的結(jié)構(gòu)來(lái)抽取結(jié)果,這個(gè)新結(jié)構(gòu)由兩個(gè)雙向LSTM組成,分別?來(lái)預(yù)測(cè)?標(biāo)實(shí)體的開始位置和結(jié)束位置,預(yù)測(cè)結(jié)束位置的LSTM會(huì)使?預(yù)測(cè)開始位置的LSTM的結(jié)果作為特征,通過(guò)增加約束來(lái)避免不合理的預(yù)測(cè)結(jié)果,?如預(yù)測(cè)的結(jié)束位置在開始位置前?。
(2) HBT
??該模型設(shè)計(jì)了?種 Hierarchical Binary Tagging 的框架,這個(gè)框架將三元組的抽取任務(wù)建模為三個(gè)級(jí)別的問(wèn)題,從?能夠更好解決三元組重疊的問(wèn)題。其核?觀點(diǎn)就是不再將關(guān)系抽取的過(guò)程看作實(shí)體對(duì)的離散標(biāo)簽,?是將其看作兩個(gè)實(shí)體的映射關(guān)系,即f(s,o)?>r,整個(gè)三元組的過(guò)程可以概括為:
① 抽取三元組中的subject
② 針對(duì)每?個(gè)f(s,o)?>r,抽取其對(duì)應(yīng)的object
??這種思想和上?的ETL-span模型的思想極為相似,HBT模型也是先抽取出主體,然后使?主體作為觸發(fā)詞來(lái)抽取主體對(duì)應(yīng)的客體和關(guān)系。
??模型的整體結(jié)構(gòu)主要包括如下?個(gè)部分:
??BERT Encoder:通過(guò) BERT 得到每個(gè)詞的詞表征,把BERT的輸出當(dāng)作詞向量使?。
??Subject Tagger:該部分?于識(shí)別所有可能的subject對(duì)象。其通過(guò)對(duì)每?個(gè)位置的編碼結(jié)果?兩個(gè)分類器(全連接層)進(jìn)?分類,來(lái)判斷其是否是實(shí)體的開始或結(jié)束位置,激活函數(shù)為 sigmoid,計(jì)算公式如下:
??pistart_s=σ(Wstartxi+bstart)
??piend_s=σ(Wendxi+bend)
??Relation-specific Object Taggers:針對(duì)每?個(gè) subject,都需要對(duì)其進(jìn)?之后的 object 進(jìn)?預(yù)測(cè)。由圖中可知,其與 Subject Tagger 基本?致,主要區(qū)別在于每?個(gè)關(guān)系類別獨(dú)享?組 object 分類器,同時(shí)還要將subject作為特征和BERT詞向量拼接后作為輸?,計(jì)算公式如下:
??pistart_o=σ(Wstartr(xi+vsubk)+bstartr)
??piend_o=σ(Wendr(xi+vsubk)+bendr)
(3) SpERT
??SpERT是?個(gè)使??段分類作為解碼?式的聯(lián)合模型,SpERT分為span classification 、SpanFiltering和relation classification三層結(jié)構(gòu)。span classification 和 Span Filtering層對(duì)實(shí)體進(jìn)?篩選和識(shí)別,relation classification 進(jìn)?關(guān)系抽取。
??SpERT使?Bert獲取?本的向量表?。之后,使??段分類的?法,?枚舉的?式將所有可能的?本?段列舉出來(lái),然后計(jì)算?本?段是實(shí)體的概率,計(jì)算實(shí)體概率時(shí)?到了token的向量、?本?段?度和特殊標(biāo)記cls作為特征,拼接后作為span分類階段的輸?。為了減?計(jì)算量,模式設(shè)置了?本?段的最??度。
??在獲得實(shí)體表?后,SpERT通過(guò)將實(shí)體兩兩配對(duì)然后對(duì)每?對(duì)實(shí)體對(duì)求它們之間關(guān)系的概率。考慮到需要分類的關(guān)系太多,SpERT在關(guān)系分類過(guò)程中還使?了負(fù)采樣。
(4) DYGIE
??DYGIE是?個(gè)多任務(wù)的信息抽取框架,該框架可以在不經(jīng)過(guò)修改的情況下,同時(shí)完成命名實(shí)體識(shí)別、關(guān)系抽取和共指消解三個(gè)不同的NLP任務(wù)。DYGIE構(gòu)建了?個(gè)可以更新的動(dòng)態(tài)圖,以實(shí)體span作為圖中的節(jié)點(diǎn),?關(guān)系信息和共指信息來(lái)構(gòu)建邊,span的表?可以通過(guò)從關(guān)系信息和共指信息獲得的上下?信息進(jìn)?更新優(yōu)化。
(5) 屬性抽取
??屬性抽取主要是針對(duì)實(shí)體??的,通過(guò)屬性可形成對(duì)實(shí)體的完整勾畫。由于實(shí)體的屬性可以看成是實(shí)體與屬性值之間的?種名稱性關(guān)系,因此可以將實(shí)體屬性的抽取問(wèn)題轉(zhuǎn)換為關(guān)系抽取問(wèn)題。
四、知識(shí)融合
知識(shí)融合,即合并兩個(gè)知識(shí)圖譜(本體),?的是將來(lái)?多個(gè)來(lái)源的關(guān)于同?個(gè)實(shí)體或概念的描述信息融合起來(lái)。
知識(shí)融合包括以下?個(gè)部分
本體匹配(ontology matching)
側(cè)重發(fā)現(xiàn)模式層等價(jià)或相似的類、屬性或關(guān)系,也成為本體映射(mapping)、本體對(duì)?(alignment)。
實(shí)體對(duì)?(entity alignment)
側(cè)重發(fā)現(xiàn)指稱真實(shí)世界相同對(duì)象的不同實(shí)例,也稱為實(shí)體消解(resolution)、實(shí)例匹配(instancematching)。
知識(shí)融合(knowledge fusion)
?般通過(guò)沖突檢測(cè)、真值發(fā)現(xiàn)等技術(shù)消解知識(shí)圖譜融合過(guò)程中的沖突,再對(duì)知識(shí)進(jìn)?關(guān)聯(lián)與合并,最終形成?個(gè)?致的結(jié)果。
?前在知識(shí)融合??,實(shí)體對(duì)?是研究的熱點(diǎn)。實(shí)體對(duì)?(Entity Alignment)也被稱作實(shí)體匹配(Entity Matching),是指對(duì)于異構(gòu)數(shù)據(jù)源知識(shí)庫(kù)中的各個(gè)實(shí)體,找出屬于現(xiàn)實(shí)世界中的同?實(shí)體。
實(shí)體對(duì)?常?的?法是利?實(shí)體的屬性信息判定不同源實(shí)體是否可進(jìn)?對(duì)?。傳統(tǒng)的實(shí)體對(duì)??法主要通過(guò)屬性相似度匹配的?式實(shí)現(xiàn),利?有監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)模型,如:決策樹、?持向量機(jī)、集成學(xué)習(xí)等。依賴實(shí)體的屬性信息,通過(guò)屬性相似度,進(jìn)?跨平臺(tái)實(shí)體對(duì)?關(guān)系的推斷。基于知識(shí)表?學(xué)習(xí)的?法通過(guò)將知識(shí)圖譜中的實(shí)體和關(guān)系都映射低維空間向量,直接?數(shù)學(xué)表達(dá)式來(lái)計(jì)算各個(gè)實(shí)體之間相似度,下?介紹IPTransE(Iterative Entity Alignment via Joint Knowledge Embeddings)。
?多數(shù)現(xiàn)有的?法通常依賴于諸如維基百科之類的實(shí)體外部信息,并且需要?量的??標(biāo)注特征來(lái)完成對(duì)?。本?提出了?種基于聯(lián)合知識(shí)表?的實(shí)體對(duì)??法。算法分為三部分:知識(shí)表?,聯(lián)合表?,實(shí)體對(duì)?迭代。知識(shí)表?部分采?了經(jīng)典的TransE模型。?在聯(lián)合表?部分,為將不同KG的實(shí)體和關(guān)系映射到?個(gè)統(tǒng)?的低維語(yǔ)義空間,基于?組已對(duì)?的實(shí)體?集,設(shè)計(jì)了三種模型: (1) 受到基于翻譯的KRL?法啟發(fā),將對(duì)?視為實(shí)體之間的?種特殊關(guān)系,在需要對(duì)?的實(shí)體之間執(zhí)?特定的翻譯模型來(lái)學(xué)習(xí)聯(lián)合表?。 (2) 線性變換模型,即學(xué)習(xí)兩實(shí)體之間的線性變化矩陣。 (3) 參數(shù)共享模型:利?變量之間依賴性的先驗(yàn)知識(shí)替代正則化變量。最終通過(guò)實(shí)體迭代對(duì)??式,縮?聯(lián)合語(yǔ)義空間中的語(yǔ)義距離,提?實(shí)體對(duì)?性能。
模型總體架構(gòu)如下:
該圖表明了該?法通過(guò)TransE與參數(shù)共享和軟對(duì)?實(shí)現(xiàn)。藍(lán)?和紅?的點(diǎn)分別表?來(lái)?和的實(shí)體,灰?箭頭在和中都表?關(guān)系。KG之間的實(shí)線和虛線表?迭代學(xué)習(xí)中的對(duì)?種?和新對(duì)?的實(shí)體對(duì)。使?KG和score函數(shù)之間的鏈接來(lái)表?嵌?源和相應(yīng)的?的地。相同的顏?表?相同的實(shí)體/關(guān)系和相應(yīng)的嵌?。
五、知識(shí)推理
對(duì)于知識(shí)圖譜??,其最為常?的表??式是采?三元組的表??式,通過(guò)三元組,我們可以表?不同事物之間的語(yǔ)義關(guān)系,以及事物與屬性之間的屬性關(guān)系在獲取知識(shí)圖譜的表?之后,我們就擁有了?部分的事實(shí),?知識(shí)圖譜的知識(shí)推理就是在基于已有的知識(shí)圖譜的事實(shí)的基礎(chǔ)上,推理出新的知識(shí)或者識(shí)別出知識(shí)圖譜上已有知識(shí)的錯(cuò)誤。
主要的?法包含基于邏輯規(guī)則的推理、基于圖結(jié)構(gòu)的推理、基于分布式表?學(xué)習(xí)的推理、基于神經(jīng)?絡(luò)的推理以及混合推理等,這?重點(diǎn)介紹基于神經(jīng)?絡(luò)推理模型R-GCN和混合推理模型ConMask。
R-GCN
這個(gè)算法是來(lái)?阿姆斯特丹?學(xué) Michael Schlichtkrull ?佬和 Thomas N. Kipf ?佬于 2017 年合作的?篇論?《Modeling Relational Data with Graph Convolutional Networks》。主要有兩?突破:
證明了 GCN 可以應(yīng)?于關(guān)系?絡(luò)中,特別是關(guān)系預(yù)測(cè)和實(shí)體分類中;引?權(quán)值共享和系數(shù)約束的?法使得 R-GCN 可以應(yīng)?于關(guān)系眾多的?絡(luò)中。
模型整體結(jié)構(gòu)?這樣,與常規(guī)GCN不同,它引?了由邊的類型與?向決定的關(guān)系轉(zhuǎn)換,+的后?項(xiàng)表?節(jié)點(diǎn)的?連接。紅?部分為實(shí)體,與藍(lán)?的鄰居節(jié)點(diǎn)進(jìn)?矩陣運(yùn)算,再對(duì)每種關(guān)系的邊類型進(jìn)?轉(zhuǎn)換,得到綠?部分的已做歸?化處理的結(jié)果和,累加后經(jīng)過(guò)激活函數(shù)傳出,并更新模型的節(jié)點(diǎn)參數(shù)。
針對(duì)實(shí)體分類來(lái)說(shuō),只使?了堆疊的 R-GCN 并在最后?層疊加了?個(gè) Softmax 層?于分類;針對(duì)關(guān)系預(yù)測(cè)(鏈接預(yù)測(cè))作者考慮使? DistMult 分解作為評(píng)分函數(shù),并使?負(fù)采樣的訓(xùn)練?式:對(duì)于觀測(cè)樣本,考慮ω 個(gè)負(fù)樣本,并利?交叉熵?fù)p失進(jìn)?優(yōu)化。結(jié)構(gòu)分別如下圖:
關(guān)系預(yù)測(cè)的準(zhǔn)確性?較:
ConMask
通過(guò)利?知識(shí)庫(kù)中已存在的實(shí)體和關(guān)系進(jìn)?知識(shí)圖譜補(bǔ)全, 我們定義為“Closed-World KGC”,即“封閉世界知識(shí)圖譜補(bǔ)全”:此類知識(shí)圖譜補(bǔ)全?法嚴(yán)重依賴現(xiàn)有知識(shí)圖譜連接,難以處理知識(shí)圖譜
外部加?的新實(shí)體。
為了能夠應(yīng)對(duì)知識(shí)圖譜外部的未知新實(shí)體, Shi 等?于2018年《Open world Knowledge GraphCompletion》論?中進(jìn)?步定義了“開放世界知識(shí)圖譜補(bǔ)全”,該類?法可以接收知識(shí)庫(kù)外部實(shí)體并將其鏈接到知識(shí)圖譜。基于上述思想提出 ConMask 模型,該模型主要分為三部分操作:
依賴于關(guān)系的內(nèi)容遮蔽(Relationship-dependent content masking):篩選?本信息,刪去?關(guān)信息,僅留下與任務(wù)有關(guān)的內(nèi)容,其中模型采?attention機(jī)制基于相似度得到上下?的詞和給定關(guān)系的詞的權(quán)重矩陣,通過(guò)觀察發(fā)現(xiàn)?標(biāo)實(shí)體有時(shí)候在權(quán)重?的詞(indicator words)附近,提出 MCRW 考慮了上下?的權(quán)重求解?法。
?標(biāo)融合(Target fusion):使?全卷積神經(jīng)?絡(luò)從相關(guān)?本抽取?標(biāo)實(shí)體的embedding(?FCN即全卷積神經(jīng)?絡(luò)的?法);這個(gè)部分輸?是masked content matrix,每層先有兩個(gè) 1-D 卷積操作,再是sigmoid激活函數(shù),然后是 batch normalization,再是最?池化。FCN的最后?層接的是均值池化?不是最?池化,以確保?標(biāo)融合層的輸出始終返回單個(gè)k維嵌?。
?標(biāo)實(shí)體解析(Target entity resolution):?成候選實(shí)體和抽取實(shí)體嵌?之間的相似度排名,通過(guò)計(jì)算KG中候選實(shí)體和抽取實(shí)體embedding的相似度,結(jié)合其他?本特征得到?個(gè)ranked list,rank最?的認(rèn)為是最佳結(jié)果。并設(shè)計(jì)了?個(gè)損失函數(shù)list-wise rankign,采樣時(shí)按50%的?例替換head和tail?成負(fù)樣本以增強(qiáng)模型魯棒性。
綜上,整體ConMask的模型結(jié)構(gòu)如下:
鏈接預(yù)測(cè)任務(wù)上的實(shí)驗(yàn)結(jié)果:
該模型能夠應(yīng)對(duì)知識(shí)圖譜外部的未知新實(shí)體,適?于動(dòng)態(tài)知識(shí)圖譜的知識(shí)推理。
六、圖譜分析
知識(shí)圖譜分析是指通過(guò)對(duì)知識(shí)圖譜中的實(shí)體、屬性和關(guān)系進(jìn)?統(tǒng)計(jì)、挖掘和分析,來(lái)提取知識(shí)和信息的過(guò)程。知識(shí)圖譜分析可以為各個(gè)領(lǐng)域提供有價(jià)值的信息和洞?,并在實(shí)踐中發(fā)揮重要的作?。
常?的知識(shí)圖譜可視化分析?具有以下?種:
- Gephi:Gephi是?個(gè)免費(fèi)、開源的圖形分析和可視化軟件。它?持多種圖形格式和數(shù)據(jù)源,并提供了豐富的圖形布局、節(jié)點(diǎn)過(guò)濾和交互式查詢等功能。
- Cytoscape:Cytoscape是?個(gè)免費(fèi)、開源的?絡(luò)分析和可視化軟件,?于可視化分?相互作?、?物?絡(luò)和知識(shí)圖譜等復(fù)雜數(shù)據(jù)。
- Neo4j Browser:Neo4j Browser是Neo4j圖形數(shù)據(jù)庫(kù)?帶的交互式可視化?具,可以?于瀏覽、查詢和分析存儲(chǔ)在數(shù)據(jù)庫(kù)中的知識(shí)圖譜數(shù)據(jù)。
- KeyLines:KeyLines是?個(gè)商業(yè)化的圖形分析和可視化?具,可?于創(chuàng)建和定制專業(yè)的知識(shí)圖譜可視化和交互式分析應(yīng)?。
- Linkurious:Linkurious是?個(gè)專業(yè)的圖形分析和可視化?具,可?于創(chuàng)建和管理?規(guī)模的知識(shí)圖譜,并提供了?級(jí)的查詢、分析和可視化功能。
- Tableau:Tableau是?個(gè)商業(yè)化的數(shù)據(jù)分析和可視化?具,?持多種數(shù)據(jù)源和可視化?式,并提供了交互式的查詢、過(guò)濾和分析功能,可以?于創(chuàng)建基于知識(shí)圖譜的可視化分析應(yīng)?。
- NetworkX:是?個(gè)基于 Python 的庫(kù),?于創(chuàng)建、操作和學(xué)習(xí)復(fù)雜?絡(luò),可以?持多種?絡(luò)算法和可視化?法。
- Tulip:?款開源的圖譜可視化?具,?持多種數(shù)據(jù)格式和布局算法,包括多層次的?絡(luò)布局和動(dòng)態(tài)可視化等功能。
- yEd Graph Editor:?款免費(fèi)的圖譜可視化?具,具有?度的可定制性和多種布局算法,?持多種圖像格式導(dǎo)?導(dǎo)出。
- QlikView:?款商業(yè)數(shù)據(jù)可視化分析?具,?持多種數(shù)據(jù)源和多種圖表類型,在可視化分析??能提供很?的?定義性。此外,國(guó)內(nèi)的HBAT也都有??的知識(shí)圖譜平臺(tái),如阿?云知識(shí)圖譜開放平臺(tái)datag、百度智能云企業(yè)知識(shí)中臺(tái)、騰訊知識(shí)圖譜TKG、華為云知識(shí)圖譜KG。盡管此類平臺(tái)都?較專業(yè),但就因?yàn)閷I(yè)很多開發(fā)?員都?從下?,要求具備較強(qiáng)的AI功底以及技術(shù)技能,最近發(fā)現(xiàn)了?款神器,?直號(hào)稱??是?代碼平臺(tái)的?具smardaten,??居然具備了圖譜分析功能,著實(shí)讓?眼前?亮,的確在?向企業(yè)級(jí)的交付場(chǎng)景中,對(duì)于數(shù)據(jù)和知識(shí)的應(yīng)?,難免會(huì)需要圖譜能?,于是注冊(cè)(https://s3.smardaten.com)使?了?下,效果很好,在此做下分享:
? 步驟1:構(gòu)建本體模型
這?設(shè)計(jì)?個(gè)客?個(gè)?關(guān)系的本體,其中?個(gè)概念就是客?個(gè)?,關(guān)系有親戚和同事關(guān)系,客?對(duì)應(yīng)的屬性有姓名、職位、公司、部?、聯(lián)系?式等,關(guān)系對(duì)應(yīng)的屬性有關(guān)系類型、關(guān)系緊密度等。
? 步驟2:數(shù)據(jù)獲取
從不同渠道或系統(tǒng)獲取到的客?個(gè)?信息及其關(guān)系數(shù)據(jù)進(jìn)?抽取融合,由于此處數(shù)據(jù)相對(duì)規(guī)整,暫時(shí)存到mysql中。smardaten連接mysql數(shù)據(jù)庫(kù),將對(duì)應(yīng)的實(shí)體、關(guān)系、屬性數(shù)據(jù)映射成數(shù)據(jù)圖書館的資產(chǎn),便于后期統(tǒng)?處理。
創(chuàng)建mysql數(shù)據(jù)庫(kù)連接:
將概念實(shí)體的數(shù)據(jù)結(jié)構(gòu)映射到數(shù)據(jù)圖書館中:
將關(guān)系實(shí)體的數(shù)據(jù)結(jié)構(gòu)映射到數(shù)據(jù)圖書館中:
? 步驟3:創(chuàng)建圖譜數(shù)據(jù)庫(kù)連接
點(diǎn)擊左上?菜單,選中數(shù)據(jù)源進(jìn)?:
選中neo4j數(shù)據(jù)庫(kù):
將圖譜數(shù)據(jù)庫(kù)的連接信息填?并進(jìn)?測(cè)試,測(cè)試成功后保存:
? 步驟4:實(shí)體創(chuàng)建
在數(shù)據(jù)圖書館中,創(chuàng)建?個(gè)客?個(gè)?信息實(shí)體,以及兩個(gè)關(guān)系實(shí)體,并將屬性進(jìn)?填寫完整。
新建數(shù)據(jù)資產(chǎn):
選中neo4j數(shù)據(jù)庫(kù),進(jìn)?后選擇剛創(chuàng)建的圖譜數(shù)據(jù)庫(kù)連接名:
開始在此庫(kù)中設(shè)計(jì)實(shí)體并創(chuàng)建:
設(shè)計(jì)客?個(gè)?信息實(shí)體和屬性如下:
另外的關(guān)系實(shí)體也?同樣?式創(chuàng)建完畢。
? 步驟5:實(shí)體關(guān)系創(chuàng)建
選中概念實(shí)體客?個(gè)?信息打開:
將關(guān)系實(shí)體親戚關(guān)系和同事關(guān)系添加到圖譜關(guān)系中:
? 步驟6:實(shí)體和關(guān)系加載
點(diǎn)擊左上?菜單,選中數(shù)據(jù)交換機(jī)進(jìn)?:
將輸?數(shù)據(jù)源圖元拖?畫布中,在圖書館中選擇客?個(gè)?信息,將此表作為輸?。同時(shí)拖?neo4j加載圖元到畫布中,完成字段到屬性的??映射,在關(guān)系建?中是否更新選擇是,?此實(shí)體加載流程配置完成。點(diǎn)擊左上?執(zhí)?按鈕,完成實(shí)體數(shù)據(jù)加載(此處可配置定制任務(wù))。
同理,完成另外兩個(gè)關(guān)系實(shí)體的加載。
? 步驟7:圖譜分析
點(diǎn)擊左上?菜單,選中數(shù)據(jù)分析儀進(jìn)?:
點(diǎn)擊新增,圖譜分析:
選中需要分析的圖譜概念實(shí)體,選擇添加概念和實(shí)體后就出現(xiàn)了圖譜關(guān)系圖:
利?平臺(tái)?帶的操作選項(xiàng)即可進(jìn)?圖譜關(guān)系探索分析:
?此,圖譜分析就構(gòu)建完畢了,是不是很簡(jiǎn)單呀?!文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-476443.html
七、應(yīng)??向
知識(shí)圖譜已在很多?業(yè)和領(lǐng)域都有?泛的應(yīng)?場(chǎng)景,如:文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-476443.html
- 搜索引擎:知識(shí)圖譜在搜索引擎中?于理解??查詢的意圖,識(shí)別和解析實(shí)體和關(guān)系,并提供更準(zhǔn)確、豐富、個(gè)性化的搜索結(jié)果。
- ?融?業(yè):知識(shí)圖譜可以?于?融?險(xiǎn)管理、投資決策、信貸評(píng)估、客?關(guān)系管理等??,幫助?融機(jī)構(gòu)實(shí)現(xiàn)?險(xiǎn)管控、優(yōu)化運(yùn)營(yíng)和提升服務(wù)質(zhì)量。
- 醫(yī)療健康領(lǐng)域:知識(shí)圖譜可以?于醫(yī)療知識(shí)圖譜構(gòu)建、智能問(wèn)答、疾病診斷輔助、藥物研發(fā)等??,幫助醫(yī)療機(jī)構(gòu)提升醫(yī)療服務(wù)質(zhì)量、降低醫(yī)療成本。
- 物聯(lián)?:知識(shí)圖譜可以?于智能物聯(lián)?場(chǎng)景下的設(shè)備智能化管理、設(shè)備關(guān)系理解、設(shè)備之間的協(xié)同?作等??,實(shí)現(xiàn)物聯(lián)?的智能化和?動(dòng)化。
- 智能客服:基于知識(shí)的問(wèn)答系統(tǒng)建??規(guī)模知識(shí)庫(kù),通過(guò)理解將??的問(wèn)題轉(zhuǎn)化為對(duì)知識(shí)圖譜的查詢,提供??所關(guān)?的問(wèn)題答案。
- 投顧報(bào)告:通過(guò)抽取公司的股東、?公司、供應(yīng)商、客?、合作伙伴、競(jìng)爭(zhēng)對(duì)?等信息構(gòu)建公司的知識(shí)圖譜,進(jìn)?做更深層次的分析和更好的投資決策。
- 公安情報(bào):通過(guò)抽取?(受害?、嫌疑?、報(bào)案?)、企業(yè)和個(gè)?銀?的資?交易等信息構(gòu)建“資?賬?-?-公司”關(guān)聯(lián)知識(shí)圖譜,形成完整的證據(jù)鏈輔助公安進(jìn)?安檢偵查和挖掘犯罪同伙。
??隨著??智能技術(shù)的不斷進(jìn)步,知識(shí)圖譜的應(yīng)?也將不斷擴(kuò)展和深化。未來(lái),我們可以看到更多
的知識(shí)圖譜應(yīng)?場(chǎng)景,例如智能城市、智能交通、智能制造、智能家居等。同時(shí),隨著知識(shí)圖譜技術(shù)
和應(yīng)?的不斷發(fā)展,我們還可以預(yù)?到知識(shí)圖譜將更加智能化、?動(dòng)化、可視化、協(xié)同化、個(gè)性化等
??的發(fā)展
到了這里,關(guān)于專業(yè)的知識(shí)圖譜應(yīng)用門檻正在被不斷降低的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!