-
知識圖譜
- 定義
- 基礎(chǔ)概念:
-
知識圖譜構(gòu)建的關(guān)鍵技術(shù)
- 知識圖譜的構(gòu)建
- 實(shí)體命名識別
- 知識抽取
- 實(shí)體統(tǒng)一
- 指代消解
-
知識圖譜的存儲
- RDF和圖數(shù)據(jù)庫的主要特點(diǎn)區(qū)別
-
知識圖譜能干什么
- 反欺詐
- 不一致性驗(yàn)證
- 客戶失聯(lián)管理
- 知識推理
- 常見圖數(shù)據(jù)庫
2012年5月17日,Google 正式提出了知識圖譜(Knowledge Graph)的概念,其初衷是為了優(yōu)化搜索引擎返回的結(jié)果,增強(qiáng)用戶搜索質(zhì)量及體驗(yàn)。
假設(shè)我們想知道 “王健林的兒子” 是誰,百度或谷歌一下,搜索引擎會準(zhǔn)確返回王思聰?shù)男畔?,說明搜索引擎理解了用戶的意圖,知道我們要找 “王思聰”,而不是僅僅返回關(guān)鍵詞為 “王健林的兒子” 的網(wǎng)頁:
知識圖譜
- 信息是指外部的客觀事實(shí)。舉例:這里有一瓶水,它現(xiàn)在是7°。
- 知識是對外部客觀規(guī)律的歸納和總結(jié)。舉例:水在零度的時候會結(jié)冰。
“客觀規(guī)律的歸納和總結(jié)” 似乎有些難以實(shí)現(xiàn)。Quora 上有另一種經(jīng)典的解讀,區(qū)分 “信息” 和 “知識” 。
定義
知識圖譜,本質(zhì)上,是一種揭示實(shí)體之間關(guān)系的語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。
是一種結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系。它的基本組成單位是“實(shí)體—關(guān)系—實(shí)體”三元組,以及實(shí)體及其相關(guān)屬性—值對,實(shí)體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu) 。
語義網(wǎng)絡(luò)(Semantic Network)是上個世紀(jì)五六十年代所提出的一種知識表示形式。如圖:貓是一種哺乳動物;脊椎是哺乳動物的一部分。然而,語義網(wǎng)絡(luò)由于缺少標(biāo)準(zhǔn),其比較難應(yīng)用于實(shí)踐。
基礎(chǔ)概念:
通俗定義:知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關(guān)系網(wǎng)絡(luò),因此知識圖譜提供了從“關(guān)系”的角度去分析問題的能力。
- 由節(jié)點(diǎn)(Point)和邊(Edge)組成的網(wǎng)狀的知識結(jié)構(gòu),也就是數(shù)據(jù)結(jié)構(gòu)中的圖(Graph)。
- 每個節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的實(shí)體Entity,每條邊為實(shí)體與實(shí)體之間的關(guān)系
- 每個節(jié)點(diǎn)代表的實(shí)體還存在著一些屬性,比如“梅西”這個節(jié)點(diǎn),可以把生日、國籍、球隊等一些基本信息作為屬性。
- 知識圖譜由一條條知識組成,每條知識是一個基本組成單位,表示為一個三元組:(實(shí)體,關(guān)系,實(shí)體)或者(實(shí)體,屬性,屬性值)
- 可以用RDF形式化地表示這種三元關(guān)系,但RDF的缺點(diǎn)在于表達(dá)能力有限,無法區(qū)分類和對象,也無法定義和描述類的關(guān)系/屬性。RDFS和OWL這兩種技術(shù)解決了RDF表達(dá)能力有限的缺點(diǎn)。具體不展開了。
基本的數(shù)據(jù)結(jié)構(gòu)表達(dá)式是:G=(V,E),V=vertex(節(jié)點(diǎn)),E=edge(邊)
實(shí)體指的可以是現(xiàn)實(shí)世界中的事物,比如人、地名、公司、電話、動物等;關(guān)系則用來表達(dá)不同實(shí)體之間的某種聯(lián)系。

知識圖譜構(gòu)建的關(guān)鍵技術(shù)
知識圖譜構(gòu)建的過程中,最主要的一個步驟就是把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來,然后按一定的規(guī)則加入到知識圖譜中,這個過程我們稱為知識抽取。
數(shù)據(jù)源的分為兩種:
- 結(jié)構(gòu)化的數(shù)據(jù):結(jié)構(gòu)化的數(shù)據(jù)是比較好處理的,難點(diǎn)在于處理非結(jié)構(gòu)化的數(shù)據(jù)
- 非結(jié)構(gòu)化的數(shù)據(jù):處理非結(jié)構(gòu)化數(shù)據(jù)通常需要使用自然語言處理技術(shù):實(shí)體命名識別、關(guān)系抽取、實(shí)體統(tǒng)一、指代消解等

具體是怎么實(shí)現(xiàn)的呢,接下來一一討論。
知識圖譜的構(gòu)建
實(shí)體命名識別
提取文本中的實(shí)體,并對每個實(shí)體進(jìn)行分類或打標(biāo)簽,比如把文中“1984年12月30日”記為“時間”類型;“克利夫蘭騎士”和“邁阿密熱火”記為“球隊”類型,這個過程就是實(shí)體命名。
知識抽取
知識抽取主要是面向開放的鏈接數(shù)據(jù),通過自動化的技術(shù)抽取出可用的知識單元,知識單元主要包括實(shí)體(概念的外延)、關(guān)系以及屬性3個知識要素,并以此為基礎(chǔ),形成一系列高質(zhì)量的事實(shí)表達(dá),為上層模式層的構(gòu)建奠定基礎(chǔ)。知識抽取有三個主要工作:
-
實(shí)體抽?。?/strong>在技術(shù)上我們更多稱為 NER(named entity recognition,命名實(shí)體識別),指的是從原始語料中自動識別出命名實(shí)體。由于實(shí)體是知識圖譜中的最基本元素,其抽取的完整性、準(zhǔn)確、召回率等將直接影響到知識庫的質(zhì)量。因此,實(shí)體抽取是知識抽取中最為基礎(chǔ)與關(guān)鍵的一步;
-
關(guān)系抽?。?/strong>目標(biāo)是解決實(shí)體間語義鏈接的問題,早期的關(guān)系抽取主要是通過人工構(gòu)造語義規(guī)則以及模板的方法識別實(shí)體關(guān)系。隨后,實(shí)體間的關(guān)系模型逐漸替代了人工預(yù)定義的語法與規(guī)則
關(guān)系抽取是把實(shí)體之間的關(guān)系抽取出來的一項技術(shù),其中主要是根據(jù)文本中的一些關(guān)鍵詞,如“出生”、“在”、“轉(zhuǎn)會”等,我們就可以判斷詹姆斯與地點(diǎn)俄亥俄州、與邁阿密熱火等實(shí)體之間的關(guān)系。 -
屬性抽?。?/strong>屬性抽取主要是針對實(shí)體而言的,通過屬性可形成對實(shí)體的完整勾畫。由于實(shí)體的屬性可以看成是實(shí)體與屬性值之間的一種名稱性關(guān)系,因此可以將實(shí)體屬性的抽取問題轉(zhuǎn)換為關(guān)系抽取問題。
實(shí)體統(tǒng)一
在文本中可能同一個實(shí)體會有不同的寫法,比如說“LBJ”就是詹姆斯的縮寫,因此“勒布朗詹姆斯”和“LBJ”指的就是同一個實(shí)體,實(shí)體統(tǒng)一就是處理這樣問題的一項技術(shù)。
指代消解
指代消解跟實(shí)體統(tǒng)一類似,都是處理同一個實(shí)體的問題。比如說文本中的“他”其實(shí)指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是,找出這些代詞,都指的是哪個實(shí)體。
指代消解和實(shí)體統(tǒng)一是知識抽取中比較難的環(huán)節(jié)。
知識圖譜的存儲
知識圖譜主要有兩種存儲方式:
- RDF:RDF一個重要的設(shè)計原則是數(shù)據(jù)的易發(fā)布以及共享,另外,RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息。
- 圖數(shù)據(jù)庫:圖數(shù)據(jù)庫主要把重點(diǎn)放在了高效的圖查詢和搜索上,一般以屬性圖為基本的表示形式,所以實(shí)體和關(guān)系可以包含屬性。
RDF和圖數(shù)據(jù)庫的主要特點(diǎn)區(qū)別
RDF
- 存儲三元組
- 標(biāo)準(zhǔn)的推理引擎
- W3C標(biāo)準(zhǔn)
- 易于發(fā)布數(shù)據(jù)
- 多數(shù)為學(xué)術(shù)界場景
圖數(shù)據(jù)庫
- 關(guān)系和節(jié)點(diǎn)可以帶屬性
- 沒有標(biāo)準(zhǔn)的推薦引擎
- 圖的遍歷效率高
- 事務(wù)管理
- 基本為工業(yè)界場景
知識圖譜能干什么
通用知識圖譜:不太涉及行業(yè)知識及專業(yè)內(nèi)容,一般是解決科普類、常識類等問題。主要應(yīng)用于面向互聯(lián)網(wǎng)的搜索、推薦、問答等業(yè)務(wù)場景。比如,搜索李小龍有幾部電影,戰(zhàn)狼2的導(dǎo)演是誰等。
行業(yè)知識圖譜:針對某個垂直行業(yè)或細(xì)分領(lǐng)域的深入研究而定制的版本,主要是解決當(dāng)前行業(yè)或細(xì)分領(lǐng)域的專業(yè)問題。一些應(yīng)用如下:
- 企業(yè)服務(wù):比如企業(yè)最終控股人查詢
- 生活服務(wù)領(lǐng)域:比如美團(tuán)搜索“10人聚餐,帶寶寶,安靜一點(diǎn)的餐廳”,就需要找到“有大桌”“有包間”、“有兒童椅”等標(biāo)簽。比如菜品構(gòu)建知識體系。
- 導(dǎo)航POI知識圖譜:支持用戶點(diǎn)線面導(dǎo)航搜索需求,支持點(diǎn)線面的方位、距離、包含關(guān)系等:萬達(dá)廣場附近的充電樁在哪,廣州塔那一片有商場嗎?國貿(mào)樓里有7-11嗎?
反欺詐
假設(shè)銀行要借錢給一個人,那要怎么判斷這個人是真實(shí)用戶還是欺詐的呢?
我們需要以人為核心,展開一系列的數(shù)據(jù)構(gòu)建,比如說用戶的基本信息、借款記錄、工作信息、消費(fèi)記錄、行為記錄、網(wǎng)站瀏覽記錄等等。把這些信息整合到知識圖譜中。從而整體進(jìn)行預(yù)測和評分,用戶欺詐行為的概率有多大。當(dāng)然這個預(yù)測是需要通過機(jī)器學(xué)習(xí),得到一個合理的模型,模型中可能會包括消費(fèi)記錄的權(quán)重、網(wǎng)站瀏覽記錄的權(quán)重等等信息。
不一致性驗(yàn)證
比如說不同的兩個借款人,卻填寫了同一個電話號碼,那說明這兩個人中至少有一個是可疑的了,這時就需要重點(diǎn)關(guān)注了。
更復(fù)雜點(diǎn)的,可能需要知識圖譜通過一些關(guān)系去推理了。比如說“借款人”跟小明和小秦都是母子關(guān)系,按推理的話小明跟小秦應(yīng)該是兄弟關(guān)系,而在知識圖譜上顯示的是朋友關(guān)系,就有可能有異常了,因此也需要重點(diǎn)關(guān)注。
客戶失聯(lián)管理
如果借款人失聯(lián)了,通過知識圖譜,是不是可以聯(lián)系他的朋友,或兄弟,甚至是兄弟的妻子,去追蹤失聯(lián)人。
因此在失聯(lián)的情況下,知識圖譜可以挖掘更多失聯(lián)人的聯(lián)系人,從而提高催收效率。
知識推理
如上左圖(注意這里的箭頭方向),小秦是大秦的兒子,大秦是老秦的兒子,從這這樣的關(guān)系,我們就可以推理出,小秦是老秦的孫子,這樣就能使知識圖譜更加完善了。
如上左圖,小明在騰訊上班,小秦也在騰訊上班,從這樣的關(guān)系,我們可以推理出,小明和小秦是同事關(guān)系。
推理能力其實(shí)就是機(jī)器模仿人的一種重要的能力,可以從已有的知識中發(fā)現(xiàn)一些隱藏的知識。當(dāng)然這樣的能力離不開深度學(xué)習(xí),而隨著深度學(xué)習(xí)的不斷成熟,我相信知識圖譜的能力也會越來越強(qiáng)大。文章來源:http://www.zghlxwxcb.cn/news/detail-640056.html
在此就介紹完了知識圖譜的一些簡單知識,在寫這篇文章的同時,也參考了很多業(yè)界優(yōu)秀大佬的文章,感謝各位大佬的無私分享。文章來源地址http://www.zghlxwxcb.cn/news/detail-640056.html
常見圖數(shù)據(jù)庫
- Neo4j:是一個流行的圖形數(shù)據(jù)庫,它是開源的,Neo4j基于Java實(shí)現(xiàn),兼容ACID特性,也支持其他編程語言,如Ruby和Python。
- Amazon Neptune:全托管的圖數(shù)據(jù)庫,支持多種圖數(shù)據(jù)模型和查詢語言。是一種快速、可靠、完全管理的圖形數(shù)據(jù)庫服務(wù),可以輕松構(gòu)建和運(yùn)行與高度連接的數(shù)據(jù)集一起工作的應(yīng)用程序
- JanusGraph:分布式圖數(shù)據(jù)庫,支持多種后端存儲和多種查詢語言。其本身專注于緊湊圖序列化、豐富圖數(shù)據(jù)建模、高效的查詢執(zhí)行
- OrientDB:多模式的NoSQL數(shù)據(jù)庫,支持面向文檔和面向圖的數(shù)據(jù)模型和查詢語言。兼具文檔數(shù)據(jù)庫的靈活性和圖形數(shù)據(jù)庫管理鏈接能力的可深層次擴(kuò)展的文檔-圖形數(shù)據(jù)庫管理系統(tǒng)??蛇x無模式、全模式或混合模式下。支持許多特性,諸如ACID事務(wù)、快速索引,原生和SQL查詢功能。可以JSON格式導(dǎo)入、導(dǎo)出文檔。若不執(zhí)行昂貴的JOIN操作的話,如同關(guān)系數(shù)據(jù)庫可在幾毫秒內(nèi)可檢索數(shù)以百記的鏈接文檔圖。
- ArangoDB:是一個基于W3c標(biāo)準(zhǔn)的為資源描述框架構(gòu)建的圖形數(shù)據(jù)庫。它為處理鏈接數(shù)據(jù)和Web語義而設(shè)計,支持SPARQL、RDFS++和Prolog。多模式的NoSQL數(shù)據(jù)庫,支持面向文檔、鍵值和圖的數(shù)據(jù)模型和查詢語言。
- GraphDB:是德國sones公司在.NET基礎(chǔ)上構(gòu)建的。Sones公司于2007年成立,近年來陸續(xù)進(jìn)行了幾輪融資。GraphDB托管在Windows Azure平臺上。
到了這里,關(guān)于知識圖譜(Knowledge Graph)根本概念的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!