国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

知識圖譜（Knowledge Graph）根本概念

2年前作者：VipSoft分類：Toy博客閱讀(16)違法舉報

這篇具有很好參考價值的文章主要介紹了知識圖譜（Knowledge Graph）根本概念。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

目錄

知識圖譜
- 定義
- 基礎(chǔ)概念：
- 知識圖譜構(gòu)建的關(guān)鍵技術(shù)
  - 知識圖譜的構(gòu)建
  - 實(shí)體命名識別
  - 知識抽取
  - 實(shí)體統(tǒng)一
  - 指代消解
- 知識圖譜的存儲
  - RDF和圖數(shù)據(jù)庫的主要特點(diǎn)區(qū)別
- 知識圖譜能干什么
  - 反欺詐
  - 不一致性驗(yàn)證
  - 客戶失聯(lián)管理
  - 知識推理
- 常見圖數(shù)據(jù)庫

2012年5月17日，Google 正式提出了知識圖譜（Knowledge Graph）的概念，其初衷是為了優(yōu)化搜索引擎返回的結(jié)果，增強(qiáng)用戶搜索質(zhì)量及體驗(yàn)。

假設(shè)我們想知道 “王健林的兒子” 是誰，百度或谷歌一下，搜索引擎會準(zhǔn)確返回王思聰?shù)男畔?，說明搜索引擎理解了用戶的意圖，知道我們要找 “王思聰”，而不是僅僅返回關(guān)鍵詞為 “王健林的兒子” 的網(wǎng)頁：
知識圖譜（Knowledge Graph）根本概念

知識圖譜

信息是指外部的客觀事實(shí)。舉例：這里有一瓶水，它現(xiàn)在是7°。
知識是對外部客觀規(guī)律的歸納和總結(jié)。舉例：水在零度的時候會結(jié)冰。
“客觀規(guī)律的歸納和總結(jié)” 似乎有些難以實(shí)現(xiàn)。Quora 上有另一種經(jīng)典的解讀，區(qū)分 “信息” 和 “知識” 。

定義

知識圖譜，本質(zhì)上，是一種揭示實(shí)體之間關(guān)系的語義網(wǎng)絡(luò)，是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。
是一種結(jié)構(gòu)化的語義知識庫，用于以符號形式描述物理世界中的概念及其相互關(guān)系。它的基本組成單位是“實(shí)體—關(guān)系—實(shí)體”三元組，以及實(shí)體及其相關(guān)屬性—值對，實(shí)體間通過關(guān)系相互聯(lián)結(jié)，構(gòu)成網(wǎng)狀的知識結(jié)構(gòu) 。
語義網(wǎng)絡(luò)(Semantic Network)是上個世紀(jì)五六十年代所提出的一種知識表示形式。如圖：貓是一種哺乳動物；脊椎是哺乳動物的一部分。然而，語義網(wǎng)絡(luò)由于缺少標(biāo)準(zhǔn)，其比較難應(yīng)用于實(shí)踐。

基礎(chǔ)概念：

通俗定義：知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關(guān)系網(wǎng)絡(luò)，因此知識圖譜提供了從“關(guān)系”的角度去分析問題的能力。

由節(jié)點(diǎn)(Point)和邊(Edge)組成的網(wǎng)狀的知識結(jié)構(gòu)，也就是數(shù)據(jù)結(jié)構(gòu)中的圖(Graph)。
每個節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的實(shí)體Entity，每條邊為實(shí)體與實(shí)體之間的關(guān)系
每個節(jié)點(diǎn)代表的實(shí)體還存在著一些屬性，比如“梅西”這個節(jié)點(diǎn)，可以把生日、國籍、球隊等一些基本信息作為屬性。
知識圖譜由一條條知識組成，每條知識是一個基本組成單位，表示為一個三元組：（實(shí)體，關(guān)系，實(shí)體）或者（實(shí)體，屬性，屬性值）
可以用RDF形式化地表示這種三元關(guān)系，但RDF的缺點(diǎn)在于表達(dá)能力有限，無法區(qū)分類和對象，也無法定義和描述類的關(guān)系/屬性。RDFS和OWL這兩種技術(shù)解決了RDF表達(dá)能力有限的缺點(diǎn)。具體不展開了。

基本的數(shù)據(jù)結(jié)構(gòu)表達(dá)式是：G=(V,E)，V=vertex(節(jié)點(diǎn))，E=edge(邊)
實(shí)體指的可以是現(xiàn)實(shí)世界中的事物，比如人、地名、公司、電話、動物等；關(guān)系則用來表達(dá)不同實(shí)體之間的某種聯(lián)系。

知識圖譜（Knowledge Graph）根本概念

由上圖，可以看到實(shí)體有地名和人；大理屬于云南、小明住在大理、小明和小秦是朋友，這些都是實(shí)體與實(shí)體之間的關(guān)系。

知識圖譜構(gòu)建的關(guān)鍵技術(shù)

知識圖譜構(gòu)建的過程中，最主要的一個步驟就是把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來，然后按一定的規(guī)則加入到知識圖譜中，這個過程我們稱為知識抽取。
數(shù)據(jù)源的分為兩種：

結(jié)構(gòu)化的數(shù)據(jù)：結(jié)構(gòu)化的數(shù)據(jù)是比較好處理的，難點(diǎn)在于處理非結(jié)構(gòu)化的數(shù)據(jù)
非結(jié)構(gòu)化的數(shù)據(jù)：處理非結(jié)構(gòu)化數(shù)據(jù)通常需要使用自然語言處理技術(shù)：實(shí)體命名識別、關(guān)系抽取、實(shí)體統(tǒng)一、指代消解等

知識圖譜（Knowledge Graph）根本概念

上圖左邊的文案就是一個非結(jié)構(gòu)化的文本數(shù)據(jù)，需要經(jīng)過一系列的技術(shù)處理，才能轉(zhuǎn)化為右邊的知識圖譜。

具體是怎么實(shí)現(xiàn)的呢，接下來一一討論。

知識圖譜的構(gòu)建

知識圖譜（Knowledge Graph）根本概念

知識圖譜（Knowledge Graph）根本概念

實(shí)體命名識別

知識圖譜（Knowledge Graph）根本概念
提取文本中的實(shí)體，并對每個實(shí)體進(jìn)行分類或打標(biāo)簽，比如把文中“1984年12月30日”記為“時間”類型；“克利夫蘭騎士”和“邁阿密熱火”記為“球隊”類型，這個過程就是實(shí)體命名。

知識抽取

知識抽取主要是面向開放的鏈接數(shù)據(jù)，通過自動化的技術(shù)抽取出可用的知識單元，知識單元主要包括實(shí)體(概念的外延)、關(guān)系以及屬性3個知識要素，并以此為基礎(chǔ)，形成一系列高質(zhì)量的事實(shí)表達(dá)，為上層模式層的構(gòu)建奠定基礎(chǔ)。知識抽取有三個主要工作：

實(shí)體抽?。?/strong>在技術(shù)上我們更多稱為 NER（named entity recognition，命名實(shí)體識別），指的是從原始語料中自動識別出命名實(shí)體。由于實(shí)體是知識圖譜中的最基本元素，其抽取的完整性、準(zhǔn)確、召回率等將直接影響到知識庫的質(zhì)量。因此，實(shí)體抽取是知識抽取中最為基礎(chǔ)與關(guān)鍵的一步；

關(guān)系抽?。?/strong>目標(biāo)是解決實(shí)體間語義鏈接的問題，早期的關(guān)系抽取主要是通過人工構(gòu)造語義規(guī)則以及模板的方法識別實(shí)體關(guān)系。隨后，實(shí)體間的關(guān)系模型逐漸替代了人工預(yù)定義的語法與規(guī)則

關(guān)系抽取是把實(shí)體之間的關(guān)系抽取出來的一項技術(shù)，其中主要是根據(jù)文本中的一些關(guān)鍵詞，如“出生”、“在”、“轉(zhuǎn)會”等，我們就可以判斷詹姆斯與地點(diǎn)俄亥俄州、與邁阿密熱火等實(shí)體之間的關(guān)系。

屬性抽?。?/strong>屬性抽取主要是針對實(shí)體而言的，通過屬性可形成對實(shí)體的完整勾畫。由于實(shí)體的屬性可以看成是實(shí)體與屬性值之間的一種名稱性關(guān)系，因此可以將實(shí)體屬性的抽取問題轉(zhuǎn)換為關(guān)系抽取問題。

實(shí)體統(tǒng)一

在文本中可能同一個實(shí)體會有不同的寫法，比如說“LBJ”就是詹姆斯的縮寫，因此“勒布朗詹姆斯”和“LBJ”指的就是同一個實(shí)體，實(shí)體統(tǒng)一就是處理這樣問題的一項技術(shù)。

指代消解

指代消解跟實(shí)體統(tǒng)一類似，都是處理同一個實(shí)體的問題。比如說文本中的“他”其實(shí)指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是，找出這些代詞，都指的是哪個實(shí)體。
指代消解和實(shí)體統(tǒng)一是知識抽取中比較難的環(huán)節(jié)。

知識圖譜的存儲

知識圖譜主要有兩種存儲方式：

RDF：RDF一個重要的設(shè)計原則是數(shù)據(jù)的易發(fā)布以及共享，另外，RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息。

圖數(shù)據(jù)庫：圖數(shù)據(jù)庫主要把重點(diǎn)放在了高效的圖查詢和搜索上，一般以屬性圖為基本的表示形式，所以實(shí)體和關(guān)系可以包含屬性。

RDF和圖數(shù)據(jù)庫的主要特點(diǎn)區(qū)別

RDF

存儲三元組

標(biāo)準(zhǔn)的推理引擎

W3C標(biāo)準(zhǔn)

易于發(fā)布數(shù)據(jù)

多數(shù)為學(xué)術(shù)界場景

圖數(shù)據(jù)庫

關(guān)系和節(jié)點(diǎn)可以帶屬性

沒有標(biāo)準(zhǔn)的推薦引擎

圖的遍歷效率高

事務(wù)管理

基本為工業(yè)界場景

知識圖譜能干什么

通用知識圖譜：不太涉及行業(yè)知識及專業(yè)內(nèi)容，一般是解決科普類、常識類等問題。主要應(yīng)用于面向互聯(lián)網(wǎng)的搜索、推薦、問答等業(yè)務(wù)場景。比如，搜索李小龍有幾部電影，戰(zhàn)狼2的導(dǎo)演是誰等。
行業(yè)知識圖譜：針對某個垂直行業(yè)或細(xì)分領(lǐng)域的深入研究而定制的版本，主要是解決當(dāng)前行業(yè)或細(xì)分領(lǐng)域的專業(yè)問題。一些應(yīng)用如下：

企業(yè)服務(wù)：比如企業(yè)最終控股人查詢

生活服務(wù)領(lǐng)域：比如美團(tuán)搜索“10人聚餐，帶寶寶，安靜一點(diǎn)的餐廳”，就需要找到“有大桌”“有包間”、“有兒童椅”等標(biāo)簽。比如菜品構(gòu)建知識體系。

導(dǎo)航POI知識圖譜：支持用戶點(diǎn)線面導(dǎo)航搜索需求，支持點(diǎn)線面的方位、距離、包含關(guān)系等：萬達(dá)廣場附近的充電樁在哪，廣州塔那一片有商場嗎？國貿(mào)樓里有7-11嗎？

反欺詐

假設(shè)銀行要借錢給一個人，那要怎么判斷這個人是真實(shí)用戶還是欺詐的呢？

我們需要以人為核心，展開一系列的數(shù)據(jù)構(gòu)建，比如說用戶的基本信息、借款記錄、工作信息、消費(fèi)記錄、行為記錄、網(wǎng)站瀏覽記錄等等。把這些信息整合到知識圖譜中。從而整體進(jìn)行預(yù)測和評分，用戶欺詐行為的概率有多大。當(dāng)然這個預(yù)測是需要通過機(jī)器學(xué)習(xí)，得到一個合理的模型，模型中可能會包括消費(fèi)記錄的權(quán)重、網(wǎng)站瀏覽記錄的權(quán)重等等信息。

不一致性驗(yàn)證

比如說不同的兩個借款人，卻填寫了同一個電話號碼，那說明這兩個人中至少有一個是可疑的了，這時就需要重點(diǎn)關(guān)注了。

更復(fù)雜點(diǎn)的，可能需要知識圖譜通過一些關(guān)系去推理了。比如說“借款人”跟小明和小秦都是母子關(guān)系，按推理的話小明跟小秦應(yīng)該是兄弟關(guān)系，而在知識圖譜上顯示的是朋友關(guān)系，就有可能有異常了，因此也需要重點(diǎn)關(guān)注。

客戶失聯(lián)管理

如果借款人失聯(lián)了，通過知識圖譜，是不是可以聯(lián)系他的朋友，或兄弟，甚至是兄弟的妻子，去追蹤失聯(lián)人。
因此在失聯(lián)的情況下，知識圖譜可以挖掘更多失聯(lián)人的聯(lián)系人，從而提高催收效率。

知識推理

如上左圖（注意這里的箭頭方向），小秦是大秦的兒子，大秦是老秦的兒子，從這這樣的關(guān)系，我們就可以推理出，小秦是老秦的孫子，這樣就能使知識圖譜更加完善了。

如上左圖，小明在騰訊上班，小秦也在騰訊上班，從這樣的關(guān)系，我們可以推理出，小明和小秦是同事關(guān)系。

推理能力其實(shí)就是機(jī)器模仿人的一種重要的能力，可以從已有的知識中發(fā)現(xiàn)一些隱藏的知識。當(dāng)然這樣的能力離不開深度學(xué)習(xí)，而隨著深度學(xué)習(xí)的不斷成熟，我相信知識圖譜的能力也會越來越強(qiáng)大。

在此就介紹完了知識圖譜的一些簡單知識，在寫這篇文章的同時，也參考了很多業(yè)界優(yōu)秀大佬的文章，感謝各位大佬的無私分享。文章來源地址http://www.zghlxwxcb.cn/news/detail-640056.html

常見圖數(shù)據(jù)庫

Neo4j：是一個流行的圖形數(shù)據(jù)庫，它是開源的，Neo4j基于Java實(shí)現(xiàn)，兼容ACID特性，也支持其他編程語言，如Ruby和Python。

Amazon Neptune：全托管的圖數(shù)據(jù)庫，支持多種圖數(shù)據(jù)模型和查詢語言。是一種快速、可靠、完全管理的圖形數(shù)據(jù)庫服務(wù),可以輕松構(gòu)建和運(yùn)行與高度連接的數(shù)據(jù)集一起工作的應(yīng)用程序

JanusGraph：分布式圖數(shù)據(jù)庫，支持多種后端存儲和多種查詢語言。其本身專注于緊湊圖序列化、豐富圖數(shù)據(jù)建模、高效的查詢執(zhí)行

OrientDB：多模式的NoSQL數(shù)據(jù)庫，支持面向文檔和面向圖的數(shù)據(jù)模型和查詢語言。兼具文檔數(shù)據(jù)庫的靈活性和圖形數(shù)據(jù)庫管理鏈接能力的可深層次擴(kuò)展的文檔-圖形數(shù)據(jù)庫管理系統(tǒng)?？蛇x無模式、全模式或混合模式下。支持許多特性，諸如ACID事務(wù)、快速索引，原生和SQL查詢功能。可以JSON格式導(dǎo)入、導(dǎo)出文檔。若不執(zhí)行昂貴的JOIN操作的話，如同關(guān)系數(shù)據(jù)庫可在幾毫秒內(nèi)可檢索數(shù)以百記的鏈接文檔圖。

ArangoDB：是一個基于W3c標(biāo)準(zhǔn)的為資源描述框架構(gòu)建的圖形數(shù)據(jù)庫。它為處理鏈接數(shù)據(jù)和Web語義而設(shè)計，支持SPARQL、RDFS++和Prolog。多模式的NoSQL數(shù)據(jù)庫，支持面向文檔、鍵值和圖的數(shù)據(jù)模型和查詢語言。

GraphDB：是德國sones公司在.NET基礎(chǔ)上構(gòu)建的。Sones公司于2007年成立，近年來陸續(xù)進(jìn)行了幾輪融資。GraphDB托管在Windows Azure平臺上。

到了這里，關(guān)于知識圖譜（Knowledge Graph）根本概念的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

大數(shù)據(jù)知識圖譜解碼：從核心概念到技術(shù)實(shí)戰(zhàn)
知識圖譜是近年來人工智能和數(shù)據(jù)科學(xué)領(lǐng)域的焦點(diǎn)。本文深入探索了知識圖譜的核心概念、發(fā)展歷程、研究內(nèi)容以及其在表示、存儲、獲取、構(gòu)建和推理方面的技術(shù)細(xì)節(jié)。結(jié)合Python和PyTorch示例代碼，文章旨在為讀者提供一個全面、深入且實(shí)用的知識圖譜概覽，幫助廣大技術(shù)愛
2024年02月04日
瀏覽(20)
KGAT: Knowledge Graph Attention Network for Recommendation
[1905.07854] KGAT: Knowledge Graph Attention Network for Recommendation (arxiv.org) LunaBlack/KGAT-pytorch (github.com) 目錄 1、背景 2、任務(wù)定義 3、模型 3.1 Embedding layer 3.2 Attentive Embedding Propagation Layers 3.3 Model Prediction 3.4?Optimization 4、部分代碼解讀 4.1?數(shù)據(jù)集 4.2?數(shù)據(jù)集的處理 4.3?模型 4.4 模型訓(xùn)練 C
2024年02月16日
瀏覽(16)
Knowledge Graph Prompting for Multi-Document Question Answering
本文是LLM系列文章，針對《Knowledge Graph Prompting for Multi-Document Question Answering》的翻譯。大型語言模型的“預(yù)訓(xùn)練、提示、預(yù)測”范式在開放領(lǐng)域問答（OD-QA）中取得了顯著的成功。然而，很少有工作在多文檔問答（MD-QA）的場景中探索這種范式，這項任務(wù)需要徹底理解不同文
2024年02月09日
瀏覽(20)
【論文筆記】KDD2019 | KGAT: Knowledge Graph Attention Network for Recommendation
為了更好的推薦，不僅要對user-item交互進(jìn)行建模，還要將關(guān)系信息考慮進(jìn)來傳統(tǒng)方法因子分解機(jī)將每個交互都當(dāng)作一個獨(dú)立的實(shí)例，但是忽略了item之間的關(guān)系（eg：一部電影的導(dǎo)演也是另一部電影的演員）高階關(guān)系：用一個/多個鏈接屬性連接兩個item KG+user-item graph+high orde
2024年02月16日
瀏覽(26)
KG-BERT: BERT for Knowledge Graph Completion 2019ACL
把BERT用在知識圖譜補(bǔ)全上提出KG-BERT模型，在預(yù)訓(xùn)練好的BERT基礎(chǔ)上繼續(xù)fine-tuning。傳統(tǒng)的KGC方法一般依賴于KGE，而KGE往往通過將KG中的三元組關(guān)系投影到某個表示空間中，然后使用打分函數(shù)對三元組的合理性進(jìn)行評估，在用基于正負(fù)樣本的對比進(jìn)行模型的訓(xùn)練，而這個表示空
2024年02月07日
瀏覽(24)
【論文筆記】Knowledge Is Flat: A Seq2Seq Generative Framework for Various Knowledge Graph Completion
arxiv時間: September 15, 2022 作者單位i: 南洋理工大學(xué) 來源: COLING 2022 模型名稱: KG-S2S 論文鏈接: https://arxiv.org/abs/2209.07299 項目鏈接: https://github.com/chenchens190009/KG-S2S 以往的研究通常將 KGC 模型與特定的圖結(jié)構(gòu)緊密結(jié)合，這不可避免地會導(dǎo)致兩個缺點(diǎn) 特定結(jié)構(gòu)的 KGC 模型互不兼容現(xiàn)
2024年01月19日
瀏覽(24)
生成式AI - Knowledge Graph Prompting：一種基于大模型的多文檔問答方法
大型語言模型（LLM）已經(jīng)徹底改變了自然語言處理（NLP）任務(wù)。它們改變了我們與文本數(shù)據(jù)交互和處理的方式。這些強(qiáng)大的AI模型，如OpenAI的GPT-4，改變了理解、生成人類類似文本的方式，導(dǎo)致各種行業(yè)出現(xiàn)了眾多突破性應(yīng)用。 LangChain是一個用于構(gòu)建基于大型語言模型（如G
2024年02月20日
瀏覽(23)
Making Large Language Models Perform Better in Knowledge Graph Completion論文閱讀
原文鏈接： Making Large Language Models Perform Better in Knowledge Graph Completion 基于大語言模型（LLM）的知識圖補(bǔ)全（KGC）旨在利用 LLM 預(yù)測知識圖譜中缺失的三元組，并豐富知識圖譜，使其成為更好的網(wǎng)絡(luò)基礎(chǔ)設(shè)施，這可以使許多基于網(wǎng)絡(luò)的自動化服務(wù)受益。然而，基于LLM的KGC研究有
2024年01月23日
瀏覽(40)
論文閱讀《ICDE2023：Relational Message Passing for Fully Inductive Knowledge Graph Completion》
論文鏈接工作簡介在知識圖譜補(bǔ)全 (KGC) 中，預(yù)測涉及新興實(shí)體和 / 或關(guān)系的三元組，這是在學(xué)習(xí) KG 嵌入時看不到的，已成為一個關(guān)鍵挑戰(zhàn)。帶有消息傳遞的子圖推理是一個很有前途和流行的解決方案。最近的一些方法已經(jīng)取得了很好的性能，但它們 (1) 通常只能預(yù)測單獨(dú)
2024年02月07日
瀏覽(19)
Text-Augmented Open Knowledge Graph Completion viaPre-Trained Language Models
開放知識圖譜(KG)完成的任務(wù)是從已知的事實(shí)中得出新的發(fā)現(xiàn)。增加KG完成度的現(xiàn)有工作需要(1)事實(shí)三元組來擴(kuò)大圖推理空間，或(2)手動設(shè)計提示從預(yù)訓(xùn)練的語言模型(PLM)中提取知識，表現(xiàn)出有限的性能，需要專家付出昂貴的努力。為此，我們提出了 TAGREAL ，它自動生成高質(zhì)量
2024年02月13日
瀏覽(35)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区