国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

關(guān)鍵詞提取 | 基于Textrank算法的兩種關(guān)鍵詞提取

這篇具有很好參考價值的文章主要介紹了關(guān)鍵詞提取 | 基于Textrank算法的兩種關(guān)鍵詞提取。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

目錄

一、PageRank算法

二、TextRank算法

1. 關(guān)鍵詞抽取(keyword extraction)

2. 關(guān)鍵短語抽?。╧eyphrase extration)

3. 關(guān)鍵句抽取(sentence extraction)

三、TextRank算法實現(xiàn)

1. 基于Textrank4zh的TextRank算法實現(xiàn)

2. 基于jieba的TextRank算法實現(xiàn)

3.?基于SnowNLP的TextRank算法實現(xiàn)

四、PageRank算法與TextRank算法的區(qū)別


TextRank 算法是一種基于谷歌的 PageRank 算法的用于文本的基于圖的排序算法,通過把文本分割成若干組成單元(單詞、句子)并建立圖模型,利用投票機制對文本中的重要成分進行排序,常用于關(guān)鍵詞提取和文本摘要。和 LDA、HMM 等模型不同, TextRank 不需要事先對多篇文檔進行學習訓練, 因其簡潔有效而得到廣泛應(yīng)用。

我們知道,關(guān)鍵詞是能夠表達文檔中心內(nèi)容的詞語,常用于計算機系統(tǒng)標引論文內(nèi)容特征、信息檢索、系統(tǒng)匯集以供讀者檢閱。關(guān)鍵詞提取是文本挖掘領(lǐng)域的一個分支,是文本檢索、文檔比較、摘要生成、文檔分類和聚類等文本挖掘研究的基礎(chǔ)性工作。


一、PageRank算法

PageRank 算法通過計算網(wǎng)頁鏈接的數(shù)量和質(zhì)量來粗略估計網(wǎng)頁的重要性,算法創(chuàng)立之初即應(yīng)用在谷歌的搜索引擎中,對網(wǎng)頁進行排名。?PageRank 算法的核心思想如下:

  • 鏈接數(shù)量:如果一個網(wǎng)頁被越多的其他網(wǎng)頁鏈接,說明這個網(wǎng)頁越重要,即該網(wǎng)頁的PR值(PageRank值)會相對較高;
  • 鏈接質(zhì)量:如果一個網(wǎng)頁被一個越高權(quán)值的網(wǎng)頁鏈接,也能表明這個網(wǎng)頁越重要,即一個PR值很高的網(wǎng)頁鏈接到一個其他網(wǎng)頁,那么被鏈接到的網(wǎng)頁的PR值會相應(yīng)地因此而提高。

我們知道,PageRank (PR) 是一種用于計算網(wǎng)頁權(quán)重的算法。我們可以把所有的網(wǎng)頁看成一個大的有向圖。在此圖中,節(jié)點是網(wǎng)頁。如果網(wǎng)頁 A 有指向網(wǎng)頁 B 的鏈接,則它可以表示為從 A 到 B 的有向邊。構(gòu)建完整個圖后,我們可以通過以下公式為網(wǎng)頁分配權(quán)重

textrank,自然語言處理,自然語言處理,nlp,人工智能

其中,是網(wǎng)頁的重要性(PR 值),是阻尼系數(shù),一般為 0.85,是整個互聯(lián)網(wǎng)中所存在的有指向網(wǎng)頁的鏈接的網(wǎng)頁集合,是網(wǎng)頁中存在的指向所有外部網(wǎng)頁的鏈接的集合,該集合中元素的個數(shù)。

textrank,自然語言處理,自然語言處理,nlp,人工智能

這是一個示例,可以更好地理解上面的符號。我們有一個圖表來表示網(wǎng)頁如何相互鏈接。每個節(jié)點代表一個網(wǎng)頁,箭頭代表邊。我們想得到網(wǎng)頁 ?的權(quán)重。

我們可以將上述函數(shù)中的求和部分重寫為更簡單的版本:

textrank,自然語言處理,自然語言處理,nlp,人工智能

我們可以通過下面的函數(shù)得到網(wǎng)頁 ?的權(quán)重:

textrank,自然語言處理,自然語言處理,nlp,人工智能

我們可以看到網(wǎng)頁 ?的權(quán)重取決于入站頁面的權(quán)重。我們需要多次運行此迭代才能獲得最終權(quán)重。初始化時,每個網(wǎng)頁的重要性為 1。


二、TextRank算法

TextRank 算法是一種基于圖的用于關(guān)鍵詞抽取和文檔摘要的排序算法,由谷歌的網(wǎng)頁重要性排序算法 PageRank 算法改進而來,它利用一篇文檔內(nèi)部的詞語間的共現(xiàn)信息(語義)便可以抽取關(guān)鍵詞,它能夠從一個給定的文本中抽取出該文本的關(guān)鍵詞、關(guān)鍵詞組,并使用抽取式的自動文摘方法抽取出該文本的關(guān)鍵句。TextRank 算法的基本思想是將文檔看作一個詞的網(wǎng)絡(luò),該網(wǎng)絡(luò)中的鏈接表示詞與詞之間的語義關(guān)系。

TextRank 算法計算公式:

textrank,自然語言處理,自然語言處理,nlp,人工智能

其中,?表示句子??的權(quán)重,右側(cè)的求和表示每個相鄰句子對本句子的貢前程度在單文檔中,我們可以粗略的認為所有句子都是相鄰的,無需像多文檔一樣進行多個窗的生成和抽取,僅需單一文檔窗口即可,?表示兩個句子的相似度? 代表上次選代出的句子? 的權(quán)重。?是阻尼系數(shù),一般為0.85。

TextRank算法主要包括:關(guān)鍵詞抽取、關(guān)鍵短語抽取、關(guān)鍵句抽取。

1. 關(guān)鍵詞抽?。╧eyword extraction)

關(guān)鍵詞抽取是指從文本中確定一些能夠描述文檔含義的術(shù)語的過程。對關(guān)鍵詞抽取而言,用于構(gòu)建頂點集的文本單元可以是句子中的一個或多個字;根據(jù)這些字之間的關(guān)系(比如:在一個框中同時出現(xiàn))構(gòu)建邊。根據(jù)任務(wù)的需要,可以使用語法過濾器(syntactic filters)對頂點集進行優(yōu)化。語法過濾器的主要作用是將某一類或者某幾類詞性的字過濾出來作為頂點集。

2. 關(guān)鍵短語抽?。╧eyphrase extration)

關(guān)鍵詞抽取結(jié)束后,我們可以得到的 N 個關(guān)鍵詞,在原始文本中相鄰的關(guān)鍵詞構(gòu)成關(guān)鍵短語。因此,從 get_keyphrases 函數(shù)的源碼中我們可以看到,它先調(diào)用 get_keywords 抽取關(guān)鍵詞,然后分析關(guān)鍵詞是否存在相鄰的情況,最后確定哪些是關(guān)鍵短語。

3. 關(guān)鍵句抽?。╯entence extraction)

句子抽取任務(wù)主要針對的是自動摘要這個場景,將每一個 sentence 作為一個頂點,根據(jù)兩個句子之間的內(nèi)容重復程度來計算他們之間的“相似度”,以這個相似度作為聯(lián)系,由于不同句子之間相似度大小不一致,在這個場景下構(gòu)建的是以相似度大小作為 edge 權(quán)重的有權(quán)圖。


三、TextRank算法實現(xiàn)

1. 基于Textrank4zh的TextRank算法實現(xiàn)

#!/usr/bin/env python
# -*- coding:utf-8 -*-
"""
@Project : 關(guān)鍵詞提取
@File    : 基于Textrank4zh的TextRank算法實現(xiàn).py
@IDE     : PyCharm
@Author  : 源于花海
@Date    : 2023/10/10 21:24
"""
from textrank4zh import TextRank4Keyword


def keywords_extraction(text):
    tr4w = TextRank4Keyword()
    tr4w.analyze(text, window=2, lower=True)
    keywords = tr4w.get_keywords(6, word_min_len=2)
    return keywords


if __name__ == "__main__":
    text = "自然語言處理是一門涉及計算機科學、人工智能和語言學等多個領(lǐng)域的交叉學科。"
    keywords = keywords_extraction(text)
    print(keywords)

2. 基于jieba的TextRank算法實現(xiàn)

#!/usr/bin/env python
# -*- coding:utf-8 -*-
"""
@Project : 關(guān)鍵詞提取
@File    : 基于jieba的TextRank算法實現(xiàn).py
@IDE     : PyCharm
@Author  : 源于花海
@Date    : 2023/10/10 22:12
"""
import jieba
from jieba.analyse import textrank

# 定義待處理文本
text = "自然語言處理是一門涉及計算機科學、人工智能和語言學等多個領(lǐng)域的交叉學科。"

# 使用jieba庫的TextRank算法提取關(guān)鍵詞
keywords = textrank(text, topK=3)

print("關(guān)鍵詞提取結(jié)果:", keywords)

關(guān)鍵詞提取結(jié)果:

分詞結(jié)果: ['自然', '語言', '處理', '是', '一門', '涉及', '計算機', '科學', '、', '人工智能', '和', '語言學', '等', '多個', '領(lǐng)域', '的', '交叉', '學科', '。']
關(guān)鍵詞提取結(jié)果: ['計算機科學', '語言學', '人工智能']

3.?基于SnowNLP的TextRank算法實現(xiàn)

#!/usr/bin/env python
# -*- coding:utf-8 -*-
"""
@Project : 關(guān)鍵詞提取
@File    : 基于SnowNLP的TextRank算法實現(xiàn).py
@IDE     : PyCharm
@Author  : 源于花海
@Date    : 2023/10/10 22:24
"""
from snownlp import SnowNLP
from snownlp import seg

# 定義待處理文本
text = "自然語言處理是一門涉及計算機科學、人工智能和語言學等多個領(lǐng)域的交叉學科。"

# 使用SnowNLP的分詞功能對文本進行分詞
words = SnowNLP(text).words

# 使用SnowNLP的TextRank算法提取關(guān)鍵詞
keywords = SnowNLP(text).keywords(3)

print("分詞結(jié)果:", words)
print("關(guān)鍵詞提取結(jié)果:", keywords)

輸出結(jié)果如下:

分詞結(jié)果: ['自然', '語言', '處理', '是', '一門', '涉及', '計算機', '科學', '、', '人工智能', '和', '語言學', '等', '多個', '領(lǐng)域', '的', '交叉', '學科', '。']
關(guān)鍵詞提取結(jié)果: ['語言', '處理', '自然']

可以看到,我們成功地使用 SnowNLP 的 TextRank 算法提取出了該文本中的關(guān)鍵詞:語言、處理、自然。文章來源地址http://www.zghlxwxcb.cn/news/detail-850763.html


四、PageRank算法與TextRank算法的區(qū)別

  • PageRank 算法根據(jù)網(wǎng)頁之間鏈接關(guān)系構(gòu)造網(wǎng)絡(luò),TextRank 算法根據(jù)詞之間共現(xiàn)關(guān)系構(gòu)造網(wǎng)絡(luò);
  • PageRank 算法構(gòu)造的網(wǎng)絡(luò)中的邊是有向無權(quán)邊,TextRank 算法構(gòu)造的網(wǎng)絡(luò)中的邊是無向有權(quán)邊

到了這里,關(guān)于關(guān)鍵詞提取 | 基于Textrank算法的兩種關(guān)鍵詞提取的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 文本分析-使用jieba庫實現(xiàn)TF-IDF算法提取關(guān)鍵詞

    文本分析-使用jieba庫實現(xiàn)TF-IDF算法提取關(guān)鍵詞

    ???♂? 個人主頁:@艾派森的個人主頁 ???作者簡介:Python學習者 ?? 希望大家多多支持,我們一起進步!?? 如果文章對你有幫助的話, 歡迎評論 ??點贊???? 收藏 ??加關(guān)注+ ????????TF-IDF(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率)是一種用于資訊檢索與資

    2024年02月11日
    瀏覽(19)
  • 關(guān)鍵詞的提取方法

    為了方便用戶快速了解文章的中心主題,會抽取文章的一些中心詞來表達文章的中心思想。抽取就是通過一定的方法抽取出能表達文章的中心主題的一系列方法。 的提取方法主要分為以下四類 (1)基于語義的方法 在詞典的幫助下,通過詞法與句法分析進行自動分

    2024年02月06日
    瀏覽(19)
  • NLP自然語言處理——關(guān)鍵詞提取之 TF-IDF 算法(五分鐘帶你深刻領(lǐng)悟TF-IDF算法的精髓)

    NLP自然語言處理——關(guān)鍵詞提取之 TF-IDF 算法(五分鐘帶你深刻領(lǐng)悟TF-IDF算法的精髓)

    ??博客主頁: 是dream ?? 系列專欄: 深度學習環(huán)境搭建、環(huán)境配置問題解決、自然語言處理、語音信號處理、項目開發(fā) ?? 每日語錄:要有最樸素的生活和最遙遠??的夢想,即使明天天寒地凍,山高水遠,路遠馬亡。 ?? 感謝大家點贊??收藏?指證?? ????????

    2024年02月04日
    瀏覽(25)
  • Python實現(xiàn)自動關(guān)鍵詞提取

    Python實現(xiàn)自動關(guān)鍵詞提取

    隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的人喜歡在網(wǎng)絡(luò)上閱讀小說。本文將通過詳細示例,向您介紹如何使用Python編寫爬蟲程序來獲取網(wǎng)絡(luò)小說,并利用自然語言處理技術(shù)實現(xiàn)自動文摘和提取功能。 1. 網(wǎng)絡(luò)小說數(shù)據(jù)抓取 首先,請確保已安裝必要依賴包(如requests、BeautifulSoup)

    2024年02月10日
    瀏覽(24)
  • Excel:通過Lookup函數(shù)提取指定文本關(guān)鍵詞

    Excel:通過Lookup函數(shù)提取指定文本關(guān)鍵詞

    函數(shù)公式 :=LOOKUP(9^9,FIND($G 2 : 2: 2 : G 6 , C 2 ) , 6,C2), 6 , C 2 ) , G 2 : 2: 2 : G$6) 公式解釋 : lookup第一參數(shù)為9^9:代表的是一個極大值的數(shù)據(jù),查詢位置里面最接近這一個值的數(shù)據(jù); lookup第二參數(shù)用find函數(shù)代替,目的就是查詢我們的在對應(yīng)文本找那個的位置; lookup第三參數(shù)

    2024年02月11日
    瀏覽(23)
  • Python實現(xiàn)百度關(guān)鍵詞提取URL,輕松搞定!

    Python實現(xiàn)百度關(guān)鍵詞提取URL,輕松搞定!

    隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎已成為人們獲取信息的主要途徑。百度搜索引擎作為國內(nèi)最受歡迎的搜索引擎之一,對于網(wǎng)站SEO優(yōu)化而言,排名靠前的和URL是至關(guān)重要的。本文將介紹如何使用Python實現(xiàn)百度提取URL,幫助網(wǎng)站優(yōu)化者更好地了解自己的網(wǎng)站在百度搜索

    2024年02月06日
    瀏覽(20)
  • 【NLP模型】文本建模(2)TF-IDF關(guān)鍵詞提取原理

    【NLP模型】文本建模(2)TF-IDF關(guān)鍵詞提取原理

    ? ? ? ? tf-idf是個可以提取文章的模型;他是基于詞頻,以及詞的權(quán)重綜合因素考慮的詞價值刻度模型。一般地開發(fā)NLP將包含三個層次單元:最大數(shù)據(jù)單元是語料庫、語料庫中有若干文章、文章中有若干詞語。這樣從詞頻上說,就有詞在文章的頻率,詞在預料庫的頻率

    2024年02月08日
    瀏覽(29)
  • 雙方案-基于Mysql 與 ElasticSearch實現(xiàn)關(guān)鍵詞提示搜索與全文檢索

    雙方案-基于Mysql 與 ElasticSearch實現(xiàn)關(guān)鍵詞提示搜索與全文檢索

    就喜歡搞這種不需要怎么費勁的東西,只需要把思路闡述清楚,隨筆性質(zhì)的博文,順手啊,幾乎不用改定就可以當博文發(fā)布出去。 那么,這里的話我們要做的就是實現(xiàn)這個的一個搜索功能,這個前端我就不說了,實現(xiàn)起來起來其實還是容易的,就是費勁。我們主要關(guān)注

    2024年01月18日
    瀏覽(24)
  • 基于Word2vec詞聚類的關(guān)鍵詞實現(xiàn)

    基于Word2vec詞聚類的關(guān)鍵詞實現(xiàn)

    基于Word2Vec的詞聚類提取包括以下步驟: 整個流程的核心在于使用Word2Vec模型得到詞向量,然后通過聚類算法將相似的詞語歸為一簇,最終提取每個簇的代表性詞語作為。這種方法能夠捕捉詞語之間的語義關(guān)系,提高的表達力。 詞向量的預處理 基于word2

    2024年01月18日
    瀏覽(16)
  • 基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫構(gòu)建

    基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫構(gòu)建

    最近有空,把論文中用到的技術(shù)和大家分享一下(以組件化的形式),本文是第一篇,將講述如何從大量的語料中獲取諸多和構(gòu)建詞庫或 xx 詞庫( 細分領(lǐng)域 )。舉例以 購物網(wǎng)站的在線評論 作為語料庫,對其進行分詞等操作,最終構(gòu)建詞庫( 以物

    2024年02月16日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包