一、說明
? ? ? ? tf-idf是個可以提取文章關(guān)鍵詞的模型;他是基于詞頻,以及詞的權(quán)重綜合因素考慮的詞價值刻度模型。一般地開發(fā)NLP將包含三個層次單元:最大數(shù)據(jù)單元是語料庫、語料庫中有若干文章、文章中有若干詞語。這樣從詞頻上說,就有詞在文章的頻率,詞在預(yù)料庫的頻率,文章在預(yù)料庫的頻率等概念,合理用這些概念,提取詞的真實價值,起到提取關(guān)鍵詞的目的。? ? ? ??
二、TF-IDF基本概念
2.1 預(yù)料庫、文章、單詞的關(guān)系
????????一般地開發(fā)NLP將包含三個層次單元:最大數(shù)據(jù)單元是語料庫、語料庫中有若干文章、文章中有若干詞語。這里先對這個數(shù)據(jù)結(jié)構(gòu)進(jìn)行說明:
- 語料庫:預(yù)料庫由海量的文章組成,并且各領(lǐng)域的文章的分布不能太偏。
- 文章:每個文章都屬于一個領(lǐng)域,不同領(lǐng)域的文章高頻高頻詞匯是不同的。
- 詞匯:每個文章都由詞匯構(gòu)成,每個詞匯的出現(xiàn)頻率可以用對應(yīng)直方圖表示。
2.2 什么是tf,什么是idf
????????假設(shè)文庫中有兩本書《金陵稅負(fù)考》、《宇宙能量分析》詞頻高在文章中往往是停用詞,“的”,“是”,“了”等,這些在文檔中最常見但對結(jié)果毫無幫助、需要過濾掉的詞,用TF可以統(tǒng)計到這些停用詞并把它們過濾。當(dāng)高頻詞過濾后就只需考慮剩下的有實際意義的詞。文章來源:http://www.zghlxwxcb.cn/news/detail-481350.html
????????但這樣又會遇到了另一個問題,我們可能發(fā)現(xiàn)"稅收&文章來源地址http://www.zghlxwxcb.cn/news/detail-481350.html
到了這里,關(guān)于【NLP模型】文本建模(2)TF-IDF關(guān)鍵詞提取原理的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!