国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python文本分析之中文分詞(jieba庫)

這篇具有很好參考價值的文章主要介紹了Python文本分析之中文分詞(jieba庫)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1、jieba庫安裝

(1)全自動安裝

easy-install jieba
pip install jieba
pip3 install jieba

(2)半自動安裝
首先登入https://pypi.org/project/jieba/下載安裝包
最后解壓安裝包:python setup py install

(3)手動安裝
首先登入https://pypi.org/project/jieba/下載安裝包
最后把jieba目錄放置在site-packages目錄內(nèi)

2、分詞

(1)cut

語法: jieba.cut(sentence, cut_all=False, HMM=True, use_paddle=False)
功能描述: 將傳入的字符串參數(shù)分詞
返回情況: 返回一個生成器對象
參數(shù)說明:
sentence: 被分詞的字符串
cut_all: 分詞模式是否設(shè)置為全模式,值為False時,精準模式分詞
HMM: 是否使用 HMM 模型

(2)lcu

語法: jieba.lcut(sentence)
功能描述: 將傳入的字符串參數(shù)分詞
返回情況: 返回一個數(shù)組
參數(shù)說明:
sentence: 被分詞的字符串

(3)cut_for_search 搜索引擎模式

語法: jieba.cut_for_search(sentence, HMM=True)
功能描述: 將傳入的字符串參數(shù)分詞
返回情況: 返回一個生成器對象
參數(shù)說明:
sentence: 被分詞的字符串
HMM: 是否使用 HMM 模型

(4)lcut_for_search 搜索引擎模式

語法: jieba.lcut_for_search(sentence)
功能描述: 將傳入的字符串參數(shù)分詞
返回情況: 返回一個數(shù)組
參數(shù)說明:
sentence: 被分詞的字符串

(5)分詞模式的區(qū)別

s=“我叫陳妍希,來自中國臺灣”

分詞模式 描述 結(jié)果
全模式 試圖將句子最精確地切開,適合文本分析。 [‘我’, ‘叫’, ‘陳’, ‘妍’, ‘?!? ‘,’, ‘來自’, ‘中國’, ‘中國臺灣’, ‘臺灣’]
精準模式 把句子中所有可以成詞的詞語都掃描出來,速度非???,但是不能解決歧義。 [‘我’, ‘叫’, ‘陳妍?!? ‘,’, ‘來自’, ‘中國臺灣’]
搜索引擎模式 在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞 [‘我’, ‘叫’, ‘陳妍?!? ‘,’, ‘來自’, ‘中國’, ‘臺灣’, ‘中國臺灣’]

3、其他用法

(1) 添加自定義詞典

語法: jieba.load_userdict(f)
功能描述: 添加自定義詞典
返回情況: 無返回
參數(shù)說明:
f: 詞典文件路徑。文件中一詞占一行;一行分三部分,分別為詞語,詞頻(可省略),詞性(可省略),其中分隔符為空格。

(2)添加新詞

語法: jieba.add_word(word, freq=None, tag=None)
功能描述: 添加新的分詞到詞典中
返回情況: 無返回
參數(shù)說明:
word: 需要添加的新詞
freq: 詞頻

(2)刪除詞語

語法: jieba.del_word(word)
功能描述: 刪除詞語
返回情況: 無返回
參數(shù)說明:
word: 需要刪除的新詞

(3)去除停用詞

[w for w in words if w not in 停用詞表]

4、詞頻統(tǒng)計

詞頻統(tǒng)計需要引入一個單獨的類,使用下面方法前需提前引入from collections import Counter

語法: Counter(iterable=None)
功能描述: 對傳入的參數(shù)對象進行詞頻統(tǒng)計
返回情況: 返回一個collections.Counter類,類似于字典類型的數(shù)據(jù),數(shù)據(jù)格式:Counter({詞語:詞頻})
參數(shù)說明:
iterable: 被統(tǒng)計的對象,必須是可迭代對象

5、詞性提取

語法: jieba.posseg.cut(sentence, HMM=True, use_paddle=False)
功能描述: 對傳入的數(shù)據(jù)進行詞性判斷
返回情況: 返回一個生成器,信息包含詞語及其詞性 (數(shù)據(jù)格式:詞語/詞性)
注意: 使用for遍歷時,可使用w.word和w.flag屬性提取詞語和詞性
參數(shù)說明:
sentence: 要處理的數(shù)據(jù)
HMM: 是否使用HMM模型

6、詞云繪制

本次詞云繪制主要使用wordcloud庫,wordcloud依賴的第三方庫主要有numpyPillowmatplotlib。安裝時盡量使用pip install wordcloud命令行安裝的方法安裝,繪制詞云主要使用wordcloud庫中的WordCloud接口。

(1)第三方庫準備工作

from scipy.misc import imread  # 讀取照片,scipy1.2.0以下的版本才有imread,也可from imageio import imread
import matplotlib.pyplot as plt  # 詞云圖展示
from wordcloud import WordCloud,ImageColorGenerator   # 詞云圖繪制

(2)設(shè)置背景圖

img=imread(圖片文件路徑)

(3)詞云函數(shù)

(1)創(chuàng)建詞云函數(shù)

語法: WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizontal=0.9, mask=None, scale=1, color_func=None, max_words=200, min_font_size=4, stopwords=None, random_state=None, background_color='black', max_font_size=None, font_step=1, mode='RGB', relative_scaling='auto', regexp=None, collocations=True, colormap=None, normalize_plurals=True, contour_width=0, contour_color='black', repeat=False, include_numbers=False, min_word_length=0, collocation_threshold=30)
功能描述: 創(chuàng)建詞云函數(shù)
返回情況: 返回一個WordCloud函數(shù)對象
參數(shù)說明:
font_path: 字體文件。
width: 詞云畫布的寬度
height: 詞云畫布的高度
margin: 頁邊距
background_color: 詞云畫布的背景顏色
mask: 詞云遮罩性狀的照片,如果有的話會忽略width和height參數(shù)
max_words: 最多顯示的詞匯量
max_font_size: 詞云字體最小的字號
max_font_size: 詞云字體最大的字號
stopwords: 屏蔽的詞
random_state: 隨機狀態(tài)
color_func : 顏色的函數(shù),設(shè)置字體顏色

(2)生成詞云

1.generate方法

語法: 詞云函數(shù).generate(f)
功能描述: 導(dǎo)入一個文件到詞云函數(shù)中,根據(jù)詞語繪制詞云
返回情況: 返回一個函數(shù)對象
參數(shù)說明:
f: txt文件,如果傳入一個已排序好的單詞列表則需要傳入collocations=False參數(shù),避免結(jié)果出現(xiàn)重復(fù)現(xiàn)象

2.generate_from_text

語法: 詞云函數(shù).generate_from_text(f)
功能描述: 導(dǎo)入一個文件到詞云函數(shù)中,根據(jù)詞語繪制詞云
返回情況: 返回一個函數(shù)對象
參數(shù)說明:
f: txt文件,如果傳入一個已排序好的單詞列表則需要傳入collocations=False參數(shù),避免結(jié)果出現(xiàn)重復(fù)現(xiàn)象

3.generate_from_frequencies

語法: 詞云函數(shù).generate_from_frequencies(f)
功能描述: 導(dǎo)入一個文件到詞云函數(shù)中,根據(jù)詞語和詞頻繪制詞云
返回情況: 返回一個函數(shù)對象

(3)重置字體顏色

1.生成顏色函數(shù)

語法: ImageColorGenerator(image, default_color=None)
功能描述: 生成顏色生成器
返回情況: 返回一個生成器對象
參數(shù)說明:
image: 圖片數(shù)組對象,可使用imread(圖片路徑)返回的對象
default_color: 如果畫布大于圖像,則使用回退顏色,格式為(r,g,b)。如果無,則改為引發(fā)ValueError。

2.重置字體顏色

語法: 詞云函數(shù).recolor(random_state=None, color_func=None, colormap=None)
功能描述: 重置詞云字體顏色
返回情況: 返回一個函數(shù)對象
參數(shù)說明:
random_state: 隨機狀態(tài)
color_func: 顏色函數(shù),跟WordCloud函數(shù)中color_func值一樣
colormap:

3.讀取照片

語法: imread(uri, format=None, **kwargs)
功能描述: 從指定文件讀取圖像,生成一個數(shù)組
返回情況: 返回一個numpy數(shù)組
參數(shù)說明:
uri: 文件資源,{str, pathlib.Path, bytes, file}
format: 讀取文件的格式

(4)詞云圖展示

詞云可視化通過Pyplot 庫快來實現(xiàn),Pyplot 是 Matplotlib 的子庫,提供了很多繪畫接口。

plt.imshow(詞云函數(shù).recolor(color_func=ImageColorGenerator(img)))
plt.axis('off')
plt.show()

(5)保存詞云照片

語法: 詞云函數(shù).to_file(文件路徑) | 詞云函數(shù).to_image(文件路徑) | 詞云函數(shù).to_svg(文件路徑,embed_font=False, optimize_embedded_font=True, embed_image=False))
功能描述: 生成指定的文件
返回情況: 無返回,但會輸出一個文件
參數(shù)說明:
embed_font:是否在生成的SVG文件中包含字體
optimize_embedded_font:字體大小自適應(yīng)
embed_image:是否在生成的SVG文件中包含光柵化圖像
文章來源地址http://www.zghlxwxcb.cn/news/detail-465931.html

到了這里,關(guān)于Python文本分析之中文分詞(jieba庫)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • python 基礎(chǔ)知識:使用jieba庫對文本進行分詞

    python 基礎(chǔ)知識:使用jieba庫對文本進行分詞

    前言 嗨嘍,大家好呀~這里是愛看美女的茜茜吶 一、jieba庫是什么? Python的jieba庫是一個中文分詞工具,它可以將一段中文文本分割成一個一個的詞語,方便后續(xù)的自然語言處理任務(wù),如文本分類、情感分析等。 jieba庫使用了基于前綴詞典的分詞方法,能夠處理中文的各種復(fù)

    2024年02月10日
    瀏覽(21)
  • Python——jieba優(yōu)秀的中文分詞庫(基礎(chǔ)知識+實例)

    Python——jieba優(yōu)秀的中文分詞庫(基礎(chǔ)知識+實例)

    Hello,World! 從去年開始學(xué)習(xí)Python,在長久的學(xué)習(xí)過程中,發(fā)現(xiàn)了許多有趣的知識,不斷充實自己。今天我所寫的內(nèi)容也是極具趣味性,關(guān)于優(yōu)秀的中文分詞庫——jieba庫。 ? ? ? ? ???什么是jieba? 1、jieba 是目前表現(xiàn)較為不錯的 Python 中文分詞組件,它主要有以下特性: 中

    2024年02月03日
    瀏覽(30)
  • 中文分詞庫jieba的三種模式介紹

    中文分詞庫jieba的三種模式介紹

    精準模式 jieba.cut(test_text, cut_all=False): 試圖將句子最精確地分開,適合文本分析 全模式 jieba.cut(test_text, cut_all=True): 把句子中所有的可以成詞的詞語都掃描出來,速度非??欤遣荒芙鉀Q歧義 搜索引擎模式 jieba.cut_for_search(test_text):在精確模式的基礎(chǔ)上,對長詞再次切分,提

    2024年02月13日
    瀏覽(24)
  • 【一】頭歌平臺實驗-基于jieba的中文分詞實戰(zhàn)

    【一】頭歌平臺實驗-基于jieba的中文分詞實戰(zhàn)

    ? ? ? ?近年來,隨著自然語言處理技術(shù)的日益成熟,開源實現(xiàn)的分詞工具越來越多,如 Ansj 、盤古分詞等。Jieba 是目前最好的 Python 中文分詞組件。 本實訓(xùn)主要介紹 Jieba 模塊的使用,并通過示例與實戰(zhàn),幫助大家掌握使用 Jieba 的方法。 1、jieba的特點 ????????分詞是自然

    2024年02月05日
    瀏覽(136)
  • 使用.NET Jieba.NET 的 PosSegmenter 實現(xiàn)中文分詞匹配

    使用.NET Jieba.NET 的 PosSegmenter 實現(xiàn)中文分詞匹配

    ? 目錄 引言 1. 什么是中文分詞 2. Jieba.NET簡介 3. PosSegmenter介紹 4. 實現(xiàn)中文分詞匹配 4.1 安裝Jieba.NET庫 4.2 創(chuàng)建PosSegmenter實例 4.3 分詞和詞性標注 4.4 中文分詞匹配 5. 總結(jié) ? ????????在自然語言處理領(lǐng)域,中文分詞是一個重要且基礎(chǔ)的任務(wù)。中文文本通常沒有像英文那樣的

    2024年02月11日
    瀏覽(25)
  • es自定義分詞器支持數(shù)字字母分詞,中文分詞器jieba支持添加禁用詞和擴展詞典

    自定義分析器,分詞器 所有字段檢索 高亮搜索 分詞測試 GET /test_index/_analyze jieba中文分詞支持添加禁用詞和擴展詞庫功能 創(chuàng)建索引:PUT http://xxxx:9200/test_index 分詞測試: GET http://xxxxxx:9200/test_index/_analyze

    2024年02月11日
    瀏覽(23)
  • 數(shù)據(jù)分析之jieba分詞使用詳解

    數(shù)據(jù)分析之jieba分詞使用詳解

    在所有人類語言中,一句話、一段文本、一篇文章都是有一個個的詞組成的。詞是包含獨立意義的最小文本單元,將長文本拆分成單個獨立的詞匯的過程叫做分詞。分詞之后,文本原本的語義將被拆分到在更加精細化的各個獨立詞匯中,詞匯的結(jié)構(gòu)比長文本簡單,對于計算機

    2024年02月11日
    瀏覽(36)
  • jieba分詞+sklearn文本特征提取時報錯‘list‘ object has no attribute ‘decode‘

    jieba分詞+sklearn文本特征提取時報錯‘list‘ object has no attribute ‘decode‘

    jieba分詞 先上錯誤代碼: 運行之后,就會報錯\\\'list\\\' object has no attribute \\\'decode\\\' 修改代碼如下: 這樣再運行就可以了。 完整的jieba分詞+sklearn文本特征提取代碼如下: 運行結(jié)果如下:

    2024年02月12日
    瀏覽(24)
  • python之jieba分詞庫使用

    一. 介紹 A. 什么是jieba庫 jieba庫是一款開源的中文分詞工具,能夠?qū)⒅形奈谋厩蟹殖稍~語。 B. jieba庫的特點和優(yōu)勢 支持四種分詞模式:精確模式、全模式、搜索引擎模式和paddle模式。 提供自定義詞典功能,可以添加、刪除詞語。 支持提取和詞性標注。 提供Tokenize接口

    2024年02月16日
    瀏覽(26)
  • python使用jieba分詞,詞頻統(tǒng)計,基本使用

    python使用jieba分詞,詞頻統(tǒng)計,基本使用

    python采用第三方庫進行中文分詞,本文章只是記錄文章。 1.需要下載第三方庫jieba: ? ? ? ? ? ? ? ? cmd: pip install jieba 2.為了方便測試,在同級目錄下,準備一個txt格式文件,文件名隨意,這里我也是隨便取的: ? ? ? ? ? ? ? ? 文件路徑可以是絕對路徑,也可以是相對路

    2024年02月07日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包