前言
嗨嘍,大家好呀~這里是愛看美女的茜茜吶
一、jieba庫是什么?
Python的jieba庫是一個(gè)中文分詞工具,它可以將一段中文文本分割成一個(gè)一個(gè)的詞語,方便后續(xù)的自然語言處理任務(wù),如文本分類、情感分析等。
jieba庫使用了基于前綴詞典的分詞方法,能夠處理中文的各種復(fù)雜情況,如歧義詞、新詞等。
它還提供了多種分詞模式,如精確模式、全模式、搜索引擎模式等,以適應(yīng)不同場景的需求。
此外,jieba庫還支持用戶自定義詞典,使得分詞結(jié)果更加準(zhǔn)確。
二、安裝jieba庫
pip install jieba
三、查看jieba版本
pip show jieba
Name: jieba
Version: 0.42.1
Summary: Chinese Words Segmentation
Utilities Home-page: https://github.com/fxsjy/jieba
Author: Sun, Junyi
Author-email: ccnusjy@gmail.com
License: MIT Requires: Required-by:
?? ?? ?? 更多精彩機(jī)密、教程,盡在下方,趕緊點(diǎn)擊了解吧~
素材、視頻教程、完整代碼、插件安裝教程我都準(zhǔn)備好了,直接在文末名片自取就可
四、使用方法
1.引入庫
import jieba
2.定義需要分詞的文本
text = "我愛發(fā)動(dòng)態(tài),我喜歡使用搜索引擎模式進(jìn)行分詞"
"""
# 對于剛學(xué)Python的小伙伴,我還給大家準(zhǔn)備了Python基礎(chǔ)教程、數(shù)百本電子書
# 直接在文末名片自取
"""
3.使用分詞模式進(jìn)行分詞
3.1、精確模式(默認(rèn))
試圖將句子最精確地切開,適合文本分析。
seg_list = jieba.cut(text)
3.2、全模式
把句子中所有的可能成詞的詞語都掃描出來,速度很快,但是不能解決歧義。
seg_list = jieba.cut(text, cut_all=True)
3.3、搜索引擎模式
在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
seg_list = jieba.cut_for_search(text)
4.將分詞結(jié)果轉(zhuǎn)換為列表
word_list = list(seg_list)
5.打印分詞結(jié)果
print(word_list)
6.分詞效果對比
6.1、精確模式(默認(rèn))
['我愛發(fā)', '動(dòng)態(tài)', ',', '我', '喜歡', '使用', '搜索引擎', '模式', '進(jìn)行', '分詞']
6.2、全模式
['我', '愛', '發(fā)動(dòng)', '動(dòng)態(tài)', ',', '我', '喜歡', '使用', '搜索', '搜索引擎', '索引', '引擎', '模式', '進(jìn)行', '分詞']
6.3、搜索引擎模式
['我愛發(fā)', '動(dòng)態(tài)', ',', '我', '喜歡', '使用', '搜索', '索引', '引擎', '搜索引擎', '模式', '進(jìn)行', '分詞']
尾語
感謝你觀看我的文章吶~本次航班到這里就結(jié)束啦 ??
希望本篇文章有對你帶來幫助 ??,有學(xué)習(xí)到一點(diǎn)知識(shí)~
躲起來的星星??也在努力發(fā)光,你也要努力加油(讓我們一起努力叭)。
文章來源:http://www.zghlxwxcb.cn/news/detail-496993.html
最后,宣傳一下呀~??????更多源碼、資料、素材、解答、交流皆點(diǎn)擊下方名片獲取呀????文章來源地址http://www.zghlxwxcb.cn/news/detail-496993.html
到了這里,關(guān)于python 基礎(chǔ)知識(shí):使用jieba庫對文本進(jìn)行分詞的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!