国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<i id="floe9"><nav id="floe9"></nav></i>

NLP 之 jieba (結(jié)巴)制作詞云

2年前作者：紫眸貓星人分類：Toy博客閱讀(10)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了NLP 之 jieba (結(jié)巴)制作詞云。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

NLP 之 jieba (結(jié)巴)制作詞云

一、jieba的導(dǎo)入

%pip install jieba

二、 jieba 結(jié)巴分詞的幾種模式及使用

精確模式
- 精確劃分，視圖將句子最精確地切分，適合文本分析
```
jieba.lcut(text,cul_all=False)
```
全局模式
- 全模式把句子中所有的可以成詞的詞語都掃描出來，速度非?？?，但是不能解決歧義
```
jieba.lcut(text,cul_all=True)
```
搜索引擎模式
- 搜索引擎模式，是在精確劃分的基礎(chǔ)上，再進(jìn)行全模式劃分，，提高召喚率，適合用于搜索引擎分詞。
- ```
jieba.lcut_for_search(text)
```

展示三種模式

text2 = '落霞與孤鶩齊飛，秋水共長天一色'

print('精確搜索','/'.join(jieba.lcut(text2,cut_all=False)))
print('全模式','/'.join(jieba.lcut(text2,cut_all=True)))
print('搜索引擎模式','/'.join(jieba.lcut_for_search(text2)))

"""
精確搜索     落霞與孤鶩齊飛/，/秋水共長天一色
全模式       落霞/落霞與孤鶩齊飛/，/秋水/秋水共長天一色/長天/天一/一色
搜索引擎模式  落霞/落霞與孤鶩齊飛/，/秋水/長天/天一/一色/秋水共長天一色
"""

如果有一些網(wǎng)絡(luò)熱詞，能夠被識別出來，不要被切分開，就要進(jìn)行自定義一個(gè)詞典，這個(gè)詞典本身是txt文檔,然后先試用jieba.load_userdict(‘文檔地址’),再根據(jù)需求，使用jieba中任意一個(gè)模式進(jìn)行切分。

text3 = '我是來自媽媽省的藍(lán)色妖姬唱著只因你太美而來'
jieba.load_userdict('dict.txt')

print('精確模式','/'.join(jieba.lcut(text3,cut_all=False)))
print('全模式','/'.join(jieba.lcut(text3,cut_all=True)))
print('搜索引擎模式','/'.join(jieba.lcut_for_search(text3)))

"""
精確模式     我/是/來自/媽媽/省/的/藍(lán)色妖姬/唱/著/只/因/你/太美而來
全模式       我/是/來自/媽媽/省/的/藍(lán)色/藍(lán)色妖姬/妖姬/唱/著/只因/你/太美/而來
搜索引擎模式  我/是/來自/媽媽/省/的/藍(lán)色/妖姬/藍(lán)色妖姬/唱/著/只/因/你/太美/而來/太美而來


"""

三、詞云的過程

第一步：數(shù)據(jù)導(dǎo)入

數(shù)據(jù)準(zhǔn)備，制作詞云的數(shù)據(jù)導(dǎo)入
停用詞導(dǎo)入及自定義停用詞詞典：網(wǎng)上找的停用詞及自定義停用詞

第二步：數(shù)據(jù)清洗

去掉數(shù)據(jù)中的特殊符號或者說只保留中文，如去掉emoj符號，等一些特殊的對分析無用的符號。方法是用正則方法。
判斷詞云數(shù)據(jù)是否是字符串類型，是的話對數(shù)據(jù)進(jìn)行切分，把所有的數(shù)據(jù)保留成一個(gè)長的字符串，用空格連接

第三步：準(zhǔn)備好產(chǎn)生詞云圖的文本數(shù)據(jù)

對清洗后的長字符串進(jìn)行切分，對其值進(jìn)行統(tǒng)計(jì)得到繪制詞云的最終數(shù)據(jù)import_words.

第四步：制作詞云圖這里需要導(dǎo)入worldcolud ，和從PTL導(dǎo)入Tmage

使用PTL里面的 Imag 讀取nd array的圖片，這一步是通過讀取圖片的數(shù)據(jù),保存成nd array.
使用詞云提取圖片顏色生成器 ,worldcolund.Imagecolorgenerator( bgim)
設(shè)置詞云的背景顏色，詞云顯示的詞數(shù)及最大最小字體等一些參數(shù)，然后將import_words傳進(jìn)來，plt.show就可以完成詞云的繪制。、
代碼顯示

import jieba
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
# 從列表中處理  拿到抖音數(shù)據(jù)里面的個(gè)性簽名內(nèi)容，使用結(jié)巴對語句進(jìn)行切分
dou_yin_data = pd.read_csv('./douyin.csv')


# 哈工大、四川大學(xué)、百度等都有發(fā)布的停用詞文件 可以在網(wǎng)上自行獲取
# 讀取停用詞
stop_words_list = pd.read_csv('./stopwords.txt',encoding='gbk',header=None)
for statement in dou_yin_data.signature:
    print(statement)
# 只保留中文數(shù)據(jù)
good_words = dou_yin_data.signature.str.replace(r'[^\u4e00-\u9f5a]','')

# 產(chǎn)生字符串
content = ''
for statement in good_words :
    if type(statement) != str:
        continue
    words = jieba.lcut(statement,cut_all=False)
    for word in words:
        if word not in stop_words:
            if word not in stop_words_list:
                content += word + ' '
## 字符串切分，產(chǎn)生最終繪制詞云的數(shù)據(jù)
import_words = Series(content.split(' ')).value_counts()[10:310]

# 繪制詞云
from PIL import Image
import wordcloud
# 制作抖音大V簽名的詞云圖
# 輿論分析 評論分析 反饋分析 建議分析

# 讀取nd array 的圖片
bgimg = np.array(Image.open('./bgimg.png'))
# 詞云提取圖片顏色生成器
genclr = wordcloud.ImageColorGenerator(bgimg)
wc = wordcloud.WordCloud(font_path='./FZZJ-LongYTJW.TTF',# 設(shè)置字體
                         background_color='#D4F6CC', # 背景顏色
                         max_words=200,
                         max_font_size=300,
                         min_font_size=5,
                         random_state=42,
                         mask=bgimg,
                         color_func=genclr)

# 渲染詞云的文體
wc.generate_from_frequencies(import_words)

plt.figure(figsize=(18,18))
plt.imshow(wc)
plt.axis('off')

NLP 之 jieba (結(jié)巴)制作詞云文章來源地址http://www.zghlxwxcb.cn/news/detail-405445.html

到了這里，關(guān)于NLP 之 jieba (結(jié)巴)制作詞云的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

讓你的作品更出色——詞云Word Cloud的制作方法（基于python，WordCloud，stylecloud)
詞云Word Cloud的制作方法（基于python) 本文目錄：一、詞云的簡介二、實(shí)現(xiàn)原理和流程 1、制作詞云流程圖 2、詞云實(shí)現(xiàn)原理三、實(shí)現(xiàn)詞云的方式 1、安裝詞云相關(guān)模塊庫 2、WordCloud庫 3、stylecloud庫四、總結(jié) 詞云，又稱文字云，英文名：Word Cloud。是文本數(shù)據(jù)的視覺表示形式。
2023年04月09日
瀏覽(96)
手搓大語言模型使用jieba分詞制作詞表，詞表大小幾十萬加強(qiáng)依賴性
jieba分詞詞表生成與訓(xùn)練
2024年02月11日
瀏覽(21)
通過訓(xùn)練NLP制作一個(gè)自己的簡易輸入法
最近開始研究NLP，然后根據(jù)手寫CV UP主的視頻，寫了一個(gè)N Gram的NLP模型，算是該領(lǐng)域里的hello world吧。然后我又添加了幾行代碼實(shí)現(xiàn)了一個(gè) 非常簡易的輸入法。項(xiàng)目說明：數(shù)據(jù)集可以自創(chuàng)，導(dǎo)入txt文件即可；單詞聯(lián)想功能：輸入前兩個(gè)單詞，預(yù)測(聯(lián)想)第三個(gè)單詞【也就是
2024年02月08日
瀏覽(19)
jupyter notebook 導(dǎo)入已經(jīng)在pycharm里pip install過的包報(bào)錯
??：當(dāng)我每天都在cmd/Terminal等地方pip install我的python lib時(shí)，打開Jupyter notebook 發(fā)現(xiàn)，有一些包明明在電腦里有，比如torch, searborn之類的，在jupyter notebook 里import 對應(yīng)包確報(bào)錯，找不到這些包 ??查看平時(shí)pip install 的lib文件目錄在jupyter notebook 的cell里面輸入： ??運(yùn)行上面代碼
2024年02月08日
瀏覽(23)
Python結(jié)巴中文分詞筆記
?? jieba庫概述 Jieba是一個(gè)流行的中文分詞庫，它能夠?qū)⒅形奈谋厩蟹殖稍~語，并對每個(gè)詞語進(jìn)行詞性標(biāo)注。中文分詞是自然語言處理的重要步驟之一，它對于文本挖掘、信息檢索、情感分析等任務(wù)具有重要意義。 ?? jieba分詞的原理 jieba分詞的原理是基于統(tǒng)計(jì)和規(guī)則的混合分
2024年02月16日
瀏覽(17)
macos pip3 install pycryptodome導(dǎo)入from Crypto.Cipher import AES報(bào)錯
問題： ????????已經(jīng)使用pip3 install pycryptodome安裝成功了，但是導(dǎo)入from Crypto.Cipher import AES還是提示Unresolved reference \\\'Crypto\\\' 原因： ? ? ? ? 一句話：安裝文件大小寫問題（這只是我遇到的一種情況）。修改： ????????先使用命令：?pip3 show pycryptodome，查看安裝包的位置
2024年01月24日
瀏覽(21)
強(qiáng)大的中文分詞器--結(jié)巴分詞（java版）
原生jieba分詞是強(qiáng)大的Python組件，可以用來進(jìn)行提取，標(biāo)注以及定位。精確模式：試圖將句子最精確地切開，適合文本分析；全模式：把句子中所有的可以成詞的詞語都掃描出來, 速度非?？欤遣荒芙鉀Q歧義；搜索引擎模式：在精確模式的基礎(chǔ)上，對長詞再次切分
2024年02月16日
瀏覽(30)
結(jié)巴分詞-強(qiáng)大的中文分詞器實(shí)踐（java版）
原生jieba分詞是強(qiáng)大的Python組件，可以用來進(jìn)行提取，標(biāo)注以及定位。精確模式：試圖將句子最精確地切開，適合文本分析；全模式：把句子中所有的可以成詞的詞語都掃描出來, 速度非?？?，但是不能解決歧義；搜索引擎模式：在精確模式的基礎(chǔ)上，對長詞再次切分
2024年02月16日
瀏覽(17)
【3D建模制作技巧分享】Maya模型如何導(dǎo)入zbrush
在Maya中制作基礎(chǔ)模型之后，我們都需要將其導(dǎo)入到zbrush進(jìn)行雕刻。那怎么將Maya模型導(dǎo)入到zbrush中呢？ Maya模型導(dǎo)入zbrush 1、在Maya中制作完成模型，點(diǎn)擊windows（窗口）-settings/preferences（設(shè)置/首選項(xiàng)）-plug-in Manager。 2、把OBJ后面的兩個(gè)空格都打勾，導(dǎo)出OBJ格式，這樣就很容易導(dǎo)
2023年04月09日
瀏覽(21)
Unity制作Live2D（一）模型導(dǎo)入
目錄序言前期準(zhǔn)備 ?導(dǎo)入模型在許多游戲當(dāng)中，Live2D展現(xiàn)出來了優(yōu)秀的游戲體驗(yàn)，通過Live2D效果，讓平面的游戲人物看起來更加生動，玩家也會感受到更多樂趣。前往Live2DCubism官網(wǎng)下載Unity需要的SDKCubismForUnity，導(dǎo)入資源包到Unity中，可以不導(dǎo)入Sample樣例。下載想要使用的
2024年02月04日
瀏覽(17)