国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

NLP 之 jieba (結(jié)巴)制作詞云

這篇具有很好參考價(jià)值的文章主要介紹了NLP 之 jieba (結(jié)巴)制作詞云。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

NLP 之 jieba (結(jié)巴)制作詞云

一 、jieba的導(dǎo)入

%pip install jieba

二、 jieba 結(jié)巴分詞的幾種模式及使用

  1. 精確模式

    • 精確劃分,視圖將句子最精確地切分,適合文本分析
    jieba.lcut(text,cul_all=False)
    
  2. 全局模式

    • 全模式 把句子中所有的可以成詞的詞語都掃描出來,速度非???,但是不能解決歧義

      jieba.lcut(text,cul_all=True)
      
  3. 搜索引擎模式

    • 搜索引擎模式,是在精確劃分的基礎(chǔ)上,再進(jìn)行全模式劃分,,提高召喚率,適合用于搜索引擎分詞。

    • jieba.lcut_for_search(text)
      
  4. 展示三種模式

    text2 = '落霞與孤鶩齊飛,秋水共長天一色'
    
    print('精確搜索','/'.join(jieba.lcut(text2,cut_all=False)))
    print('全模式','/'.join(jieba.lcut(text2,cut_all=True)))
    print('搜索引擎模式','/'.join(jieba.lcut_for_search(text2)))
    
    """
    精確搜索     落霞與孤鶩齊飛/,/秋水共長天一色
    全模式       落霞/落霞與孤鶩齊飛/,/秋水/秋水共長天一色/長天/天一/一色
    搜索引擎模式  落霞/落霞與孤鶩齊飛/,/秋水/長天/天一/一色/秋水共長天一色
    """
    

如果有一些網(wǎng)絡(luò)熱詞,能夠被識別出來,不要被切分開,就要進(jìn)行自定義一個(gè)詞典,這個(gè)詞典本身是txt文檔,然后先試用jieba.load_userdict(‘文檔地址’),再根據(jù)需求,使用jieba中任意一個(gè)模式進(jìn)行切分。

text3 = '我是來自媽媽省的藍(lán)色妖姬唱著只因你太美而來'
jieba.load_userdict('dict.txt')

print('精確模式','/'.join(jieba.lcut(text3,cut_all=False)))
print('全模式','/'.join(jieba.lcut(text3,cut_all=True)))
print('搜索引擎模式','/'.join(jieba.lcut_for_search(text3)))

"""
精確模式     我/是/來自/媽媽/省/的/藍(lán)色妖姬/唱/著/只/因/你/太美而來
全模式       我/是/來自/媽媽/省/的/藍(lán)色/藍(lán)色妖姬/妖姬/唱/著/只因/你/太美/而來
搜索引擎模式  我/是/來自/媽媽/省/的/藍(lán)色/妖姬/藍(lán)色妖姬/唱/著/只/因/你/太美/而來/太美而來


"""

三、詞云的過程

第一步:數(shù)據(jù)導(dǎo)入
  • 數(shù)據(jù)準(zhǔn)備,制作詞云的數(shù)據(jù)導(dǎo)入
  • 停用詞導(dǎo)入及自定義停用詞詞典:網(wǎng)上找的停用詞及自定義停用詞
第二步:數(shù)據(jù)清洗
  • 去掉數(shù)據(jù)中的特殊符號或者說只保留中文,如去掉emoj符號,等一些特殊的對分析無用的符號。 方法是用正則方法。
  • 判斷詞云數(shù)據(jù)是否是字符串類型,是的話對數(shù)據(jù)進(jìn)行切分,把所有的數(shù)據(jù)保留成一個(gè)長的字符串,用空格連接
第三步:準(zhǔn)備好產(chǎn)生詞云圖的文本數(shù)據(jù)
  • 對清洗后的長字符串進(jìn)行切分,對其值進(jìn)行統(tǒng)計(jì)得到繪制詞云的最終數(shù)據(jù)import_words.
第四步:制作詞云圖 這里需要導(dǎo)入worldcolud ,和從PTL導(dǎo)入Tmage
  • 使用PTL里面的 Imag 讀取nd array的圖片,這一步是通過讀取圖片的數(shù)據(jù),保存成nd array.
  • 使用詞云提取圖片顏色生成器 ,worldcolund.Imagecolorgenerator( bgim)
  • 設(shè)置詞云的背景顏色,詞云顯示的詞數(shù)及最大最小字體等一些參數(shù),然后將import_words傳進(jìn)來,plt.show就可以完成詞云的繪制。、
  • 代碼顯示
import jieba
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
# 從列表中處理  拿到抖音數(shù)據(jù)里面的個(gè)性簽名內(nèi)容,使用結(jié)巴對語句進(jìn)行切分
dou_yin_data = pd.read_csv('./douyin.csv')


# 哈工大、四川大學(xué)、百度等都有發(fā)布的停用詞文件 可以在網(wǎng)上自行獲取
# 讀取停用詞
stop_words_list = pd.read_csv('./stopwords.txt',encoding='gbk',header=None)
for statement in dou_yin_data.signature:
    print(statement)
# 只保留中文數(shù)據(jù)
good_words = dou_yin_data.signature.str.replace(r'[^\u4e00-\u9f5a]','')

# 產(chǎn)生字符串
content = ''
for statement in good_words :
    if type(statement) != str:
        continue
    words = jieba.lcut(statement,cut_all=False)
    for word in words:
        if word not in stop_words:
            if word not in stop_words_list:
                content += word + ' '
## 字符串切分,產(chǎn)生最終繪制詞云的數(shù)據(jù)
import_words = Series(content.split(' ')).value_counts()[10:310]

# 繪制詞云
from PIL import Image
import wordcloud
# 制作抖音大V簽名的詞云圖
# 輿論分析 評論分析 反饋分析 建議分析

# 讀取nd array 的圖片
bgimg = np.array(Image.open('./bgimg.png'))
# 詞云提取圖片顏色生成器
genclr = wordcloud.ImageColorGenerator(bgimg)
wc = wordcloud.WordCloud(font_path='./FZZJ-LongYTJW.TTF',# 設(shè)置字體
                         background_color='#D4F6CC', # 背景顏色
                         max_words=200,
                         max_font_size=300,
                         min_font_size=5,
                         random_state=42,
                         mask=bgimg,
                         color_func=genclr)

# 渲染詞云的文體
wc.generate_from_frequencies(import_words)

plt.figure(figsize=(18,18))
plt.imshow(wc)
plt.axis('off')

NLP 之 jieba (結(jié)巴)制作詞云文章來源地址http://www.zghlxwxcb.cn/news/detail-405445.html

到了這里,關(guān)于NLP 之 jieba (結(jié)巴)制作詞云的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 讓你的作品更出色——詞云Word Cloud的制作方法(基于python,WordCloud,stylecloud)

    讓你的作品更出色——詞云Word Cloud的制作方法(基于python,WordCloud,stylecloud)

    詞云Word Cloud的制作方法(基于python) 本文目錄: 一、詞云的簡介 二、 實(shí)現(xiàn)原理和流程 1、制作詞云流程圖 2、詞云實(shí)現(xiàn)原理 三、 實(shí)現(xiàn)詞云的方式 1、安裝詞云相關(guān)模塊庫 2、WordCloud庫 3、stylecloud庫 四、總結(jié) 詞云,又稱文字云,英文名:Word Cloud。是文本數(shù)據(jù)的視覺表示形式。

    2023年04月09日
    瀏覽(96)
  • 通過訓(xùn)練NLP制作一個(gè)自己的簡易輸入法

    通過訓(xùn)練NLP制作一個(gè)自己的簡易輸入法

    最近開始研究NLP,然后根據(jù)手寫CV UP主的視頻,寫了一個(gè)N Gram的NLP模型,算是該領(lǐng)域里的hello world吧。然后我又添加了幾行代碼實(shí)現(xiàn)了一個(gè) 非常簡易的輸入法 。 項(xiàng)目說明: 數(shù)據(jù)集可以自創(chuàng),導(dǎo)入txt文件即可; 單詞聯(lián)想功能:輸入前兩個(gè)單詞,預(yù)測(聯(lián)想)第三個(gè)單詞【也就是

    2024年02月08日
    瀏覽(19)
  • jupyter notebook 導(dǎo)入已經(jīng)在pycharm里pip install過的包報(bào)錯

    ??: 當(dāng)我每天都在cmd/Terminal等地方pip install我的python lib時(shí),打開Jupyter notebook 發(fā)現(xiàn),有一些包明明在電腦里有,比如torch, searborn之類的,在jupyter notebook 里import 對應(yīng)包確報(bào)錯,找不到這些包 ??查看平時(shí)pip install 的lib文件目錄 在jupyter notebook 的cell里面輸入: ??運(yùn)行上面代碼

    2024年02月08日
    瀏覽(23)
  • Python結(jié)巴中文分詞筆記

    Python結(jié)巴中文分詞筆記

    ?? jieba庫概述 Jieba是一個(gè)流行的中文分詞庫,它能夠?qū)⒅形奈谋厩蟹殖稍~語,并對每個(gè)詞語進(jìn)行詞性標(biāo)注。中文分詞是自然語言處理的重要步驟之一,它對于文本挖掘、信息檢索、情感分析等任務(wù)具有重要意義。 ?? jieba分詞的原理 jieba分詞的原理是基于統(tǒng)計(jì)和規(guī)則的混合分

    2024年02月16日
    瀏覽(17)
  • macos pip3 install pycryptodome導(dǎo)入from Crypto.Cipher import AES報(bào)錯

    macos pip3 install pycryptodome導(dǎo)入from Crypto.Cipher import AES報(bào)錯

    問題: ????????已經(jīng)使用pip3 install pycryptodome安裝成功了,但是導(dǎo)入from Crypto.Cipher import AES還是提示Unresolved reference \\\'Crypto\\\' 原因: ? ? ? ? 一句話:安裝文件大小寫問題(這只是我遇到的一種情況)。 修改: ????????先使用命令:?pip3 show pycryptodome,查看安裝包的位置

    2024年01月24日
    瀏覽(21)
  • 強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)

    強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)

    原生jieba分詞是強(qiáng)大的Python組件,可以用來進(jìn)行提取,標(biāo)注以及定位。 精確模式:試圖將句子最精確地切開,適合文本分析; 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非??欤遣荒芙鉀Q歧義; 搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分

    2024年02月16日
    瀏覽(30)
  • 結(jié)巴分詞-強(qiáng)大的中文分詞器實(shí)踐(java版)

    結(jié)巴分詞-強(qiáng)大的中文分詞器實(shí)踐(java版)

    原生jieba分詞是強(qiáng)大的Python組件,可以用來進(jìn)行提取,標(biāo)注以及定位。 精確模式:試圖將句子最精確地切開,適合文本分析; 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義; 搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分

    2024年02月16日
    瀏覽(17)
  • 【3D建模制作技巧分享】Maya模型如何導(dǎo)入zbrush

    在Maya中制作基礎(chǔ)模型之后,我們都需要將其導(dǎo)入到zbrush進(jìn)行雕刻。那怎么將Maya模型導(dǎo)入到zbrush中呢? Maya模型導(dǎo)入zbrush 1、在Maya中制作完成模型,點(diǎn)擊windows(窗口)-settings/preferences(設(shè)置/首選項(xiàng))-plug-in Manager。 2、把OBJ后面的兩個(gè)空格都打勾,導(dǎo)出OBJ格式,這樣就很容易導(dǎo)

    2023年04月09日
    瀏覽(21)
  • Unity制作Live2D(一)模型導(dǎo)入

    Unity制作Live2D(一)模型導(dǎo)入

    目錄 序言 前期準(zhǔn)備 ?導(dǎo)入模型 在許多游戲當(dāng)中,Live2D展現(xiàn)出來了優(yōu)秀的游戲體驗(yàn),通過Live2D效果,讓平面的游戲人物看起來更加生動,玩家也會感受到更多樂趣。 前往Live2DCubism官網(wǎng)下載Unity需要的SDKCubismForUnity,導(dǎo)入資源包到Unity中,可以不導(dǎo)入Sample樣例。下載想要使用的

    2024年02月04日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包