国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python3,我只用一段代碼,就寫了個詞云生成器,功能強大到懷疑人生。

這篇具有很好參考價值的文章主要介紹了Python3,我只用一段代碼,就寫了個詞云生成器,功能強大到懷疑人生。。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1、引言

小魚:小屌絲,你在干啥呢?
小屌絲:魚哥,你看, 我的PPT寫的 高大尚不。
小魚:這有啥高大尚的啊,
小屌絲:你仔細看, 往下翻一頁
小魚:額。你這那是PPT,就是浴皇大帝、昂科旗等車系的測評嗎。
Python3,我只用一段代碼,就寫了個詞云生成器,功能強大到懷疑人生。
小屌絲:別管內(nèi)容了, 魚哥,你就說,這個樣式怎么樣, 帥不帥氣吧。
小魚:嗯,樣式嘛, 還可以的。
小屌絲:魚哥,你這么淡定, 你的意思, 你也會?
小魚:額… 我可沒說, 休想套路我。
小屌絲:魚哥,我這就要說到公道話了, 獨樂樂不如眾樂樂。
小魚:有的時候,需要獨樂樂。
小屌絲:魚哥,別整沒用的, 你就說分不分享吧?
小魚:額… 這個… 你說啥?
小屌絲:我說,你把這個代碼分享出來唄。
小魚:你說分享什么???
小屌絲:分享詞云生成器的代碼
小魚:分享什么代碼???
小屌絲:去泡溫泉…
小魚:好嘞,早說不就完事了嘛。

2、代碼實戰(zhàn)

2.1 庫介紹

說到詞云的制作, 不得不提的第三方庫, stylecloud簡潔易用的詞云庫
當然僅僅有stylecloud 還是不夠的, 還需要一個庫,即 jieba:中文分詞庫
所以, 今天我們就用stylecloudjieba來完成本次的代碼實戰(zhàn)。
接下來, 我們先了解 這兩個庫。

2.1.1 jieba

jieba: 中文分詞庫

1、運行原理

  • 初始化:加載詞典文件,獲取每個詞語和它出現(xiàn)的詞數(shù)
  • 切分短語:利用正則,將文本切分為一個個語句,之后對語句進行分詞
  • 構(gòu)建DAG:通過字符串匹配,構(gòu)建所有可能的分詞情況的有向無環(huán)圖,也就是DAG
  • 構(gòu)建節(jié)點最大路徑概率,以及結(jié)束位置:計算每個漢字節(jié)點到語句結(jié)尾的所有路徑中的最大概率,并記下最大概率時在DAG中對應的該漢字成詞的結(jié)束位置。
  • 構(gòu)建切分組合:根據(jù)節(jié)點路徑,得到詞語切分的結(jié)果,也就是分詞結(jié)果。
  • HMM新詞處理:對于新詞,也就是jieba詞典中沒有的詞語,我們通過統(tǒng)計方法來處理,jieba中采用了HMM(隱馬爾科夫模型)來處理。
  • 返回分詞結(jié)果:通過yield將上面步驟中切分好的詞語逐個返回。yield相對于list,可以節(jié)約存儲空間。

2、主要模式

  • 精確模式:把文本精確的切分開,不存在冗余單詞
  • 全模式:把文本中所有可能的詞語都掃描出來,有冗余
  • 搜索引擎模式:在精確模式基礎上,對長詞再次切分

3、主要功能

  • jieba.cut 方法接受四個輸入?yún)?shù):

    • 需要分詞的字符串;
    • cut_all 參數(shù)用來控制是否采用全模式;
    • HMM 參數(shù)用來控制是否使用 HMM 模型;
    • use_paddle 參數(shù)用來控制是否使用paddle模式下的分詞模式,
      • paddle模式采用延遲加載方式,通過enable_paddle接口安裝paddlepaddle-tiny,并且import相關代碼;
  • jieba.cut_for_search 方法接受兩個參數(shù)

    • 需要分詞的字符串;
    • 是否使用 HMM 模型。
      • 該方法適合用于搜索引擎構(gòu)建倒排索引的分詞,粒度比較細
  • jieba.cut 以及 jieba.cut_for_search 返回的結(jié)構(gòu)都是一個可迭代的 generator,可以使用 for 循環(huán)來獲得分詞后得到的每一個詞語(unicode),或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

  • jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定義分詞器,可用于同時使用不同詞典。

  • jieba.dt 為默認分詞器,所有全局分詞相關函數(shù)都是該分詞器的映射。

2.1.2 stylecloud

關于詞云生成工具, 常用的無非這3種:

  • pyecharts
    • 簡單易用;
    • 上手快;
    • 不夠美觀;
  • wordcloud
    • 使用頻次最高;
    • 使用最廣泛;
  • stylecloud
    • 簡單易用
    • 最接近完美

接下來,我們就使用 sytlecloud第三方庫,看看它完美到什么程度。

2.2 庫安裝

涉及到第三方庫,肯定就需要安裝
老規(guī)矩,pip 安裝

pip install jieba
pip install stylecloud

然后就是等待著安裝。

其它安裝方式,直接看這兩篇:

  • Python3,選擇Python自動安裝第三方庫,從此跟pip說拜拜!!
  • Python3:我低調(diào)的只用一行代碼,就導入Python所有庫!

Python3,我只用一段代碼,就寫了個詞云生成器,功能強大到懷疑人生。

2.2 代碼實戰(zhàn)

代碼示例

# -*- coding:utf-8 -*-
# @Time   : 2023-01-10
# @Author : Carl_DJ

'''
實現(xiàn)功能:
    詞云生成器
'''

import json
import stylecloud
import codecs
import jieba
from collections import Counter

#過濾掉高頻出現(xiàn)的詞匯
passwords = set()
#讀取詞匯文檔
content = [line.strip() for line in open('./data/passwords.txt', 'r',encoding='utf8').readlines()]
passwords.update(content)

#獲取文檔詞匯, 并截取長度為3個
def make_words(txt):
    make_list = jieba.cut(txt)
    c = Counter()
    words_list = []
	#獲取詞匯文本
    for x in make_list:
    	#長度為3,超過截取
        if len(x) ==  3 and x !='\r\n':
            c[x]  += 1
            words_list.append(x)

    for k,v in c.most_common(50):
        if k not in passwords:
            # print(f'{k,v}')
    #組合詞云內(nèi)容
    return " ".join(words_list)

#讀取中大型suv測評.txt內(nèi)容
with codecs.open('./data/中大型suv測評.txt','r','utf8') as f: #格式需要utf8 否則會報錯
    txt = f.read()
#
words_txt = make_words(txt)
#設置詞云展示的樣式,字體,生成文件名稱等,
stylecloud.gen_stylecloud(text=words_txt,custom_stopwords=content,
                          background_color='#1A1A1A',
                          colors=['#dd4444', '#fec42c', '#fac858'],
                          max_font_size=100,
                          output_name='xt6測評.jpg',
                          font_path="C:/Windows/Fonts/FZSTK.TTF"
                          )

結(jié)果展示
Python3,我只用一段代碼,就寫了個詞云生成器,功能強大到懷疑人生。


這里需要準備兩個文件

  • password.txt : 過濾文本中出現(xiàn)太多次數(shù)的詞匯;
  • suv測評.txt:詞云的主要顯示的文本內(nèi)容;

文本內(nèi)容示例
Python3,我只用一段代碼,就寫了個詞云生成器,功能強大到懷疑人生。
這里強調(diào)一點

  • 文本的內(nèi)容,你可以一行寫很多字,
  • 但是,為了詞云展示的內(nèi)容更豐富, 列數(shù),一定要多。

當然,文檔內(nèi)容, 也可以是下載的小說,或者你自己寫的任何內(nèi)容。

3、總結(jié)

看到這里, 今天的分享就要結(jié)束了。
回頭看一下,
其實詞云生成器,并不難。
主要就是對 jieba、stylecloud 這兩個庫的使用。
這里我僅僅列舉了 stylecloud 第三方庫,
當然,如果你有興趣,也可以使用 pyecharts、 wordcloud ,看看生成的詞云如何。
也就當是你自己的練手了。

好了,就嘮叨這里了。
我是小魚

  • CSDN 博客專家;
  • 阿里云 專家博主;
  • 51CTO博客專家
  • 51認證講師;
  • 金牌面試官;

關注小魚,帶你學習更多更有趣的python知識。

當然,

  • 如果你想晉升自己的技能,;
  • 如果你想提升自己的面試成功率;
  • 如果你現(xiàn)在處在職業(yè)迷茫期,想重新規(guī)劃職業(yè)生涯;

都可以找小魚聊聊的。

CSDN 私信留言, 或者掃描小魚主頁的二維碼,都可以找到的。文章來源地址http://www.zghlxwxcb.cn/news/detail-456680.html

到了這里,關于Python3,我只用一段代碼,就寫了個詞云生成器,功能強大到懷疑人生。的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 寫了個輔助學習vite的小工具(mini-vite)

    寫了個輔助學習vite的小工具(mini-vite)

    ? 話不多說先貼上倉庫地址 mini-vite 封裝的方法太多,不知道從哪個方法看起 隨便一個文件就是一兩千行代碼,看得頭皮發(fā)麻 不知道該怎么去debug,到底應該在哪個方法里面debug 沒關系,這些問題在我這都能解決 移除了vite倉庫中的所有注釋和其他對于所要學習的vite功能用不

    2024年02月08日
    瀏覽(19)
  • 倆小伙一晚上寫了個 AI 應用,月入兩萬??(文末附開發(fā)教程)

    倆小伙一晚上寫了個 AI 應用,月入兩萬??(文末附開發(fā)教程)

    開發(fā)出一款能夠與 AI 對話生成和編輯思維導圖的工具,聽起來似乎只能是一群專業(yè)的 AI 背景團隊花費大量的時間和精力訓練模型,打磨應用才能完成的事情。 但是,兩名大學生卻在一夜之間完成了,就像煉金術士將庸俗的材料轉(zhuǎn)化成黃金一樣,他們將代碼轉(zhuǎn)化為了神奇的工

    2024年02月03日
    瀏覽(24)
  • 基于文心一言AI大模型,編寫一段python3程序以獲取華為分布式塊存儲REST接口的實時數(shù)據(jù)

    基于文心一言AI大模型,編寫一段python3程序以獲取華為分布式塊存儲REST接口的實時數(shù)據(jù)

    本文嘗試基于文心一言AI大模型,編寫一段python3程序以獲取華為分布式塊存儲REST接口的實時數(shù)據(jù)。 一、用文心一言AI大模型將需求轉(zhuǎn)化為樣例代碼 1、第一次對話:“python3寫一段從rest服務器獲取數(shù)據(jù)的樣例代碼” 同時生成了以下注解? 這段代碼首先定義了一個函數(shù)? get_da

    2024年02月03日
    瀏覽(25)
  • ChatGPT自動寫了個AI辦公office word插件,低配copilot,程序員看了焦慮。

    ChatGPT自動寫了個AI辦公office word插件,低配copilot,程序員看了焦慮。

    ????????最近公司文案同事提出一個需求,希望在文案編輯工作上使用AI工具,提高生產(chǎn)效率,當然也受ChatGPT這波潮流影響。ok,既然需求來了,作為技術部門那只能接下需求了。省略需求調(diào)研過程N個字...??偨Y(jié)起來:1、希望工具整合到Word中(文案編輯嘛);2、AI寫作功能

    2024年02月06日
    瀏覽(20)
  • 軟件工程師,要么不寫代碼,要么就寫優(yōu)雅的代碼

    軟件工程師,要么不寫代碼,要么就寫優(yōu)雅的代碼

    何為優(yōu)雅的代碼 ????????優(yōu)雅的代碼,至少需要遵循以下幾個原則: ???????? 遵守規(guī)范 ????????優(yōu)雅的代碼,首先讓人看起來就是很整潔的。而這種整潔,則來源于代碼規(guī)范。嚴格地遵守代碼規(guī)范,是提高且保證代碼質(zhì)量的最有效方法。從個人開發(fā)的角度來看,一

    2024年02月06日
    瀏覽(19)
  • Python之路—200行Python代碼搞了個打飛機游戲??!

    Python之路—200行Python代碼搞了個打飛機游戲??!

    早就知道pygame模塊,就是沒怎么深入研究過,恰逢這周未沒約到妹子,只能自己在家玩自己啦,一時興起,花了幾個小時寫了個打飛機程序。 很有意思,跟大家分享下。 先看一下項目結(jié)構(gòu) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 \\\"\\\"\\\" PlayPlane/ |-- bin/ |?? |-- main.py???????? 程序運行主體

    2023年04月08日
    瀏覽(79)
  • 一段代碼理解Python異步函數(shù)async的基本用法

    一段代碼理解Python異步函數(shù)async的基本用法

    異步函數(shù)的使用規(guī)則 正常情況下我們的函數(shù)時串行的運行的,這里稱之為主函數(shù). 異步函數(shù):與主函數(shù)并行運行. Python異步函數(shù)即async必須在普通函數(shù)的命名前加上 async 示例: 執(zhí)行async函數(shù) async函數(shù)內(nèi)等待:只阻塞當前async函數(shù) m_mock安裝 通過上述代碼示例可以發(fā)現(xiàn)case_a和case_b通過

    2024年02月15日
    瀏覽(22)
  • 【python】只需一段代碼,剪輯一個視頻——Moviepy詳解

    【python】只需一段代碼,剪輯一個視頻——Moviepy詳解

    提示:文章寫完后,目錄可以自動生成,如何生成可參考右邊的幫助文檔 知道嗎,用moviepy一行代碼就能夠快速剪輯視頻中某個區(qū)間的片段: clip = VideoFileClip(“videoplayback.mp4”).subclip(50,60) 這一段代碼,能夠在3秒內(nèi)將videoplayback.mp4的50秒-60秒的視頻片段提取出來,非常方便。

    2023年04月16日
    瀏覽(19)
  • 使用 Python3 獲取網(wǎng)頁源代碼

    使用 Python3 獲取網(wǎng)頁源代碼

    ????????爬蟲的數(shù)據(jù)爬取量非常大,顯然不可能對每個頁面都手動復制源代碼,因此就有必要使用自動化的方式來獲取網(wǎng)頁源代碼。requests是Python的一個第三方HTTP(Hypertext Transfer Protocol,超文本傳輸協(xié)議)庫,它比Python自帶的網(wǎng)絡庫urllib更加簡單、方便和人性化。使用re

    2023年04月16日
    瀏覽(22)
  • 十七、Jenkins(centos7系統(tǒng))運行python3代碼

    十七、Jenkins(centos7系統(tǒng))運行python3代碼

    source /usr/python/envs/everyday/bin/activate #激活python3 虛擬環(huán)境 創(chuàng)建虛擬環(huán)境:https://blog.csdn.net/qq_42846555/article/details/131579627

    2024年02月12日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包