国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<address id="p4e6p"><tr id="p4e6p"></tr></address>

Python3，我只用一段代碼，就寫了個詞云生成器，功能強大到懷疑人生。

2年前作者：Carl_奕然分類：Toy博客閱讀(26)違法舉報

這篇具有很好參考價值的文章主要介紹了Python3，我只用一段代碼，就寫了個詞云生成器，功能強大到懷疑人生。。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

1、引言

小魚：小屌絲，你在干啥呢？
小屌絲：魚哥，你看，我的PPT寫的高大尚不。
小魚：這有啥高大尚的啊，
小屌絲：你仔細看，往下翻一頁
小魚：額。你這那是PPT，就是浴皇大帝、昂科旗等車系的測評嗎。
Python3，我只用一段代碼，就寫了個詞云生成器，功能強大到懷疑人生。
小屌絲：別管內(nèi)容了，魚哥，你就說，這個樣式怎么樣，帥不帥氣吧。
小魚：嗯，樣式嘛，還可以的。
小屌絲：魚哥，你這么淡定，你的意思，你也會？
小魚：額… 我可沒說，休想套路我。
小屌絲：魚哥，我這就要說到公道話了，獨樂樂不如眾樂樂。
小魚：有的時候，需要獨樂樂。
小屌絲：魚哥，別整沒用的，你就說分不分享吧？
小魚：額… 這個… 你說啥？
小屌絲：我說，你把這個代碼分享出來唄。
小魚：你說分享什么??？
小屌絲：分享詞云生成器的代碼
小魚：分享什么代碼??？
小屌絲：去泡溫泉…
小魚：好嘞，早說不就完事了嘛。

2、代碼實戰(zhàn)

2.1 庫介紹

說到詞云的制作，不得不提的第三方庫， stylecloud：簡潔易用的詞云庫
當然僅僅有stylecloud 還是不夠的，還需要一個庫，即 jieba：中文分詞庫
所以，今天我們就用stylecloud 和jieba來完成本次的代碼實戰(zhàn)。
接下來，我們先了解這兩個庫。

2.1.1 jieba

jieba：中文分詞庫

1、運行原理

初始化：加載詞典文件，獲取每個詞語和它出現(xiàn)的詞數(shù)
切分短語:利用正則，將文本切分為一個個語句，之后對語句進行分詞
構(gòu)建DAG：通過字符串匹配，構(gòu)建所有可能的分詞情況的有向無環(huán)圖，也就是DAG
構(gòu)建節(jié)點最大路徑概率，以及結(jié)束位置：計算每個漢字節(jié)點到語句結(jié)尾的所有路徑中的最大概率，并記下最大概率時在DAG中對應的該漢字成詞的結(jié)束位置。
構(gòu)建切分組合：根據(jù)節(jié)點路徑，得到詞語切分的結(jié)果，也就是分詞結(jié)果。
HMM新詞處理：對于新詞，也就是jieba詞典中沒有的詞語，我們通過統(tǒng)計方法來處理，jieba中采用了HMM（隱馬爾科夫模型）來處理。
返回分詞結(jié)果：通過yield將上面步驟中切分好的詞語逐個返回。yield相對于list，可以節(jié)約存儲空間。

2、主要模式

精確模式：把文本精確的切分開，不存在冗余單詞
全模式：把文本中所有可能的詞語都掃描出來，有冗余
搜索引擎模式：在精確模式基礎上，對長詞再次切分

3、主要功能

jieba.cut 方法接受四個輸入?yún)?shù):
- 需要分詞的字符串；
- cut_all 參數(shù)用來控制是否采用全模式；
- HMM 參數(shù)用來控制是否使用 HMM 模型；
- use_paddle 參數(shù)用來控制是否使用paddle模式下的分詞模式，
  - paddle模式采用延遲加載方式，通過enable_paddle接口安裝paddlepaddle-tiny，并且import相關代碼；
jieba.cut_for_search 方法接受兩個參數(shù)：
- 需要分詞的字符串；
- 是否使用 HMM 模型。
  - 該方法適合用于搜索引擎構(gòu)建倒排索引的分詞，粒度比較細
jieba.cut 以及 jieba.cut_for_search 返回的結(jié)構(gòu)都是一個可迭代的 generator，可以使用 for 循環(huán)來獲得分詞后得到的每一個詞語(unicode)，或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定義分詞器，可用于同時使用不同詞典。
jieba.dt 為默認分詞器，所有全局分詞相關函數(shù)都是該分詞器的映射。

2.1.2 stylecloud

關于詞云生成工具，常用的無非這3種：

pyecharts
- 簡單易用；
- 上手快；
- 不夠美觀；
wordcloud
- 使用頻次最高；
- 使用最廣泛；
stylecloud
- 簡單易用
- 最接近完美

接下來，我們就使用 sytlecloud第三方庫，看看它完美到什么程度。

2.2 庫安裝

涉及到第三方庫，肯定就需要安裝
老規(guī)矩，pip 安裝

pip install jieba
pip install stylecloud

然后就是等待著安裝。

其它安裝方式，直接看這兩篇:

《Python3，選擇Python自動安裝第三方庫，從此跟pip說拜拜！！》
《Python3：我低調(diào)的只用一行代碼，就導入Python所有庫！》

Python3，我只用一段代碼，就寫了個詞云生成器，功能強大到懷疑人生。

2.2 代碼實戰(zhàn)

代碼示例

# -*- coding:utf-8 -*-
# @Time   : 2023-01-10
# @Author : Carl_DJ

'''
實現(xiàn)功能：
    詞云生成器
'''

import json
import stylecloud
import codecs
import jieba
from collections import Counter

#過濾掉高頻出現(xiàn)的詞匯
passwords = set()
#讀取詞匯文檔
content = [line.strip() for line in open('./data/passwords.txt', 'r',encoding='utf8').readlines()]
passwords.update(content)

#獲取文檔詞匯， 并截取長度為3個
def make_words(txt):
    make_list = jieba.cut(txt)
    c = Counter()
    words_list = []
	#獲取詞匯文本
    for x in make_list:
    	#長度為3，超過截取
        if len(x) ==  3 and x !='\r\n':
            c[x]  += 1
            words_list.append(x)

    for k,v in c.most_common(50):
        if k not in passwords:
            # print(f'{k,v}')
    #組合詞云內(nèi)容
    return " ".join(words_list)

#讀取中大型suv測評.txt內(nèi)容
with codecs.open('./data/中大型suv測評.txt','r','utf8') as f: #格式需要utf8 否則會報錯
    txt = f.read()
#
words_txt = make_words(txt)
#設置詞云展示的樣式，字體，生成文件名稱等，
stylecloud.gen_stylecloud(text=words_txt,custom_stopwords=content,
                          background_color='#1A1A1A',
                          colors=['#dd4444', '#fec42c', '#fac858'],
                          max_font_size=100,
                          output_name='xt6測評.jpg',
                          font_path="C:/Windows/Fonts/FZSTK.TTF"
                          )

結(jié)果展示
Python3，我只用一段代碼，就寫了個詞云生成器，功能強大到懷疑人生。

注：
這里需要準備兩個文件

password.txt : 過濾文本中出現(xiàn)太多次數(shù)的詞匯；
suv測評.txt：詞云的主要顯示的文本內(nèi)容；

文本內(nèi)容示例：
Python3，我只用一段代碼，就寫了個詞云生成器，功能強大到懷疑人生。
這里強調(diào)一點：

文本的內(nèi)容，你可以一行寫很多字，
但是，為了詞云展示的內(nèi)容更豐富，列數(shù)，一定要多。

當然，文檔內(nèi)容，也可以是下載的小說，或者你自己寫的任何內(nèi)容。

3、總結(jié)

看到這里，今天的分享就要結(jié)束了。
回頭看一下，
其實詞云生成器，并不難。
主要就是對 jieba、stylecloud 這兩個庫的使用。
這里我僅僅列舉了 stylecloud 第三方庫，
當然，如果你有興趣，也可以使用 pyecharts、 wordcloud ，看看生成的詞云如何。
也就當是你自己的練手了。

好了，就嘮叨這里了。
我是小魚：

CSDN 博客專家；
阿里云專家博主；
51CTO博客專家；
51認證講師；
金牌面試官；

關注小魚，帶你學習更多更有趣的python知識。

當然，

如果你想晉升自己的技能，；
如果你想提升自己的面試成功率；
如果你現(xiàn)在處在職業(yè)迷茫期，想重新規(guī)劃職業(yè)生涯；

都可以找小魚聊聊的。

CSDN 私信留言，或者掃描小魚主頁的二維碼，都可以找到的。文章來源地址http://www.zghlxwxcb.cn/news/detail-456680.html

到了這里，關于Python3，我只用一段代碼，就寫了個詞云生成器，功能強大到懷疑人生。的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

寫了個輔助學習vite的小工具（mini-vite）
? 話不多說先貼上倉庫地址 mini-vite 封裝的方法太多，不知道從哪個方法看起隨便一個文件就是一兩千行代碼，看得頭皮發(fā)麻不知道該怎么去debug，到底應該在哪個方法里面debug 沒關系，這些問題在我這都能解決移除了vite倉庫中的所有注釋和其他對于所要學習的vite功能用不
2024年02月08日
瀏覽(19)
倆小伙一晚上寫了個 AI 應用，月入兩萬？？(文末附開發(fā)教程)
開發(fā)出一款能夠與 AI 對話生成和編輯思維導圖的工具，聽起來似乎只能是一群專業(yè)的 AI 背景團隊花費大量的時間和精力訓練模型，打磨應用才能完成的事情。但是，兩名大學生卻在一夜之間完成了，就像煉金術士將庸俗的材料轉(zhuǎn)化成黃金一樣，他們將代碼轉(zhuǎn)化為了神奇的工
2024年02月03日
瀏覽(24)
基于文心一言AI大模型，編寫一段python3程序以獲取華為分布式塊存儲REST接口的實時數(shù)據(jù)
本文嘗試基于文心一言AI大模型，編寫一段python3程序以獲取華為分布式塊存儲REST接口的實時數(shù)據(jù)。一、用文心一言AI大模型將需求轉(zhuǎn)化為樣例代碼 1、第一次對話：“python3寫一段從rest服務器獲取數(shù)據(jù)的樣例代碼” 同時生成了以下注解? 這段代碼首先定義了一個函數(shù)? get_da
2024年02月03日
瀏覽(25)
ChatGPT自動寫了個AI辦公office word插件,低配copilot,程序員看了焦慮。
????????最近公司文案同事提出一個需求，希望在文案編輯工作上使用AI工具，提高生產(chǎn)效率，當然也受ChatGPT這波潮流影響。ok,既然需求來了，作為技術部門那只能接下需求了。省略需求調(diào)研過程N個字...?？偨Y(jié)起來：1、希望工具整合到Word中（文案編輯嘛）；2、AI寫作功能
2024年02月06日
瀏覽(20)
軟件工程師，要么不寫代碼，要么就寫優(yōu)雅的代碼
何為優(yōu)雅的代碼 ????????優(yōu)雅的代碼，至少需要遵循以下幾個原則： ???????? 遵守規(guī)范 ????????優(yōu)雅的代碼，首先讓人看起來就是很整潔的。而這種整潔，則來源于代碼規(guī)范。嚴格地遵守代碼規(guī)范，是提高且保證代碼質(zhì)量的最有效方法。從個人開發(fā)的角度來看，一
2024年02月06日
瀏覽(19)
Python之路—200行Python代碼搞了個打飛機游戲??！
早就知道pygame模塊，就是沒怎么深入研究過，恰逢這周未沒約到妹子，只能自己在家玩自己啦，一時興起，花了幾個小時寫了個打飛機程序。很有意思，跟大家分享下。先看一下項目結(jié)構(gòu) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 \\\"\\\"\\\" PlayPlane/ |-- bin/ |?? |-- main.py???????? 程序運行主體
2023年04月08日
瀏覽(79)
一段代碼理解Python異步函數(shù)async的基本用法
異步函數(shù)的使用規(guī)則正常情況下我們的函數(shù)時串行的運行的,這里稱之為主函數(shù). 異步函數(shù):與主函數(shù)并行運行. Python異步函數(shù)即async必須在普通函數(shù)的命名前加上 async 示例: 執(zhí)行async函數(shù) async函數(shù)內(nèi)等待:只阻塞當前async函數(shù) m_mock安裝通過上述代碼示例可以發(fā)現(xiàn)case_a和case_b通過
2024年02月15日
瀏覽(22)
【python】只需一段代碼，剪輯一個視頻——Moviepy詳解
提示：文章寫完后，目錄可以自動生成，如何生成可參考右邊的幫助文檔知道嗎，用moviepy一行代碼就能夠快速剪輯視頻中某個區(qū)間的片段： clip = VideoFileClip(“videoplayback.mp4”).subclip(50,60) 這一段代碼，能夠在3秒內(nèi)將videoplayback.mp4的50秒-60秒的視頻片段提取出來，非常方便。
2023年04月16日
瀏覽(19)
使用 Python3 獲取網(wǎng)頁源代碼
????????爬蟲的數(shù)據(jù)爬取量非常大，顯然不可能對每個頁面都手動復制源代碼，因此就有必要使用自動化的方式來獲取網(wǎng)頁源代碼。requests是Python的一個第三方HTTP（Hypertext Transfer Protocol，超文本傳輸協(xié)議）庫，它比Python自帶的網(wǎng)絡庫urllib更加簡單、方便和人性化。使用re
2023年04月16日
瀏覽(22)
十七、Jenkins(centos7系統(tǒng))運行python3代碼
source /usr/python/envs/everyday/bin/activate #激活python3 虛擬環(huán)境創(chuàng)建虛擬環(huán)境：https://blog.csdn.net/qq_42846555/article/details/131579627
2024年02月12日
瀏覽(26)