国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<label id="e8js0"><strong id="e8js0"><ol id="e8js0"></ol></strong></label>

<mark id="e8js0"></mark>

<dl id="e8js0"><cite id="e8js0"></cite></dl>

Python英文詞頻統(tǒng)計(jì)（哈姆雷特）程序示例

2年前作者：永遠(yuǎn)是少年啊分類：Toy博客閱讀(22)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Python英文詞頻統(tǒng)計(jì)（哈姆雷特）程序示例。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

今天繼續(xù)給大家介紹Python相關(guān)知識(shí)，本文主要內(nèi)容是Python英文詞頻統(tǒng)計(jì)程序示例，主要是對(duì)英文文本——《哈姆雷特》進(jìn)行分詞。

一、英文文本詞頻統(tǒng)計(jì)思路

想要對(duì)《哈姆雷特》進(jìn)行英文單詞詞頻統(tǒng)計(jì)，那么我們首先需要拿到《哈姆雷特》的原文，將之存儲(chǔ)為本地的txt文檔，然后使用Python打開(kāi)該文件，讀取里面的信息。
在讀取《哈姆雷特》內(nèi)容后，我們首先需要將文件內(nèi)容進(jìn)行預(yù)處理，比如刪除文件中的特殊符號(hào)，以及對(duì)文件內(nèi)容進(jìn)行全部小寫的歸一化操作等等。除此之外，我們還需要?jiǎng)h除文檔中所有的標(biāo)點(diǎn)符號(hào)。之后，我們可以將文檔使用split()函數(shù)，根據(jù)空格進(jìn)行分隔，形成一個(gè)列表。
之后，我們逐個(gè)取出列表中的元素，然后統(tǒng)計(jì)列表中單詞的個(gè)數(shù)。為了進(jìn)行詞頻統(tǒng)計(jì)，我們需要?jiǎng)?chuàng)建一個(gè)字典變量，以單詞為鍵，以統(tǒng)計(jì)出的單詞個(gè)數(shù)為值，在遍歷列表時(shí)不斷更新該字典，就可以最終得到一個(gè)含有所有《哈姆雷特》內(nèi)容單詞詞頻的字典了。
最后，我們按照該字典轉(zhuǎn)化為一個(gè)新的列表，就可以對(duì)值的大小對(duì)該字典進(jìn)行排序，得到《哈姆雷特》詞頻從大到小的順序了。

二、英文文本詞頻統(tǒng)計(jì)程序編寫

根據(jù)上述思路，我們可以來(lái)編寫英文文本詞頻統(tǒng)計(jì)程序了。
打開(kāi)文件及讀取文件內(nèi)容程序代碼如下所示：

f=open("C:\\Users\\Administrator\\Desktop\\哈姆雷特原文.txt","rt",encoding="utf-8")
Hamlet=f.read()
f.close()

對(duì)文件內(nèi)容進(jìn)行預(yù)處理代碼如下所示：

Hamlet=Hamlet.lower()
for char in "!@#$%^&*()_+~`,./;'[]\<>?:\"{}|":
    Hamlet=Hamlet.replace(char,"")

對(duì)文件單詞進(jìn)行統(tǒng)計(jì)代碼如下所示：

counts=dict()
for word in words:
    counts[word]=counts.get(word,0)+1

對(duì)字典生成新的列表，并進(jìn)行排序，代碼如下所示：

sequence=list(counts.items())
sequence.sort(key=lambda x:x[1],reverse=True)

篩選出單詞出現(xiàn)頻率最高的10個(gè)單詞，并進(jìn)行輸出，代碼如下所示：

for i in range(10):
    word,count=sequence[i]
    print("單詞{}在Hamlet中出現(xiàn)次數(shù)為第{}，出現(xiàn)了{(lán)}次".format(word,i+1,count))

最終代碼如下所示：

f=open("C:\\Users\\Administrator\\Desktop\\哈姆雷特原文.txt","rt",encoding="utf-8")
Hamlet=f.read()
f.close()
Hamlet=Hamlet.lower()
for char in "!@#$%^&*()_+~`,./;'[]\<>?:\"{}|":
    Hamlet=Hamlet.replace(char,"")
words=Hamlet.split()
counts=dict()
for word in words:
    counts[word]=counts.get(word,0)+1
sequence=list(counts.items())
sequence.sort(key=lambda x:x[1],reverse=True)
for i in range(10):
    word,count=sequence[i]
    print("單詞{}在Hamlet中出現(xiàn)次數(shù)為第{}，出現(xiàn)了{(lán)}次".format(word,i+1,count))

三、程序執(zhí)行結(jié)果展示

運(yùn)行上述程序，我們最終得到結(jié)果如下所示：
Python英文詞頻統(tǒng)計(jì)（哈姆雷特）程序示例
從上圖可以看出，我們成功統(tǒng)計(jì)出了在《哈姆雷特》中出現(xiàn)次數(shù)最多的10個(gè)單詞。
原創(chuàng)不易，轉(zhuǎn)載請(qǐng)說(shuō)明出處：https://blog.csdn.net/weixin_40228200文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-441660.html

到了這里，關(guān)于Python英文詞頻統(tǒng)計(jì)（哈姆雷特）程序示例的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

文本分析-使用Python做詞頻統(tǒng)計(jì)分析
???♂? 個(gè)人主頁(yè)：@艾派森的個(gè)人主頁(yè) ???作者簡(jiǎn)介：Python學(xué)習(xí)者 ?? 希望大家多多支持，我們一起進(jìn)步！?? 如果文章對(duì)你有幫助的話，歡迎評(píng)論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+ 前言前面我們已經(jīng)介紹了文本分析中的中文分詞和去除停用詞，這篇文章將詳細(xì)介紹分詞后
2024年02月10日
瀏覽(32)
python使用jieba分詞，詞頻統(tǒng)計(jì)，基本使用
python采用第三方庫(kù)進(jìn)行中文分詞，本文章只是記錄文章。 1.需要下載第三方庫(kù)jieba： ? ? ? ? ? ? ? ? cmd: pip install jieba 2.為了方便測(cè)試，在同級(jí)目錄下，準(zhǔn)備一個(gè)txt格式文件，文件名隨意，這里我也是隨便取的： ? ? ? ? ? ? ? ? 文件路徑可以是絕對(duì)路徑，也可以是相對(duì)路
2024年02月07日
瀏覽(24)
Python統(tǒng)計(jì)中文詞頻的四種方法
統(tǒng)計(jì)中文詞頻是Python考試中常見(jiàn)的操作，由于考察內(nèi)容較多，因此比較麻煩，那么有沒(méi)有好的方法來(lái)實(shí)現(xiàn)呢？今天，我們總結(jié)了四種常見(jiàn)的中文詞頻統(tǒng)計(jì)方法，并列出代碼，供大家學(xué)習(xí)參考。中文詞頻統(tǒng)計(jì)主要是通過(guò)open()打開(kāi)文本，然后read()方法讀取后，采用結(jié)巴分詞(jieb
2024年02月11日
瀏覽(17)
《大數(shù)據(jù)系統(tǒng)與編程》MapReduce程序?qū)崿F(xiàn)詞頻統(tǒng)計(jì)實(shí)驗(yàn)報(bào)告
MapReduce程序?qū)崿F(xiàn)詞頻統(tǒng)計(jì) ?????????? 實(shí)驗(yàn)?zāi)康?1）理解Hadoop中MapReduce模塊的處理邏輯； 2）熟悉MapReduce編程；實(shí)驗(yàn)平臺(tái) 操作系統(tǒng)：Linux 工具：Eclipse或者Intellij Idea等Java IDE 實(shí)驗(yàn)內(nèi)容 1）在電腦上新建文件夾input，并input文件夾中創(chuàng)建三個(gè)文本文件：file1.txt,file2.txt,file3.tx
2024年02月09日
瀏覽(17)
Python讀取Word統(tǒng)計(jì)詞頻輸出到Excel
1.安裝依賴的包 ``` \\\"# 讀取docxn\\\", ? ? \\\"!pip install python-docxn\\\", ? ? \\\"!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docxn\\\", ? ? \\\"# 中英文分詞n\\\", ? ? \\\"!pip install jieban\\\", ? ? \\\"!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieban\\\", ? ? \\\"# 輸出到exceln\\\", ? ? \\\"!pip install pandas\\\" ? ? \\\"!pip
2024年02月13日
瀏覽(19)
python處理Excel Pandas xlwings numpy， jupyter，docx，jieba 詞頻統(tǒng)計(jì) flash
順序不變，是可以的如果李四和王五兩行換一下，就不對(duì)了，結(jié)果 pandas的nlargest(n,“排序的列”)，只能求最大N個(gè)值同比 df[‘昨日’] = df[“銷售金額”].shift() shift() 會(huì)把銷售金額放入昨日 python 在網(wǎng)頁(yè)上顯示Excel Excel 修改數(shù)據(jù)，網(wǎng)頁(yè)只有刷新就可以了。 python 制作網(wǎng)頁(yè)查詢
2024年02月10日
瀏覽(21)
使用python統(tǒng)計(jì)《三國(guó)演義》人物詞頻，看看羅貫中筆下誰(shuí)的出場(chǎng)次數(shù)最多
“滾滾長(zhǎng)江東逝水，浪花淘盡英雄”。近來(lái)讀《三國(guó)演義》，忽然想看看到底哪位英雄在書中提到的最多，于是就想用分詞算法實(shí)現(xiàn)一下。網(wǎng)上也確實(shí)有相關(guān)的案例，作為參考，自己又重寫并優(yōu)化了一遍。思路下載《三國(guó)演義》txt文檔使用jieba分詞算法對(duì)文檔進(jìn)行分詞處理
2024年02月06日
瀏覽(18)
[Python3]編寫程序，對(duì)輸入的英文字符串中各字母出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)(不區(qū)分大寫字母和小寫字母)，統(tǒng)計(jì)結(jié)果使用字典存放。例如，字符串“I have 2 ideas.“的統(tǒng)計(jì)結(jié)果為......
編寫程序，對(duì)輸入的英文字符串中各字母出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)(不區(qū)分大寫字母和小寫字母)，統(tǒng)計(jì)結(jié)果使用字典存放。例如，字符串\\\"I have 2 ideas.\\\"的統(tǒng)計(jì)結(jié)果為{\\\'i\\\':2, \\\'h\\\':1,\\\'a\\\':2, \\\'v\\\':1,\\\'e\\\':2, \\\'d\\\':1, \\\'s\\\':1}。注：用戶輸入的字符串中可能包含字母以外的其他字符。輸入格式: 輸入一個(gè)英
2024年02月04日
瀏覽(97)
5.1統(tǒng)計(jì)英文文件中的單詞數(shù)python
?本關(guān)任務(wù)：編寫一個(gè)能統(tǒng)計(jì)文件中單詞數(shù)量的小程序，用replace替換文本內(nèi)的標(biāo)點(diǎn) 代碼如下：（整體思路，先將文本中的標(biāo)點(diǎn)符號(hào)用空格替換，然后用空格分隔單詞，最后用len（）統(tǒng)計(jì)文本中單詞的數(shù)量）相關(guān)知識(shí) 為了完成本關(guān)任務(wù)，你需要掌握： 1.獲取文件內(nèi)容 2.字符
2024年02月09日
瀏覽(30)
Spark實(shí)戰(zhàn)：詞頻統(tǒng)計(jì)
1、分步完成詞頻統(tǒng)計(jì) （1）基于文本文件創(chuàng)建RDD 執(zhí)行命令： val lines = sc.textFile(\\\"/home/test.txt\\\") （2）按空格拆分作扁平化映射執(zhí)行命令： val words = lines.flatMap(_.split(\\\" \\\")) （3）將單詞數(shù)組映射成二元組數(shù)組執(zhí)行命令： val tuplewords = words.map((_, 1)) （4）將二元組數(shù)組按鍵歸約執(zhí)行命
2024年04月28日
瀏覽(18)

<input id="l332u"></input>

<input id="l332u"><p id="l332u"><tfoot id="l332u"></tfoot></p></input>

<noscript id="l332u"></noscript>

<label id="l332u"></label>

<sup id="l332u"></sup><label id="l332u"><strong id="l332u"></strong></label>