国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python英文詞頻統(tǒng)計(jì)(哈姆雷特)程序示例

這篇具有很好參考價(jià)值的文章主要介紹了Python英文詞頻統(tǒng)計(jì)(哈姆雷特)程序示例。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

今天繼續(xù)給大家介紹Python相關(guān)知識(shí),本文主要內(nèi)容是Python英文詞頻統(tǒng)計(jì)程序示例,主要是對(duì)英文文本——《哈姆雷特》進(jìn)行分詞。

一、英文文本詞頻統(tǒng)計(jì)思路

想要對(duì)《哈姆雷特》進(jìn)行英文單詞詞頻統(tǒng)計(jì),那么我們首先需要拿到《哈姆雷特》的原文,將之存儲(chǔ)為本地的txt文檔,然后使用Python打開(kāi)該文件,讀取里面的信息。
在讀取《哈姆雷特》內(nèi)容后,我們首先需要將文件內(nèi)容進(jìn)行預(yù)處理,比如刪除文件中的特殊符號(hào),以及對(duì)文件內(nèi)容進(jìn)行全部小寫的歸一化操作等等。除此之外,我們還需要?jiǎng)h除文檔中所有的標(biāo)點(diǎn)符號(hào)。之后,我們可以將文檔使用split()函數(shù),根據(jù)空格進(jìn)行分隔,形成一個(gè)列表。
之后,我們逐個(gè)取出列表中的元素,然后統(tǒng)計(jì)列表中單詞的個(gè)數(shù)。為了進(jìn)行詞頻統(tǒng)計(jì),我們需要?jiǎng)?chuàng)建一個(gè)字典變量,以單詞為鍵,以統(tǒng)計(jì)出的單詞個(gè)數(shù)為值,在遍歷列表時(shí)不斷更新該字典,就可以最終得到一個(gè)含有所有《哈姆雷特》內(nèi)容單詞詞頻的字典了。
最后,我們按照該字典轉(zhuǎn)化為一個(gè)新的列表,就可以對(duì)值的大小對(duì)該字典進(jìn)行排序,得到《哈姆雷特》詞頻從大到小的順序了。

二、英文文本詞頻統(tǒng)計(jì)程序編寫

根據(jù)上述思路,我們可以來(lái)編寫英文文本詞頻統(tǒng)計(jì)程序了。
打開(kāi)文件及讀取文件內(nèi)容程序代碼如下所示:

f=open("C:\\Users\\Administrator\\Desktop\\哈姆雷特原文.txt","rt",encoding="utf-8")
Hamlet=f.read()
f.close()

對(duì)文件內(nèi)容進(jìn)行預(yù)處理代碼如下所示:

Hamlet=Hamlet.lower()
for char in "!@#$%^&*()_+~`,./;'[]\<>?:\"{}|":
    Hamlet=Hamlet.replace(char,"")

對(duì)文件單詞進(jìn)行統(tǒng)計(jì)代碼如下所示:

counts=dict()
for word in words:
    counts[word]=counts.get(word,0)+1

對(duì)字典生成新的列表,并進(jìn)行排序,代碼如下所示:

sequence=list(counts.items())
sequence.sort(key=lambda x:x[1],reverse=True)

篩選出單詞出現(xiàn)頻率最高的10個(gè)單詞,并進(jìn)行輸出,代碼如下所示:

for i in range(10):
    word,count=sequence[i]
    print("單詞{}在Hamlet中出現(xiàn)次數(shù)為第{},出現(xiàn)了{(lán)}次".format(word,i+1,count))

最終代碼如下所示:

f=open("C:\\Users\\Administrator\\Desktop\\哈姆雷特原文.txt","rt",encoding="utf-8")
Hamlet=f.read()
f.close()
Hamlet=Hamlet.lower()
for char in "!@#$%^&*()_+~`,./;'[]\<>?:\"{}|":
    Hamlet=Hamlet.replace(char,"")
words=Hamlet.split()
counts=dict()
for word in words:
    counts[word]=counts.get(word,0)+1
sequence=list(counts.items())
sequence.sort(key=lambda x:x[1],reverse=True)
for i in range(10):
    word,count=sequence[i]
    print("單詞{}在Hamlet中出現(xiàn)次數(shù)為第{},出現(xiàn)了{(lán)}次".format(word,i+1,count))

三、程序執(zhí)行結(jié)果展示

運(yùn)行上述程序,我們最終得到結(jié)果如下所示:
Python英文詞頻統(tǒng)計(jì)(哈姆雷特)程序示例
從上圖可以看出,我們成功統(tǒng)計(jì)出了在《哈姆雷特》中出現(xiàn)次數(shù)最多的10個(gè)單詞。
原創(chuàng)不易,轉(zhuǎn)載請(qǐng)說(shuō)明出處:https://blog.csdn.net/weixin_40228200文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-441660.html

到了這里,關(guān)于Python英文詞頻統(tǒng)計(jì)(哈姆雷特)程序示例的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 文本分析-使用Python做詞頻統(tǒng)計(jì)分析

    文本分析-使用Python做詞頻統(tǒng)計(jì)分析

    ???♂? 個(gè)人主頁(yè):@艾派森的個(gè)人主頁(yè) ???作者簡(jiǎn)介:Python學(xué)習(xí)者 ?? 希望大家多多支持,我們一起進(jìn)步!?? 如果文章對(duì)你有幫助的話, 歡迎評(píng)論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+ 前言 前面我們已經(jīng)介紹了文本分析中的中文分詞和去除停用詞,這篇文章將詳細(xì)介紹分詞后

    2024年02月10日
    瀏覽(32)
  • python使用jieba分詞,詞頻統(tǒng)計(jì),基本使用

    python使用jieba分詞,詞頻統(tǒng)計(jì),基本使用

    python采用第三方庫(kù)進(jìn)行中文分詞,本文章只是記錄文章。 1.需要下載第三方庫(kù)jieba: ? ? ? ? ? ? ? ? cmd: pip install jieba 2.為了方便測(cè)試,在同級(jí)目錄下,準(zhǔn)備一個(gè)txt格式文件,文件名隨意,這里我也是隨便取的: ? ? ? ? ? ? ? ? 文件路徑可以是絕對(duì)路徑,也可以是相對(duì)路

    2024年02月07日
    瀏覽(24)
  • Python統(tǒng)計(jì)中文詞頻的四種方法

    統(tǒng)計(jì)中文詞頻是Python考試中常見(jiàn)的操作,由于考察內(nèi)容較多,因此比較麻煩,那么有沒(méi)有好的方法來(lái)實(shí)現(xiàn)呢?今天,我們總結(jié)了四種常見(jiàn)的中文詞頻統(tǒng)計(jì)方法,并列出代碼,供大家學(xué)習(xí)參考。 中文詞頻統(tǒng)計(jì)主要是通過(guò)open()打開(kāi)文本,然后read()方法讀取后,采用結(jié)巴分詞(jieb

    2024年02月11日
    瀏覽(17)
  • 《大數(shù)據(jù)系統(tǒng)與編程》MapReduce程序?qū)崿F(xiàn)詞頻統(tǒng)計(jì)實(shí)驗(yàn)報(bào)告

    《大數(shù)據(jù)系統(tǒng)與編程》MapReduce程序?qū)崿F(xiàn)詞頻統(tǒng)計(jì)實(shí)驗(yàn)報(bào)告

    MapReduce程序?qū)崿F(xiàn)詞頻統(tǒng)計(jì) ?????????? 實(shí)驗(yàn)?zāi)康?1) 理解Hadoop中MapReduce模塊的處理邏輯; 2)熟悉MapReduce編程; 實(shí)驗(yàn)平臺(tái) 操作系統(tǒng):Linux 工具:Eclipse或者Intellij Idea等Java IDE 實(shí)驗(yàn)內(nèi)容 1) 在電腦上新建文件夾input,并input文件夾中創(chuàng)建三個(gè)文本文件:file1.txt,file2.txt,file3.tx

    2024年02月09日
    瀏覽(17)
  • Python讀取Word統(tǒng)計(jì)詞頻輸出到Excel

    1.安裝依賴的包 ``` \\\"# 讀取docxn\\\", ? ? \\\"!pip install python-docxn\\\", ? ? \\\"!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docxn\\\", ? ? \\\"# 中英文分詞n\\\", ? ? \\\"!pip install jieban\\\", ? ? \\\"!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieban\\\", ? ? \\\"# 輸出到exceln\\\", ? ? \\\"!pip install pandas\\\" ? ? \\\"!pip

    2024年02月13日
    瀏覽(19)
  • python處理Excel Pandas xlwings numpy, jupyter,docx,jieba 詞頻統(tǒng)計(jì) flash

    python處理Excel Pandas xlwings numpy, jupyter,docx,jieba 詞頻統(tǒng)計(jì) flash

    順序不變,是可以的 如果李四和王五兩行換一下,就不對(duì)了, 結(jié)果 pandas的nlargest(n,“排序的列”),只能求最大N個(gè)值 同比 df[‘昨日’] = df[“銷售金額”].shift() shift() 會(huì)把銷售金額放入昨日 python 在網(wǎng)頁(yè)上顯示Excel Excel 修改數(shù)據(jù),網(wǎng)頁(yè)只有刷新就可以了。 python 制作網(wǎng)頁(yè)查詢

    2024年02月10日
    瀏覽(21)
  • 使用python統(tǒng)計(jì)《三國(guó)演義》人物詞頻,看看羅貫中筆下誰(shuí)的出場(chǎng)次數(shù)最多

    使用python統(tǒng)計(jì)《三國(guó)演義》人物詞頻,看看羅貫中筆下誰(shuí)的出場(chǎng)次數(shù)最多

    “滾滾長(zhǎng)江東逝水,浪花淘盡英雄”。近來(lái)讀《三國(guó)演義》,忽然想看看到底哪位英雄在書中提到的最多,于是就想用分詞算法實(shí)現(xiàn)一下。 網(wǎng)上也確實(shí)有相關(guān)的案例,作為參考,自己又重寫并優(yōu)化了一遍。 思路 下載《三國(guó)演義》txt文檔 使用jieba分詞算法對(duì)文檔進(jìn)行分詞處理

    2024年02月06日
    瀏覽(18)
  • [Python3]編寫程序,對(duì)輸入的英文字符串中各字母出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)(不區(qū)分大寫字母和小寫字母),統(tǒng)計(jì)結(jié)果使用字典存放。例如,字符串“I have 2 ideas.“的統(tǒng)計(jì)結(jié)果為......

    [Python3]編寫程序,對(duì)輸入的英文字符串中各字母出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)(不區(qū)分大寫字母和小寫字母),統(tǒng)計(jì)結(jié)果使用字典存放。例如,字符串“I have 2 ideas.“的統(tǒng)計(jì)結(jié)果為......

    編寫程序,對(duì)輸入的英文字符串中各字母出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)(不區(qū)分大寫字母和小寫字母),統(tǒng)計(jì)結(jié)果使用字典存放。例如,字符串\\\"I have 2 ideas.\\\"的統(tǒng)計(jì)結(jié)果為{\\\'i\\\':2, \\\'h\\\':1,\\\'a\\\':2, \\\'v\\\':1,\\\'e\\\':2, \\\'d\\\':1, \\\'s\\\':1}。注:用戶輸入的字符串中可能包含字母以外的其他字符。 輸入格式: 輸入一個(gè)英

    2024年02月04日
    瀏覽(97)
  • 5.1統(tǒng)計(jì)英文文件中的單詞數(shù)python

    ?本關(guān)任務(wù):編寫一個(gè)能統(tǒng)計(jì)文件中單詞數(shù)量的小程序,用replace替換文本內(nèi)的標(biāo)點(diǎn) 代碼如下: ( 整體思路,先將文本中的標(biāo)點(diǎn)符號(hào)用空格替換,然后用空格分隔單詞,最后用len() 統(tǒng)計(jì)文本中單詞的數(shù)量 ) 相關(guān)知識(shí) 為了完成本關(guān)任務(wù),你需要掌握: 1.獲取文件內(nèi)容 2.字符

    2024年02月09日
    瀏覽(30)
  • Spark實(shí)戰(zhàn):詞頻統(tǒng)計(jì)

    Spark實(shí)戰(zhàn):詞頻統(tǒng)計(jì)

    1、分步完成詞頻統(tǒng)計(jì) (1)基于文本文件創(chuàng)建RDD 執(zhí)行命令: val lines = sc.textFile(\\\"/home/test.txt\\\") (2)按空格拆分作扁平化映射 執(zhí)行命令: val words = lines.flatMap(_.split(\\\" \\\")) (3)將單詞數(shù)組映射成二元組數(shù)組 執(zhí)行命令: val tuplewords = words.map((_, 1)) (4)將二元組數(shù)組按鍵歸約 執(zhí)行命

    2024年04月28日
    瀏覽(18)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包