国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python文本數(shù)據(jù)及其可視化

這篇具有很好參考價值的文章主要介紹了Python文本數(shù)據(jù)及其可視化。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

1.實(shí)驗(yàn)內(nèi)容:

  1. 根據(jù)qq音樂獲取的信息,對某一首歌曲的評論內(nèi)容進(jìn)行處理。
  2. 分析評論中的詞性分布。
  3. 統(tǒng)計高頻詞,畫出詞云。

2.實(shí)驗(yàn)步驟:

? ? 1. 文本信息初處理:

根據(jù)實(shí)驗(yàn)二QQ音樂抓取周杰倫的前五首歌曲評論等信息篩查晴天這首歌的相關(guān)信息存為“晴天-周杰倫”的文本文件方便后續(xù)數(shù)據(jù)讀取。

文本信息節(jié)選展示:

Python文本數(shù)據(jù)及其可視化

? ? 2. 編寫詞云繪制,詞頻統(tǒng)計以及詞性分析代碼:

首先打開文件進(jìn)行讀取信息,去掉長度為一的詞存下來并統(tǒng)計頻率最高的三十個詞打印輸出詞和詞出現(xiàn)的次數(shù)。獲取信息進(jìn)行文本切割以后進(jìn)行詞云的相關(guān)繪制。進(jìn)行詞性分析,統(tǒng)計評論中詞的詞性并打印輸出各類詞性的數(shù)量。

詞頻統(tǒng)計節(jié)選展示:

Python文本數(shù)據(jù)及其可視化

詞性分析節(jié)選展示:

Python文本數(shù)據(jù)及其可視化

?詞云如圖:

Python文本數(shù)據(jù)及其可視化

詞云背景圖:

Python文本數(shù)據(jù)及其可視化

? ? 3. 編寫詞性分析數(shù)據(jù)可視化代碼:

利用2步驟中的切割好的信息繪制條形圖,設(shè)置縱軸橫軸名稱和數(shù)據(jù)獲取繪制以及大小等。

運(yùn)行展示:

Python文本數(shù)據(jù)及其可視化

條狀圖如下:

Python文本數(shù)據(jù)及其可視化

3.實(shí)驗(yàn)總結(jié):

? 本次實(shí)驗(yàn)進(jìn)行實(shí)驗(yàn)二信息的數(shù)據(jù)分析和可視化操作,在實(shí)操中學(xué)會了很多,特別是在詞云繪制和詞性條狀圖繪制中學(xué)會了很多繪制技巧的基本內(nèi)容,實(shí)驗(yàn)難點(diǎn)是在做文本信息切割存儲的時候需要考慮詞的長度以及各類非漢字字符的去除等需要特別注意??傊敬螌?shí)驗(yàn)學(xué)習(xí)和實(shí)踐了評論的數(shù)據(jù)分析詞性分析等可視化的繪制詞云繪制詞性條狀圖的內(nèi)容,加深了對數(shù)據(jù)分析可視化的理解,難點(diǎn)痛點(diǎn)還需要多加理解和實(shí)踐。?

4.實(shí)驗(yàn)源碼:

源碼一:(進(jìn)行詞頻統(tǒng)計和詞性分析以及詞云的繪制)

#詞云繪制及詞性、詞頻統(tǒng)計分析
import jieba,wordcloud,re
import jieba.posseg as pseg
import imageio

#統(tǒng)計出現(xiàn)頻率最高的前三十個詞并輸出
txt = open("晴天-周杰倫","r",encoding="utf-8").read()
words = jieba.lcut(txt)
counts = {}
#去掉長度為1的詞
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key = lambda x:x[1],reverse=True)
print("統(tǒng)計高頻詞匯如下:")
print("詞語           出現(xiàn)次數(shù)\n")
for i in range(30):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

 #'''除去文本中的非漢字字符
    # for ch in r'●━━━━━━───────???????「」~??\
    # ??1234567890”`~!@#$%^&*()-_=+[]{}\\|;\
    # :\'\",./<>?·~!@#¥%……&*()——+-=【】{}、|;:\‘\“,?!丁??qwertyuiop\
    # asdfghjklzxcvbnmQAZXSWEDCVFRTGBNHYUJMKIOLP年月日':'''
#定義去除掉文本中的非漢字字符的函數(shù)
def find_chinese(file):
    pattern = re.compile(r'[^\u4e00-\u9fa5]')
    chinese = re.sub(pattern,'', file)
    return chinese


#獲取文件文本
def getText():
    txt = open("晴天-周杰倫","r",encoding="utf-8").read()
    txt = find_chinese(txt)
    return txt
#獲取文本信息并進(jìn)行切割
txt = getText()
txt = jieba.lcut(txt)


#創(chuàng)建列表存入長度大于1的詞語
words = []
for word in txt:
    if len(word) == 1:
        continue
    else:
        words.append(word)


txt = words
color_mask =imageio.v2.imread("b.jpg")#詞云背景圖
txt = " ".join(txt)
w = wordcloud.WordCloud(width = 390, height = 390,\
                        background_color = "black",\
                        font_path = "msyh.ttc",\
                        contour_color= "green",\
                        contour_width= 2,\
                        mask=color_mask,\
                        mode="RGB")
w.generate(txt)
w.to_file("詞云.png")


txt = open("晴天-周杰倫","r",encoding="utf-8").read()
words = pseg.lcut(txt)
counts = {}
for word in words:
    counts[word.flag] = counts.get(word.flag,0) + 1
items = list(counts.items())
items.sort(key = lambda  x:x[1],reverse=True)
print("經(jīng)過統(tǒng)計和分析文件,\n其中的評論含有的詞種類以及數(shù)量如下所示:")
print("詞性           數(shù)量\n")
for i in range(len(counts)):
    flag,count = items[i]
    print("{0:<10}{1:>5}".format(flag,count))

源碼2:詞性分析可視化?文章來源地址http://www.zghlxwxcb.cn/news/detail-433477.html

import jieba.posseg as pseg
import matplotlib.pyplot as plt
from collections import Counter
txt = open("晴天-周杰倫","r",encoding="utf-8").read()
words = pseg.lcut(txt)
word_list=[]
flag_list=[]
for word,flag in words:
    if(word!=' ')and(flag!='x'):
        word_list.append(word)
        flag_list.append(flag)
print(word_list)
print(flag_list)
word_dict = Counter(flag_list)
print(word_dict)
# 畫條狀圖
key_list = list(word_dict.keys())
value_list = list(word_dict.values())
plt.figure(figsize=(25, 30), dpi=100)  # 設(shè)置大小
plt.barh(key_list, value_list)  # 畫圖
plt.rcParams["font.sans-serif"] = ["SimHei"]  # 設(shè)置中文字體
plt.xlabel("數(shù)量")
plt.ylabel("詞性英文簡稱")
plt.title("評論詞頻統(tǒng)計")
plt.xticks([i for i in range(0, 301, 25)])
plt.savefig("詞性分析.png")  # 保存文件
plt.show()  # 畫圖'''

到了這里,關(guān)于Python文本數(shù)據(jù)及其可視化的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 大數(shù)據(jù)可視化——基于Python豆瓣電影數(shù)據(jù)可視化分析系統(tǒng)

    大數(shù)據(jù)可視化——基于Python豆瓣電影數(shù)據(jù)可視化分析系統(tǒng)

    本項目旨在通過對豆瓣電影數(shù)據(jù)進(jìn)行綜合分析與可視化展示,構(gòu)建一個基于Python的大數(shù)據(jù)可視化系統(tǒng)。通過數(shù)據(jù)爬取收集、清洗、分析豆瓣電影數(shù)據(jù),我們提供了一個全面的電影信息平臺,為用戶提供深入了解電影產(chǎn)業(yè)趨勢、影片評價與演員表現(xiàn)的工具。項目的關(guān)鍵步驟包括

    2024年01月21日
    瀏覽(49)
  • 81 | Python可視化篇 —— Seaborn數(shù)據(jù)可視化

    Seaborn是Python中一個基于Matplotlib的高級數(shù)據(jù)可視化庫,它提供了更簡單的API和更美觀的圖形樣式,適用于數(shù)據(jù)探索和展示。在本教程中,我們將介紹Seaborn的基本概念和用法,并通過一些示例演示如何使用Seaborn來創(chuàng)建各種圖表和圖形。

    2024年02月14日
    瀏覽(25)
  • 83 | Python可視化篇 —— Bokeh數(shù)據(jù)可視化

    Bokeh 是一種交互式數(shù)據(jù)可視化庫,它可以在 Python 中使用。它的設(shè)計目標(biāo)是提供一個簡單、靈活和強(qiáng)大的方式來創(chuàng)建現(xiàn)代數(shù)據(jù)可視化,同時保持良好的性能。Bokeh 支持多種圖表類型,包括線圖、散點(diǎn)圖、柱狀圖、餅圖、區(qū)域圖、熱力圖等。此外,它還支持將這些圖表組合在一

    2024年02月13日
    瀏覽(25)
  • Python-Python基礎(chǔ)綜合案例:數(shù)據(jù)可視化 - 折線圖可視化

    Python-Python基礎(chǔ)綜合案例:數(shù)據(jù)可視化 - 折線圖可視化

    當(dāng)前版本號[20230729]。 版本 修改說明 20230729 初版 效果一:2020年印美日新冠累計確診人數(shù) ? 2020年是新冠疫情爆發(fā)的一年, 隨著疫情的爆發(fā), 國內(nèi)外確診人數(shù)成了大家關(guān)心的熱點(diǎn), 相信大家都有看過類似的疫情報告. 本案例對印度美國日本三個國家確診人數(shù)的進(jìn)行了可視化處理

    2024年02月15日
    瀏覽(33)
  • Python大作業(yè)——爬蟲+可視化+數(shù)據(jù)分析+數(shù)據(jù)庫(可視化篇)

    Python大作業(yè)——爬蟲+可視化+數(shù)據(jù)分析+數(shù)據(jù)庫(可視化篇)

    相關(guān)鏈接 Python大作業(yè)——爬蟲+可視化+數(shù)據(jù)分析+數(shù)據(jù)庫(簡介篇) Python大作業(yè)——爬蟲+可視化+數(shù)據(jù)分析+數(shù)據(jù)庫(爬蟲篇) Python大作業(yè)——爬蟲+可視化+數(shù)據(jù)分析+數(shù)據(jù)庫(數(shù)據(jù)分析篇) Python大作業(yè)——爬蟲+可視化+數(shù)據(jù)分析+數(shù)據(jù)庫(數(shù)據(jù)庫篇) 由于該程序會通過與數(shù)據(jù)庫

    2024年02月04日
    瀏覽(54)
  • Python畢業(yè)設(shè)計 抖音短視頻數(shù)據(jù)分析與可視化 - python 大數(shù)據(jù) 可視化

    Python畢業(yè)設(shè)計 抖音短視頻數(shù)據(jù)分析與可視化 - python 大數(shù)據(jù) 可視化

    ?? 這兩年開始畢業(yè)設(shè)計和畢業(yè)答辯的要求和難度不斷提升,傳統(tǒng)的畢設(shè)題目缺少創(chuàng)新和亮點(diǎn),往往達(dá)不到畢業(yè)答辯的要求,這兩年不斷有學(xué)弟學(xué)妹告訴學(xué)長自己做的項目系統(tǒng)達(dá)不到老師的要求。 為了大家能夠順利以及最少的精力通過畢設(shè),學(xué)長分享優(yōu)質(zhì)畢業(yè)設(shè)計項目,今天

    2024年02月02日
    瀏覽(28)
  • 【python可視化大屏】使用python實(shí)現(xiàn)可拖拽數(shù)據(jù)可視化大屏

    【python可視化大屏】使用python實(shí)現(xiàn)可拖拽數(shù)據(jù)可視化大屏

    我在前幾期分享了關(guān)于爬取weibo評論的爬蟲,同時也分享了如何去進(jìn)行數(shù)據(jù)可視化的操作。但是之前的可視化都是單獨(dú)的,沒有辦法在一個界面上展示的。這樣一來呢,大家在看的時候其實(shí)是很不方便的,就是沒有辦法一目了然的看到數(shù)據(jù)的規(guī)律。為了解決這個問題我使用p

    2024年02月03日
    瀏覽(34)
  • [數(shù)據(jù)分析與可視化] Python繪制數(shù)據(jù)地圖2-GeoPandas地圖可視化

    本文主要介紹GeoPandas結(jié)合matplotlib實(shí)現(xiàn)地圖的基礎(chǔ)可視化。GeoPandas是一個Python開源項目,旨在提供豐富而簡單的地理空間數(shù)據(jù)處理接口。GeoPandas擴(kuò)展了Pandas的數(shù)據(jù)類型,并使用matplotlib進(jìn)行繪圖。GeoPandas官方倉庫地址為:GeoPandas。GeoPandas的官方文檔地址為:GeoPandas-doc。關(guān)于Geo

    2023年04月09日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包