国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

爬取微博熱搜榜并進行數(shù)據(jù)分析

2年前作者：老虎也淘氣分類：Toy博客閱讀(29)違法舉報

這篇具有很好參考價值的文章主要介紹了爬取微博熱搜榜并進行數(shù)據(jù)分析。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

設計方案

爬蟲爬取的內(nèi)容

：爬取微博熱搜榜數(shù)據(jù)。

網(wǎng)絡爬蟲設計方案概述

用requests庫訪問頁面用get方法獲取頁面資源，登錄頁面對頁面HTML進行分析，用beautifulsoup庫獲取并提取自己所需要的信息。再講數(shù)據(jù)保存到CSV文件中，進行數(shù)據(jù)清洗，數(shù)據(jù)可視化分析，繪制數(shù)據(jù)圖表，并用最小二乘法進行擬合分析。

主題頁面的結(jié)構(gòu)特征分析

1.主題頁面的結(jié)構(gòu)與特征分析

:通過觀察頁面HTML源代碼，可以發(fā)現(xiàn)每個熱搜名稱的標題都位于"td",class_='td-02’標簽的子標簽中，熱度和排名則分布在"td",class_='td-03’和"td",class_='td-01’標簽中，他們的關系是 class>a>span。按照標簽的從屬關系可從標簽中遍歷出我們所需要的內(nèi)容。

2.Htmls頁面解析

通過頁面定位分析發(fā)現(xiàn)這是標題所在標簽位置，td",class_='td-02“的子標簽a 中，我們可以通過find all 函數(shù)來提取我們所需要的標題信息
爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
繼續(xù)審查頁面元素發(fā)現(xiàn)熱度和排名所在的標簽位置，查到所需要的內(nèi)容的標簽位置后，就可以開始編寫爬蟲程序了
爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘

三、網(wǎng)絡爬蟲程序設計

1.數(shù)據(jù)爬取與采集

import requests
from bs4 import BeautifulSoup
import bs4
#定義函數(shù)第一步從網(wǎng)絡上獲取熱搜排名網(wǎng)頁內(nèi)容
url = "https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"
def getHTMLText(url):
    try:
        #設置表頭信息
        kv={"User-Agent":"Mozilla/5.0"} 
        r = requests.get(url, headers=kv, timeout=30)  #請求時間30s
        # 解決亂碼問題
        r.raise_for_status() 
        r.encoding=r.apparent_encoding  #修改編碼方式
        return r.text
    except:
        return ""  #若出現(xiàn)異常則會返回空字符串
#使用BeautifulSoup工具解析頁面
html = getHTMLText(url)
soup=BeautifulSoup(html,'html.parser')
# 爬取熱搜名字
sou = soup.find_all("td",class_='td-02')
#創(chuàng)立空列表 把熱搜名字數(shù)據(jù)填入
name = []
for x in sou:
    name.append(x.a.string)
# 獲取熱度排名 
# 同理創(chuàng)立空列表
paiming = []
top = soup.find_all('span')
for y in top:
    paiming.append(y.string)
#用字符串格式化輸出數(shù)據(jù)
print('{:^40}'.format('微博熱搜'))
print('{:^15}\t{:^25}\t{:^40}'.format('排名', '熱搜內(nèi)容', '熱度'))
list = []
#輸出數(shù)據(jù)的前20條
for i in range(21):
    print('{:^15}\t{:^25}\t{:^40}'.format(i+1, name[i], paiming[i]))
    list.append([i+1,name[i],paiming[i]])
#用pandas對數(shù)據(jù)進行儲存，并生成文件
df= pd.DataFrame(list,columns = ['排名','熱搜內(nèi)容','熱度'])
df.to_csv('resou.csv')

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
生成文件

2.對數(shù)據(jù)進行清洗和處理

讀取文件


df = pd.DataFrame(pd.read_csv('resou.csv'))
#輸出信息
print(df)

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
開始進行數(shù)據(jù)清洗
刪除無效列與行


df.drop('熱搜內(nèi)容', axis=1, inplace = True)
df.head() #輸出數(shù)據(jù)前五行

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
檢查是否有重復值


df.duplicated()

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
檢查是否有空值


print(df['熱度'].isnull().value_counts())
#若有則刪除缺失值
df[df.isnull().values==True]
df.corr()

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
將數(shù)據(jù)統(tǒng)計信息打印出來

df.describe()

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘

3.數(shù)據(jù)分析與可視化

繼續(xù)數(shù)據(jù)分析與可視化
構(gòu)建線性回歸預測模型


from sklearn.linear_model import LinearRegression
X = df.drop("熱度", axis = 1)
predict_model = LinearRegression()
predict_model.fit(X, df['排名'])    #訓練模型
print("回歸系數(shù)為：", predict_model.coef_)   # 判斷相關性

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
繪制散點圖


import matplotlib.pyplot as plt
from scipy.optimize import leastsq
import numpy as np
%matplotlib inline  
排名 = (df["排名"])
熱度 = (df["熱度"])
plt.rcParams['font.sans-serif']=['SimHei'] #用于正常顯示中文標簽
plt.figure(figsize=(8,5))
plt.scatter(排名,熱度,color=[0,0,1,0.4],label=u"樣本數(shù)據(jù)",linewidth=2)  #顏色用RGB值
plt.title("排名 scatter",color="blue")
plt.xlabel("排名")
plt.ylabel("熱度")
plt.legend()
plt.grid()
plt.show()

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
回歸散點圖


import seaborn as sns
sns.regplot(df.排名,df.熱度)
plt.title('排名熱度回歸散點圖')

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
繪制柱狀圖


plt.figure()
x=np.arange(0,20)
y=df.loc['1':'20','熱度']  #選取畫圖數(shù)據(jù)范圍
plt.bar(x, y,color='c',alpha=0.5) #增加透明度 使圖更加美觀
plt.xlabel('排名')
plt.ylabel('熱度')
plt.title("熱搜數(shù)據(jù)")
plt.show()

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
繪制折線圖


plt.figure()
plt.rcParams['font.sans-serif']=['SimHei'] #用來正常顯示中文標簽
x=np.arange(0,20)
y=df.loc['1':'20','熱度']  #選取畫圖數(shù)據(jù)范圍
plt.plot(x, y,'r-o',color='blue')
plt.xlabel('排名')
plt.ylabel('熱度')
plt.title("熱搜數(shù)據(jù)")
plt.show()

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
繪制盒圖


def box():
    plt.title('熱度與排名盒圖')
    sns.boxplot(x='排名',y='熱度', data=df)
box()

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
用Seaborn繪制各種分布圖


import seaborn as sns
sns.jointplot(x="排名",y='熱度',data = df, kind='kde', color='r')
sns.jointplot(x="排名",y='熱度',data = df, kind='hex')
sns.distplot(df['熱度'])

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
繪制單核密度圖


sns.kdeplot(df['熱度'])

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘
繪制排名與熱度的回歸圖


sns.regplot(df.排名,df.熱度)

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘

4…根據(jù)排名與熱度數(shù)據(jù)之間的關系，分析兩個變量擬合一元二次曲線，建立變量之間的回歸方程

# 用最小二乘法得出一元二次擬合方程
import numpy as np
from numpy import genfromtxt
import scipy as sp
import matplotlib.pyplot as plt
from scipy.optimize import leastsq
plt.figure(figsize=(13,6))
plt.scatter(排名,熱度,color=[0,0,0.8,0.4],label=u"樣本數(shù)據(jù)",linewidth=2)
plt.xlabel("排名")
plt.ylabel("熱度")
plt.legend()
def func(p,x):
    a,b,c=p
    return a*(x**2)+(b*x)+c
def er_func(p,x,y):
    return func(p,x)-y
p0=[2,3,4]
P=leastsq(er_func,p0,args=(排名,熱度))
a,b,c=P[0]
x=np.linspace(0,55,100)
y=a*(x**2)+(b*x)+c
plt.plot(x,y,color=[0,0,0.8,0.4],label=u"擬合直線",linewidth=2)
plt.scatter(x,y,color="c",label=u"樣本數(shù)據(jù)",linewidth=2)
plt.legend()
plt.title('排名熱度回歸曲線')
plt.grid()
plt.show()

爬取微博熱搜榜并進行數(shù)據(jù)分析,數(shù)據(jù)分析項目,數(shù)據(jù)分析,信息可視化,數(shù)據(jù)挖掘

5.完整程序代碼

import requests
from bs4 import BeautifulSoup
import bs4
import pandas as pd   #引入pandas用于數(shù)據(jù)可視化
from pandas import DataFrame
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import leastsq
from sklearn.linear_model import LinearRegression
#定義函數(shù)第一步從網(wǎng)絡上獲取熱搜排名網(wǎng)頁內(nèi)容
url = "https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"
def getHTMLText(url):
    try:
        #設置表頭信息
        kv={"User-Agent":"Mozilla/5.0"} 
        r = requests.get(url, headers=kv, timeout=30)  #請求時間30s
        # 解決亂碼問題
        r.raise_for_status() 
        r.encoding=r.apparent_encoding  #修改編碼方式
        return r.text
    except:
        return ""  #若出現(xiàn)異常則會返回空字符串


#使用BeautifulSoup工具解析頁面
html = getHTMLText(url)
soup=BeautifulSoup(html,'html.parser')


# 爬取熱搜名字
sou = soup.find_all("td",class_='td-02')


#創(chuàng)立空列表 把熱搜名字數(shù)據(jù)填入
name = []
for x in sou:
    name.append(x.a.string)


# 獲取熱度排名 
# 同理創(chuàng)立空列表
paiming = []
top = soup.find_all('span')
for y in top:
    paiming.append(y.string)


#用字符串格式化輸出數(shù)據(jù)
print('{:^40}'.format('微博熱搜'))
print('{:^15}\t{:^25}\t{:^40}'.format('排名', '熱搜內(nèi)容', '熱度'))
list = []


#輸出數(shù)據(jù)的前20條
for i in range(21):
    print('{:^15}\t{:^25}\t{:^40}'.format(i+1, name[i], paiming[i]))
    list.append([i+1,name[i],paiming[i]])


#用pandas對數(shù)據(jù)進行儲存，并生成文件
df= pd.DataFrame(list,columns = ['排名','熱搜內(nèi)容','熱度'])
df.to_csv('resou.csv')


#讀取文件
df = pd.DataFrame(pd.read_csv('resou.csv'))
#輸出信息
print(df)


#開始進行數(shù)據(jù)清洗
#刪除無效列與行
df.drop('熱搜內(nèi)容', axis=1, inplace = True)
df.head() #輸出數(shù)據(jù)前五行



#檢查是否有重復值
df.duplicated()   


#檢查是否有空值
print(df['熱度'].isnull().value_counts())
#若有則刪除缺失值
df[df.isnull().values==True]
df.corr()


# 將數(shù)據(jù)統(tǒng)計信息打印出來
df.describe()


#進行數(shù)據(jù)分析與可視化
X = df.drop("熱度", axis = 1)
predict_model = LinearRegression()
predict_model.fit(X, df['排名'])    #訓練模型
print("回歸系數(shù)為：", predict_model.coef_)   # 判斷相關性



#繪制散點圖
import matplotlib.pyplot as plt
from scipy.optimize import leastsq
import numpy as np
%matplotlib inline  
排名 = (df["排名"])
熱度 = (df["熱度"])
plt.rcParams['font.sans-serif']=['SimHei'] #用于正常顯示中文標簽
plt.figure(figsize=(8,5))
plt.scatter(排名,熱度,color=[0,0,1,0.4],label=u"樣本數(shù)據(jù)",linewidth=2)  #顏色用RGB值
plt.title("排名 scatter",color="blue")
plt.xlabel("排名")
plt.ylabel("熱度")
plt.legend()
plt.grid()
plt.show()


#回歸散點圖
import seaborn as sns
sns.regplot(df.排名,df.熱度)
plt.title('排名熱度回歸散點圖')


#繪制柱狀圖
plt.figure()
x=np.arange(0,20)
y=df.loc['1':'20','熱度']  #選取畫圖數(shù)據(jù)范圍
plt.bar(x, y,color='c',alpha=0.5) #增加透明度 使圖更加美觀
plt.xlabel('排名')
plt.ylabel('熱度')
plt.title("熱搜數(shù)據(jù)")
plt.show()


# 繪制折線圖
plt.figure()
plt.rcParams['font.sans-serif']=['SimHei'] #用來正常顯示中文標簽
x=np.arange(0,20)
y=df.loc['1':'20','熱度']  #選取畫圖數(shù)據(jù)范圍
plt.plot(x, y,'r-o',color='blue')
plt.xlabel('排名')
plt.ylabel('熱度')
plt.title("熱搜數(shù)據(jù)")
plt.show()


#繪制盒圖
def box():
    plt.title('熱度與排名盒圖')
    sns.boxplot(x='排名',y='熱度', data=df)
box()


#用Seaborn繪制各種分布圖
sns.jointplot(x="排名",y='熱度',data = df, kind='kde', color='r')
sns.jointplot(x="排名",y='熱度',data = df, kind='hex')
sns.distplot(df['熱度'])


# 繪制單核密度圖
sns.kdeplot(df['熱度'])


#繪制排名與熱度的回歸圖
sns.regplot(df.排名,df.熱度)


# 用最小二乘法得出一元二次擬合方程
plt.figure(figsize=(13,6))
plt.scatter(排名,熱度,color=[0,0,0.8,0.4],label=u"樣本數(shù)據(jù)",linewidth=2)
plt.xlabel("排名")
plt.ylabel("熱度")
plt.legend()
def func(p,x):
    a,b,c=p
    return a*(x**2)+(b*x)+c
def er_func(p,x,y):
    return func(p,x)-y
p0=[2,3,4]
P=leastsq(er_func,p0,args=(排名,熱度))
a,b,c=P[0]
x=np.linspace(0,55,100)
y=a*(x**2)+(b*x)+c
plt.plot(x,y,color=[0,0,0.8,0.4],label=u"擬合直線",linewidth=2)
plt.scatter(x,y,color="c",label=u"樣本數(shù)據(jù)",linewidth=2)
plt.legend()
plt.title('排名熱度回歸曲線')
plt.grid()
plt.show()

四、結(jié)論

1.通過對熱搜主題的數(shù)據(jù)分析與可視化的回歸曲線可以看出熱度和排名是成正相關的，數(shù)據(jù)的可視化與圖表可以清晰明了的將數(shù)據(jù)的關系體現(xiàn)出來，讓我們直觀的了解熱度和排名的變化。

2.此次程序設計對于我來還是有難度的，初期對HTML頁面的不熟悉，我不斷的去查閱資料和視頻一次次的去解決，通過這次設計我了解學習了BeautifulSoup庫的使用，BeautifulSoup庫在用于HTML解析和提取相關信息方面是非常厲害的，BeautifulSoup庫的學習對以后的爬蟲設計上很有幫助文章來源地址http://www.zghlxwxcb.cn/news/detail-609295.html

到了這里，關于爬取微博熱搜榜并進行數(shù)據(jù)分析的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

Python爬蟲—爬取微博評論數(shù)據(jù)
今日，分享編寫Python爬蟲程序來實現(xiàn)微博評論數(shù)據(jù)的下載。具體步驟如下??????： Step1 ：電腦訪問手機端微博_https://m.weibo.cn/_ Step2 ：打開一條微博_https://m.weibo.cn/detail/4907031376694279_ Step3 ：URL地址中的_49070__31376694279_就是需要爬取的微博ID Step4 ：將ID填寫到_main_下即可，也支
2024年03月21日
瀏覽(17)
Python爬蟲 | 爬取微博和嗶哩嗶哩數(shù)據(jù)
目錄一、bill_comment.py 二、bili_comment_pic.py 三、bilibili.py 四、bilihot_pic.py 五、bilisearch_pic.py 六、draw_cloud.py 七、weibo.py 八、weibo_comment.py 九、weibo_comment_pic.py 十、weibo_pic.py 十一、weibo_top.py 十二、weibo_top_pic.py 十三、weibo_top_pie.py 十四、pachong.py 十五、代碼文件說明 pachong： b站、
2024年02月12日
瀏覽(25)
六個步驟學會使用Python爬蟲爬取數(shù)據(jù)(爬蟲爬取微博實戰(zhàn))
用python的爬蟲爬取數(shù)據(jù)真的很簡單，只要掌握這六步就好，也不復雜。以前還以為爬蟲很難，結(jié)果一上手，從初學到把東西爬下來，一個小時都不到就解決了。第一步：安裝requests庫和BeautifulSoup庫在程序中兩個庫的書寫是這樣的：由于我使用的是pycharm進行的python編程。所以
2024年02月08日
瀏覽(88)
【爬蟲實戰(zhàn)】用python爬取微博任意關鍵詞搜索結(jié)果、exe文件
項目功能簡介： 1.交互式配置； 2.兩種任意來源（直接輸入、本地文件）； 3.自動翻頁(無限爬取)； 4.指定最大翻頁頁碼； 5.數(shù)據(jù)保存到csv文件； 6.程序支持打包成exe文件； 7.項目操作說明文檔；一.最終效果視頻演示：用python爬取微博搜索結(jié)果、exe文件
2024年02月02日
瀏覽(28)
【爬蟲、數(shù)據(jù)可視化實戰(zhàn)】以“人口”話題為例爬取實時微博數(shù)據(jù)并進行輿情分析
近期在weibo上討論的比較熱的話題無非就是“人口”了。TaoTao也看了一些大家發(fā)的內(nèi)容。但是感覺單純的看文字內(nèi)容不能很直觀的反應出來大家的關切。索性就使用爬蟲對數(shù)據(jù)進行爬取，同時結(jié)合著數(shù)據(jù)可視化的方式讓數(shù)據(jù)自己開口說話。那么接下來就讓我們使用技術進行分
2024年01月23日
瀏覽(27)
用python語言爬蟲爬取微博評論--上--初步爬蟲(超詳細版，大學生不騙大學生)
目錄一、找到頁面 ?二、學會使用檢查元素 2.1 打開檢查元素界面 2.2 找到所有評論所在的位置 2.2.1 搜索評論 2.2.2 ?找到data表三、基礎部分代碼實現(xiàn)???????? 全部已經(jīng)更完（下面兩個鏈接是中和下） https://blog.csdn.net/m0_68325382/article/details/137234661?spm=1001.2014.3001.5502 爬
2024年04月10日
瀏覽(34)
屏蔽百度熱搜榜
電腦上網(wǎng)查詢資料或者問題時，百度熱搜榜緊貼著搜索結(jié)果，且占了將近一半的頁面，此時注意力很容易被分散，有時候點幾個吸引人的熱搜后就忘了一開始要做的事情。因此，屏蔽百度熱搜榜很有必要。但是百度設置是不能關閉熱搜榜的，所以我們需要借助一些插件來實現(xiàn)
2024年02月07日
瀏覽(16)
【python】爬取百度熱搜排行榜Top50+可視化【附源碼】【送數(shù)據(jù)分析書籍】
??? 這篇博客將介紹如何使用Python編寫一個爬蟲程序，從斗魚直播網(wǎng)站上獲取圖片信息并保存到本地。我們將使用 request s 模塊發(fā)送HTTP請求和接收響應，以及 os 模塊處理文件和目錄操作。 ??????? 如果出現(xiàn)模塊報錯 ??????? 進入控制臺輸入：建議使用國內(nèi)鏡像源 ???
2024年02月03日
瀏覽(51)
Python|30行代碼實現(xiàn)微博熱榜爬蟲（及可視化進階）
當你想要跟蹤微博的熱門話題時，通過編寫一個Python爬蟲，來獲取微博熱搜榜單上的實時數(shù)據(jù)，并將其可視化展示出來，通過郵件或QQ機器人將其推送，亦可以將其存檔，用以保留不同時期的輿論熱點。此外，排行榜項目一向是學習Python爬蟲時必備的練手項目，通過本項目，
2024年02月05日
瀏覽(25)
【可視化大屏】用Python開發(fā)「淄博燒烤」微博熱評輿情分析大屏
目錄一、開發(fā)背景二、爬蟲代碼 2.1 爬微博列表 2.2 爬微博評論 2.3 導入MySQL數(shù)據(jù)庫三、可視化代碼 3.1 大標題 3.2 詞云圖（含：加載停用詞） 3.3 玫瑰圖（含：snownlp情感分析） 3.4 柱形圖-TOP10 3.5 折線圖-討論熱度趨勢 3.6 地圖-IP分布 3.7 Page組合大屏四、彩蛋-多種顏色主
2024年02月08日
瀏覽(24)