国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【爬蟲案例】用Python爬取百度熱搜榜數(shù)據(jù)!

這篇具有很好參考價(jià)值的文章主要介紹了【爬蟲案例】用Python爬取百度熱搜榜數(shù)據(jù)!。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

目錄
  • 一、爬取目標(biāo)
  • 二、編寫爬蟲代碼
  • 三、同步視頻講解
  • 四、完整源碼

一、爬取目標(biāo)

您好,我是@馬哥python說,一名10年程序猿。

本次爬取的目標(biāo)是:百度熱搜榜
【爬蟲案例】用Python爬取百度熱搜榜數(shù)據(jù)!

分別爬取每條熱搜的:

熱搜標(biāo)題、熱搜排名、熱搜指數(shù)、描述、鏈接地址。

下面,對(duì)頁面進(jìn)行分析。
經(jīng)過分析,此頁面有XHR鏈接,可以針對(duì)接口進(jìn)行爬取。

打開Chrome瀏覽器,按F12進(jìn)入開發(fā)者模式,依次點(diǎn)擊:

  1. 點(diǎn)擊Network,選擇網(wǎng)絡(luò)
  2. 點(diǎn)擊XHR,選擇XHR請(qǐng)求
  3. 選擇目標(biāo)鏈接地址
  4. 擊Preview,選擇預(yù)覽
  5. 查看返回?cái)?shù)據(jù)

操作過程,如下圖所示:
【爬蟲案例】用Python爬取百度熱搜榜數(shù)據(jù)!

二、編寫爬蟲代碼

首先,導(dǎo)入需要用到的庫:

import requests  # 發(fā)送請(qǐng)求
import pandas as pd  # 存入excel數(shù)據(jù)

定義一個(gè)百度熱搜榜接口地址:

# 百度熱搜榜地址
url = 'https://top.baidu.com/api/board?platform=wise&tab=realtime'

構(gòu)造一個(gè)請(qǐng)求頭,偽裝爬蟲:

# 構(gòu)造請(qǐng)求頭
header = {
	'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36',
	'Host': 'top.baidu.com',
	'Accept': 'application/json, text/plain, */*',
	'Accept-Language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
	'Accept-Encoding': 'gzip, deflate, br',
	'Referer': 'https://top.baidu.com/board?tab=novel',
}

向百度頁面發(fā)送requests請(qǐng)求:

# 發(fā)送請(qǐng)求
r = requests.get(url, header)

返回的數(shù)據(jù)是json格式的,直接用r.json()接收:

# 用json格式接收請(qǐng)求數(shù)據(jù)
json_data = r.json()

這里,需要注意的是,頁面上有2種熱搜:

百度熱搜榜最上面一條是置頂熱搜,下面從1到30是普通熱搜,接口返回的數(shù)據(jù)也是區(qū)分開的:
【爬蟲案例】用Python爬取百度熱搜榜數(shù)據(jù)!
所以,爬蟲代碼需要分開處理邏輯:

置頂熱搜:

# 爬取置頂熱搜
top_content_list = json_data['data']['cards'][0]['topContent']

普通熱搜:

# 爬取普通熱搜
content_list = json_data['data']['cards'][0]['content']

然后再分別進(jìn)行json解析,對(duì)應(yīng)的字段(標(biāo)題、排名、熱搜指數(shù)、描述、鏈接地址)。
最后,保存結(jié)果數(shù)據(jù)到excel即可。

df = pd.DataFrame(  # 拼裝爬取到的數(shù)據(jù)為DataFrame
	{
		'熱搜標(biāo)題': title_list,
		'熱搜排名': order_list,
		'熱搜指數(shù)': score_list,
		'描述': desc_list,
		'鏈接地址': url_list
	}
)
df.to_excel('百度熱搜榜.xlsx', index=False)  # 保存結(jié)果數(shù)據(jù)

最后,查看一下爬取到的數(shù)據(jù):
【爬蟲案例】用Python爬取百度熱搜榜數(shù)據(jù)!

一共31條數(shù)據(jù)(1條置頂熱搜+30條普通熱搜)。
每條數(shù)據(jù)包含:熱搜標(biāo)題、熱搜排名、熱搜指數(shù)、描述、鏈接地址。

三、同步視頻講解

講解視頻:https://www.zhihu.com/zvideo/1490668062617161728

四、完整源碼

get完整源碼:【爬蟲案例】用Python爬取百度熱搜榜數(shù)據(jù)!


我是@馬哥python說,持續(xù)分享python源碼干貨中!文章來源地址http://www.zghlxwxcb.cn/news/detail-546680.html

到了這里,關(guān)于【爬蟲案例】用Python爬取百度熱搜榜數(shù)據(jù)!的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 屏蔽百度熱搜榜

    屏蔽百度熱搜榜

    電腦上網(wǎng)查詢資料或者問題時(shí),百度熱搜榜緊貼著搜索結(jié)果,且占了將近一半的頁面,此時(shí)注意力很容易被分散,有時(shí)候點(diǎn)幾個(gè)吸引人的熱搜后就忘了一開始要做的事情。因此,屏蔽百度熱搜榜很有必要。但是百度設(shè)置是不能關(guān)閉熱搜榜的,所以我們需要借助一些插件來實(shí)現(xiàn)

    2024年02月07日
    瀏覽(17)
  • 【python】爬取百度熱搜排行榜Top50+可視化【附源碼】【送數(shù)據(jù)分析書籍】

    【python】爬取百度熱搜排行榜Top50+可視化【附源碼】【送數(shù)據(jù)分析書籍】

    ??? 這篇博客將介紹如何使用Python編寫一個(gè)爬蟲程序,從斗魚直播網(wǎng)站上獲取圖片信息并保存到本地。我們將使用 request s 模塊發(fā)送HTTP請(qǐng)求和接收響應(yīng),以及 os 模塊處理文件和目錄操作。 ??????? 如果出現(xiàn)模塊報(bào)錯(cuò) ??????? 進(jìn)入控制臺(tái)輸入:建議使用國內(nèi)鏡像源 ???

    2024年02月03日
    瀏覽(51)
  • 【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)!

    【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)!

    目錄 一、爬取目標(biāo) 二、編寫爬蟲代碼 三、同步講解視頻 3.1 代碼演示視頻 四、獲取完整源碼 您好,我是@馬哥python說,一名10年程序猿。 本次爬取的目標(biāo)是:抖音熱榜 共爬取到50條數(shù)據(jù),對(duì)應(yīng)TOP50熱榜。含5個(gè)字段,分別是: 熱榜排名,熱榜標(biāo)題,熱榜時(shí)間,熱度值,熱榜標(biāo)簽。

    2024年02月16日
    瀏覽(26)
  • 【爬蟲案例】用Python爬取知乎熱榜數(shù)據(jù)!

    【爬蟲案例】用Python爬取知乎熱榜數(shù)據(jù)!

    目錄 一、爬取目標(biāo) 二、編寫爬蟲代碼 三、同步講解視頻 3.1 代碼演示視頻 3.2 詳細(xì)講解視頻 四、獲取完整源碼 您好,我是@馬哥python說,一名10年程序猿。 本次爬取的目標(biāo)是:知乎熱榜 共爬取到6個(gè)字段,包含: 熱榜排名, 熱榜標(biāo)題, 熱榜鏈接, 熱度值, 回答數(shù), 熱榜描述。 用

    2024年02月15日
    瀏覽(27)
  • 〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)?〗- Ajax數(shù)據(jù)爬取之Ajax 分析案例

    訂閱:新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+ ????????????????python項(xiàng)目實(shí)戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列(零基礎(chǔ)小白搬磚逆襲) 說明:本專欄持續(xù)更新中,目前專欄免費(fèi)訂閱,在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的,可以免費(fèi)訂閱付費(fèi)專欄,

    2024年02月07日
    瀏覽(55)
  • 〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)?〗- Ajax數(shù)據(jù)爬取之Ajax 案例實(shí)戰(zhàn)

    訂閱:新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+ ????????????????python項(xiàng)目實(shí)戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列(零基礎(chǔ)小白搬磚逆襲) 說明:本專欄持續(xù)更新中,目前專欄免費(fèi)訂閱,在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的,可以免費(fèi)訂閱付費(fèi)專欄,

    2024年02月06日
    瀏覽(59)
  • Python爬蟲-爬取百度搜索結(jié)果頁的網(wǎng)頁標(biāo)題及其真實(shí)網(wǎng)址

    Python爬蟲-爬取百度搜索結(jié)果頁的網(wǎng)頁標(biāo)題及其真實(shí)網(wǎng)址

    cmd命令行輸入安裝requests庫:pip3 install -i https://pypi.douban.com/simple requests 安裝bs4庫:pip3 install -i https://pypi.douban.com/simple beautifulsoup4 ? https://wwuw.lanzouj.com/i1Au51a0312d 解壓文件后,需按照解壓包內(nèi)教程裝載Cookie即可使用。 本py腳本文件較符合有需求者使用,更適合python爬蟲初學(xué)者

    2024年02月08日
    瀏覽(23)
  • python爬蟲如何寫,有哪些成功爬取的案例

    編寫Python爬蟲時(shí),常用的庫包括Requests、Beautiful Soup和Scrapy。以下是三個(gè)簡(jiǎn)單的Python爬蟲案例,分別使用Requests和Beautiful Soup,以及Scrapy。 1. 使用Requests和Beautiful Soup爬取網(wǎng)頁內(nèi)容: 2. 使用Requests和正則表達(dá)式爬取圖片: 3. 使用Scrapy爬取網(wǎng)站: 首先,確保已安裝Scrapy: 創(chuàng)建一個(gè)

    2024年01月19日
    瀏覽(30)
  • Python爬蟲:一個(gè)爬取豆瓣電影人像的小案例

    Python爬蟲:一個(gè)爬取豆瓣電影人像的小案例

    從谷歌瀏覽器的開發(fā)工具進(jìn)入 選擇圖片右鍵點(diǎn)擊檢查 翻頁之后發(fā)現(xiàn)網(wǎng)址變化的只有start數(shù)值,每次變化值為30 Python代碼 把爬取的圖片全部放到新建的文件夾中存放

    2024年02月10日
    瀏覽(88)
  • 爬蟲案例—京東數(shù)據(jù)爬取、數(shù)據(jù)處理及數(shù)據(jù)可視化(效果+代碼)

    爬蟲案例—京東數(shù)據(jù)爬取、數(shù)據(jù)處理及數(shù)據(jù)可視化(效果+代碼)

    ????????使用PyCharm(引用requests庫、lxml庫、json庫、time庫、openpyxl庫和pymysql庫)爬取京東網(wǎng)頁相關(guān)數(shù)據(jù)(品牌、標(biāo)題、價(jià)格、店鋪等) 數(shù)據(jù)展示(片段): ????????京東網(wǎng)頁有反爬措施,需要自己在網(wǎng)頁登錄后,獲取cookie,加到請(qǐng)求的header中(必要時(shí)引入time庫,設(shè)置爬取

    2024年02月09日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包