国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【爬蟲實戰(zhàn)】用python爬今日頭條熱榜TOP50榜單!

這篇具有很好參考價值的文章主要介紹了【爬蟲實戰(zhàn)】用python爬今日頭條熱榜TOP50榜單!。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

目錄
  • 一、爬取目標
  • 二、爬取結(jié)果
  • 三、代碼講解
  • 四、技術(shù)總結(jié)
  • 五、演示視頻
  • 六、附完整源碼

一、爬取目標

您好!我是@馬哥python說,一名10年程序猿。

今天分享一期爬蟲案例,爬取的目標是:今日頭條熱榜的榜單數(shù)據(jù)。

打開今日頭條 首頁,在頁面右側(cè)會看到頭條熱榜,如下:
【爬蟲實戰(zhàn)】用python爬今日頭條熱榜TOP50榜單!

爬取以上6個關(guān)鍵字段,含:

熱榜排名,熱榜標題,熱度值,熱榜標簽,熱榜分類,熱榜鏈接。

開發(fā)者模式分析:
【爬蟲實戰(zhàn)】用python爬今日頭條熱榜TOP50榜單!

二、爬取結(jié)果

爬取結(jié)果截圖:
【爬蟲實戰(zhàn)】用python爬今日頭條熱榜TOP50榜單!

三、代碼講解

首先,導(dǎo)入需要用到的庫:

import requests
import pandas as pd
import re

定義一個請求頭:(爬取目標較簡單,一個User-agent即可)

# 請求頭
h1 = {
	'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Safari/605.1.15',
}

定義請求地址:

url = 'https://www.toutiao.com/hot-event/hot-board/?origin=toutiao_pc'

用requests發(fā)送請求:

# 發(fā)送請求
response = requests.get(url, headers=h1)

查看響應(yīng)碼并以json方式接收返回數(shù)據(jù):

# 查看響應(yīng)碼
print(r.status_code)
# 接收返回數(shù)據(jù)
json_data = r.json()

定義一些空列表,用于存放數(shù)據(jù):

title_list = []  # 熱榜標題
value_list = []  # 熱度值
url_list = []  # 熱榜鏈接
category_list = []  # 熱榜分類
label_list = []  # 熱榜標簽

以"熱榜標題"字段為例:

for data in json_data['data']:
	# 熱榜標題
	title = data['Title']
	print('熱榜標題:', title)
	title_list.append(title)

其中,熱榜鏈接比較特殊,接口中返回的url很長,形如:
【爬蟲實戰(zhàn)】用python爬今日頭條熱榜TOP50榜單!

可以看到,url中從?往后,都是不必要的請求參數(shù)。

所以,用正則表達式把?后面的全部刪掉,提取出id,再進行拼接url,如下:

# 正則表達式提取出鏈接id
url3 = re.search(r"(?<=https:\/\/www\.toutiao\.com\/trending\/)\d+", url2).group(0)
# 拼接鏈接
url4 = 'https://www.toutiao.com/trending/' + str(url3)

最后,把所有字段存放的列表數(shù)據(jù)組成Dataframe格式:

# 把列表數(shù)據(jù)組裝成Dataframe數(shù)據(jù)
df = pd.DataFrame(
	{
		'熱榜排名': range(1, data_num + 1),  # 一共50條
		'熱榜標題': title_list,
		'熱度值': value_list,
		'熱榜標簽': label_list,
		'熱榜分類': category_list,
		'熱榜鏈接': url_list,
	}
)

進一步保存到csv文件里:

# 保存到csv文件
df.to_csv(result_file, header=True, index=False, encoding='utf_8_sig')

以上,核心邏輯講解完畢。

代碼中還含有:解析熱度值、熱榜標簽、熱榜分類、熱榜鏈接字段等,詳見文末完整代碼。

四、技術(shù)總結(jié)

爬取技術(shù)流程:

  1. requests 發(fā)送請求
  2. json 解析數(shù)據(jù)
  3. re 正則表達式提取文本
  4. pandas 保存csv

五、演示視頻

演示視頻:代碼演示:用python爬頭條熱榜TOP50榜單!

六、附完整源碼

本案例完整源碼已上傳微信公眾號"老男孩的平凡之路",后臺回復(fù)"爬頭條熱榜"即可獲取。 點擊直達:點這里


我是@馬哥python說,一名10年程序猿,持續(xù)分享python干貨中!文章來源地址http://www.zghlxwxcb.cn/news/detail-712101.html

到了這里,關(guān)于【爬蟲實戰(zhàn)】用python爬今日頭條熱榜TOP50榜單!的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Python爬蟲實戰(zhàn)系列:如何爬取某乎熱搜榜單

    Python爬蟲實戰(zhàn)系列:如何爬取某乎熱搜榜單

    本篇文章將帶你通過Python爬蟲實戰(zhàn),學習如何爬取某乎平臺的熱搜榜單。

    2024年02月11日
    瀏覽(20)
  • 【python爬蟲實戰(zhàn)】用python爬取愛奇藝電視劇十大榜單的全部數(shù)據(jù)!

    【python爬蟲實戰(zhàn)】用python爬取愛奇藝電視劇十大榜單的全部數(shù)據(jù)!

    目錄 一、爬取目標 二、講解代碼 三、查看結(jié)果 四、視頻演示 五、附完整源碼 本次爬取的目標是,愛奇藝電視劇類目下的10個榜單:電視劇風云榜-愛奇藝風云榜 ? 可以看到,這10個榜單包含了: 熱播榜、飆升榜、必看榜、古裝榜、言情榜、都市榜、搞笑榜、年代榜、懸疑

    2024年02月08日
    瀏覽(94)
  • 【Python-爬蟲實戰(zhàn)01】top250獲取

    【Python-爬蟲實戰(zhàn)01】top250獲取

    網(wǎng)絡(luò)爬蟲是一種獲取互聯(lián)網(wǎng)上數(shù)據(jù)的方法,但在實際應(yīng)用中,需要注意網(wǎng)站可能采取的反爬蟲策略。本文將介紹如何使用Python爬取xx電影Top250的數(shù)據(jù),并探討一些常見的反爬蟲策略及應(yīng)對方法。 1. 導(dǎo)入庫 首先,需要導(dǎo)入 requests 庫和 BeautifulSoup 庫,以及 csv 庫。 requests庫用于訪

    2024年02月12日
    瀏覽(20)
  • 爬蟲實戰(zhàn):探索XPath爬蟲技巧之熱榜新聞

    爬蟲實戰(zhàn):探索XPath爬蟲技巧之熱榜新聞

    之前我們已經(jīng)詳細討論了如何使用BeautifulSoup這個強大的工具來解析HTML頁面,另外還介紹了利用在線工具來抓取HTTP請求以獲取數(shù)據(jù)的方法。在今天的學習中,我們將繼續(xù)探討另一種常見的網(wǎng)絡(luò)爬蟲技巧:XPath。XPath是一種用于定位和選擇XML文檔中特定部分的語言,雖然它最初是

    2024年03月21日
    瀏覽(20)
  • 大戰(zhàn)谷歌!微軟Bing引入ChatGPT;羊了個羊高·薪招納技術(shù)人才;Debian徹底移除Python2;GitHub今日熱榜 | ShowMeAI資訊日報

    大戰(zhàn)谷歌!微軟Bing引入ChatGPT;羊了個羊高·薪招納技術(shù)人才;Debian徹底移除Python2;GitHub今日熱榜 | ShowMeAI資訊日報

    ?? 日報合輯 | ?? AI應(yīng)用與工具大全 | ?? 公眾號資料下載 | ?? @韓信子 微軟計劃2023年3月底之前推出 Bing 搜索引擎的新版本, 使用 ChatGPT 為一些搜索查詢提供答案,不再僅僅顯示鏈接列表 。微軟希望,這項更新將幫助它超越搜索領(lǐng)域的競爭對手 Google。 2019年7月,OpenAI 獲得

    2024年02月02日
    瀏覽(21)
  • 【Python爬蟲】CSDN熱榜文章熱門詞匯分析

    【Python爬蟲】CSDN熱榜文章熱門詞匯分析

    在信息時代,我們經(jīng)常需要從大量的文章中獲取有用的信息。本文將介紹如何使用Python進行數(shù)據(jù)處理,獲取熱榜文章的標題和標簽,并使用jieba庫進行數(shù)據(jù)分析。通過本文的學習,你將掌握獲取和分析熱榜文章數(shù)據(jù)的技巧。 先上看看效果: 在開始編寫代碼之前,我們需要進行

    2024年02月16日
    瀏覽(15)
  • 【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)!

    【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)!

    目錄 一、爬取目標 二、編寫爬蟲代碼 三、同步講解視頻 3.1 代碼演示視頻 四、獲取完整源碼 您好,我是@馬哥python說,一名10年程序猿。 本次爬取的目標是:抖音熱榜 共爬取到50條數(shù)據(jù),對應(yīng)TOP50熱榜。含5個字段,分別是: 熱榜排名,熱榜標題,熱榜時間,熱度值,熱榜標簽。

    2024年02月16日
    瀏覽(26)
  • 【爬蟲案例】用Python爬取知乎熱榜數(shù)據(jù)!

    【爬蟲案例】用Python爬取知乎熱榜數(shù)據(jù)!

    目錄 一、爬取目標 二、編寫爬蟲代碼 三、同步講解視頻 3.1 代碼演示視頻 3.2 詳細講解視頻 四、獲取完整源碼 您好,我是@馬哥python說,一名10年程序猿。 本次爬取的目標是:知乎熱榜 共爬取到6個字段,包含: 熱榜排名, 熱榜標題, 熱榜鏈接, 熱度值, 回答數(shù), 熱榜描述。 用

    2024年02月15日
    瀏覽(27)
  • 今日頭條小程序是什么

    今日頭條小程序是什么

    今日頭條小程序是什么

    2024年02月14日
    瀏覽(16)
  • Python|30行代碼實現(xiàn)微博熱榜爬蟲(及可視化進階)

    Python|30行代碼實現(xiàn)微博熱榜爬蟲(及可視化進階)

    當你想要跟蹤微博的熱門話題時,通過編寫一個Python爬蟲,來獲取微博熱搜榜單上的實時數(shù)據(jù),并將其可視化展示出來,通過郵件或QQ機器人將其推送,亦可以將其存檔,用以保留不同時期的輿論熱點。 此外,排行榜項目一向是學習Python爬蟲時必備的練手項目,通過本項目,

    2024年02月05日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包