国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<em id="qgzhn"></em>

【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)！

2年前作者：馬哥python說分類：Toy博客閱讀(25)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)！。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

目錄

一、爬取目標(biāo)
二、編寫爬蟲代碼
三、同步講解視頻
- 3.1 代碼演示視頻
四、獲取完整源碼

一、爬取目標(biāo)

您好，我是@馬哥python說，一名10年程序猿。
本次爬取的目標(biāo)是：抖音熱榜
【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)！

共爬取到50條數(shù)據(jù)，對(duì)應(yīng)TOP50熱榜。含5個(gè)字段，分別是：

熱榜排名,熱榜標(biāo)題,熱榜時(shí)間,熱度值,熱榜標(biāo)簽。

用Chrome瀏覽器，右鍵打開開發(fā)者模式，選擇：網(wǎng)絡(luò)->XHR這個(gè)選項(xiàng)，重新刷新一下頁面。
操作過程，如下圖所示：
【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)！
成功找到了50條熱榜數(shù)據(jù)。

下面，開始編碼爬蟲代碼。

二、編寫爬蟲代碼

首先，導(dǎo)入需要用到的庫：

import requests
import pandas as pd
import time

定義一個(gè)請(qǐng)求地址，即上圖中的目標(biāo)鏈接地址：

# 接口地址
url = 'https://www.douyin.com/aweme/v1/web/hot/search/list/?device_platform=webapp&aid=6383&channel=channel_pc_web&detail_list=1&source=6&pc_client_type=1&version_code=170400&version_name=17.4.0&cookie_enabled=true&screen_width=1440&screen_height=900&browser_language=en-US&browser_platform=MacIntel&browser_name=Chrome&browser_version=114.0.0.0&browser_online=true&engine_name=Blink&engine_version=114.0.0.0&os_name=Mac+OS&os_version=10.15.7&cpu_core_num=4&device_memory=8&platform=PC&downlink=1.5&effective_type=3g&round_trip_time=600&webid=7246602757481154103&msToken=A-dVF1R3L6t6yeYNVsnPA7YMBkohetjMSING0Q3C3UGXBq7B_lhuJVv6N1hF8Yum9qxQMMVa_GiSsER1Yf595bF5Q_O3-JY1hQ8s-ZPB21PCVYL5C7PEjQiPAMGtGg==&X-Bogus=DFSzswVOXn0ANcrmtjl2YN7TlqSE'

定義一個(gè)請(qǐng)求頭，從開發(fā)者模式中的Headers->Request Headers中復(fù)制下來：

# 構(gòu)造請(qǐng)求頭
h1 = {
    'Cookie': '換成自己的cookie值',
    'Accept': 'application/json, text/plain, */*',
    'Accept-Encoding': 'gzip, deflate, br',
    'Host': 'www.douyin.com',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Safari/605.1.15',
    'Accept-Language': 'zh-CN,zh-Hans;q=0.9',
    'Referer': 'https://www.douyin.com/hot',
    'Connection': 'keep-alive'
}

不知如何獲取Cookie？參考下圖：
【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)！

向目標(biāo)地址發(fā)送請(qǐng)求（帶上請(qǐng)求頭），并用json格式接收返回?cái)?shù)據(jù)：

# 發(fā)送請(qǐng)求
r = requests.get(url, headers=h1)
# 用json接收請(qǐng)求數(shù)據(jù)
json_data = r.json()

定義一些空列表，用于存儲(chǔ)數(shù)據(jù)：

position_list = []  # 熱榜排名
title_list = []  # 熱榜標(biāo)題
time_list = []  # 熱榜時(shí)間
hot_value_list = []  # 熱度值
label_list = []  # 熱榜標(biāo)簽

以“熱榜標(biāo)題”為例，解析數(shù)據(jù)：

for data in data_list:
    # 熱榜標(biāo)題
    title = data['word']
    print('熱榜標(biāo)題：', position, title)
    title_list.append(title)

其他字段同理，不再贅述。

最后，把解析到的數(shù)據(jù)，存儲(chǔ)到Dataframe中，并保存到csv文件里：

# 拼裝爬取到的數(shù)據(jù)為DataFrame
df = pd.DataFrame(
    {
        '熱榜排名': position_list,
        '熱榜標(biāo)題': title_list,
        '熱榜時(shí)間': time_list,
        '熱度值': hot_value_list,
        '熱榜標(biāo)簽': label_list,
    }
)
# 保存結(jié)果到csv文件
df.to_csv('抖音熱榜.csv', index=False, encoding='utf_8_sig')

這里需要注意的是，to_csv要加上encoding='utf_8_sig'參數(shù)，防止保存到csv文件產(chǎn)生亂碼數(shù)據(jù)。
查看部分爬取結(jié)果：
【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)！

共51條數(shù)據(jù)（含1條置頂熱搜），對(duì)應(yīng)熱榜TOP50排名。
每條數(shù)據(jù)含5個(gè)字段：熱榜排名,熱榜標(biāo)題,熱榜時(shí)間,熱度值,熱榜標(biāo)簽。。

三、同步講解視頻

3.1 代碼演示視頻

代碼演示: 【Python爬蟲演示】用Python爬抖音熱榜數(shù)據(jù)

四、獲取完整源碼

get完整源碼：【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)！

我是@馬哥python說，持續(xù)分享python源碼干貨中！文章來源地址http://www.zghlxwxcb.cn/news/detail-596424.html

到了這里，關(guān)于【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)！的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

爬蟲——有關(guān)抖音商品數(shù)據(jù)的爬?。ㄏs媽媽數(shù)據(jù)平臺(tái)）
抖音帶貨的興起，讓抖音電商一躍成為與淘寶電商、京東電商等電商平臺(tái)共同爭(zhēng)奪電商市場(chǎng)的存在，與淘寶電商、京東電商等電商平臺(tái)相比，抖音電商擁有獨(dú)特的優(yōu)勢(shì)，抖音以短視頻的形式能夠帶來巨大的流量和熱度，抖音以此為基礎(chǔ)帶來全新的帶貨方式——短視頻帶貨，除
2024年02月08日
瀏覽(22)
【經(jīng)典爬蟲案例】用Python爬取微博熱搜榜！
目錄一、爬取目標(biāo) 二、編寫爬蟲代碼 2.1 前戲 2.2 獲取cookie 2.3 請(qǐng)求頁面 2.4 解析頁面 2.5 轉(zhuǎn)換熱搜類別 2.6 保存結(jié)果 2.7 查看結(jié)果數(shù)據(jù) 三、獲取完整源碼您好，我是@馬哥python說，一名10年程序猿。本次爬取的目標(biāo)是: 微博熱搜榜 ? 分別爬取每條熱搜的：熱搜標(biāo)題、熱搜排名
2024年02月13日
瀏覽(29)
python爬蟲如何寫，有哪些成功爬取的案例
編寫Python爬蟲時(shí)，常用的庫包括Requests、Beautiful Soup和Scrapy。以下是三個(gè)簡(jiǎn)單的Python爬蟲案例，分別使用Requests和Beautiful Soup，以及Scrapy。 1. 使用Requests和Beautiful Soup爬取網(wǎng)頁內(nèi)容： 2. 使用Requests和正則表達(dá)式爬取圖片： 3. 使用Scrapy爬取網(wǎng)站：首先，確保已安裝Scrapy：創(chuàng)建一個(gè)
2024年01月19日
瀏覽(30)
Python爬蟲：一個(gè)爬取豆瓣電影人像的小案例
從谷歌瀏覽器的開發(fā)工具進(jìn)入選擇圖片右鍵點(diǎn)擊檢查翻頁之后發(fā)現(xiàn)網(wǎng)址變化的只有start數(shù)值，每次變化值為30 Python代碼把爬取的圖片全部放到新建的文件夾中存放
2024年02月10日
瀏覽(88)
爬蟲案例—京東數(shù)據(jù)爬取、數(shù)據(jù)處理及數(shù)據(jù)可視化（效果+代碼）
????????使用PyCharm(引用requests庫、lxml庫、json庫、time庫、openpyxl庫和pymysql庫)爬取京東網(wǎng)頁相關(guān)數(shù)據(jù)（品牌、標(biāo)題、價(jià)格、店鋪等）數(shù)據(jù)展示（片段）： ????????京東網(wǎng)頁有反爬措施，需要自己在網(wǎng)頁登錄后，獲取cookie,加到請(qǐng)求的header中（必要時(shí)引入time庫，設(shè)置爬取
2024年02月09日
瀏覽(18)
【Python爬蟲案例】抖音下載視頻+X-Bogus參數(shù)JS逆向分析
選擇自己感興趣的抖音博主，本次以“經(jīng)典老歌【車載U盤】”為例每次請(qǐng)求的頁面會(huì)有很多接口，需要對(duì)接口進(jìn)行篩選：第一步篩選XHR篩選第二步篩選URL中帶有post 通過篩選play_add值找到視頻的地址通過對(duì)比兩次請(qǐng)求發(fā)現(xiàn)只有X-Bogus數(shù)值會(huì)有變化，max_cursor是用翻頁，后文再
2024年03月15日
瀏覽(26)
Python爬蟲案例分享【爬取豆瓣電影排行榜的電影名稱和評(píng)分】
注意：在運(yùn)行此代碼之前，請(qǐng)確保已安裝 requests 和 beautifulsoup4 庫
2024年01月19日
瀏覽(31)
【python】爬取知乎熱榜Top50保存到Excel文件中【附源碼】
歡迎來到英杰社區(qū) https://bbs.csdn.net/topics/617804998 ??? 這篇博客將介紹如何使用Python編寫一個(gè)爬蟲程序，從斗魚直播網(wǎng)站上獲取圖片信息并保存到本地。我們將使用 request s 模塊發(fā)送HTTP請(qǐng)求和接收響應(yīng)，以及 os 模塊處理文件和目錄操作。 ??????? 如果出現(xiàn)模塊報(bào)錯(cuò) ?????
2024年02月03日
瀏覽(43)
python爬蟲實(shí)戰(zhàn)(10)--獲取本站熱榜
通過分析，本站的熱榜數(shù)據(jù)可以直接通過接口拿到，故不需要解析標(biāo)簽，請(qǐng)求熱榜數(shù)據(jù)接口直接請(qǐng)求解析會(huì)有點(diǎn)問題，數(shù)據(jù)無法解析，加上請(qǐng)求頭完整請(qǐng)求代碼
2024年01月16日
瀏覽(19)
python爬蟲實(shí)戰(zhàn)(8)--獲取虎pu熱榜
注意:分析標(biāo)簽，這里加了非意向標(biāo)簽的跳過處理測(cè)試
2024年01月23日
瀏覽(15)