国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)!

這篇具有很好參考價(jià)值的文章主要介紹了【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)!。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

目錄
  • 一、爬取目標(biāo)
  • 二、編寫爬蟲代碼
  • 三、同步講解視頻
    • 3.1 代碼演示視頻
  • 四、獲取完整源碼

一、爬取目標(biāo)

您好,我是@馬哥python說,一名10年程序猿。
本次爬取的目標(biāo)是:抖音熱榜
【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)!

共爬取到50條數(shù)據(jù),對(duì)應(yīng)TOP50熱榜。含5個(gè)字段,分別是:

熱榜排名,熱榜標(biāo)題,熱榜時(shí)間,熱度值,熱榜標(biāo)簽。

用Chrome瀏覽器,右鍵打開開發(fā)者模式,選擇:網(wǎng)絡(luò)->XHR這個(gè)選項(xiàng),重新刷新一下頁面。
操作過程,如下圖所示:
【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)!
成功找到了50條熱榜數(shù)據(jù)。

下面,開始編碼爬蟲代碼。

二、編寫爬蟲代碼

首先,導(dǎo)入需要用到的庫:

import requests
import pandas as pd
import time

定義一個(gè)請(qǐng)求地址,即上圖中的目標(biāo)鏈接地址:

# 接口地址
url = 'https://www.douyin.com/aweme/v1/web/hot/search/list/?device_platform=webapp&aid=6383&channel=channel_pc_web&detail_list=1&source=6&pc_client_type=1&version_code=170400&version_name=17.4.0&cookie_enabled=true&screen_width=1440&screen_height=900&browser_language=en-US&browser_platform=MacIntel&browser_name=Chrome&browser_version=114.0.0.0&browser_online=true&engine_name=Blink&engine_version=114.0.0.0&os_name=Mac+OS&os_version=10.15.7&cpu_core_num=4&device_memory=8&platform=PC&downlink=1.5&effective_type=3g&round_trip_time=600&webid=7246602757481154103&msToken=A-dVF1R3L6t6yeYNVsnPA7YMBkohetjMSING0Q3C3UGXBq7B_lhuJVv6N1hF8Yum9qxQMMVa_GiSsER1Yf595bF5Q_O3-JY1hQ8s-ZPB21PCVYL5C7PEjQiPAMGtGg==&X-Bogus=DFSzswVOXn0ANcrmtjl2YN7TlqSE'

定義一個(gè)請(qǐng)求頭,從開發(fā)者模式中的Headers->Request Headers中復(fù)制下來:

# 構(gòu)造請(qǐng)求頭
h1 = {
    'Cookie': '換成自己的cookie值',
    'Accept': 'application/json, text/plain, */*',
    'Accept-Encoding': 'gzip, deflate, br',
    'Host': 'www.douyin.com',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Safari/605.1.15',
    'Accept-Language': 'zh-CN,zh-Hans;q=0.9',
    'Referer': 'https://www.douyin.com/hot',
    'Connection': 'keep-alive'
}

不知如何獲取Cookie?參考下圖:
【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)!

向目標(biāo)地址發(fā)送請(qǐng)求(帶上請(qǐng)求頭),并用json格式接收返回?cái)?shù)據(jù):

# 發(fā)送請(qǐng)求
r = requests.get(url, headers=h1)
# 用json接收請(qǐng)求數(shù)據(jù)
json_data = r.json()

定義一些空列表,用于存儲(chǔ)數(shù)據(jù):

position_list = []  # 熱榜排名
title_list = []  # 熱榜標(biāo)題
time_list = []  # 熱榜時(shí)間
hot_value_list = []  # 熱度值
label_list = []  # 熱榜標(biāo)簽

以“熱榜標(biāo)題”為例,解析數(shù)據(jù):

for data in data_list:
    # 熱榜標(biāo)題
    title = data['word']
    print('熱榜標(biāo)題:', position, title)
    title_list.append(title)

其他字段同理,不再贅述。

最后,把解析到的數(shù)據(jù),存儲(chǔ)到Dataframe中,并保存到csv文件里:

# 拼裝爬取到的數(shù)據(jù)為DataFrame
df = pd.DataFrame(
    {
        '熱榜排名': position_list,
        '熱榜標(biāo)題': title_list,
        '熱榜時(shí)間': time_list,
        '熱度值': hot_value_list,
        '熱榜標(biāo)簽': label_list,
    }
)
# 保存結(jié)果到csv文件
df.to_csv('抖音熱榜.csv', index=False, encoding='utf_8_sig')

這里需要注意的是,to_csv要加上encoding='utf_8_sig'參數(shù),防止保存到csv文件產(chǎn)生亂碼數(shù)據(jù)。
查看部分爬取結(jié)果:
【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)!

共51條數(shù)據(jù)(含1條置頂熱搜),對(duì)應(yīng)熱榜TOP50排名。
每條數(shù)據(jù)含5個(gè)字段:熱榜排名,熱榜標(biāo)題,熱榜時(shí)間,熱度值,熱榜標(biāo)簽。。

三、同步講解視頻

3.1 代碼演示視頻

代碼演示: 【Python爬蟲演示】用Python爬抖音熱榜數(shù)據(jù)

四、獲取完整源碼

get完整源碼:【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)!


我是@馬哥python說 ,持續(xù)分享python源碼干貨中!文章來源地址http://www.zghlxwxcb.cn/news/detail-596424.html

到了這里,關(guān)于【爬蟲案例】用Python爬取抖音熱榜數(shù)據(jù)!的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 爬蟲——有關(guān)抖音商品數(shù)據(jù)的爬?。ㄏs媽媽數(shù)據(jù)平臺(tái))

    爬蟲——有關(guān)抖音商品數(shù)據(jù)的爬?。ㄏs媽媽數(shù)據(jù)平臺(tái))

    抖音帶貨的興起,讓抖音電商一躍成為與淘寶電商、京東電商等電商平臺(tái)共同爭(zhēng)奪電商市場(chǎng)的存在,與淘寶電商、京東電商等電商平臺(tái)相比,抖音電商擁有獨(dú)特的優(yōu)勢(shì),抖音以短視頻的形式能夠帶來巨大的流量和熱度,抖音以此為基礎(chǔ)帶來全新的帶貨方式——短視頻帶貨,除

    2024年02月08日
    瀏覽(22)
  • 【經(jīng)典爬蟲案例】用Python爬取微博熱搜榜!

    【經(jīng)典爬蟲案例】用Python爬取微博熱搜榜!

    目錄 一、爬取目標(biāo) 二、編寫爬蟲代碼 2.1 前戲 2.2 獲取cookie 2.3 請(qǐng)求頁面 2.4 解析頁面 2.5 轉(zhuǎn)換熱搜類別 2.6 保存結(jié)果 2.7 查看結(jié)果數(shù)據(jù) 三、獲取完整源碼 您好,我是@馬哥python說,一名10年程序猿。 本次爬取的目標(biāo)是: 微博熱搜榜 ? 分別爬取每條熱搜的: 熱搜標(biāo)題、熱搜排名

    2024年02月13日
    瀏覽(29)
  • python爬蟲如何寫,有哪些成功爬取的案例

    編寫Python爬蟲時(shí),常用的庫包括Requests、Beautiful Soup和Scrapy。以下是三個(gè)簡(jiǎn)單的Python爬蟲案例,分別使用Requests和Beautiful Soup,以及Scrapy。 1. 使用Requests和Beautiful Soup爬取網(wǎng)頁內(nèi)容: 2. 使用Requests和正則表達(dá)式爬取圖片: 3. 使用Scrapy爬取網(wǎng)站: 首先,確保已安裝Scrapy: 創(chuàng)建一個(gè)

    2024年01月19日
    瀏覽(30)
  • Python爬蟲:一個(gè)爬取豆瓣電影人像的小案例

    Python爬蟲:一個(gè)爬取豆瓣電影人像的小案例

    從谷歌瀏覽器的開發(fā)工具進(jìn)入 選擇圖片右鍵點(diǎn)擊檢查 翻頁之后發(fā)現(xiàn)網(wǎng)址變化的只有start數(shù)值,每次變化值為30 Python代碼 把爬取的圖片全部放到新建的文件夾中存放

    2024年02月10日
    瀏覽(88)
  • 爬蟲案例—京東數(shù)據(jù)爬取、數(shù)據(jù)處理及數(shù)據(jù)可視化(效果+代碼)

    爬蟲案例—京東數(shù)據(jù)爬取、數(shù)據(jù)處理及數(shù)據(jù)可視化(效果+代碼)

    ????????使用PyCharm(引用requests庫、lxml庫、json庫、time庫、openpyxl庫和pymysql庫)爬取京東網(wǎng)頁相關(guān)數(shù)據(jù)(品牌、標(biāo)題、價(jià)格、店鋪等) 數(shù)據(jù)展示(片段): ????????京東網(wǎng)頁有反爬措施,需要自己在網(wǎng)頁登錄后,獲取cookie,加到請(qǐng)求的header中(必要時(shí)引入time庫,設(shè)置爬取

    2024年02月09日
    瀏覽(18)
  • 【Python爬蟲案例】抖音下載視頻+X-Bogus參數(shù)JS逆向分析

    【Python爬蟲案例】抖音下載視頻+X-Bogus參數(shù)JS逆向分析

    選擇自己感興趣的抖音博主,本次以“經(jīng)典老歌【車載U盤】”為例 每次請(qǐng)求的頁面會(huì)有很多接口,需要對(duì)接口進(jìn)行篩選: 第一步篩選XHR篩選 第二步篩選URL中帶有post 通過篩選play_add值找到視頻的地址 通過對(duì)比兩次請(qǐng)求發(fā)現(xiàn)只有X-Bogus數(shù)值會(huì)有變化,max_cursor是用翻頁,后文再

    2024年03月15日
    瀏覽(26)
  • Python爬蟲案例分享【爬取豆瓣電影排行榜的電影名稱和評(píng)分】

    注意:在運(yùn)行此代碼之前,請(qǐng)確保已安裝 requests 和 beautifulsoup4 庫

    2024年01月19日
    瀏覽(31)
  • 【python】爬取知乎熱榜Top50保存到Excel文件中【附源碼】

    【python】爬取知乎熱榜Top50保存到Excel文件中【附源碼】

    歡迎來到英杰社區(qū) https://bbs.csdn.net/topics/617804998 ??? 這篇博客將介紹如何使用Python編寫一個(gè)爬蟲程序,從斗魚直播網(wǎng)站上獲取圖片信息并保存到本地。我們將使用 request s 模塊發(fā)送HTTP請(qǐng)求和接收響應(yīng),以及 os 模塊處理文件和目錄操作。 ??????? 如果出現(xiàn)模塊報(bào)錯(cuò) ?????

    2024年02月03日
    瀏覽(43)
  • python爬蟲實(shí)戰(zhàn)(10)--獲取本站熱榜

    python爬蟲實(shí)戰(zhàn)(10)--獲取本站熱榜

    通過分析,本站的熱榜數(shù)據(jù)可以直接通過接口拿到,故不需要解析標(biāo)簽,請(qǐng)求熱榜數(shù)據(jù)接口 直接請(qǐng)求解析會(huì)有點(diǎn)問題,數(shù)據(jù)無法解析,加上請(qǐng)求頭 完整請(qǐng)求代碼

    2024年01月16日
    瀏覽(19)
  • python爬蟲實(shí)戰(zhàn)(8)--獲取虎pu熱榜

    python爬蟲實(shí)戰(zhàn)(8)--獲取虎pu熱榜

    注意:分析標(biāo)簽,這里加了非意向標(biāo)簽的跳過處理 測(cè)試

    2024年01月23日
    瀏覽(15)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包