国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

用python語言爬蟲爬取微博評論--上--初步爬蟲(超詳細版,大學生不騙大學生)

這篇具有很好參考價值的文章主要介紹了用python語言爬蟲爬取微博評論--上--初步爬蟲(超詳細版,大學生不騙大學生)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

目錄

一、找到頁面

?二、學會使用檢查元素

2.1 打開檢查元素界面

2.2 找到所有評論所在的位置

2.2.1 搜索評論

2.2.2 ?找到data表

三、基礎部分代碼實現(xiàn)????????


全部已經更完(下面兩個鏈接是中和下)

https://blog.csdn.net/m0_68325382/article/details/137234661?spm=1001.2014.3001.5502

爬蟲爬取微博評論--下--多頁爬取(超詳細教程,大學生不騙大學生)-CSDN博客?

一、找到頁面

首先你需要找到一個你想要爬取的頁面

(這里我是隨機找的一個微博帖子)

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

它的評論內容是這樣的

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

然后我們今天的內容就是從這個頁面的評論里面提取我們想要的

(其實學會了之后不只可以爬取評論的內容喔?。。?/span>

?二、學會使用檢查元素

2.1 打開檢查元素界面

在你打開的頁面->單機右鍵->檢查元素(或者是審查元素),然后我們就可以看到這個界面

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

這里你的上面一行表頭可能會是英文嘟沒關系(我會把英文界面該點的標在括號里)

我們主要用的是網絡(network)這部分?

點擊網絡(network)?

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

如果點擊小放大鏡后界面和我這個差不多那就大概率是對的?

如果你沒有這小放大鏡可以換個瀏覽器

(我目前用下來,蘋果自帶的Safari瀏覽器是不行的,我用的這個例子里是360瀏覽器,是OK嘟,大家可以參考一下)

2.2 找到所有評論所在的位置

2.2.1 搜索評論

這里我們在搜索的界面輸入我們這個帖子里面隨便一條評論的內容,點擊搜索?

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

如果你在這里黏貼了評論的內容但是,顯示搜索不到結果你可以試一試

不關閉檢查元素的界面->退出當前網頁或者你隨機點一個人的主頁->再回到評論界面->搜索評論內容就會出現(xiàn)了!

2.2.2 ?找到data表

下一步我們 點擊搜索出的結果

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

顯示的界面是這樣的

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

然后我們點擊這個預覽(preview)

再說一次喔,有可能大家的檢查元素打開的是全英文的,但是沒關系我會把英文該點的標在括號里

(后面的大部分操作都是在這個預覽界面的)?

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

點擊data旁邊的小三角,展開data

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

展現(xiàn)的結果是這樣的?

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

然后這個里面的0-19,就是0-19條評論的數據,包括一些評論內容,評論人的ID,評論被點贊的數量等等,我們一會要爬取的數據就是從這里來的

三、基礎部分代碼實現(xiàn)?

首先我們要知道想要爬取一個網站的數據我們首先需要訪問網站

我們的代碼需要通過網站的url來找到網站

下面我們先將爬取網站的基礎格式寫出來

#requets是一個爬蟲的第三方庫,需要單獨安裝
import requests

#url是一訪問網站的地址(這個不是很了解,但是我們代碼是需要通過url來找到你要爬取的網頁)
url = ''

#1.發(fā)送請求(定義一個response變量用來存儲從url所對應的網頁得到的信息)
response = requests.get(url=url)

#2.打印請求狀態(tài)(response有很多屬性,比如text等等,但是直接打印response是打印當前請求的狀態(tài)碼,200是成功,404是錯誤)
print(response)

從上面的幾行代碼我們就能實現(xiàn)對網站的訪問,但是,我們該怎么獲取一個網站的url呢?

找到我們有data列表的那個檢查元素界面->點擊標頭(headers)

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

在這里可以看到一個 “請求網址” (URL),這個就是我們的請求頭

將這個URL復制到我們代碼里面

#requets是一個爬蟲的第三方庫,需要單獨安裝
import requests

#url是一訪問網站的地址
url = 'https://weibo.com/ajax/statuses/buildComments?is_reload=1&id=5017675820436181&is_show_bulletin=2&is_mix=0&count=10&uid=2810373291&fetch_level=0&locale=zh-CN'

#1.發(fā)送請求
response = requests.get(url=url)

#2.打印請求狀態(tài)
print(response)

這里我用PyCharm運行一下代碼

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

可以看到輸出顯示 <Response [200]>,代表著我們訪問成功了

下一步我們可以試著把網頁的數據用 .text的方式拿出來?

#requets是一個爬蟲的第三方庫,需要單獨安裝
import requests

#url是一訪問網站的地址
url = 'https://weibo.com/ajax/statuses/buildComments?is_reload=1&id=5017675820436181&is_show_bulletin=2&is_mix=0&count=10&uid=2810373291&fetch_level=0&locale=zh-CN'

#1.發(fā)送請求
response = requests.get(url=url)

#2.打印網頁數據
print(response.text)

我們運行一下

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

?但是我們發(fā)現(xiàn)這個并不是像我們想的一樣,將網頁的文本用文字的方式呈現(xiàn),那么接下來我們要用到一個方法,讓我們能夠用文字的方式輸出網頁數據----->定義請求頭

import requests

# 請求頭
headers = {
    # 用戶身份信息
    'cookie' : '',
    # 防盜鏈
    'referer' : '',
    # 瀏覽器基本信息
    'user-agent' : ''
}

url = 'https://weibo.com/ajax/statuses/buildComments?is_reload=1&id=5017675820436181&is_show_bulletin=2&is_mix=0&count=10&uid=2810373291'
# 1.發(fā)送請求
response = requests.get(url=url,headers=headers)

#2.打印網頁數據
print(response.text)

為什么要定義請求頭,因為從網站的設置初衷,它是不想服務于我們的爬蟲程序的,網站正常只想服務于客戶的訪問服務,那么我們要將我們的爬蟲程序偽裝成為正常的服務。

此時我們需要定義一些數據來偽裝,通常我們只需要設置 cookie 、referee、user-agent就夠了(如果有些特殊的網站可能需要我們有其他的參數)?

那么我們cookie這些數據從哪里來呢,我們回到網站的那個請求頭(headers)的檢查元素界面?

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

在這個界面向下劃動,找到 cookie 、referer 、user-agent?

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

我們將 cookie 、referer 、user-agent 的數據分別粘貼在代碼里面

import requests

# 請求頭
headers = {
    # 用戶身份信息
    'cookie' : 'XSRF-TOKEN=KVMLznKAi1u5t7UavCDVyD0I; _s_tentry=weibo.com; Apache=3869338173200.8403.1711845564842; SINAGLOBAL=3869338173200.8403.1711845564842; ULV=1711845565244:1:1:1:3869338173200.8403.1711845564842:; PC_TOKEN=dcbe0bd978; SUB=_2A25LDMCxDeRhGeFJ71sS8CvLzTmIHXVoYFx5rDV8PUNbmtB-LVD9kW9Nf6JZvhCZ3PGanwgbD1yc6zGrHhnf6wrq; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W586R5s7_p1VykF21DkOu3L5JpX5o275NHD95QNS0B4e05fS0qfWs4DqcjAMJv09CH8SE-4BC-RSFH8SCHFxb-ReEH8SFHFBC-RBbH8Sb-4SEHWSCH81FHWxCHFeFH8Sb-4BEHWB7tt; ALF=1712450401; SSOLoginState=1711845601; WBPSESS=7dB0l9FjbY-Rzc9u1r7G0AeIukWsnj2u9VSmMssaP8z8nNdVQm3MrakDKiijTO3Y_iL6pEDJ8mgGw5Ql6jIh-aVUQoUZdu9LfLYmAiNsLqi43OBU2ZJdNYv4zIWorgKZiAz8JGn2kAugZwnStCVYKw==',
    # 防盜鏈
    'referer' : 'https://weibo.com/2810373291/O7pPo1Ptb',
    # 瀏覽器基本信息
    'user-agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.95 Safari/537.36'
}
url = 'https://weibo.com/ajax/statuses/buildComments?is_reload=1&id=5017675820436181&is_show_bulletin=2&is_mix=0&count=10&uid=2810373291'
# 1.發(fā)送請求
response = requests.get(url=url,headers=headers)

#2.打印網頁數據
print(response.text)

運行一下?

微博爬取,python,爬蟲,開發(fā)語言,新浪微博

?在這里可以看到,我們已經拿到文字式的數據,但是數據過于多和復雜,沒辦法很好的現(xiàn)實提取評論內容


晚點再寫累累累累累,有需要的大家可以先收藏,我會更新的,因為我自己是昨天就做完了,

但是要寫的詳細真的蠻累的?。。。?/p>

yes?。。。?!我又回來更新了?。?!

因為我們又有作業(yè)了,累死我?。。。?!

OK!?。。≡蹅兠魈煺f怎么爬取連續(xù)幾頁的評論

因為其實它這個評論是分頁的,我們一次是爬不完嘟明天說文章來源地址http://www.zghlxwxcb.cn/news/detail-846065.html

到了這里,關于用python語言爬蟲爬取微博評論--上--初步爬蟲(超詳細版,大學生不騙大學生)的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 【爬蟲實戰(zhàn)】用python爬取微博任意關鍵詞搜索結果、exe文件

    【爬蟲實戰(zhàn)】用python爬取微博任意關鍵詞搜索結果、exe文件

    項目功能簡介: 1.交互式配置; 2.兩種任意來源(直接輸入、本地文件); 3.自動翻頁(無限爬取); 4.指定最大翻頁頁碼; 5.數據保存到csv文件; 6.程序支持打包成exe文件; 7.項目操作說明文檔; 一.最終效果 視頻演示: 用python爬取微博搜索結果、exe文件

    2024年02月02日
    瀏覽(28)
  • 爬取微博熱搜榜并進行數據分析

    爬取微博熱搜榜并進行數據分析

    :爬取微博熱搜榜數據。 用requests庫訪問頁面用get方法獲取頁面資源,登錄頁面對頁面HTML進行分析,用beautifulsoup庫獲取并提取自己所需要的信息。再講數據保存到CSV文件中,進行數據清洗,數據可視化分析,繪制數據圖表,并用最小二乘法進行擬合分析。 :通過觀察頁面HT

    2024年02月15日
    瀏覽(29)
  • python學習:爬蟲爬取微信公眾號數據

    python學習:爬蟲爬取微信公眾號數據

    參考: https://blog.csdn.net/qq_45722494/article/details/120191233 1、登錄微信公眾平臺 這里我注冊了個微信公眾號 點擊圖文消息 點擊超鏈接 搜索要爬取的公眾號名稱 獲取appmsg?action… 上述第一步可以獲取到cookie、fakeid、token、user_agent等,編輯成wechat.yaml文件,如下所示 代碼如下: 因為閱讀

    2024年01月24日
    瀏覽(30)
  • 爬蟲 | Python爬取微博實時熱搜榜信息

    爬蟲 | Python爬取微博實時熱搜榜信息

    大家好,我是程序員曉曉~ 本期給大家分享一下如何 用python獲取微博熱搜榜 信息,包含 爬取時間、序號、、熱度 等信息,希望對大家有所幫助。 所有內容僅供參考,不做他用。 1. 網頁分析 目標網址(微博熱搜榜): https://s.weibo.com/top/summary 實時熱搜榜一共有50條,每個

    2024年02月02日
    瀏覽(21)
  • 使用selenium自動化工具爬取微博內容和評論

    使用selenium自動化工具爬取微博內容和評論

    任務需求是爬取微博的內容和評論。一開始我是準備直接用正常的爬蟲來做,但是發(fā)現(xiàn)微博上的內容幾乎都是動態(tài)加載生成的。所以了解了一下就學習使用·selenium自動化測試工具來爬取相關數據。 首先是不登錄微博,發(fā)現(xiàn)只能查看最多二十條數據,這自然限制太大所以還是

    2024年02月02日
    瀏覽(17)
  • python爬蟲爬取微信公眾號的閱讀數、喜愛數、文章標題和鏈接等信息

    python爬蟲爬取微信公眾號的閱讀數、喜愛數、文章標題和鏈接等信息

    爬蟲的步驟: (1)申請自己的公眾號 (2)使用fiddler抓包工具 (3)pycharm (一)申請公眾號 官網:微信公眾平臺 填入相關信息創(chuàng)建微信公眾號 進入公眾號界面如下: 找到新的創(chuàng)作-圖文信息 在彈出的界面中查找公眾號文章-輸入公眾號名稱-確定 點擊確認之后,進入公眾號

    2024年02月05日
    瀏覽(26)
  • 大數據輿情評論數據分析:基于Python微博輿情數據爬蟲可視化分析系統(tǒng)(NLP情感分析+爬蟲+機器學習)

    大數據輿情評論數據分析:基于Python微博輿情數據爬蟲可視化分析系統(tǒng)(NLP情感分析+爬蟲+機器學習)

    基于Python的微博輿情數據爬蟲可視化分析系統(tǒng),結合了NLP情感分析、爬蟲技術和機器學習算法。該系統(tǒng)的主要目標是從微博平臺上抓取實時數據,對這些數據進行情感分析,并通過可視化方式呈現(xiàn)分析結果,以幫助用戶更好地了解輿情動向和情感傾向。系統(tǒng)首先利用爬蟲技術

    2024年04月15日
    瀏覽(29)
  • Python如何運用爬蟲爬取京東商品評論

    Python如何運用爬蟲爬取京東商品評論

    打開京東商品網址(添加鏈接描述) 查看商品評價 。我們點擊評論翻頁,發(fā)現(xiàn)網址未發(fā)生變化,說明該網頁是動態(tài)網頁。 我們在 瀏覽器右鍵點擊“檢查” ,,隨后 點擊“Network” ,刷新一下,在搜索框中 輸入”評論“ ,最終找到 網址(url) 。我們點擊Preview,發(fā)現(xiàn)了我們需要

    2024年02月07日
    瀏覽(23)
  • 【2023最新B站評論爬蟲】用python爬取上千條嗶哩嗶哩評論

    【2023最新B站評論爬蟲】用python爬取上千條嗶哩嗶哩評論

    您好,我是 @馬哥python說,一枚10年程序猿。 之前,我分享過一些B站的爬蟲: 【Python爬蟲案例】用Python爬取李子柒B站視頻數據 【Python爬蟲案例】用python爬嗶哩嗶哩搜索結果 【爬蟲+情感判定+Top10高頻詞+詞云圖】\\\"谷愛凌\\\"熱門彈幕python輿情分析 但我學習群中小伙伴頻繁討論

    2024年02月08日
    瀏覽(25)
  • 微博數據采集,微博爬蟲,微博網頁解析,完整代碼(主體內容+評論內容)

    微博數據采集,微博爬蟲,微博網頁解析,完整代碼(主體內容+評論內容)

    參加新聞比賽,需要獲取大眾對某一方面的態(tài)度信息,因此選擇微博作為信息收集的一部分 微博主體內容 微博評論內容 一級評論內容 二級評論內容 以華為發(fā)布會這一熱搜為例子,我們可以通過開發(fā)者模式得到信息基本都包含在下面的 div tag中 我們通過網絡這一模塊進行解

    2024年03月14日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包