国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)

這篇具有很好參考價(jià)值的文章主要介紹了三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

在第一篇博文中也提及到User-Agent,表示請(qǐng)求載體的身份,也就是說(shuō)明通過(guò)什么瀏覽器進(jìn)行訪問(wèn)服務(wù)器的,這一點(diǎn)很重要。

① UA檢測(cè)

門戶網(wǎng)站服務(wù)器會(huì)檢測(cè)請(qǐng)求載體的身份。如果檢測(cè)到載體的身份表示為某一款瀏覽器的請(qǐng)求,則說(shuō)明這是一個(gè)正常的請(qǐng)求;若檢測(cè)到載體身份標(biāo)識(shí)并不是基于任意一款瀏覽器,則說(shuō)明這是一個(gè)非正常的請(qǐng)求也就是爬蟲,服務(wù)器很有可能拒絕該請(qǐng)求!??!

② UA偽裝

讓爬蟲對(duì)應(yīng)的請(qǐng)求載體身份標(biāo)識(shí)進(jìn)行偽裝成某一款瀏覽器

項(xiàng)目

項(xiàng)目概述:用戶輸入指定的關(guān)鍵詞,之后通過(guò)百度搜索引擎查到的所有相關(guān)頁(yè)面進(jìn)行下載到本地

步驟:
① 打開百度,搜索任意關(guān)鍵字信息,查看地址欄信息
例如我這里搜索beyond,地址欄信息為https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=beyond&oq=%25E9%25BB%2584%25E5%25AE%25B6%25E9%25A9%25B9&rsv_pq=86cafe360003cde6&rsv_t=6497SlvSbubKeEQiJKGnLL%2BCucYyWr9OJTHOTd0x%2Bbx0%2BViW%2FN75Q0avW1M&rqlang=cn&rsv_enter=1&rsv_dl=tb&rsv_sug3=6&rsv_sug1=4&rsv_sug7=100&rsv_sug2=0&rsv_btype=t&inputT=964&rsv_sug4=965
三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)
實(shí)則有用信息僅為https://www.baidu.com/s?wd=beyond,你也可以單獨(dú)輸入該網(wǎng)址仍可接收到服務(wù)器反饋的相同頁(yè)面結(jié)果信息。(同理其他的搜索引擎也都類似)其中beyond為可變參數(shù),遇到可變參數(shù)需要把其放入到字典中去
三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)
三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)
②整理完url之后,我們需要獲取某個(gè)瀏覽器載體身份認(rèn)證信息,這里以Chrome為例,隨便打開一個(gè)網(wǎng)站(例如https://www.baidu.com/s?wd=beyond),F(xiàn)12打開開發(fā)者工具,F(xiàn)5重新向服務(wù)器發(fā)出請(qǐng)求,Network下Name隨便找一個(gè)點(diǎn)進(jìn)入,就可以找到User-Agent信息,例如我的是這個(gè)User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36,該信息就是Chrome瀏覽器的唯一身份認(rèn)證標(biāo)識(shí)
三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)
③在get方法中,傳入U(xiǎn)ser-Agent和用戶輸入的關(guān)鍵字信息即可(均為字典形式)

完整代碼

import requests

if __name__ == '__main__':
    #UA偽裝,獲取某個(gè)瀏覽器的User-Agent唯一載體身份標(biāo)識(shí)
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
    }
    #指定url
    url = 'https://www.baidu.com/s?'#https://www.baidu.com/s?word=%E9%BB%84%E5%AE%B6%E9%A9%B9
    #處理url攜帶的參數(shù),將參數(shù)封裝到字典中
    keyword = input("please input a word:")
    param = {
        'wd':keyword
    }
    #對(duì)指定的url發(fā)起請(qǐng)求,對(duì)應(yīng)的url是攜帶參數(shù)的,并且請(qǐng)求過(guò)程中已經(jīng)處理了參數(shù)
    response = requests.get(url=url,params=param,headers=headers)#若不傳入headers這個(gè)User-Agent信息,運(yùn)行程序之后,服務(wù)器并不會(huì)給這個(gè)響應(yīng)返回?cái)?shù)據(jù)信息。這說(shuō)明百度搜索引擎中采用了UA檢測(cè)反爬蟲機(jī)制
    
    #獲取響應(yīng)
    page = response.text
    filename = keyword+".html"
    #持久化存儲(chǔ)
    with open('E:/Jupyter_workspace/study/python/'+filename,'w',encoding='utf-8') as fp:#將服務(wù)器返回的頁(yè)面信息存儲(chǔ)到本地指定路徑
        fp.write(page)
    print(filename,"保存成功")

運(yùn)行效果如下:
三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)
三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)
三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-405000.html

到了這里,關(guān)于三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 使用爬蟲爬取百度搜索結(jié)果及各網(wǎng)站正文(request庫(kù)、selenium庫(kù)和beautifulsoup庫(kù))

    使用爬蟲爬取百度搜索結(jié)果及各網(wǎng)站正文(request庫(kù)、selenium庫(kù)和beautifulsoup庫(kù))

    任務(wù): 給定搜索詞,獲取百度搜索結(jié)果 根據(jù)各項(xiàng)結(jié)果獲取對(duì)應(yīng)網(wǎng)站正文部分 header實(shí)際為一個(gè)字典,為訪問(wèn)百度時(shí)提供必要的信息。 一般來(lái)講只需要提供 Cookie 就可以訪問(wèn)大多數(shù)網(wǎng)站,其余可能需要的還有 Host 、 User-Agent 等 通過(guò)分析百度搜索url可以發(fā)現(xiàn) https://www.baidu.com/s?wd=茅

    2024年03月27日
    瀏覽(28)
  • (已解決)關(guān)鍵詞爬取百度搜索結(jié)果,返回百度安全驗(yàn)證,網(wǎng)絡(luò)不給力,請(qǐng)稍后重試,無(wú)法請(qǐng)求到正確數(shù)據(jù)的問(wèn)題

    (已解決)關(guān)鍵詞爬取百度搜索結(jié)果,返回百度安全驗(yàn)證,網(wǎng)絡(luò)不給力,請(qǐng)稍后重試,無(wú)法請(qǐng)求到正確數(shù)據(jù)的問(wèn)題

    已解決,使用進(jìn)行百度搜索,然后爬取搜索結(jié)果,請(qǐng)求數(shù)據(jù)后,返回的是百度安全驗(yàn)證,網(wǎng)絡(luò)不給力,請(qǐng)稍后重試。無(wú)法請(qǐng)求到正確數(shù)據(jù)。且嘗試在header中增加Accept參數(shù)還是不行。 ? ? ?在學(xué)習(xí)過(guò)程中,寫了一小段練習(xí)用的爬取程序,獲取百度搜索后的結(jié)果,代

    2024年02月08日
    瀏覽(31)
  • 【經(jīng)驗(yàn)分享】在百度搜索引擎中的結(jié)果中,過(guò)濾指定的網(wǎng)站

    【經(jīng)驗(yàn)分享】在百度搜索引擎中的結(jié)果中,過(guò)濾指定的網(wǎng)站

    系統(tǒng)版本:Windows 10 描述:在搜索引擎中想在結(jié)果中過(guò)濾一些指定網(wǎng)站,快速找到有價(jià)值的內(nèi)容。 視頻教程: 文字教程: 1.進(jìn)入百度搜索引擎,bing搜索引擎貌似不可以。 www.baidu.com 2.搜索內(nèi)容如:銳捷無(wú)線AC基礎(chǔ)命令 -csdn,“-”這個(gè)符號(hào)是減號(hào),0旁邊那個(gè),或者小鍵盤的減

    2024年02月03日
    瀏覽(26)
  • (已解決)關(guān)鍵詞爬取百度搜索結(jié)果,返回百度安全驗(yàn)證,網(wǎng)絡(luò)不給力,請(qǐng)稍后重試,無(wú)法請(qǐng)求到正確數(shù)據(jù)的問(wèn)題(2023最新)

    (已解決)關(guān)鍵詞爬取百度搜索結(jié)果,返回百度安全驗(yàn)證,網(wǎng)絡(luò)不給力,請(qǐng)稍后重試,無(wú)法請(qǐng)求到正確數(shù)據(jù)的問(wèn)題(2023最新)

    已解決,使用進(jìn)行百度搜索,然后爬取搜索結(jié)果,請(qǐng)求數(shù)據(jù)后,返回的是百度安全驗(yàn)證,網(wǎng)絡(luò)不給力,請(qǐng)稍后重試。無(wú)法請(qǐng)求到正確數(shù)據(jù)。且嘗試在header中增加Accept參數(shù)還是不行。 ? ? ?在學(xué)習(xí)過(guò)程中,寫了一小段練習(xí)用的爬取程序,獲取百度搜索后的結(jié)果,代

    2024年02月17日
    瀏覽(27)
  • 百度百科詞條怎么更新?怎么能順利更新百科詞條?

    百度百科詞條怎么更新?怎么能順利更新百科詞條?

    企業(yè)和個(gè)人百度百科詞條的更新對(duì)于他們來(lái)說(shuō)都具有重要的意義,具體如下: 對(duì)企業(yè)來(lái)說(shuō): 塑造品牌形象:百度百科是一個(gè)常被用戶信任并參考的知識(shí)平臺(tái),通過(guò)更新企業(yè)詞條可以提供準(zhǔn)確、全面的企業(yè)信息,幫助企業(yè)塑造積極的品牌形象。 增加曝光和知名度:百度百科在

    2024年02月10日
    瀏覽(24)
  • 如何給自己創(chuàng)建個(gè)人百度百科詞條,人物百科詞條審核通過(guò)技巧

    想要讓自己在百度上能夠搜索得到,一般都需要給自己創(chuàng)建一個(gè)個(gè)人百度百科詞條,但很多人發(fā)覺自己創(chuàng)建人物百度百科詞條怎么審核也審核不過(guò),其實(shí)主要還是百科詞條文案和個(gè)人百科詞條參考資料的問(wèn)題。下面洛希愛做百科網(wǎng)分享如何給自己創(chuàng)建個(gè)人百度百科詞條,人物

    2023年04月20日
    瀏覽(28)
  • 【爬蟲實(shí)戰(zhàn)】用python爬取微博任意關(guān)鍵詞搜索結(jié)果、exe文件

    【爬蟲實(shí)戰(zhàn)】用python爬取微博任意關(guān)鍵詞搜索結(jié)果、exe文件

    項(xiàng)目功能簡(jiǎn)介: 1.交互式配置; 2.兩種任意來(lái)源(直接輸入、本地文件); 3.自動(dòng)翻頁(yè)(無(wú)限爬取); 4.指定最大翻頁(yè)頁(yè)碼; 5.數(shù)據(jù)保存到csv文件; 6.程序支持打包成exe文件; 7.項(xiàng)目操作說(shuō)明文檔; 一.最終效果 視頻演示: 用python爬取微博搜索結(jié)果、exe文件

    2024年02月02日
    瀏覽(28)
  • 維基百科、百度百科和搜狗百科詞條的創(chuàng)建流程

    維基百科、百度百科和搜狗百科詞條的創(chuàng)建流程

    隨著網(wǎng)絡(luò)的發(fā)展,百度百科、搜狗百科、維基百科等百科網(wǎng)站已經(jīng)成為大眾獲取知識(shí)的重要途徑。因?yàn)榘倏凭哂械锰飒?dú)厚的平臺(tái)優(yōu)勢(shì),百科上的信息可信度高,權(quán)威性強(qiáng)。所以百科平臺(tái)也成為商家的必爭(zhēng)之地。這里小馬識(shí)途聊聊如何創(chuàng)建百度百科、搜狗百科和維基百科詞條。

    2024年04月27日
    瀏覽(25)
  • 小馬識(shí)途分享百度百科收錄詞條的規(guī)則

    百度百科詞條是人人都可以編輯的,并且都是免費(fèi)創(chuàng)建,但是自己創(chuàng)建百科詞條往往審核不通過(guò),一般企業(yè)會(huì)把這項(xiàng)任務(wù)委托給有經(jīng)驗(yàn)的營(yíng)銷團(tuán)隊(duì)。這里小馬識(shí)途營(yíng)銷顧問(wèn)分享一下百度百科收錄詞條的規(guī)則。 百度百科收錄規(guī)則主要分為:規(guī)范詞條名、客觀真實(shí)、來(lái)源可查證、

    2024年02月16日
    瀏覽(21)
  • Puppeteer 使用教程-實(shí)戰(zhàn)篇(爬取圖片、視頻、音頻,頁(yè)面數(shù)據(jù))

    Puppeteer 使用教程-實(shí)戰(zhàn)篇(爬取圖片、視頻、音頻,頁(yè)面數(shù)據(jù))

    目錄 前言 一、 獲取實(shí)體店鋪信息 二、 獲取全國(guó)各省市縣地圖json數(shù)據(jù) 三、 cookies 四、 獲取網(wǎng)絡(luò)圖片、視頻資源 五、 自動(dòng)化測(cè)試 總結(jié) ????????續(xù)上篇,我們簡(jiǎn)單講述一下puppeteer常見的應(yīng)用場(chǎng)景,包括靜態(tài)頁(yè)面數(shù)據(jù)獲取,網(wǎng)絡(luò)請(qǐng)求獲取截取、圖片、視頻資源下載、自動(dòng)化

    2024年02月06日
    瀏覽(40)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包