国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<small id="nawjz"></small>

<noscript id="nawjz"><pre id="nawjz"><strike id="nawjz"></strike></pre></noscript>

<source id="nawjz"><strong id="nawjz"></strong></source>

<menu id="nawjz"><ins id="nawjz"></ins></menu><u id="nawjz"><samp id="nawjz"></samp></u>

三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)

2年前分類：Toy博客閱讀(19)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

在第一篇博文中也提及到User-Agent，表示請(qǐng)求載體的身份，也就是說(shuō)明通過(guò)什么瀏覽器進(jìn)行訪問(wèn)服務(wù)器的，這一點(diǎn)很重要。

① UA檢測(cè)

門戶網(wǎng)站服務(wù)器會(huì)檢測(cè)請(qǐng)求載體的身份。如果檢測(cè)到載體的身份表示為某一款瀏覽器的請(qǐng)求，則說(shuō)明這是一個(gè)正常的請(qǐng)求；若檢測(cè)到載體身份標(biāo)識(shí)并不是基于任意一款瀏覽器，則說(shuō)明這是一個(gè)非正常的請(qǐng)求也就是爬蟲，服務(wù)器很有可能拒絕該請(qǐng)求！??！

② UA偽裝

讓爬蟲對(duì)應(yīng)的請(qǐng)求載體身份標(biāo)識(shí)進(jìn)行偽裝成某一款瀏覽器

項(xiàng)目

項(xiàng)目概述：用戶輸入指定的關(guān)鍵詞，之后通過(guò)百度搜索引擎查到的所有相關(guān)頁(yè)面進(jìn)行下載到本地

步驟：
① 打開百度，搜索任意關(guān)鍵字信息，查看地址欄信息
例如我這里搜索beyond，地址欄信息為https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=beyond&oq=%25E9%25BB%2584%25E5%25AE%25B6%25E9%25A9%25B9&rsv_pq=86cafe360003cde6&rsv_t=6497SlvSbubKeEQiJKGnLL%2BCucYyWr9OJTHOTd0x%2Bbx0%2BViW%2FN75Q0avW1M&rqlang=cn&rsv_enter=1&rsv_dl=tb&rsv_sug3=6&rsv_sug1=4&rsv_sug7=100&rsv_sug2=0&rsv_btype=t&inputT=964&rsv_sug4=965
三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)
實(shí)則有用信息僅為https://www.baidu.com/s?wd=beyond，你也可以單獨(dú)輸入該網(wǎng)址仍可接收到服務(wù)器反饋的相同頁(yè)面結(jié)果信息。(同理其他的搜索引擎也都類似)其中beyond為可變參數(shù)，遇到可變參數(shù)需要把其放入到字典中去
三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)

②整理完url之后，我們需要獲取某個(gè)瀏覽器載體身份認(rèn)證信息，這里以Chrome為例，隨便打開一個(gè)網(wǎng)站(例如https://www.baidu.com/s?wd=beyond)，F(xiàn)12打開開發(fā)者工具，F(xiàn)5重新向服務(wù)器發(fā)出請(qǐng)求，Network下Name隨便找一個(gè)點(diǎn)進(jìn)入，就可以找到User-Agent信息，例如我的是這個(gè)User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36，該信息就是Chrome瀏覽器的唯一身份認(rèn)證標(biāo)識(shí)
三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)
③在get方法中，傳入U(xiǎn)ser-Agent和用戶輸入的關(guān)鍵字信息即可(均為字典形式)

完整代碼

import requests

if __name__ == '__main__':
    #UA偽裝，獲取某個(gè)瀏覽器的User-Agent唯一載體身份標(biāo)識(shí)
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
    }
    #指定url
    url = 'https://www.baidu.com/s?'#https://www.baidu.com/s?word=%E9%BB%84%E5%AE%B6%E9%A9%B9
    #處理url攜帶的參數(shù)，將參數(shù)封裝到字典中
    keyword = input("please input a word:")
    param = {
        'wd':keyword
    }
    #對(duì)指定的url發(fā)起請(qǐng)求，對(duì)應(yīng)的url是攜帶參數(shù)的，并且請(qǐng)求過(guò)程中已經(jīng)處理了參數(shù)
    response = requests.get(url=url,params=param,headers=headers)#若不傳入headers這個(gè)User-Agent信息，運(yùn)行程序之后，服務(wù)器并不會(huì)給這個(gè)響應(yīng)返回?cái)?shù)據(jù)信息。這說(shuō)明百度搜索引擎中采用了UA檢測(cè)反爬蟲機(jī)制
    
    #獲取響應(yīng)
    page = response.text
    filename = keyword+".html"
    #持久化存儲(chǔ)
    with open('E:/Jupyter_workspace/study/python/'+filename,'w',encoding='utf-8') as fp:#將服務(wù)器返回的頁(yè)面信息存儲(chǔ)到本地指定路徑
        fp.write(page)
    print(filename,"保存成功")

運(yùn)行效果如下：
三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)

文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-405000.html

到了這里，關(guān)于三、實(shí)戰(zhàn)---爬取百度指定詞條所對(duì)應(yīng)的結(jié)果頁(yè)面(一個(gè)簡(jiǎn)單的頁(yè)面采集器)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

使用爬蟲爬取百度搜索結(jié)果及各網(wǎng)站正文（request庫(kù)、selenium庫(kù)和beautifulsoup庫(kù))
任務(wù): 給定搜索詞，獲取百度搜索結(jié)果根據(jù)各項(xiàng)結(jié)果獲取對(duì)應(yīng)網(wǎng)站正文部分 header實(shí)際為一個(gè)字典，為訪問(wèn)百度時(shí)提供必要的信息。一般來(lái)講只需要提供 Cookie 就可以訪問(wèn)大多數(shù)網(wǎng)站，其余可能需要的還有 Host 、 User-Agent 等通過(guò)分析百度搜索url可以發(fā)現(xiàn) https://www.baidu.com/s?wd=茅
2024年03月27日
瀏覽(28)
（已解決）關(guān)鍵詞爬取百度搜索結(jié)果，返回百度安全驗(yàn)證，網(wǎng)絡(luò)不給力，請(qǐng)稍后重試，無(wú)法請(qǐng)求到正確數(shù)據(jù)的問(wèn)題
已解決，使用進(jìn)行百度搜索，然后爬取搜索結(jié)果，請(qǐng)求數(shù)據(jù)后，返回的是百度安全驗(yàn)證，網(wǎng)絡(luò)不給力，請(qǐng)稍后重試。無(wú)法請(qǐng)求到正確數(shù)據(jù)。且嘗試在header中增加Accept參數(shù)還是不行。 ? ? ?在學(xué)習(xí)過(guò)程中，寫了一小段練習(xí)用的爬取程序，獲取百度搜索后的結(jié)果，代
2024年02月08日
瀏覽(31)
【經(jīng)驗(yàn)分享】在百度搜索引擎中的結(jié)果中，過(guò)濾指定的網(wǎng)站
系統(tǒng)版本：Windows 10 描述：在搜索引擎中想在結(jié)果中過(guò)濾一些指定網(wǎng)站，快速找到有價(jià)值的內(nèi)容。視頻教程：文字教程： 1.進(jìn)入百度搜索引擎，bing搜索引擎貌似不可以。 www.baidu.com 2.搜索內(nèi)容如：銳捷無(wú)線AC基礎(chǔ)命令 -csdn，“-”這個(gè)符號(hào)是減號(hào)，0旁邊那個(gè)，或者小鍵盤的減
2024年02月03日
瀏覽(26)
（已解決）關(guān)鍵詞爬取百度搜索結(jié)果，返回百度安全驗(yàn)證，網(wǎng)絡(luò)不給力，請(qǐng)稍后重試，無(wú)法請(qǐng)求到正確數(shù)據(jù)的問(wèn)題（2023最新）
已解決，使用進(jìn)行百度搜索，然后爬取搜索結(jié)果，請(qǐng)求數(shù)據(jù)后，返回的是百度安全驗(yàn)證，網(wǎng)絡(luò)不給力，請(qǐng)稍后重試。無(wú)法請(qǐng)求到正確數(shù)據(jù)。且嘗試在header中增加Accept參數(shù)還是不行。 ? ? ?在學(xué)習(xí)過(guò)程中，寫了一小段練習(xí)用的爬取程序，獲取百度搜索后的結(jié)果，代
2024年02月17日
瀏覽(27)
百度百科詞條怎么更新？怎么能順利更新百科詞條？
企業(yè)和個(gè)人百度百科詞條的更新對(duì)于他們來(lái)說(shuō)都具有重要的意義，具體如下：對(duì)企業(yè)來(lái)說(shuō)：塑造品牌形象：百度百科是一個(gè)常被用戶信任并參考的知識(shí)平臺(tái)，通過(guò)更新企業(yè)詞條可以提供準(zhǔn)確、全面的企業(yè)信息，幫助企業(yè)塑造積極的品牌形象。增加曝光和知名度：百度百科在
2024年02月10日
瀏覽(24)
如何給自己創(chuàng)建個(gè)人百度百科詞條，人物百科詞條審核通過(guò)技巧
想要讓自己在百度上能夠搜索得到，一般都需要給自己創(chuàng)建一個(gè)個(gè)人百度百科詞條，但很多人發(fā)覺自己創(chuàng)建人物百度百科詞條怎么審核也審核不過(guò)，其實(shí)主要還是百科詞條文案和個(gè)人百科詞條參考資料的問(wèn)題。下面洛希愛做百科網(wǎng)分享如何給自己創(chuàng)建個(gè)人百度百科詞條，人物
2023年04月20日
瀏覽(28)
【爬蟲實(shí)戰(zhàn)】用python爬取微博任意關(guān)鍵詞搜索結(jié)果、exe文件
項(xiàng)目功能簡(jiǎn)介： 1.交互式配置； 2.兩種任意來(lái)源（直接輸入、本地文件）； 3.自動(dòng)翻頁(yè)(無(wú)限爬取)； 4.指定最大翻頁(yè)頁(yè)碼； 5.數(shù)據(jù)保存到csv文件； 6.程序支持打包成exe文件； 7.項(xiàng)目操作說(shuō)明文檔；一.最終效果視頻演示：用python爬取微博搜索結(jié)果、exe文件
2024年02月02日
瀏覽(28)
維基百科、百度百科和搜狗百科詞條的創(chuàng)建流程
隨著網(wǎng)絡(luò)的發(fā)展，百度百科、搜狗百科、維基百科等百科網(wǎng)站已經(jīng)成為大眾獲取知識(shí)的重要途徑。因?yàn)榘倏凭哂械锰飒?dú)厚的平臺(tái)優(yōu)勢(shì)，百科上的信息可信度高，權(quán)威性強(qiáng)。所以百科平臺(tái)也成為商家的必爭(zhēng)之地。這里小馬識(shí)途聊聊如何創(chuàng)建百度百科、搜狗百科和維基百科詞條。
2024年04月27日
瀏覽(25)
小馬識(shí)途分享百度百科收錄詞條的規(guī)則
百度百科詞條是人人都可以編輯的，并且都是免費(fèi)創(chuàng)建，但是自己創(chuàng)建百科詞條往往審核不通過(guò)，一般企業(yè)會(huì)把這項(xiàng)任務(wù)委托給有經(jīng)驗(yàn)的營(yíng)銷團(tuán)隊(duì)。這里小馬識(shí)途營(yíng)銷顧問(wèn)分享一下百度百科收錄詞條的規(guī)則。百度百科收錄規(guī)則主要分為：規(guī)范詞條名、客觀真實(shí)、來(lái)源可查證、
2024年02月16日
瀏覽(21)
Puppeteer 使用教程-實(shí)戰(zhàn)篇（爬取圖片、視頻、音頻，頁(yè)面數(shù)據(jù)）
目錄前言一、獲取實(shí)體店鋪信息二、獲取全國(guó)各省市縣地圖json數(shù)據(jù) 三、 cookies 四、獲取網(wǎng)絡(luò)圖片、視頻資源五、自動(dòng)化測(cè)試總結(jié) ????????續(xù)上篇，我們簡(jiǎn)單講述一下puppeteer常見的應(yīng)用場(chǎng)景，包括靜態(tài)頁(yè)面數(shù)據(jù)獲取，網(wǎng)絡(luò)請(qǐng)求獲取截取、圖片、視頻資源下載、自動(dòng)化
2024年02月06日
瀏覽(40)

<td id="pzkgd"><pre id="pzkgd"></pre></td>

<big id="pzkgd"></big>

<p id="pzkgd"></p>

<strike id="pzkgd"><option id="pzkgd"></option></strike>

<ul id="pzkgd"></ul>