国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python-requests庫（爬蟲）

2年前作者：BugEveryday分類：Toy博客閱讀(18)違法舉報

這篇具有很好參考價值的文章主要介紹了python-requests庫（爬蟲）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

1.數(shù)據(jù)獲取

網(wǎng)頁數(shù)據(jù)獲取有python自帶的urllib，也有第三方庫requests

requests庫常用方法

requests.request(url)	構造一個請求
requests.get(url,params=None)	發(fā)送get請求，結果為response對象
requests.post(url,data=None,json=None)	發(fā)送post請求
requests.put()	發(fā)送put請求
requests.head()	獲取html的頭信息
requests.delete()	提交刪除請求
requests.patch()	提交局部修改的請求

requests.session() 返回session對象，可以用session對象發(fā)起帶有session信息的請求，如

import requests
url='www.baidu.com'
data={'username':'zhangsan','password':'123'}
#獲取session對象
s=requests.session()
#session發(fā)起post請求獲取響應
resp=s.post(url,data=data)
#此時的session對象帶有session信息
url1='www.baidu.com/xxx'
resp1=s.get(url1)

response對象的常用屬性或方法

response對象是requests.get()的返回結果

response.status_code	響應狀態(tài)碼
response.content	二進制數(shù)據(jù)（圖片、視頻等）
response.text	字符串數(shù)據(jù)
response.encoding	定義response對象的編碼
response.cookies	獲取請求后的cookie
response.url	獲取請求網(wǎng)址
response.json()	內(nèi)置的JSON解碼器
response.headers	以字典對象存儲服務器響應頭，鍵不區(qū)分大小寫

2.數(shù)據(jù)解析

requests獲取到響應后，需要其他工具對響應數(shù)據(jù)進行解析，常用有xpath、beautifulsoup、正則表達式、pyquery等文章來源地址http://www.zghlxwxcb.cn/news/detail-476175.html

xpath（XML Path Language）

nodename	選取此節(jié)點的所有子節(jié)點
/	根節(jié)點
//	匹配選擇的節(jié)點，不考慮其位置
.	當前節(jié)點
..	當前節(jié)點的父節(jié)點
/text()	獲取當前節(jié)點下的文本內(nèi)容
/@xx	獲取當前節(jié)點下標簽的屬性xx
\|	或

xpath('/body/div[1]')	選取body下第一個div節(jié)點
xpath('/body/div[last()]')	選取body下最后一個div節(jié)點
xpath('/body/div[last()-1]')	選取body下倒數(shù)第二個div節(jié)點
xpath('/body/div[position()<3]')	選取body下前兩個div節(jié)點
xpath('/body/div[@class]')	選取body下帶有class屬性的div節(jié)點
xpath('/body/div[@class=main]')	選取body下class屬性值為main的div節(jié)點
xpath('/body/div[price>35.00]')	選取body下price元素大于35的div節(jié)點

到了這里，關于python-requests庫（爬蟲）的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

快樂學Python，數(shù)據(jù)分析之使用爬蟲獲取網(wǎng)頁內(nèi)容
在上一篇文章中，我們了解了爬蟲的原理以及要實現(xiàn)爬蟲的三個主要步驟：下載網(wǎng)頁-分析網(wǎng)頁-保存數(shù)據(jù)。下面，我們就來看一下：如何使用Python下載網(wǎng)頁。瀏覽器畫網(wǎng)頁的流程，是瀏覽器將用戶輸入的網(wǎng)址告訴網(wǎng)站的服務器，然后網(wǎng)站的服務器將網(wǎng)址對應的網(wǎng)頁返回給瀏覽
2024年01月17日
瀏覽(21)
【一個超簡單的爬蟲demo】探索新浪網(wǎng)：使用 Python 爬蟲獲取動態(tài)網(wǎng)頁數(shù)據(jù)
可以實戰(zhàn)教爬蟲嗎，搭個環(huán)境嘗試爬進去。嘗試收集一些數(shù)據(jù) 一位粉絲想了解爬蟲，我們今天從最基礎的開始吧！本文將介紹如何使用 Python 爬蟲技術爬取新浪網(wǎng)首頁的內(nèi)容。新浪網(wǎng)作為一個內(nèi)容豐富且更新頻繁的新聞網(wǎng)站，是理解動態(tài)網(wǎng)頁爬取的絕佳例子。首先，確保你
2024年02月04日
瀏覽(19)
python 爬蟲熱身篇使用 requests 庫通過 HTTP 讀取網(wǎng)絡數(shù)據(jù)，使用 pandas 讀取網(wǎng)頁上的表格，使用 Selenium 模擬瀏覽器操作
在過去，收集數(shù)據(jù)是一項繁瑣的工作，有時非常昂貴。機器學習項目不能沒有數(shù)據(jù)。幸運的是，我們現(xiàn)在在網(wǎng)絡上有很多數(shù)據(jù)可供我們使用。我們可以從 Web 復制數(shù)據(jù)來創(chuàng)建數(shù)據(jù)集。我們可以手動下載文件并將其保存到磁盤。但是，我們可以通過自動化數(shù)據(jù)收集來更有效地做
2023年04月08日
瀏覽(98)
第一個Python程序_獲取網(wǎng)頁 HTML 信息[Python爬蟲學習筆記]
使用 Python 內(nèi)置的 urllib 庫獲取網(wǎng)頁的 html 信息。注意，urllib 庫屬于 Python 的標準庫模塊，無須單獨安裝，它是 Python 爬蟲的常用模塊。 1) 獲取響應對象向百度（http://www.baidu.com/）發(fā)起請求，獲取百度首頁的 HTML 信息，代碼如下：上述代碼會返回百度首頁的響應對象，其中
2024年01月17日
瀏覽(21)
python爬取豆瓣電影排行前250獲取電影名稱和網(wǎng)絡鏈接[靜態(tài)網(wǎng)頁]————爬蟲實例（1）
目錄 1.算法原理： 2.程序流程： 3.程序代碼： 4.運行結果(部分結果展示)： 5.結果分析：（1）利用import命令導入模塊或者導入模塊中的對象； ①利用requests庫獲取數(shù)據(jù)； ②用BeautifulSoup庫將網(wǎng)頁源代碼轉(zhuǎn)換成BeautifulSoup類型，以便于數(shù)據(jù)的解析和處理； ③用time庫進行時間延時
2023年04月16日
瀏覽(96)
金融數(shù)據(jù)獲?。寒斉老x遇上要鼠標滾輪滾動才會刷新數(shù)據(jù)的網(wǎng)頁（保姆級教程）
目錄 1. 誰這么會給我整活兒 2. Selenium模擬網(wǎng)頁瀏覽器爬取 2.1 安裝和準備工作 2.2.1?高度判斷 2.2.2 頂部距離判斷 3:?爬取內(nèi)容 4: 完整代碼，結果展示 ????????什么，新浪的股票歷史數(shù)據(jù)已經(jīng)不直接提供了！ ?????????筆者前幾日需要找一些澳洲市場的數(shù)據(jù)，奈何API沒到
2024年02月10日
瀏覽(21)
Python requests爬蟲豆瓣圖片返回數(shù)據(jù)為空。
爬個豆瓣圖片，記錄個小問題，發(fā)現(xiàn)爬取豆瓣原圖的時候拿不到數(shù)據(jù)，返回為空，爬小圖可以，爬其他網(wǎng)站的也都正常，最后發(fā)現(xiàn)是header中If-Modified-Since這個參數(shù)的原因，加上了就拿不到數(shù)據(jù)，去掉就行。
2024年02月09日
瀏覽(21)
如何使用 Python 爬蟲抓取動態(tài)網(wǎng)頁數(shù)據(jù)
隨著 Web 技術的不斷發(fā)展，越來越多的網(wǎng)站采用了動態(tài)網(wǎng)頁技術，這使得傳統(tǒng)的靜態(tài)網(wǎng)頁爬蟲變得無能為力。本文將介紹如何使用 Python 爬蟲抓取動態(tài)網(wǎng)頁數(shù)據(jù)，包括分析動態(tài)網(wǎng)頁、模擬用戶行為、使用 Selenium 等技術。在進行動態(tài)網(wǎng)頁爬取之前，我們需要先了解動態(tài)網(wǎng)頁和靜
2023年04月24日
瀏覽(65)
Python網(wǎng)頁爬蟲爬取起點小說——re解析網(wǎng)頁數(shù)據(jù)
?。∽⒁猓何覀儷@取到的網(wǎng)頁響應數(shù)據(jù)，可能會與網(wǎng)頁源代碼中呈現(xiàn)的格式不同。因為有些網(wǎng)頁文件是用JavaScript加載的，瀏覽器會自動將其解析成html文檔格式，而我們獲取到的內(nèi)容是JavaScript格式的文檔。所以獲取到響應數(shù)據(jù)之后先要查看內(nèi)容是否與網(wǎng)頁源碼中的一致，不一
2024年02月04日
瀏覽(42)
Python 爬蟲實戰(zhàn)：駕馭數(shù)據(jù)洪流，揭秘網(wǎng)頁深處
爬蟲，這個經(jīng)常被人提到的詞，是對數(shù)據(jù)收集過程的一種形象化描述。特別是在Python語言中，由于其豐富的庫資源和良好的易用性，使得其成為編寫爬蟲的絕佳選擇。本文將從基礎知識開始，深入淺出地講解Python爬蟲的相關知識，并分享一些獨特的用法和實用技巧。本文將以
2024年02月12日
瀏覽(22)