国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python-requests庫(爬蟲)

這篇具有很好參考價值的文章主要介紹了python-requests庫(爬蟲)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1.數(shù)據(jù)獲取

網(wǎng)頁數(shù)據(jù)獲取有python自帶的urllib,也有第三方庫requests

requests庫常用方法

requests.request(url) 構造一個請求
requests.get(url,params=None) 發(fā)送get請求,結果為response對象
requests.post(url,data=None,json=None) 發(fā)送post請求
requests.put() 發(fā)送put請求
requests.head() 獲取html的頭信息
requests.delete() 提交刪除請求
requests.patch() 提交局部修改的請求

requests.session() 返回session對象,可以用session對象發(fā)起帶有session信息的請求,如

import requests
url='www.baidu.com'
data={'username':'zhangsan','password':'123'}
#獲取session對象
s=requests.session()
#session發(fā)起post請求獲取響應
resp=s.post(url,data=data)
#此時的session對象帶有session信息
url1='www.baidu.com/xxx'
resp1=s.get(url1)

response對象的常用屬性或方法

response對象是requests.get()的返回結果

response.status_code 響應狀態(tài)碼
response.content 二進制數(shù)據(jù)(圖片、視頻等)
response.text 字符串數(shù)據(jù)
response.encoding 定義response對象的編碼
response.cookies 獲取請求后的cookie
response.url 獲取請求網(wǎng)址
response.json() 內(nèi)置的JSON解碼器
response.headers 以字典對象存儲服務器響應頭,鍵不區(qū)分大小寫

2.數(shù)據(jù)解析

requests獲取到響應后,需要其他工具對響應數(shù)據(jù)進行解析,常用有xpath、beautifulsoup、正則表達式、pyquery等文章來源地址http://www.zghlxwxcb.cn/news/detail-476175.html

xpath(XML Path Language)

nodename 選取此節(jié)點的所有子節(jié)點
/ 根節(jié)點
// 匹配選擇的節(jié)點,不考慮其位置
. 當前節(jié)點
.. 當前節(jié)點的父節(jié)點
/text() 獲取當前節(jié)點下的文本內(nèi)容
/@xx 獲取當前節(jié)點下標簽的屬性xx
|
xpath('/body/div[1]') 選取body下第一個div節(jié)點
xpath('/body/div[last()]') 選取body下最后一個div節(jié)點
xpath('/body/div[last()-1]') 選取body下倒數(shù)第二個div節(jié)點
xpath('/body/div[position()<3]') 選取body下前兩個div節(jié)點
xpath('/body/div[@class]') 選取body下帶有class屬性的div節(jié)點
xpath('/body/div[@class=main]') 選取body下class屬性值為main的div節(jié)點
xpath('/body/div[price>35.00]') 選取body下price元素大于35的div節(jié)點

到了這里,關于python-requests庫(爬蟲)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 快樂學Python,數(shù)據(jù)分析之使用爬蟲獲取網(wǎng)頁內(nèi)容

    快樂學Python,數(shù)據(jù)分析之使用爬蟲獲取網(wǎng)頁內(nèi)容

    在上一篇文章中,我們了解了爬蟲的原理以及要實現(xiàn)爬蟲的三個主要步驟:下載網(wǎng)頁-分析網(wǎng)頁-保存數(shù)據(jù)。 下面,我們就來看一下:如何使用Python下載網(wǎng)頁。 瀏覽器畫網(wǎng)頁的流程,是瀏覽器將用戶輸入的網(wǎng)址告訴網(wǎng)站的服務器,然后網(wǎng)站的服務器將網(wǎng)址對應的網(wǎng)頁返回給瀏覽

    2024年01月17日
    瀏覽(21)
  • 【一個超簡單的爬蟲demo】探索新浪網(wǎng):使用 Python 爬蟲獲取動態(tài)網(wǎng)頁數(shù)據(jù)

    【一個超簡單的爬蟲demo】探索新浪網(wǎng):使用 Python 爬蟲獲取動態(tài)網(wǎng)頁數(shù)據(jù)

    可以實戰(zhàn)教爬蟲嗎,搭個環(huán)境嘗試爬進去。嘗試收集一些數(shù)據(jù) 一位粉絲想了解爬蟲,我們今天從最基礎的開始吧! 本文將介紹如何使用 Python 爬蟲技術爬取新浪網(wǎng)首頁的內(nèi)容。新浪網(wǎng)作為一個內(nèi)容豐富且更新頻繁的新聞網(wǎng)站,是理解動態(tài)網(wǎng)頁爬取的絕佳例子。 首先,確保你

    2024年02月04日
    瀏覽(19)
  • python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作

    python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作

    在過去,收集數(shù)據(jù)是一項繁瑣的工作,有時非常昂貴。機器學習項目不能沒有數(shù)據(jù)。幸運的是,我們現(xiàn)在在網(wǎng)絡上有很多數(shù)據(jù)可供我們使用。我們可以從 Web 復制數(shù)據(jù)來創(chuàng)建數(shù)據(jù)集。我們可以手動下載文件并將其保存到磁盤。但是,我們可以通過自動化數(shù)據(jù)收集來更有效地做

    2023年04月08日
    瀏覽(98)
  • 第一個Python程序_獲取網(wǎng)頁 HTML 信息[Python爬蟲學習筆記]

    第一個Python程序_獲取網(wǎng)頁 HTML 信息[Python爬蟲學習筆記]

    使用 Python 內(nèi)置的 urllib 庫獲取網(wǎng)頁的 html 信息。注意,urllib 庫屬于 Python 的標準庫模塊,無須單獨安裝,它是 Python 爬蟲的常用模塊。 1) 獲取響應對象 向百度(http://www.baidu.com/)發(fā)起請求,獲取百度首頁的 HTML 信息,代碼如下: 上述代碼會返回百度首頁的響應對象, 其中

    2024年01月17日
    瀏覽(21)
  • python爬取豆瓣電影排行前250獲取電影名稱和網(wǎng)絡鏈接[靜態(tài)網(wǎng)頁]————爬蟲實例(1)

    python爬取豆瓣電影排行前250獲取電影名稱和網(wǎng)絡鏈接[靜態(tài)網(wǎng)頁]————爬蟲實例(1)

    目錄 1.算法原理: 2.程序流程: 3.程序代碼: 4.運行結果(部分結果展示): 5.結果分析: (1)利用import命令導入模塊或者導入模塊中的對象; ①利用requests庫獲取數(shù)據(jù); ②用BeautifulSoup庫將網(wǎng)頁源代碼轉(zhuǎn)換成BeautifulSoup類型,以便于數(shù)據(jù)的解析和處理; ③用time庫進行時間延時

    2023年04月16日
    瀏覽(96)
  • 金融數(shù)據(jù)獲取:當爬蟲遇上要鼠標滾輪滾動才會刷新數(shù)據(jù)的網(wǎng)頁(保姆級教程)

    金融數(shù)據(jù)獲?。寒斉老x遇上要鼠標滾輪滾動才會刷新數(shù)據(jù)的網(wǎng)頁(保姆級教程)

    目錄 1. 誰這么會給我整活兒 2. Selenium模擬網(wǎng)頁瀏覽器爬取 2.1 安裝和準備工作 2.2.1?高度判斷 2.2.2 頂部距離判斷 3:?爬取內(nèi)容 4: 完整代碼,結果展示 ????????什么,新浪的股票歷史數(shù)據(jù)已經(jīng)不直接提供了! ?????????筆者前幾日需要找一些澳洲市場的數(shù)據(jù),奈何API沒到

    2024年02月10日
    瀏覽(21)
  • Python requests爬蟲豆瓣圖片返回數(shù)據(jù)為空。

    爬個豆瓣圖片,記錄個小問題,發(fā)現(xiàn)爬取豆瓣原圖的時候拿不到數(shù)據(jù),返回為空,爬小圖可以,爬其他網(wǎng)站的也都正常,最后發(fā)現(xiàn)是header中If-Modified-Since這個參數(shù)的原因,加上了就拿不到數(shù)據(jù),去掉就行。

    2024年02月09日
    瀏覽(21)
  • 如何使用 Python 爬蟲抓取動態(tài)網(wǎng)頁數(shù)據(jù)

    隨著 Web 技術的不斷發(fā)展,越來越多的網(wǎng)站采用了動態(tài)網(wǎng)頁技術,這使得傳統(tǒng)的靜態(tài)網(wǎng)頁爬蟲變得無能為力。本文將介紹如何使用 Python 爬蟲抓取動態(tài)網(wǎng)頁數(shù)據(jù),包括分析動態(tài)網(wǎng)頁、模擬用戶行為、使用 Selenium 等技術。 在進行動態(tài)網(wǎng)頁爬取之前,我們需要先了解動態(tài)網(wǎng)頁和靜

    2023年04月24日
    瀏覽(65)
  • Python網(wǎng)頁爬蟲爬取起點小說——re解析網(wǎng)頁數(shù)據(jù)

    Python網(wǎng)頁爬蟲爬取起點小說——re解析網(wǎng)頁數(shù)據(jù)

    ?。∽⒁猓何覀儷@取到的網(wǎng)頁響應數(shù)據(jù),可能會與網(wǎng)頁源代碼中呈現(xiàn)的格式不同。因為有些網(wǎng)頁文件是用JavaScript加載的,瀏覽器會自動將其解析成html文檔格式,而我們獲取到的內(nèi)容是JavaScript格式的文檔。所以獲取到響應數(shù)據(jù)之后先要查看內(nèi)容是否與網(wǎng)頁源碼中的一致,不一

    2024年02月04日
    瀏覽(42)
  • Python 爬蟲實戰(zhàn):駕馭數(shù)據(jù)洪流,揭秘網(wǎng)頁深處

    爬蟲,這個經(jīng)常被人提到的詞,是對數(shù)據(jù)收集過程的一種形象化描述。特別是在Python語言中,由于其豐富的庫資源和良好的易用性,使得其成為編寫爬蟲的絕佳選擇。本文將從基礎知識開始,深入淺出地講解Python爬蟲的相關知識,并分享一些獨特的用法和實用技巧。本文將以

    2024年02月12日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包