国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲基礎(chǔ):使用requests模塊獲取網(wǎng)頁(yè)內(nèi)容

這篇具有很好參考價(jià)值的文章主要介紹了Python爬蟲基礎(chǔ):使用requests模塊獲取網(wǎng)頁(yè)內(nèi)容。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

requests模塊可以用來獲取網(wǎng)絡(luò)數(shù)據(jù);

那么對(duì)于爬蟲來說,要獲取下圖網(wǎng)頁(yè)中的內(nèi)容,就需要網(wǎng)頁(yè)的URL。
復(fù)制鏈接方法是,打開網(wǎng)頁(yè),點(diǎn)擊鏈接框,右鍵選擇復(fù)制。

requests.get()函數(shù)可用于模擬瀏覽器請(qǐng)求網(wǎng)頁(yè)的過程,在Python語(yǔ)言中使用該函數(shù),就能夠獲取網(wǎng)頁(yè)數(shù)據(jù)。
get()函數(shù)中傳入要訪問網(wǎng)頁(yè)的URL,就像瀏覽器打開URL一樣。

(1)獲取網(wǎng)頁(yè)內(nèi)容的步驟

Python,Python爬蟲,requests模塊,Python獲取網(wǎng)頁(yè)內(nèi)容

(2)代碼實(shí)現(xiàn)

# 使用import導(dǎo)入requests模塊
import requests

# 將網(wǎng)頁(yè)鏈接賦值給url
url = "https://*****************/"

# 使用requests.get()方法獲取url的內(nèi)容,將結(jié)果賦值給response
response = requests.get(url)

# 輸出response
print(response)

返回的response對(duì)象,就是響應(yīng)消息;

(3)獲取狀態(tài)碼

在瀏覽器中查看Response Headers中的信息就能夠找到status:200,狀態(tài)碼200代表此次請(qǐng)求執(zhí)行成功。

使用.status_code屬性就可以查看狀態(tài)碼,這里輸出的狀態(tài)碼數(shù)據(jù)類型是整型

import requests

url = "https://nocturne-spider.baicizhan.com/2020/07/29/example-post-3/"

response = requests.get(url)

statusCode = response.status_code

print(statusCode)

而只有狀態(tài)碼返回為200時(shí),才能夠成功獲取到網(wǎng)頁(yè)內(nèi)容。

為滿足上面的運(yùn)行邏輯,我們要使用條件判斷語(yǔ)句if..else先判斷狀態(tài)碼,當(dāng)狀態(tài)碼等于200時(shí),再進(jìn)行下一步操作。

if response.status_code == 200:
   
    print(response.status_code)

else:
   
    print("請(qǐng)求數(shù)據(jù)失敗")

(4)提取信息,獲取內(nèi)容

通過請(qǐng)求URL,獲取到了Web服務(wù)器返回的信息,

要用.text屬性,該屬性能夠?qū)@取到的信息提取出來。

網(wǎng)頁(yè)內(nèi)容多,我們可以用切片(遵循左閉右開,將字符串進(jìn)行分割)方法,輸出前1000個(gè)字符;

if response.status_code == 200:
    
    content = response.text[:1000]
    
    print(content)

else:

    print("請(qǐng)求數(shù)據(jù)失敗")

(5)HTML

剛剛輸出的內(nèi)容是HTML語(yǔ)言,它是由許多的標(biāo)簽組成,這些標(biāo)簽構(gòu)成網(wǎng)頁(yè)的內(nèi)容;

這個(gè)就是類似輸出的HTML語(yǔ)言

<!DOCTYPE html>
<html lang="zh-CN">
<head>
  <meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=2">
<meta name="theme-color" content="#222">
<meta name="generator" content="Hexo 5.1.1">
  <link rel="apple-touch-icon" sizes="180x180" href="/images/apple-touch-icon-next.png">
  <link rel="icon" type="image/png" sizes="32x32" href="/images/favicon-32x32-next.png">
  <link rel="icon" type="image/png" sizes="16x16" href="/images/favicon-16x16-next.png">
  <link rel="mask-icon" href="/images/logo.svg" color="#222">

<link rel="stylesheet" href="/css/main.css">

<link rel="stylesheet" href="/lib/font-awesome/css/all.min.css">

(6)總結(jié)

HTML是構(gòu)成網(wǎng)頁(yè)的標(biāo)記語(yǔ)言。
URL指定了要訪問文檔的具體地址。
HTTP協(xié)議規(guī)定了文檔的傳遞方式。
爬蟲就是根據(jù)URL,通過HTTP協(xié)議去獲取HTML內(nèi)容。文章來源地址http://www.zghlxwxcb.cn/news/detail-837238.html

到了這里,關(guān)于Python爬蟲基礎(chǔ):使用requests模塊獲取網(wǎng)頁(yè)內(nèi)容的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【頭歌】——數(shù)據(jù)分析與實(shí)踐-python-網(wǎng)絡(luò)爬蟲-Scrapy爬蟲基礎(chǔ)-網(wǎng)頁(yè)數(shù)據(jù)解析-requests 爬蟲-JSON基礎(chǔ)

    第1關(guān) 爬取網(wǎng)頁(yè)的表格信息 第2關(guān) 爬取表格中指定單元格的信息 第3關(guān) 將單元格的信息保存到列表并排序 第4關(guān) 爬取div標(biāo)簽的信息 第5關(guān) 爬取單頁(yè)多個(gè)div標(biāo)簽的信息 第6關(guān) 爬取多個(gè)網(wǎng)頁(yè)的多個(gè)div標(biāo)簽的信息 第1關(guān) Scarpy安裝與項(xiàng)目創(chuàng)建 第2關(guān) Scrapy核心原理 第1關(guān) XPath解析網(wǎng)頁(yè) 第

    2024年01月22日
    瀏覽(27)
  • requests或selenium獲取網(wǎng)頁(yè)內(nèi)容不全問題(非異步加載)

    最近用python做腳本的時(shí)候,發(fā)現(xiàn)了一個(gè)問題,就是獲取的網(wǎng)頁(yè)并不全??赡茉蛑皇琼?yè)面內(nèi)容過大,無法加載全部到內(nèi)存中 下面的解決方法只針對(duì)靜態(tài)加載頁(yè)面(有的網(wǎng)頁(yè)是動(dòng)態(tài)加載數(shù)據(jù),需要查看對(duì)應(yīng)的js請(qǐng)求或者用selenium來獲取就好)。 解決方法為放入文件里,再讀取

    2024年01月25日
    瀏覽(20)
  • 快樂學(xué)Python,如何使用爬蟲從網(wǎng)頁(yè)中提取感興趣的內(nèi)容?

    快樂學(xué)Python,如何使用爬蟲從網(wǎng)頁(yè)中提取感興趣的內(nèi)容?

    前面的內(nèi)容,我們了解了使用urllib3和selenium來下載網(wǎng)頁(yè),但下載下來的是整個(gè)網(wǎng)頁(yè)的內(nèi)容,那我們又怎么從下載下來的網(wǎng)頁(yè)中提取我們自己感興趣的內(nèi)容呢?這里就需要Python的另一個(gè)庫(kù)來實(shí)現(xiàn)-BeautifulSoup。 BeautifulSoup 是一個(gè) Python 庫(kù),用于分析 HTML。它和它的名字一樣,用起來

    2024年01月18日
    瀏覽(17)
  • Python爬蟲——Selenium在獲取網(wǎng)頁(yè)數(shù)據(jù)方面的使用

    Python爬蟲——Selenium在獲取網(wǎng)頁(yè)數(shù)據(jù)方面的使用

    目錄 一、Selenium (一)引入 ?(二)啟動(dòng)瀏覽器 二、操作 (一)點(diǎn)擊 (二)輸入 三、數(shù)據(jù)獲取 四、特點(diǎn) 五、抓取拉鉤實(shí)例 六、其他操作 (一)窗口切換 代碼 (二)操作下拉列表/無頭瀏覽器 代碼 ????????一個(gè)電影票房的網(wǎng)站里,響應(yīng)數(shù)據(jù)是一串完全看不懂的字符串

    2024年02月07日
    瀏覽(23)
  • Python 爬蟲的學(xué)習(xí) day01 ,爬蟲的基本知識(shí), requests 和 charde模塊, get函數(shù)的使用

    Python 爬蟲的學(xué)習(xí) day01 ,爬蟲的基本知識(shí), requests 和 charde模塊, get函數(shù)的使用

    1.1什么是網(wǎng)絡(luò)爬蟲 網(wǎng)絡(luò)爬蟲,又稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本,另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。 1.2? 網(wǎng)絡(luò)爬蟲的特點(diǎn) 網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)

    2024年02月15日
    瀏覽(21)
  • 【一個(gè)超簡(jiǎn)單的爬蟲demo】探索新浪網(wǎng):使用 Python 爬蟲獲取動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)

    【一個(gè)超簡(jiǎn)單的爬蟲demo】探索新浪網(wǎng):使用 Python 爬蟲獲取動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)

    可以實(shí)戰(zhàn)教爬蟲嗎,搭個(gè)環(huán)境嘗試爬進(jìn)去。嘗試收集一些數(shù)據(jù) 一位粉絲想了解爬蟲,我們今天從最基礎(chǔ)的開始吧! 本文將介紹如何使用 Python 爬蟲技術(shù)爬取新浪網(wǎng)首頁(yè)的內(nèi)容。新浪網(wǎng)作為一個(gè)內(nèi)容豐富且更新頻繁的新聞網(wǎng)站,是理解動(dòng)態(tài)網(wǎng)頁(yè)爬取的絕佳例子。 首先,確保你

    2024年02月04日
    瀏覽(17)
  • python 爬蟲熱身篇 使用 requests 庫(kù)通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁(yè)上的表格,使用 Selenium 模擬瀏覽器操作

    python 爬蟲熱身篇 使用 requests 庫(kù)通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁(yè)上的表格,使用 Selenium 模擬瀏覽器操作

    在過去,收集數(shù)據(jù)是一項(xiàng)繁瑣的工作,有時(shí)非常昂貴。機(jī)器學(xué)習(xí)項(xiàng)目不能沒有數(shù)據(jù)。幸運(yùn)的是,我們現(xiàn)在在網(wǎng)絡(luò)上有很多數(shù)據(jù)可供我們使用。我們可以從 Web 復(fù)制數(shù)據(jù)來創(chuàng)建數(shù)據(jù)集。我們可以手動(dòng)下載文件并將其保存到磁盤。但是,我們可以通過自動(dòng)化數(shù)據(jù)收集來更有效地做

    2023年04月08日
    瀏覽(95)
  • 一個(gè)月學(xué)通Python(三十四):使用Selenium模擬人工操作及獲取網(wǎng)頁(yè)內(nèi)容

    結(jié)合自身經(jīng)驗(yàn)和內(nèi)部資料總結(jié)的Python教程,每天3-5章,最短1個(gè)月就能全方位的完成Python的學(xué)習(xí)并進(jìn)行實(shí)戰(zhàn)開發(fā),學(xué)完了定能成為大佬!加油吧!卷起來! 全部文章請(qǐng)?jiān)L問專欄:《Python全棧教程(0基礎(chǔ))》 再推薦一下最近熱更的:《大廠測(cè)試高頻面試題詳解》 該專欄對(duì)近年

    2024年02月13日
    瀏覽(28)
  • Python爬蟲基礎(chǔ)(三):使用Selenium動(dòng)態(tài)加載網(wǎng)頁(yè)

    Python爬蟲基礎(chǔ)(三):使用Selenium動(dòng)態(tài)加載網(wǎng)頁(yè)

    Python爬蟲基礎(chǔ)(一):urllib庫(kù)的使用詳解 Python爬蟲基礎(chǔ)(二):使用xpath與jsonpath解析爬取的數(shù)據(jù) Python爬蟲基礎(chǔ)(三):使用Selenium動(dòng)態(tài)加載網(wǎng)頁(yè) Python爬蟲基礎(chǔ)(四):使用更方便的requests庫(kù) Python爬蟲基礎(chǔ)(五):使用scrapy框架 (1)Selenium是一個(gè)用于Web應(yīng)用程序測(cè)試的工具。

    2024年02月06日
    瀏覽(30)
  • Python爬蟲之requests模塊

    requests文檔http://docs.python-requests.org/zh_CN/latest/index.html 1、requests模塊的作用: 發(fā)送http請(qǐng)求,獲取響應(yīng)數(shù)據(jù) 2、requests模塊是一個(gè)第三方模塊,需要在你的python(虛擬)環(huán)境中額外安裝 pip/pip3 install requests 3、requests模塊發(fā)送get請(qǐng)求 需求:通過requests向百度首頁(yè)發(fā)送請(qǐng)求,獲取該頁(yè)面

    2024年02月09日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包