国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

爬蟲,初學(xué)者指南

這篇具有很好參考價值的文章主要介紹了爬蟲,初學(xué)者指南。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

第一篇:爬蟲入門request模塊的基本使用以www.douban.com為例

get請求:

# 查看響應(yīng)數(shù)據(jù),返回的是Unicode格式的數(shù)據(jù)
print(response.text)

# # 查看響應(yīng)數(shù)據(jù),返回的是字節(jié)流數(shù)據(jù)(圖片視頻等)
print(response.content)

# 查看完整url地址
print(response.url)

# 查看響應(yīng)頭部字符編碼
print(response.encoding)

# 查看響應(yīng)碼
print(response.status_code)

print(response)
1.想目標地址發(fā)起請求,攜帶heards和不攜帶heards的區(qū)別
import requests
url = "http://www.douban.com"
heards = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
}
r = requests.get(url=url)
print(r)
print(r.headers)

<Response [418]>
{'Connection': 'close', 'Date': 'Sat, 23 Sep 2023 14:46:44 GMT', 'Server': 'dae', 'Content-Length': '0'}

request模塊用于測速發(fā)送數(shù)據(jù)的連通性,通過回復(fù)可以看出418,Connection:close表示未獲取到服務(wù)器的返回值,需要添加heards信息,此服務(wù)器拒絕非瀏覽器發(fā)送的請求。

import requests
url = "http://www.douban.com"
heards = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
}
r = requests.get(url=url, headers=heards)
print(r)
print(r.headers)

<Response [200]>
{'Date': 'Sat, 23 Sep 2023 14:49:28 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Keep-Alive': 'timeout=30', 'X-Xss-Protection': '1; mode=block', 'X-Douban-Mobileapp': '0', 'Expires': 'Sun, 1 Jan 2006 01:00:00 GMT', 'Pragma': 'no-cache', 'Cache-Control': 'must-revalidate, no-cache, private', 'Set-Cookie': 'ck="deleted"; max-age=0; domain=.douban.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; path=/, dbcl2="deleted"; max-age=0; domain=.douban.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; path=/, ll="108099"; path=/; domain=.douban.com; expires=Sun, 22-Sep-2024 14:49:28 GMT, bid=ArFHHYIPdMc; Expires=Sun, 22-Sep-24 14:49:28 GMT; Domain=.douban.com; Path=/', 'X-DAE-App': 'sns', 'X-DAE-Instance': 'home', 'X-DAE-Mountpoint': 'True', 'X-DOUBAN-NEWBID': 'ArFHHYIPdMc', 'Server': 'dae', 'X-Frame-Options': 'SAMEORIGIN', 'Strict-Transport-Security': 'max-age=15552000;', 'Content-Encoding': 'gzip'}

上圖可以看出添加了頭信息headers之后成功獲取了返回值,一般情況下使用request模塊發(fā)送請求爬蟲時,默認情況下都需要添加頭信息

2.攜帶params參數(shù)以百度為例

爬蟲,初學(xué)者指南,Python,爬蟲

import requests
heards = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}
url = "http://www.baidu.com/s?"
kw = {
    'wd': "python"
}
response = requests.get(url=url, params=kw, headers=heards)
# 修改編碼格式如果不修改獲得的響應(yīng)數(shù)據(jù)會亂碼
response.encoding = 'utf-8'

# 查看響應(yīng)數(shù)據(jù),返回的是Unicode格式的數(shù)據(jù)
print(response.text)

# # 查看響應(yīng)數(shù)據(jù),返回的是字節(jié)流數(shù)據(jù)(圖片視頻等)
print(response.content)

# 查看完整url地址
print(response.url)

# 查看響應(yīng)頭部字符編碼
print(response.encoding)

# 查看響應(yīng)碼
print(response.status_code)

print(response)

?POST請求:

對于post來說我們一般需要為他構(gòu)建一些參數(shù)傳遞也就是form表單,一般放入data中

import requests
heards = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}
url = "https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php"
data = {
    'log': 'hello',
    'pwd': '123456',
    'wp-submit': '登錄',
    'redirect_to': 'https://wordpress-edu-3autumn.localprod.oc.forchange.cn',
    'testcookie': '1'
}
response = requests.post(url=url, data=data, headers=heards)
response.encoding= 'utf-8'
print(response.text)

第二篇:非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的處理

非結(jié)構(gòu)化數(shù)據(jù)的處理

文本、電話號碼、郵箱地址

  • 正則表達式

HTML文件:

  • 正則表達式
  • XPath
  • css選擇器

結(jié)構(gòu)化數(shù)據(jù)的處理

  • json文件

三、Xpath詳細使用:

1.什么是XPath

XPath是一門在XML文檔中查找信息的語言,可用來在XML文檔中對元素的屬性進行遍歷

2.XPath開發(fā)工具

  • 開源的Xpath表達式編輯器工具XMLQuire(XML格式文件可用)
  • Chrome插件XPath Helper
  • Firefox插件XPath Checker

3.選取節(jié)點

XPath使用路徑表達式來選取XML文檔中的節(jié)點或者節(jié)點集,這些路徑表達式和我們在常規(guī)電腦文件系統(tǒng)中看到的表達式非常相似文章來源地址http://www.zghlxwxcb.cn/news/detail-731701.html

下面列取了常見的路勁表達式:

表達式? ? ? ? 描述
nodename 選取此節(jié)點的所有子節(jié)點
/ 從根節(jié)點選取
// 從匹配的訓(xùn)責的當前節(jié)點選擇文檔中的節(jié)點,從不考慮他們的位置
. 選取當前節(jié)點
.. 選取當前節(jié)點的父節(jié)點
@ 選取屬性

在下面表格中,列出了一些路徑表達式以及表達式的結(jié)果:

路徑表達式
bookstore 選擇bookstore元素的所有子節(jié)點
/bookstore 選取根元素bookstore。注釋:加入路徑起始于/,則此路徑使用代表到某元素的絕對位置
bookstore/book 選取所有bookstore的子元素的所有book元素
//book 選取所有book子元素,而不管他們在文檔中的位置
bookstore//book 選擇數(shù)據(jù)bookstore元素的后代的所有book元素,而不管它們位置bookstore之下的射門位置
//@lang 選取名為lang的所有屬性

?謂語(Predicates)

謂語用來查找某個特定的節(jié)點或者包含某個指定的值的節(jié)點,被嵌在方括號中

路徑表達式 結(jié)果
/bookstore/book[1] 選取數(shù)據(jù)bookstore子元素的第一個book元素
/bookstore/book[last()] 選取數(shù)據(jù)bookstore子元素的最后一個book元素
/bookstore/book[last()-1] 選取數(shù)據(jù)bookstore子元素的倒數(shù)第二個book元素
/bookstore/book[position()<3] 選取最前面的兩個屬于bookstore元素的子元素的book元素
//title[@lang] 選取所有擁有名為lang的屬性的title元素
//title[@lang='eng'] 選取所有title元素,且這些元素擁有值為eng的lang屬性
/bookstore/book[price>35.00] 選取bookstore元素所有book元素,且其中的price元素的值大于35.00
/bookstore/book[price>35.00]/title 選取bookstore元素所有book元素的所有title元素,且其中的price元素的值大于35.00

選取未知節(jié)點

通配符 描述
* 匹配任何元素節(jié)點
@* 匹配任何屬性節(jié)點
node() 匹配任何類型節(jié)點
路徑表達式 結(jié)果
/bookstore/* 選取bookstore元素的所有子元素
//* 選取文檔中的所有元素
//title[@*] 選取所有帶有屬性的title元素

?選取若干路徑

路徑表達式 結(jié)果
//book/title | //book/price 選取book元素的所喲有title和price元素
//title | //price 選取文檔中的所有title和price元素
/bookstore/book/title | //price 選取屬于bookstore元素的book元素的所有title元素,以及文檔中所有的price元素

到了這里,關(guān)于爬蟲,初學(xué)者指南的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 大語言模型初學(xué)者指南 (2023)

    大語言模型初學(xué)者指南 (2023)

    大語言模型 (LLM) 是深度學(xué)習(xí)的一個子集,它正在徹底改變自然語言處理領(lǐng)域。它們是功能強大的通用語言模型,可以針對大量數(shù)據(jù)進行預(yù)訓(xùn)練,然后針對特定任務(wù)進行微調(diào)。這使得LLM能夠擁有大量的一般數(shù)據(jù)。如果一個人想將LLM用于特定目的,他們可以簡單地根據(jù)各自的目的

    2024年02月11日
    瀏覽(33)
  • 算法初學(xué)者指南:理解排序算法

    ? ? ? ? 排序是計算機科學(xué)中的基本問題之一,也是數(shù)據(jù)處理的核心步驟。從最簡單的個人項目到復(fù)雜的工業(yè)級應(yīng)用,排序都扮演著關(guān)鍵角色。本文將介紹四種常見的排序算法:冒泡排序、插入排序、快速排序和堆排序,旨在幫助算法初學(xué)者理解這些基本概念。 ? ? ? ? 冒泡

    2024年01月23日
    瀏覽(39)
  • Spark初學(xué)者指南:使用指南和示例

    本文介紹了如何使用Spark處理大規(guī)模數(shù)據(jù)集,并提供了一個Scala編寫的Word Count示例,指導(dǎo)您從安裝和配置到編寫和運行Spark應(yīng)用程序。無需擔心,即使您是Spark初學(xué)者,也可以按照本文的步驟來學(xué)習(xí)和使用Spark。 Spark是一個流行的分布式計算框架,用于處理大規(guī)模數(shù)據(jù)集。它使

    2024年02月06日
    瀏覽(34)
  • 【深度學(xué)習(xí)】深度強化學(xué)習(xí)初學(xué)者指南

    ????????GAN(Generative Adversarial Networks)是一種深度學(xué)習(xí)模型,它由兩個神經(jīng)網(wǎng)絡(luò)組成:一個生成網(wǎng)絡(luò)和一個判別網(wǎng)絡(luò)。生成網(wǎng)絡(luò)學(xué)習(xí)如何生成類似于給定數(shù)據(jù)集的新數(shù)據(jù),而判別網(wǎng)絡(luò)則學(xué)習(xí)如何區(qū)分生成網(wǎng)絡(luò)生成的數(shù)據(jù)和原始數(shù)據(jù)。這兩個網(wǎng)絡(luò)相互競爭,使得生成器越來

    2024年02月13日
    瀏覽(51)
  • 【深度學(xué)習(xí)】神經(jīng)網(wǎng)絡(luò)初學(xué)者指南

    ????????這是一篇對神經(jīng)網(wǎng)絡(luò)的泛泛而談的文章,我的意見是,先知道框架,而后知道每一個細節(jié),這是學(xué)習(xí)人工智能的基本路線。本文就神經(jīng)網(wǎng)絡(luò)而言,談到一些基礎(chǔ)概念,適應(yīng)于初學(xué)者建立概念。 ????????神經(jīng)網(wǎng)絡(luò)是一組算法,以人腦為松散建模,旨在識別模式。

    2024年02月16日
    瀏覽(26)
  • UV貼圖和展開初學(xué)者指南

    UV貼圖和展開初學(xué)者指南

    在線工具推薦: 3D數(shù)字孿生場景編輯器 ?-? GLTF/GLB材質(zhì)紋理編輯器 ?-? 3D模型在線轉(zhuǎn)換 ?-? Three.js AI自動紋理開發(fā)包 ?-? YOLO 虛幻合成數(shù)據(jù)生成器 ?-? 三維模型預(yù)覽圖生成器 ?-? 3D模型語義搜索引擎 這正是本文的主題——UV貼圖——登上舞臺的時候。大多數(shù) 3D 建模軟件在創(chuàng)

    2024年01月22日
    瀏覽(26)
  • 了解 ESP32 FreeRTOS:初學(xué)者指南

    了解 ESP32 FreeRTOS:初學(xué)者指南

    ESP32 FreeRTOS是針對ESP32微控制器的一個實時操作系統(tǒng)(RTOS),它采用了FreeRTOS內(nèi)核,可以幫助開發(fā)人員在ESP32芯片上進行多任務(wù)處理。簡單來說,F(xiàn)reeRTOS提供了一種方式來管理軟件任務(wù)并協(xié)調(diào)它們的執(zhí)行。 ESP32是一個功能強大的嵌入式系統(tǒng),可以用于構(gòu)建各種物聯(lián)網(wǎng)應(yīng)用程序。

    2023年04月14日
    瀏覽(18)
  • 2023 年如何學(xué)習(xí) SQL:初學(xué)者終極指南

    什么是 SQL,它的用途是什么? SQL 在 2023 年仍然適用嗎? 你應(yīng)該學(xué)習(xí) SQL 嗎? 學(xué)習(xí) SQL 的不同方法 SQL 入門 SQL初學(xué)者可能害怕問的問題 學(xué)習(xí) SQL 的先決條件是什么,我需要有任何編碼經(jīng)驗嗎? SQL 有哪些實際應(yīng)用,哪些行業(yè)依賴于此技能? 學(xué)習(xí)SQL需要多長時間,我應(yīng)該投入多

    2024年02月03日
    瀏覽(20)
  • Unity中Interface修飾符:初學(xué)者指南

    什么是Interface? ? ? ? ? 在Unity和其他面向?qū)ο蟮木幊陶Z境中, interface 是一種特殊的結(jié)構(gòu),它定義了一組方法和屬性,但不提供它們的實現(xiàn)。在C#中, interface 是通過 interface 來聲明的。它像是一個合約,規(guī)定了實現(xiàn)它的類必須遵循的規(guī)則。 為什么要使用Interface? 約定

    2024年01月23日
    瀏覽(19)
  • NumPy 初學(xué)者指南中文第三版:11~14

    NumPy 初學(xué)者指南中文第三版:11~14

    原文:NumPy: Beginner’s Guide - Third Edition 協(xié)議:CC BY-NC-SA 4.0 譯者:飛龍 本章適用于希望使用 NumPy 和 Pygame 快速輕松創(chuàng)建游戲的開發(fā)人員。 基本的游戲開發(fā)經(jīng)驗會有所幫助,但這不是必需的。 您將學(xué)到的東西如下: pygame 基礎(chǔ) matplotlib 集成 表面像素數(shù)組 人工智能 動畫 OpenGL P

    2023年04月16日
    瀏覽(52)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包