国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

爬蟲，初學(xué)者指南

2年前作者：Red丶哞分類：Toy博客閱讀(34)違法舉報

這篇具有很好參考價值的文章主要介紹了爬蟲，初學(xué)者指南。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

第一篇：爬蟲入門request模塊的基本使用以www.douban.com為例

get請求：

# 查看響應(yīng)數(shù)據(jù)，返回的是Unicode格式的數(shù)據(jù)
print(response.text)

# # 查看響應(yīng)數(shù)據(jù)，返回的是字節(jié)流數(shù)據(jù)（圖片視頻等）
print(response.content)

# 查看完整url地址
print(response.url)

# 查看響應(yīng)頭部字符編碼
print(response.encoding)

# 查看響應(yīng)碼
print(response.status_code)

print(response)

1.想目標地址發(fā)起請求，攜帶heards和不攜帶heards的區(qū)別

import requests
url = "http://www.douban.com"
heards = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
}
r = requests.get(url=url)
print(r)
print(r.headers)

<Response [418]>
{'Connection': 'close', 'Date': 'Sat, 23 Sep 2023 14:46:44 GMT', 'Server': 'dae', 'Content-Length': '0'}

request模塊用于測速發(fā)送數(shù)據(jù)的連通性，通過回復(fù)可以看出418，Connection：close表示未獲取到服務(wù)器的返回值，需要添加heards信息，此服務(wù)器拒絕非瀏覽器發(fā)送的請求。

import requests
url = "http://www.douban.com"
heards = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
}
r = requests.get(url=url, headers=heards)
print(r)
print(r.headers)

<Response [200]>
{'Date': 'Sat, 23 Sep 2023 14:49:28 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Keep-Alive': 'timeout=30', 'X-Xss-Protection': '1; mode=block', 'X-Douban-Mobileapp': '0', 'Expires': 'Sun, 1 Jan 2006 01:00:00 GMT', 'Pragma': 'no-cache', 'Cache-Control': 'must-revalidate, no-cache, private', 'Set-Cookie': 'ck="deleted"; max-age=0; domain=.douban.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; path=/, dbcl2="deleted"; max-age=0; domain=.douban.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; path=/, ll="108099"; path=/; domain=.douban.com; expires=Sun, 22-Sep-2024 14:49:28 GMT, bid=ArFHHYIPdMc; Expires=Sun, 22-Sep-24 14:49:28 GMT; Domain=.douban.com; Path=/', 'X-DAE-App': 'sns', 'X-DAE-Instance': 'home', 'X-DAE-Mountpoint': 'True', 'X-DOUBAN-NEWBID': 'ArFHHYIPdMc', 'Server': 'dae', 'X-Frame-Options': 'SAMEORIGIN', 'Strict-Transport-Security': 'max-age=15552000;', 'Content-Encoding': 'gzip'}

上圖可以看出添加了頭信息headers之后成功獲取了返回值，一般情況下使用request模塊發(fā)送請求爬蟲時，默認情況下都需要添加頭信息

2.攜帶params參數(shù)以百度為例

爬蟲，初學(xué)者指南,Python,爬蟲

import requests
heards = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}
url = "http://www.baidu.com/s?"
kw = {
    'wd': "python"
}
response = requests.get(url=url, params=kw, headers=heards)
# 修改編碼格式如果不修改獲得的響應(yīng)數(shù)據(jù)會亂碼
response.encoding = 'utf-8'

# 查看響應(yīng)數(shù)據(jù)，返回的是Unicode格式的數(shù)據(jù)
print(response.text)

# # 查看響應(yīng)數(shù)據(jù)，返回的是字節(jié)流數(shù)據(jù)（圖片視頻等）
print(response.content)

# 查看完整url地址
print(response.url)

# 查看響應(yīng)頭部字符編碼
print(response.encoding)

# 查看響應(yīng)碼
print(response.status_code)

print(response)

?POST請求：

對于post來說我們一般需要為他構(gòu)建一些參數(shù)傳遞也就是form表單，一般放入data中

import requests
heards = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}
url = "https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php"
data = {
    'log': 'hello',
    'pwd': '123456',
    'wp-submit': '登錄',
    'redirect_to': 'https://wordpress-edu-3autumn.localprod.oc.forchange.cn',
    'testcookie': '1'
}
response = requests.post(url=url, data=data, headers=heards)
response.encoding= 'utf-8'
print(response.text)

第二篇：非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的處理

非結(jié)構(gòu)化數(shù)據(jù)的處理

文本、電話號碼、郵箱地址

正則表達式

HTML文件：

正則表達式
XPath
css選擇器

結(jié)構(gòu)化數(shù)據(jù)的處理

json文件

三、Xpath詳細使用：

1.什么是XPath

XPath是一門在XML文檔中查找信息的語言，可用來在XML文檔中對元素的屬性進行遍歷

2.XPath開發(fā)工具

開源的Xpath表達式編輯器工具XMLQuire（XML格式文件可用）
Chrome插件XPath Helper
Firefox插件XPath Checker

3.選取節(jié)點

XPath使用路徑表達式來選取XML文檔中的節(jié)點或者節(jié)點集，這些路徑表達式和我們在常規(guī)電腦文件系統(tǒng)中看到的表達式非常相似文章來源地址http://www.zghlxwxcb.cn/news/detail-731701.html

下面列取了常見的路勁表達式：

表達式? ? ? ?	描述
nodename	選取此節(jié)點的所有子節(jié)點
/	從根節(jié)點選取
//	從匹配的訓(xùn)責的當前節(jié)點選擇文檔中的節(jié)點，從不考慮他們的位置
.	選取當前節(jié)點
..	選取當前節(jié)點的父節(jié)點
@	選取屬性

在下面表格中，列出了一些路徑表達式以及表達式的結(jié)果：

	路徑表達式
bookstore	選擇bookstore元素的所有子節(jié)點
/bookstore	選取根元素bookstore。注釋：加入路徑起始于/，則此路徑使用代表到某元素的絕對位置
bookstore/book	選取所有bookstore的子元素的所有book元素
//book	選取所有book子元素，而不管他們在文檔中的位置
bookstore//book	選擇數(shù)據(jù)bookstore元素的后代的所有book元素，而不管它們位置bookstore之下的射門位置
//@lang	選取名為lang的所有屬性

?謂語（Predicates）

謂語用來查找某個特定的節(jié)點或者包含某個指定的值的節(jié)點，被嵌在方括號中

路徑表達式	結(jié)果
/bookstore/book[1]	選取數(shù)據(jù)bookstore子元素的第一個book元素
/bookstore/book[last()]	選取數(shù)據(jù)bookstore子元素的最后一個book元素
/bookstore/book[last()-1]	選取數(shù)據(jù)bookstore子元素的倒數(shù)第二個book元素
/bookstore/book[position()<3]	選取最前面的兩個屬于bookstore元素的子元素的book元素
//title[@lang]	選取所有擁有名為lang的屬性的title元素
//title[@lang='eng']	選取所有title元素，且這些元素擁有值為eng的lang屬性
/bookstore/book[price>35.00]	選取bookstore元素所有book元素，且其中的price元素的值大于35.00
/bookstore/book[price>35.00]/title	選取bookstore元素所有book元素的所有title元素，且其中的price元素的值大于35.00

選取未知節(jié)點

通配符	描述
*	匹配任何元素節(jié)點
@*	匹配任何屬性節(jié)點
node（）	匹配任何類型節(jié)點

路徑表達式	結(jié)果
/bookstore/*	選取bookstore元素的所有子元素
//*	選取文檔中的所有元素
//title[@*]	選取所有帶有屬性的title元素

?選取若干路徑

路徑表達式	結(jié)果
//book/title \| //book/price	選取book元素的所喲有title和price元素
//title \| //price	選取文檔中的所有title和price元素
/bookstore/book/title \| //price	選取屬于bookstore元素的book元素的所有title元素，以及文檔中所有的price元素

到了這里，關(guān)于爬蟲，初學(xué)者指南的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

大語言模型初學(xué)者指南 (2023)
大語言模型 (LLM) 是深度學(xué)習(xí)的一個子集，它正在徹底改變自然語言處理領(lǐng)域。它們是功能強大的通用語言模型，可以針對大量數(shù)據(jù)進行預(yù)訓(xùn)練，然后針對特定任務(wù)進行微調(diào)。這使得LLM能夠擁有大量的一般數(shù)據(jù)。如果一個人想將LLM用于特定目的，他們可以簡單地根據(jù)各自的目的
2024年02月11日
瀏覽(33)
算法初學(xué)者指南：理解排序算法
? ? ? ? 排序是計算機科學(xué)中的基本問題之一，也是數(shù)據(jù)處理的核心步驟。從最簡單的個人項目到復(fù)雜的工業(yè)級應(yīng)用，排序都扮演著關(guān)鍵角色。本文將介紹四種常見的排序算法：冒泡排序、插入排序、快速排序和堆排序，旨在幫助算法初學(xué)者理解這些基本概念。 ? ? ? ? 冒泡
2024年01月23日
瀏覽(39)
Spark初學(xué)者指南：使用指南和示例
本文介紹了如何使用Spark處理大規(guī)模數(shù)據(jù)集，并提供了一個Scala編寫的Word Count示例，指導(dǎo)您從安裝和配置到編寫和運行Spark應(yīng)用程序。無需擔心，即使您是Spark初學(xué)者，也可以按照本文的步驟來學(xué)習(xí)和使用Spark。 Spark是一個流行的分布式計算框架，用于處理大規(guī)模數(shù)據(jù)集。它使
2024年02月06日
瀏覽(34)
【深度學(xué)習(xí)】深度強化學(xué)習(xí)初學(xué)者指南
????????GAN（Generative Adversarial Networks）是一種深度學(xué)習(xí)模型，它由兩個神經(jīng)網(wǎng)絡(luò)組成：一個生成網(wǎng)絡(luò)和一個判別網(wǎng)絡(luò)。生成網(wǎng)絡(luò)學(xué)習(xí)如何生成類似于給定數(shù)據(jù)集的新數(shù)據(jù)，而判別網(wǎng)絡(luò)則學(xué)習(xí)如何區(qū)分生成網(wǎng)絡(luò)生成的數(shù)據(jù)和原始數(shù)據(jù)。這兩個網(wǎng)絡(luò)相互競爭，使得生成器越來
2024年02月13日
瀏覽(51)
【深度學(xué)習(xí)】神經(jīng)網(wǎng)絡(luò)初學(xué)者指南
????????這是一篇對神經(jīng)網(wǎng)絡(luò)的泛泛而談的文章，我的意見是，先知道框架，而后知道每一個細節(jié)，這是學(xué)習(xí)人工智能的基本路線。本文就神經(jīng)網(wǎng)絡(luò)而言，談到一些基礎(chǔ)概念，適應(yīng)于初學(xué)者建立概念。 ????????神經(jīng)網(wǎng)絡(luò)是一組算法，以人腦為松散建模，旨在識別模式。
2024年02月16日
瀏覽(26)
UV貼圖和展開初學(xué)者指南
在線工具推薦： 3D數(shù)字孿生場景編輯器 ?-? GLTF/GLB材質(zhì)紋理編輯器 ?-? 3D模型在線轉(zhuǎn)換 ?-? Three.js AI自動紋理開發(fā)包 ?-? YOLO 虛幻合成數(shù)據(jù)生成器 ?-? 三維模型預(yù)覽圖生成器 ?-? 3D模型語義搜索引擎這正是本文的主題——UV貼圖——登上舞臺的時候。大多數(shù) 3D 建模軟件在創(chuàng)
2024年01月22日
瀏覽(26)
了解 ESP32 FreeRTOS：初學(xué)者指南
ESP32 FreeRTOS是針對ESP32微控制器的一個實時操作系統(tǒng)（RTOS），它采用了FreeRTOS內(nèi)核，可以幫助開發(fā)人員在ESP32芯片上進行多任務(wù)處理。簡單來說，F(xiàn)reeRTOS提供了一種方式來管理軟件任務(wù)并協(xié)調(diào)它們的執(zhí)行。 ESP32是一個功能強大的嵌入式系統(tǒng)，可以用于構(gòu)建各種物聯(lián)網(wǎng)應(yīng)用程序。
2023年04月14日
瀏覽(18)
2023 年如何學(xué)習(xí) SQL：初學(xué)者終極指南
什么是 SQL，它的用途是什么？ SQL 在 2023 年仍然適用嗎？你應(yīng)該學(xué)習(xí) SQL 嗎？學(xué)習(xí) SQL 的不同方法 SQL 入門 SQL初學(xué)者可能害怕問的問題學(xué)習(xí) SQL 的先決條件是什么，我需要有任何編碼經(jīng)驗嗎？ SQL 有哪些實際應(yīng)用，哪些行業(yè)依賴于此技能？學(xué)習(xí)SQL需要多長時間，我應(yīng)該投入多
2024年02月03日
瀏覽(20)
Unity中Interface修飾符：初學(xué)者指南
什么是Interface？ ? ? ? ? 在Unity和其他面向?qū)ο蟮木幊陶Z境中， interface 是一種特殊的結(jié)構(gòu)，它定義了一組方法和屬性，但不提供它們的實現(xiàn)。在C#中， interface 是通過 interface 來聲明的。它像是一個合約，規(guī)定了實現(xiàn)它的類必須遵循的規(guī)則。為什么要使用Interface？約定
2024年01月23日
瀏覽(19)
NumPy 初學(xué)者指南中文第三版：11~14
原文：NumPy: Beginner’s Guide - Third Edition 協(xié)議：CC BY-NC-SA 4.0 譯者：飛龍本章適用于希望使用 NumPy 和 Pygame 快速輕松創(chuàng)建游戲的開發(fā)人員。基本的游戲開發(fā)經(jīng)驗會有所幫助，但這不是必需的。您將學(xué)到的東西如下： pygame 基礎(chǔ) matplotlib 集成表面像素數(shù)組人工智能動畫 OpenGL P
2023年04月16日
瀏覽(52)