国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

scrapy框架核心知識Spider,Middleware,Item Pipeline,scrapy項(xiàng)目創(chuàng)建與啟動,Scrapy-redis與分布式

這篇具有很好參考價(jià)值的文章主要介紹了scrapy框架核心知識Spider,Middleware,Item Pipeline,scrapy項(xiàng)目創(chuàng)建與啟動,Scrapy-redis與分布式。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

scrapy項(xiàng)目創(chuàng)建與啟動

創(chuàng)建項(xiàng)目

在你的工作目錄下直接使用命令:

scrapy startproject scrapytutorial

運(yùn)行后創(chuàng)建了一個名為scrapytutorial的爬蟲工程

創(chuàng)建spider

在爬蟲工程文件內(nèi),運(yùn)行以下命令:

scrapy genspider quotes

創(chuàng)建了名為quotes的爬蟲

修改爬蟲代碼,實(shí)現(xiàn)自己想要的爬蟲邏輯

啟動爬蟲

在爬蟲項(xiàng)目目錄下,運(yùn)行:

scrapy crawl quotes

即可運(yùn)行爬蟲

Spider

在scrapy中,網(wǎng)站的鏈接配置,抓取邏輯,解析邏輯都是在spider內(nèi)配置。

scrapy框架核心知識Spider,Middleware,Item Pipeline,scrapy項(xiàng)目創(chuàng)建與啟動,Scrapy-redis與分布式,python爬蟲綜合,scrapy

start_requests

分析以下簡單的爬蟲代碼:

import scrapy

class HttpbinspiderSpider(scrapy.Spider):
    # 定義 Spider 的名稱
    name = "httpbinspider"
    
    # 設(shè)置允許爬取的域名
    allowed_domains = ["www.httpbin.org"]
    
    # 定義起始 URL
    start_uri = 'https://www.httpbin.org/get'

    # 定義 Spider 的起始請求
    def start_requests(self):
        # 使用循環(huán)生成多個請求,這里生成了 1 到 5 的 offset 參數(shù)
        for offset in range(1, 6):
            url = self.start_uri + f'?offset={offset}'
            
            # 生成請求,并指定回調(diào)函數(shù)為 parse
            # 同時將 offset 通過 meta 傳遞給回調(diào)函數(shù)
            yield scrapy.Request(url, callback=self.parse, meta={'offset': offset})

    # 定義數(shù)據(jù)處理邏輯
    def parse(self, response):
        # 打印 offset 和響應(yīng)文本
        print(f"===============offset {response.meta['offset']}=========")
        print(response.text)
        
        # 打印 meta 數(shù)據(jù),這里包含了在 start_requests 中傳遞的 offset
        print(response.meta)


這里我重寫了start_requests方法,使用scrapy.Request構(gòu)造了5個GET請求,并使用yield方法發(fā)送到下載器用于下載,同時指定了響應(yīng)的解析回調(diào)函數(shù),并通過meta參數(shù)傳遞offset參數(shù)。

簡要說明:
name:定義 Spider 的名稱。
allowed_domains:定義允許爬取的域名。
start_uri:定義起始 URL。
start_requests:生成起始請求,使用循環(huán)生成多個帶有不同 offset 參數(shù)的請求,每個請求的回調(diào)函數(shù)是 parse。
parse:處理響應(yīng)的回調(diào)函數(shù),打印 offset、響應(yīng)文本和 meta 數(shù)據(jù)。

spider發(fā)送GET請求

使用scrapy.Request(url=url)
scrapy.Request(method=‘GET’,url=url)
發(fā)送GET請求,查詢參數(shù)建議拼接在url內(nèi)。

spider發(fā)送POST請求

scrapy框架核心知識Spider,Middleware,Item Pipeline,scrapy項(xiàng)目創(chuàng)建與啟動,Scrapy-redis與分布式,python爬蟲綜合,scrapy文章來源地址http://www.zghlxwxcb.cn/news/detail-823611.html

到了這里,關(guān)于scrapy框架核心知識Spider,Middleware,Item Pipeline,scrapy項(xiàng)目創(chuàng)建與啟動,Scrapy-redis與分布式的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【Python_Scrapy學(xué)習(xí)筆記(一)】Scrapy框架簡介

    【Python_Scrapy學(xué)習(xí)筆記(一)】Scrapy框架簡介

    Scrapy 框架是一個用 python 實(shí)現(xiàn)的為了爬取網(wǎng)站數(shù)據(jù)、提取數(shù)據(jù)的應(yīng)用框架,使用 Twisted 異步網(wǎng)絡(luò)庫來處理網(wǎng)絡(luò)通訊,可以高效的完成數(shù)據(jù)爬取。本文主要介紹 Scrapy 框架的構(gòu)成與工作原理。 Windows安裝: -m -pip install Scrapy 或使用 PyCharm 可視化界面安裝。 爬蟲文件Spider:負(fù)責(zé)數(shù)

    2023年04月23日
    瀏覽(21)
  • python scrapy框架

    python scrapy框架

    Scrapy,Python開發(fā)的一個快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試 最開始安裝了低版本 報(bào)錯 builtins.AttributeError: module \\\'OpenSSL.SSL\\\' has no attribute \\\'SSLv3_METHOD\\\' 升級到最新版本2.10.0

    2024年02月10日
    瀏覽(48)
  • 爬蟲框架scrapy基本原理

    爬蟲框架scrapy基本原理

    scrapy是python的爬蟲框架,類似于django(python的web框架)。 安裝: Mac、Linux 執(zhí)行 pip3 install scrapy ,不存在任何問題 Windows 執(zhí)行 pip3 install scrapy ,如果安裝失敗,執(zhí)行下面步驟: (1)安裝wheel(為支持通過文件安裝軟件): pip3 install wheel (wheel官網(wǎng)) (2)安裝lxml: pip3 insta

    2024年02月15日
    瀏覽(20)
  • 爬蟲---scrapy爬蟲框架(詳細(xì)+實(shí)戰(zhàn))

    爬蟲---scrapy爬蟲框架(詳細(xì)+實(shí)戰(zhàn))

    ? 活動地址:CSDN21天學(xué)習(xí)挑戰(zhàn)賽 1、基本功能 Scrapy 是一個適用爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)的應(yīng)用程序框架,它可以應(yīng)用在廣泛領(lǐng)域:Scrapy 常應(yīng)用在包括數(shù)據(jù)挖掘,信息處理或存儲歷史數(shù)據(jù)等一系列的程序中。通常我們可以很簡單的通過 Scrapy 框架實(shí)現(xiàn)一個爬蟲,抓取指

    2023年04月22日
    瀏覽(20)
  • 爬蟲:Scrapy熱門爬蟲框架介紹

    結(jié)合自身經(jīng)驗(yàn)和內(nèi)部資料總結(jié)的Python教程,每天3-5章,最短1個月就能全方位的完成Python的學(xué)習(xí)并進(jìn)行實(shí)戰(zhàn)開發(fā),學(xué)完了定能成為大佬!加油吧!卷起來! 全部文章請?jiān)L問專欄:《Python全棧教程(0基礎(chǔ))》 再推薦一下最近熱更的:《大廠測試高頻面試題詳解》 該專欄對近年

    2024年02月13日
    瀏覽(23)
  • 爬蟲(四):Scrapy熱門爬蟲框架介紹

    結(jié)合自身經(jīng)驗(yàn)和內(nèi)部資料總結(jié)的Python教程,每天3-5章,最短1個月就能全方位的完成Python的學(xué)習(xí)并進(jìn)行實(shí)戰(zhàn)開發(fā),學(xué)完了定能成為大佬!加油吧!卷起來! 全部文章請?jiān)L問專欄:《Python全棧教程(0基礎(chǔ))》 再推薦一下最近熱更的:《大廠測試高頻面試題詳解》 該專欄對近年

    2024年02月11日
    瀏覽(21)
  • 【python爬蟲】14.Scrapy框架講解

    【python爬蟲】14.Scrapy框架講解

    前兩關(guān),我們學(xué)習(xí)了能提升爬蟲速度的進(jìn)階知識——協(xié)程,并且通過項(xiàng)目實(shí)操,將協(xié)程運(yùn)用于抓取薄荷網(wǎng)的食物數(shù)據(jù)。 可能你在體驗(yàn)開發(fā)一個爬蟲項(xiàng)目的完整流程時,會有這樣的感覺:原來要完成一個完整的爬蟲程序需要做這么多瑣碎的工作。 比如,要導(dǎo)入不同功能的模塊

    2024年02月09日
    瀏覽(16)
  • 爬蟲——Scrapy框架 (初步學(xué)習(xí)+簡單案例)

    目錄 1.scrapy基本用途: 2.結(jié)構(gòu): 3.scrapy文件結(jié)構(gòu)(示例:game) 4.scrapy安裝 二、?簡單實(shí)例 1.創(chuàng)建項(xiàng)目(打開命令窗口) 2.打開項(xiàng)目? 一、Scrapy框架 1.scrapy基本用途: Scrapy是一個快速、高效率的網(wǎng)絡(luò)爬蟲框架,用于抓取web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。 Scrapy被廣泛用于數(shù)據(jù)

    2024年02月12日
    瀏覽(18)
  • 爬蟲框架有Scrapy、BeautifulSoup、Selenium

    爬蟲框架有Scrapy、BeautifulSoup、Selenium

    爬蟲框架有Scrapy、BeautifulSoup、Selenium BeautifulSoup比Scrapy相對容易學(xué)習(xí)。 Scrapy的擴(kuò)展,支持和社區(qū)比BeautifulSoup更大。 Scrapy應(yīng)被視為蜘蛛,而BeautifulSoup則是Parser。 1.爬蟲基礎(chǔ)知識 在開始Python爬蟲之前,需要先掌握一些基礎(chǔ)知識。首先了解一下HTTP協(xié)議,掌握常見的請求方法和狀

    2024年02月07日
    瀏覽(15)
  • 使用Scrapy框架集成Selenium實(shí)現(xiàn)高效爬蟲

    在網(wǎng)絡(luò)爬蟲的開發(fā)中,有時候我們需要處理一些JavaScript動態(tài)生成的內(nèi)容或進(jìn)行一些復(fù)雜的操作,這時候傳統(tǒng)的基于請求和響應(yīng)的爬蟲框架就顯得力不從心了。為了解決這個問題,我們可以使用Scrapy框架集成Selenium來實(shí)現(xiàn)高效的爬蟲。 Scrapy是一個使用Python編寫的開源網(wǎng)絡(luò)爬蟲框

    2024年02月09日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包