国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲——scrapy_crawlspider讀書網(wǎng)

這篇具有很好參考價值的文章主要介紹了Python爬蟲——scrapy_crawlspider讀書網(wǎng)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

創(chuàng)建crawlspider爬蟲文件:

scrapy genspider -t crawl 爬蟲文件名 爬取的域名

scrapy genspider -t crawl read https://www.dushu.com/book/1206.html

LinkExtractor 鏈接提取器通過它,Spider可以知道從爬取的頁面中提取出哪些鏈接,提取出的鏈接會自動生成Request請求對象

class ReadSpider(CrawlSpider):
    name = "read"
    allowed_domains = ["www.dushu.com"]
    start_urls = ["https://www.dushu.com/book/1206_1.html"]
	# LinkExtractor 鏈接提取器通過它,Spider可以知道從爬取的頁面中提取出哪些鏈接。提取出的鏈接會自動生成Request請求對象
    rules = (Rule(LinkExtractor(allow=r"/book/1206_\d+\.html"), callback="parse_item", follow=False),)

    def parse_item(self, response):
        name_list = response.xpath('//div[@class="book-info"]//img/@alt')
        src_list = response.xpath('//div[@class="book-info"]//img/@data-original')


        for i in range(len(name_list)):
            name = name_list[i].extract()
            src = src_list[i].extract()

            book = ScarpyReadbook41Item(name=name, src=src)
            yield book

開啟管道
寫入文件

class ScarpyReadbook41Pipeline:
    def open_spider(self, spider):
        self.fp = open('books.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        self.fp.write(str(item))
        return item

    def close_spider(self, spider):
        self.fp.close()

運行之后發(fā)現(xiàn)沒有第一頁數(shù)據(jù)
需要在start_urls里加上_1,不然不會讀取第一頁數(shù)據(jù)文章來源地址http://www.zghlxwxcb.cn/news/detail-665567.html

start_urls = ["https://www.dushu.com/book/1206_1.html"]

到了這里,關(guān)于Python爬蟲——scrapy_crawlspider讀書網(wǎng)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Python爬蟲---Scrapy架構(gòu)組成

    Scrapy是一個Python編寫的開源網(wǎng)絡(luò)爬蟲框架,它由五大核心組件構(gòu)成:引擎(Engine)、調(diào)度器(Scheduler)、下載器(Downloader)、爬蟲(Spider)和實體管道(Item Pipeline)。 引擎(Engine):它是Scrapy的核心,負責控制整個爬蟲流程的運行,包括調(diào)度器、下載器和管道等組件的協(xié)調(diào)

    2024年01月16日
    瀏覽(23)
  • Python爬蟲——scrapy_工作原理

    Python爬蟲——scrapy_工作原理

    引擎向spiders要url 引擎把將要爬取的url給調(diào)度器 調(diào)度器會將url生成的請求對象放入到指定的隊列中 從隊列中出隊一個請求 引擎將請求交給下載器進行處理 下載器發(fā)送請求獲取互聯(lián)網(wǎng)數(shù)據(jù) 下載器將數(shù)據(jù)返回給引擎 引擎將數(shù)據(jù)再次給到spiders spiders通過xpath解析該數(shù)據(jù),得到數(shù)據(jù)

    2024年02月12日
    瀏覽(24)
  • Python爬蟲---scrapy shell 調(diào)試

    Python爬蟲---scrapy shell 調(diào)試

    Scrapy shell 是Scrapy提供的一個交互式shell工具,它可以幫助我們進行爬蟲的開發(fā)和調(diào)試??梢允褂盟鼇頊y試xpath或css表達式,查看它們是如何工作的,以及它們從你試圖抓取的網(wǎng)頁中提取的數(shù)據(jù)。它允許你在編寫spider時交互地測試表達式,而無需運行spider來測試每個更改。 使用

    2024年01月16日
    瀏覽(20)
  • 【python爬蟲】14.Scrapy框架講解

    【python爬蟲】14.Scrapy框架講解

    前兩關(guān),我們學習了能提升爬蟲速度的進階知識——協(xié)程,并且通過項目實操,將協(xié)程運用于抓取薄荷網(wǎng)的食物數(shù)據(jù)。 可能你在體驗開發(fā)一個爬蟲項目的完整流程時,會有這樣的感覺:原來要完成一個完整的爬蟲程序需要做這么多瑣碎的工作。 比如,要導入不同功能的模塊

    2024年02月09日
    瀏覽(18)
  • 網(wǎng)絡(luò)爬蟲(Python:Selenium、Scrapy框架;爬蟲與反爬蟲筆記)

    網(wǎng)絡(luò)爬蟲(Python:Selenium、Scrapy框架;爬蟲與反爬蟲筆記)

    Selenium是一個模擬瀏覽器瀏覽網(wǎng)頁的工具,主要用于測試網(wǎng)站的自動化測試工具。 Selenium需要安裝瀏覽器驅(qū)動,才能調(diào)用瀏覽器進行自動爬取或自動化測試,常見的包括Chrome、Firefox、IE、PhantomJS等瀏覽器。 注意:驅(qū)動下載解壓后,置于Python的安裝目錄下;然后將Python的安裝目

    2024年01月18日
    瀏覽(49)
  • 【100天精通python】Day45:python網(wǎng)絡(luò)爬蟲開發(fā)_ Scrapy 爬蟲框架

    目錄 1 Scrapy 的簡介 2 Scrapy選擇器 3 快速創(chuàng)建Scrapy 爬蟲 4 下載器與爬蟲中間件

    2024年02月11日
    瀏覽(31)
  • python爬蟲之Scrapy框架--保存圖片(詳解)

    python爬蟲之Scrapy框架--保存圖片(詳解)

    目錄 Scrapy 使用ImagePipeline 保存圖片 使用圖片管道? 具體步驟 安裝相關(guān)的依賴庫 創(chuàng)建Scrapy項目 配置settings.py? ?定義Item ?編寫Spider 運行Spider Scrapy 自定義ImagePipeline 自定義圖片管道 Scrapy提供了一個 ImagePipeline ,用來下載圖片這條管道,圖片管道 ImagesPipeline ?提供了方便并具有

    2024年02月11日
    瀏覽(16)
  • Scrapy:Python中強大的網(wǎng)絡(luò)爬蟲框架

    Scrapy:Python中強大的網(wǎng)絡(luò)爬蟲框架

    在當今信息爆炸的時代,從互聯(lián)網(wǎng)上獲取數(shù)據(jù)已經(jīng)成為許多應(yīng)用程序的核心需求。Scrapy是一款基于Python的強大網(wǎng)絡(luò)爬蟲框架,它提供了一種靈活且高效的方式來提取、處理和存儲互聯(lián)網(wǎng)上的數(shù)據(jù)。本文將介紹Scrapy的主要特性和優(yōu)勢,以及如何使用它來構(gòu)建強大的網(wǎng)絡(luò)爬蟲。

    2024年02月19日
    瀏覽(23)
  • Python爬蟲基礎(chǔ):使用Scrapy庫初步探索

    Scrapy是Python中最流行的網(wǎng)頁爬蟲框架之一,強大且功能豐富。通過Scrapy,你可以快速創(chuàng)建一個爬蟲,高效地抓取和處理網(wǎng)絡(luò)數(shù)據(jù)。在這篇文章中,我們將介紹如何使用Scrapy構(gòu)建一個基礎(chǔ)的爬蟲。 Scrapy是一個用Python實現(xiàn)的開源網(wǎng)頁爬蟲框架,主要用于網(wǎng)頁數(shù)據(jù)抓取和分析。它提

    2024年02月10日
    瀏覽(116)
  • python爬蟲selenium+scrapy常用功能筆記

    訪問網(wǎng)址可以看到直觀結(jié)果 https://bot.sannysoft.com/ 獲取頁面dom 頁面元素獲取 元素點擊 frame跳轉(zhuǎn) 獲取cookie 給請求添加cookie 點擊 上傳文件 退出頁面 多摘自之前文檔 https://blog.csdn.net/weixin_43521165/article/details/111905800 創(chuàng)建項目 scrapy startproject 爬蟲項目名字 # 例如 scrapy startproject f

    2023年04月20日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包