国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<input id="c0jkc"><source id="c0jkc"><blockquote id="c0jkc"></blockquote></source></input>

<del id="c0jkc"><b id="c0jkc"></b></del>

<del id="c0jkc"><b id="c0jkc"></b></del>

<tfoot id="c0jkc"></tfoot>

Python爬蟲——scrapy_crawlspider讀書網(wǎng)

2年前作者：錯過人間飛鴻分類：Toy博客閱讀(12)違法舉報

這篇具有很好參考價值的文章主要介紹了Python爬蟲——scrapy_crawlspider讀書網(wǎng)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

創(chuàng)建crawlspider爬蟲文件：

scrapy genspider -t crawl 爬蟲文件名 爬取的域名

scrapy genspider -t crawl read https://www.dushu.com/book/1206.html

LinkExtractor 鏈接提取器通過它，Spider可以知道從爬取的頁面中提取出哪些鏈接，提取出的鏈接會自動生成Request請求對象

class ReadSpider(CrawlSpider):
    name = "read"
    allowed_domains = ["www.dushu.com"]
    start_urls = ["https://www.dushu.com/book/1206_1.html"]
	# LinkExtractor 鏈接提取器通過它，Spider可以知道從爬取的頁面中提取出哪些鏈接。提取出的鏈接會自動生成Request請求對象
    rules = (Rule(LinkExtractor(allow=r"/book/1206_\d+\.html"), callback="parse_item", follow=False),)

    def parse_item(self, response):
        name_list = response.xpath('//div[@class="book-info"]//img/@alt')
        src_list = response.xpath('//div[@class="book-info"]//img/@data-original')


        for i in range(len(name_list)):
            name = name_list[i].extract()
            src = src_list[i].extract()

            book = ScarpyReadbook41Item(name=name, src=src)
            yield book

開啟管道
寫入文件

class ScarpyReadbook41Pipeline:
    def open_spider(self, spider):
        self.fp = open('books.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        self.fp.write(str(item))
        return item

    def close_spider(self, spider):
        self.fp.close()

運行之后發(fā)現(xiàn)沒有第一頁數(shù)據(jù)
需要在start_urls里加上_1，不然不會讀取第一頁數(shù)據(jù)文章來源地址http://www.zghlxwxcb.cn/news/detail-665567.html

start_urls = ["https://www.dushu.com/book/1206_1.html"]

到了這里，關(guān)于Python爬蟲——scrapy_crawlspider讀書網(wǎng)的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Python爬蟲---Scrapy架構(gòu)組成
Scrapy是一個Python編寫的開源網(wǎng)絡(luò)爬蟲框架，它由五大核心組件構(gòu)成：引擎（Engine）、調(diào)度器（Scheduler）、下載器（Downloader）、爬蟲（Spider）和實體管道（Item Pipeline）。引擎（Engine）：它是Scrapy的核心，負責控制整個爬蟲流程的運行，包括調(diào)度器、下載器和管道等組件的協(xié)調(diào)
2024年01月16日
瀏覽(23)
Python爬蟲——scrapy_工作原理
引擎向spiders要url 引擎把將要爬取的url給調(diào)度器調(diào)度器會將url生成的請求對象放入到指定的隊列中從隊列中出隊一個請求引擎將請求交給下載器進行處理下載器發(fā)送請求獲取互聯(lián)網(wǎng)數(shù)據(jù) 下載器將數(shù)據(jù)返回給引擎引擎將數(shù)據(jù)再次給到spiders spiders通過xpath解析該數(shù)據(jù)，得到數(shù)據(jù)
2024年02月12日
瀏覽(24)
Python爬蟲---scrapy shell 調(diào)試
Scrapy shell 是Scrapy提供的一個交互式shell工具，它可以幫助我們進行爬蟲的開發(fā)和調(diào)試?？梢允褂盟鼇頊y試xpath或css表達式，查看它們是如何工作的，以及它們從你試圖抓取的網(wǎng)頁中提取的數(shù)據(jù)。它允許你在編寫spider時交互地測試表達式，而無需運行spider來測試每個更改。使用
2024年01月16日
瀏覽(20)
【python爬蟲】14.Scrapy框架講解
前兩關(guān)，我們學習了能提升爬蟲速度的進階知識——協(xié)程，并且通過項目實操，將協(xié)程運用于抓取薄荷網(wǎng)的食物數(shù)據(jù)。可能你在體驗開發(fā)一個爬蟲項目的完整流程時，會有這樣的感覺：原來要完成一個完整的爬蟲程序需要做這么多瑣碎的工作。比如，要導入不同功能的模塊
2024年02月09日
瀏覽(18)
網(wǎng)絡(luò)爬蟲（Python：Selenium、Scrapy框架；爬蟲與反爬蟲筆記）
Selenium是一個模擬瀏覽器瀏覽網(wǎng)頁的工具，主要用于測試網(wǎng)站的自動化測試工具。 Selenium需要安裝瀏覽器驅(qū)動，才能調(diào)用瀏覽器進行自動爬取或自動化測試，常見的包括Chrome、Firefox、IE、PhantomJS等瀏覽器。注意：驅(qū)動下載解壓后，置于Python的安裝目錄下；然后將Python的安裝目
2024年01月18日
瀏覽(49)
【100天精通python】Day45：python網(wǎng)絡(luò)爬蟲開發(fā)_ Scrapy 爬蟲框架
目錄 1 Scrapy 的簡介 2 Scrapy選擇器 3 快速創(chuàng)建Scrapy 爬蟲 4 下載器與爬蟲中間件
2024年02月11日
瀏覽(31)
python爬蟲之Scrapy框架--保存圖片（詳解）
目錄 Scrapy 使用ImagePipeline 保存圖片使用圖片管道? 具體步驟安裝相關(guān)的依賴庫創(chuàng)建Scrapy項目配置settings.py? ?定義Item ?編寫Spider 運行Spider Scrapy 自定義ImagePipeline 自定義圖片管道 Scrapy提供了一個 ImagePipeline ,用來下載圖片這條管道，圖片管道 ImagesPipeline ?提供了方便并具有
2024年02月11日
瀏覽(16)
Scrapy：Python中強大的網(wǎng)絡(luò)爬蟲框架
在當今信息爆炸的時代，從互聯(lián)網(wǎng)上獲取數(shù)據(jù)已經(jīng)成為許多應(yīng)用程序的核心需求。Scrapy是一款基于Python的強大網(wǎng)絡(luò)爬蟲框架，它提供了一種靈活且高效的方式來提取、處理和存儲互聯(lián)網(wǎng)上的數(shù)據(jù)。本文將介紹Scrapy的主要特性和優(yōu)勢，以及如何使用它來構(gòu)建強大的網(wǎng)絡(luò)爬蟲。
2024年02月19日
瀏覽(23)
Python爬蟲基礎(chǔ)：使用Scrapy庫初步探索
Scrapy是Python中最流行的網(wǎng)頁爬蟲框架之一，強大且功能豐富。通過Scrapy，你可以快速創(chuàng)建一個爬蟲，高效地抓取和處理網(wǎng)絡(luò)數(shù)據(jù)。在這篇文章中，我們將介紹如何使用Scrapy構(gòu)建一個基礎(chǔ)的爬蟲。 Scrapy是一個用Python實現(xiàn)的開源網(wǎng)頁爬蟲框架，主要用于網(wǎng)頁數(shù)據(jù)抓取和分析。它提
2024年02月10日
瀏覽(116)
python爬蟲selenium+scrapy常用功能筆記
訪問網(wǎng)址可以看到直觀結(jié)果 https://bot.sannysoft.com/ 獲取頁面dom 頁面元素獲取元素點擊 frame跳轉(zhuǎn) 獲取cookie 給請求添加cookie 點擊上傳文件退出頁面多摘自之前文檔 https://blog.csdn.net/weixin_43521165/article/details/111905800 創(chuàng)建項目 scrapy startproject 爬蟲項目名字 # 例如 scrapy startproject f
2023年04月20日
瀏覽(24)

<address id="u2ejj"><input id="u2ejj"></input></address>

<i id="u2ejj"><abbr id="u2ejj"></abbr></i>

<i id="u2ejj"></i>

<tfoot id="u2ejj"></tfoot>

<optgroup id="u2ejj"><pre id="u2ejj"><td id="u2ejj"></td></pre></optgroup><track id="u2ejj"><strong id="u2ejj"></strong></track>