python爬蟲(chóng)，多線程與生產(chǎn)者消費(fèi)者模式

2年前作者：in dreaming分類：Toy博客閱讀(17)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了python爬蟲(chóng)，多線程與生產(chǎn)者消費(fèi)者模式。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

使用隊(duì)列完成生產(chǎn)者消費(fèi)者模式
使用類創(chuàng)建多線程提高爬蟲(chóng)速度

'''
https://sc.chinaz.com/tupian/index.html
https://sc.chinaz.com/tupian/index_2.html
https://sc.chinaz.com/tupian/index_3.html
'''

from threading import Thread
from queue import Queue
import requests
from bs4 import BeautifulSoup
import os

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69',
}
class Put_Thread(Thread):
    def __init__(self, url_queue, img_queue):
        super().__init__()
        self.url_queue = url_queue
        self.img_queue = img_queue

    def run(self):
        while not self.url_queue.empty():
            url = self.url_queue.get()
            self.fetch_url(url)

    def fetch_url(self, url):
        response = requests.get(url, headers=headers)
        response.encoding = 'utf-8'
        soup = BeautifulSoup(response.text, 'lxml')
        data_list = soup.find_all('img', class_='lazy')
        for i in data_list:
            title = i.get('alt')
            href = 'https:' + i.get('data-original').replace('_s', '')
            self.img_queue.put((title, href))

class Get_Thread(Thread):
    def __init__(self, img_queue):
        super().__init__()
        self.img_queue = img_queue

    def run(self):
        while True:
            try:
                img_data = self.img_queue.get(timeout=3)
            except:
                break
            else:
                title, href = img_data
                if not os.path.exists('./image'):
                    os.mkdir('./image')
                with open('./image/' + title + '.jpg', 'wb') as f:
                    resp = requests.get(href, headers=headers).content
                    f.write(resp)
                print(title, '保存成功！')

def main():
    '''存放url'''
    url_queue = Queue()
    '''存放圖片的地址和名稱'''
    img_queue = Queue()

    url_queue.put('https://sc.chinaz.com/tupian/index.html')
    for i in range(1,11):
        url = 'https://sc.chinaz.com/tupian/index_{}.html'.format(i)
        url_queue.put(url)

    for i in range(41):
        t1 = Put_Thread(url_queue, img_queue)
        t1.start()
        t2 = Get_Thread(img_queue)
        t2.start()

if __name__ == '__main__':
    main()
    print('\n************主線程已結(jié)束************\n')

通過(guò)隊(duì)列可以讓線程之間進(jìn)行通信
創(chuàng)建繼承Thread的類創(chuàng)建線程，run()會(huì)在線程start時(shí)執(zhí)行
吃cpu性能

文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-700482.html

到了這里，關(guān)于python爬蟲(chóng)，多線程與生產(chǎn)者消費(fèi)者模式的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

線程同步--生產(chǎn)者消費(fèi)者模型--單例模式線程池
條件變量是線程間共享的全局變量 ,線程間可以通過(guò)條件變量進(jìn)行同步控制條件變量的使用必須依賴于互斥鎖以確保線程安全,線程申請(qǐng)了互斥鎖后,可以調(diào)用特定函數(shù) 進(jìn)入條件變量等待隊(duì)列(同時(shí)釋放互斥鎖) ,其他線程則可以通過(guò)條件變量在特定的條件下喚醒該線程( 喚醒后線
2024年01月20日
瀏覽(22)
C#多線程學(xué)習(xí)(三) 生產(chǎn)者和消費(fèi)者
線程學(xué)習(xí)第一篇： C#多線程學(xué)習(xí)(一) 多線程的相關(guān)概念線程學(xué)習(xí)第二篇： C#多線程學(xué)習(xí)(二) 如何操縱一個(gè)線程前面說(shuō)過(guò)，每個(gè)線程都有自己的資源，但是代碼區(qū)是共享的，即每個(gè)線程都可以執(zhí)行相同的函數(shù)。這可能帶來(lái)的問(wèn)題就是幾個(gè)線程同時(shí)執(zhí)行一個(gè)函數(shù)，導(dǎo)致數(shù)據(jù)的混
2023年04月21日
瀏覽(21)
線程池-手寫(xiě)線程池C++11版本（生產(chǎn)者-消費(fèi)者模型）
本項(xiàng)目是基于C++11的線程池。使用了許多C++的新特性，包含不限于模板函數(shù)泛型編程、std::future、std::packaged_task、std::bind、std::forward完美轉(zhuǎn)發(fā)、std::make_shared智能指針、decltype類型推斷、std::unique_lock鎖等C++11新特性功能。本項(xiàng)目有一定的上手難度。推薦參考系列文章 C++11實(shí)用技
2024年02月13日
瀏覽(26)
JavaEE 初階篇-生產(chǎn)者與消費(fèi)者模型（線程通信）
??博客主頁(yè)：?【小扳_-CSDN博客】 ?感謝大家點(diǎn)贊??收藏?評(píng)論? ? 文章目錄 ? ? ? ? 1.0 生產(chǎn)者與消費(fèi)者模型概述 ? ? ? ? 2.0?在生產(chǎn)者與消費(fèi)者模型中涉及的關(guān)鍵概念 ? ? ? ? 2.1 緩沖區(qū) ? ? ? ? 2.2 生產(chǎn)者 ? ? ? ? 2.3 消費(fèi)者 ? ? ? ? 2.4 同步機(jī)制 ? ? ? ? 2.5 線程間通
2024年04月28日
瀏覽(31)
探究：kafka生產(chǎn)者/消費(fèi)者與多線程安全
目錄 1. 多線程安全 1.1. 生產(chǎn)者是多線程安全的么？ 1.1. 消費(fèi)者是多線程安全的么？ 2. 消費(fèi)者規(guī)避多線程安全方案 2.1. 每個(gè)線程維護(hù)一個(gè)kafkaConsumer 2.2. [單/多]kafkaConsumer實(shí)例 + 多worker線程 2.3.方案優(yōu)缺點(diǎn)對(duì)比 ????????Kafka生產(chǎn)者是線程安全的，可以在多個(gè)線程中共享一個(gè)
2023年04月26日
瀏覽(24)
多線程（初階七：阻塞隊(duì)列和生產(chǎn)者消費(fèi)者模型）
目錄一、阻塞隊(duì)列的簡(jiǎn)單介紹二、生產(chǎn)者消費(fèi)者模型 1、舉個(gè)栗子： 2、引入生產(chǎn)者消費(fèi)者模型的意義：（1）解耦合（2）削峰填谷三、模擬實(shí)現(xiàn)阻塞隊(duì)列 1、阻塞隊(duì)列的簡(jiǎn)單介紹 2、實(shí)現(xiàn)阻塞隊(duì)列（1）實(shí)現(xiàn)普通隊(duì)列（2）加上線程安全（3）加上阻塞功能 3、運(yùn)用阻塞隊(duì)列
2024年02月05日
瀏覽(20)
【linux】線程同步+基于BlockingQueue的生產(chǎn)者消費(fèi)者模型
喜歡的點(diǎn)贊，收藏，關(guān)注一下把！在線程互斥寫(xiě)了一份搶票的代碼，我們發(fā)現(xiàn)雖然加鎖解決了搶到負(fù)數(shù)票的問(wèn)題，但是一直都是一個(gè)線程在搶票，它錯(cuò)了嗎，它沒(méi)錯(cuò)但是不合理。那我們應(yīng)該如何安全合理的搶票呢？講個(gè)小故事。假設(shè)學(xué)校有一個(gè)VIP學(xué)霸自習(xí)室，這個(gè)自習(xí)室有
2024年02月03日
瀏覽(24)
C# 快速寫(xiě)入日志不卡線程生產(chǎn)者消費(fèi)者模式
有這樣一種場(chǎng)景需求，就是某個(gè)方法，對(duì)耗時(shí)要求很高，但是又要記錄日志到數(shù)據(jù)庫(kù)便于分析，由于訪問(wèn)數(shù)據(jù)庫(kù)基本都要幾十毫秒，可在方法里寫(xiě)入BlockingCollection，由另外的線程寫(xiě)入數(shù)據(jù)庫(kù)。可以看到，在我的機(jī)子上面，1ms寫(xiě)入了43條日志。
2024年02月15日
瀏覽(22)
線程池-手寫(xiě)線程池Linux C簡(jiǎn)單版本（生產(chǎn)者-消費(fèi)者模型）
本線程池采用C語(yǔ)言實(shí)現(xiàn) 線程池的場(chǎng)景：當(dāng)某些任務(wù)特別耗時(shí)（例如大量的IO讀寫(xiě)操作），嚴(yán)重影響線程其他的任務(wù)的執(zhí)行，可以使用線程池線程池的一般特點(diǎn)：線程池通常是一個(gè)生產(chǎn)者-消費(fèi)者模型生產(chǎn)者線程用于發(fā)布任務(wù)，任務(wù)通常保存在任務(wù)隊(duì)列中線程池作為消費(fèi)者，
2024年02月14日
瀏覽(28)
多線程學(xué)習(xí)之生產(chǎn)者和消費(fèi)者與阻塞隊(duì)列的關(guān)系
生產(chǎn)者消費(fèi)者問(wèn)題，實(shí)際上主要是包含了兩類線程：生產(chǎn)者線程用于生產(chǎn)數(shù)據(jù) 消費(fèi)者線程用于消費(fèi)數(shù)據(jù) 生產(chǎn)者和消費(fèi)者之間通常會(huì)采用一個(gè)共享的數(shù)據(jù)區(qū)域，這樣就可以將生產(chǎn)者和消費(fèi)者進(jìn)行解耦，兩者都不需要互相關(guān)注對(duì)方的 Object類的等待和喚醒方法方法名說(shuō)明 void
2024年02月11日
瀏覽(20)