国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python爬蟲(chóng),多線程與生產(chǎn)者消費(fèi)者模式

這篇具有很好參考價(jià)值的文章主要介紹了python爬蟲(chóng),多線程與生產(chǎn)者消費(fèi)者模式。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

  • 使用隊(duì)列完成生產(chǎn)者消費(fèi)者模式
  • 使用類創(chuàng)建多線程提高爬蟲(chóng)速度
'''
https://sc.chinaz.com/tupian/index.html
https://sc.chinaz.com/tupian/index_2.html
https://sc.chinaz.com/tupian/index_3.html
'''

from threading import Thread
from queue import Queue
import requests
from bs4 import BeautifulSoup
import os

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69',
}
class Put_Thread(Thread):
    def __init__(self, url_queue, img_queue):
        super().__init__()
        self.url_queue = url_queue
        self.img_queue = img_queue

    def run(self):
        while not self.url_queue.empty():
            url = self.url_queue.get()
            self.fetch_url(url)

    def fetch_url(self, url):
        response = requests.get(url, headers=headers)
        response.encoding = 'utf-8'
        soup = BeautifulSoup(response.text, 'lxml')
        data_list = soup.find_all('img', class_='lazy')
        for i in data_list:
            title = i.get('alt')
            href = 'https:' + i.get('data-original').replace('_s', '')
            self.img_queue.put((title, href))

class Get_Thread(Thread):
    def __init__(self, img_queue):
        super().__init__()
        self.img_queue = img_queue

    def run(self):
        while True:
            try:
                img_data = self.img_queue.get(timeout=3)
            except:
                break
            else:
                title, href = img_data
                if not os.path.exists('./image'):
                    os.mkdir('./image')
                with open('./image/' + title + '.jpg', 'wb') as f:
                    resp = requests.get(href, headers=headers).content
                    f.write(resp)
                print(title, '保存成功!')

def main():
    '''存放url'''
    url_queue = Queue()
    '''存放圖片的地址和名稱'''
    img_queue = Queue()

    url_queue.put('https://sc.chinaz.com/tupian/index.html')
    for i in range(1,11):
        url = 'https://sc.chinaz.com/tupian/index_{}.html'.format(i)
        url_queue.put(url)

    for i in range(41):
        t1 = Put_Thread(url_queue, img_queue)
        t1.start()
        t2 = Get_Thread(img_queue)
        t2.start()

if __name__ == '__main__':
    main()
    print('\n************主線程已結(jié)束************\n')
  • 通過(guò)隊(duì)列可以讓線程之間進(jìn)行通信
  • 創(chuàng)建繼承Thread的類創(chuàng)建線程,run()會(huì)在線程start時(shí)執(zhí)行
  • 吃cpu性能

文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-700482.html

到了這里,關(guān)于python爬蟲(chóng),多線程與生產(chǎn)者消費(fèi)者模式的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 線程同步--生產(chǎn)者消費(fèi)者模型--單例模式線程池

    線程同步--生產(chǎn)者消費(fèi)者模型--單例模式線程池

    條件變量是 線程間共享的全局變量 ,線程間可以通過(guò)條件變量進(jìn)行同步控制 條件變量的使用必須依賴于互斥鎖以確保線程安全,線程申請(qǐng)了互斥鎖后,可以調(diào)用特定函數(shù) 進(jìn)入條件變量等待隊(duì)列(同時(shí)釋放互斥鎖) ,其他線程則可以通過(guò)條件變量在特定的條件下喚醒該線程( 喚醒后線

    2024年01月20日
    瀏覽(22)
  • C#多線程學(xué)習(xí)(三) 生產(chǎn)者和消費(fèi)者

    線程學(xué)習(xí)第一篇: C#多線程學(xué)習(xí)(一) 多線程的相關(guān)概念 線程學(xué)習(xí)第二篇: C#多線程學(xué)習(xí)(二) 如何操縱一個(gè)線程 前面說(shuō)過(guò),每個(gè)線程都有自己的資源,但是代碼區(qū)是共享的,即每個(gè)線程都可以執(zhí)行相同的函數(shù)。這可能帶來(lái)的問(wèn)題就是幾個(gè)線程同時(shí)執(zhí)行一個(gè)函數(shù),導(dǎo)致數(shù)據(jù)的混

    2023年04月21日
    瀏覽(21)
  • 線程池-手寫(xiě)線程池C++11版本(生產(chǎn)者-消費(fèi)者模型)

    線程池-手寫(xiě)線程池C++11版本(生產(chǎn)者-消費(fèi)者模型)

    本項(xiàng)目是基于C++11的線程池。使用了許多C++的新特性,包含不限于模板函數(shù)泛型編程、std::future、std::packaged_task、std::bind、std::forward完美轉(zhuǎn)發(fā)、std::make_shared智能指針、decltype類型推斷、std::unique_lock鎖等C++11新特性功能。 本項(xiàng)目有一定的上手難度。推薦參考系列文章 C++11實(shí)用技

    2024年02月13日
    瀏覽(26)
  • JavaEE 初階篇-生產(chǎn)者與消費(fèi)者模型(線程通信)

    JavaEE 初階篇-生產(chǎn)者與消費(fèi)者模型(線程通信)

    ??博客主頁(yè):?【 小扳_-CSDN博客】 ?感謝大家點(diǎn)贊??收藏?評(píng)論? ? 文章目錄 ? ? ? ? 1.0 生產(chǎn)者與消費(fèi)者模型概述 ? ? ? ? 2.0?在生產(chǎn)者與消費(fèi)者模型中涉及的關(guān)鍵概念 ? ? ? ? 2.1 緩沖區(qū) ? ? ? ? 2.2 生產(chǎn)者 ? ? ? ? 2.3 消費(fèi)者 ? ? ? ? 2.4 同步機(jī)制 ? ? ? ? 2.5 線程間通

    2024年04月28日
    瀏覽(31)
  • 探究:kafka生產(chǎn)者/消費(fèi)者與多線程安全

    探究:kafka生產(chǎn)者/消費(fèi)者與多線程安全

    目錄 1. 多線程安全 1.1. 生產(chǎn)者是多線程安全的么? 1.1. 消費(fèi)者是多線程安全的么? 2. 消費(fèi)者規(guī)避多線程安全方案 2.1. 每個(gè)線程維護(hù)一個(gè)kafkaConsumer 2.2. [單/多]kafkaConsumer實(shí)例 + 多worker線程 2.3.方案優(yōu)缺點(diǎn)對(duì)比 ????????Kafka生產(chǎn)者是 線程安全 的,可以在多個(gè)線程中共享一個(gè)

    2023年04月26日
    瀏覽(24)
  • 多線程(初階七:阻塞隊(duì)列和生產(chǎn)者消費(fèi)者模型)

    多線程(初階七:阻塞隊(duì)列和生產(chǎn)者消費(fèi)者模型)

    目錄 一、阻塞隊(duì)列的簡(jiǎn)單介紹 二、生產(chǎn)者消費(fèi)者模型 1、舉個(gè)栗子: 2、引入生產(chǎn)者消費(fèi)者模型的意義: (1)解耦合 (2)削峰填谷 三、模擬實(shí)現(xiàn)阻塞隊(duì)列 1、阻塞隊(duì)列的簡(jiǎn)單介紹 2、實(shí)現(xiàn)阻塞隊(duì)列 (1)實(shí)現(xiàn)普通隊(duì)列 (2)加上線程安全 (3)加上阻塞功能 3、運(yùn)用阻塞隊(duì)列

    2024年02月05日
    瀏覽(20)
  • 【linux】線程同步+基于BlockingQueue的生產(chǎn)者消費(fèi)者模型

    【linux】線程同步+基于BlockingQueue的生產(chǎn)者消費(fèi)者模型

    喜歡的點(diǎn)贊,收藏,關(guān)注一下把! 在線程互斥寫(xiě)了一份搶票的代碼,我們發(fā)現(xiàn)雖然加鎖解決了搶到負(fù)數(shù)票的問(wèn)題,但是一直都是一個(gè)線程在搶票,它錯(cuò)了嗎,它沒(méi)錯(cuò)但是不合理。那我們應(yīng)該如何安全合理的搶票呢? 講個(gè)小故事。 假設(shè)學(xué)校有一個(gè)VIP學(xué)霸自習(xí)室,這個(gè)自習(xí)室有

    2024年02月03日
    瀏覽(24)
  • C# 快速寫(xiě)入日志 不卡線程 生產(chǎn)者 消費(fèi)者模式

    C# 快速寫(xiě)入日志 不卡線程 生產(chǎn)者 消費(fèi)者模式

    有這樣一種場(chǎng)景需求,就是某個(gè)方法,對(duì)耗時(shí)要求很高,但是又要記錄日志到數(shù)據(jù)庫(kù)便于分析,由于訪問(wèn)數(shù)據(jù)庫(kù)基本都要幾十毫秒,可在方法里寫(xiě)入BlockingCollection,由另外的線程寫(xiě)入數(shù)據(jù)庫(kù)。 可以看到,在我的機(jī)子上面,1ms寫(xiě)入了43條日志。

    2024年02月15日
    瀏覽(22)
  • 線程池-手寫(xiě)線程池Linux C簡(jiǎn)單版本(生產(chǎn)者-消費(fèi)者模型)

    線程池-手寫(xiě)線程池Linux C簡(jiǎn)單版本(生產(chǎn)者-消費(fèi)者模型)

    本線程池采用C語(yǔ)言實(shí)現(xiàn) 線程池的場(chǎng)景: 當(dāng)某些任務(wù)特別耗時(shí)(例如大量的IO讀寫(xiě)操作),嚴(yán)重影響線程其他的任務(wù)的執(zhí)行,可以使用線程池 線程池的一般特點(diǎn): 線程池通常是一個(gè)生產(chǎn)者-消費(fèi)者模型 生產(chǎn)者線程用于發(fā)布任務(wù),任務(wù)通常保存在任務(wù)隊(duì)列中 線程池作為消費(fèi)者,

    2024年02月14日
    瀏覽(28)
  • 多線程學(xué)習(xí)之生產(chǎn)者和消費(fèi)者與阻塞隊(duì)列的關(guān)系

    多線程學(xué)習(xí)之生產(chǎn)者和消費(fèi)者與阻塞隊(duì)列的關(guān)系

    生產(chǎn)者消費(fèi)者問(wèn)題,實(shí)際上主要是包含了兩類線程: 生產(chǎn)者線程用于生產(chǎn)數(shù)據(jù) 消費(fèi)者線程用于消費(fèi)數(shù)據(jù) 生產(chǎn)者和消費(fèi)者之間通常會(huì)采用一個(gè)共享的數(shù)據(jù)區(qū)域,這樣就可以將生產(chǎn)者和消費(fèi)者進(jìn)行解耦, 兩者都不需要互相關(guān)注對(duì)方的 Object類的等待和喚醒方法 方法名 說(shuō)明 void

    2024年02月11日
    瀏覽(20)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包