国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

《爬蟲》爬取頁面圖片并保存

這篇具有很好參考價(jià)值的文章主要介紹了《爬蟲》爬取頁面圖片并保存。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。


title: 《小·意·思》爬取頁面圖片并保存
date: 2023-08-10 22:12:30
updated: 2023-08-29 17:07:55
categories: 番外:小·意·思
excerpt: 上下標(biāo)號、標(biāo)點(diǎn)、運(yùn)算符、標(biāo)號、時(shí)間相關(guān)、語言、貨幣、音樂、形狀符號、其他符號。
comments: false
tags:
top_image: /images/backimg/SunsetClimbing.png



簡單的爬取圖片

前言

這幾天打算整理與遷移一下博客。因?yàn)?CSDN 的 Markdown 編輯器很好用 ,所以全部文章與相關(guān)圖片都保存在 CSDN。而且 CSDN 支持一鍵導(dǎo)出自己的文章為 markdown 文件。但導(dǎo)出的文件中圖片的連接依舊是 url 連接。為了方便將圖片保存到本地,在這里保存一下爬蟲代碼。

只要修改正則匹配代碼,同樣適用于博客園爬取。

代碼

為了提高效率,該腳本將從保存的本地 markdown 文件讀取圖片鏈接。當(dāng)然腳本中也保留了爬取某個(gè)頁面所有圖片的函數(shù)。

腳本名:spider.py

import urllib.request 
import urllib.parse
import sys
import os
import re 


def open_url(url):
    '''
    用于網(wǎng)頁爬取。這里不采用這個(gè)函數(shù)
    '''
    req = urllib.request.Request(url) 
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')
    # 訪問url,并將頁面的二進(jìn)制數(shù)據(jù)賦值給 page
    page = urllib.request.urlopen(req)
    # 將page中的內(nèi)容轉(zhuǎn)換為utf-8編碼
    html = page.read().decode('utf-8')

    return html


def read_file(file):
    print('\n正在讀取文件...')
    with open(file, 'rb') as my_file:
        content = my_file.read()
        content = content.decode('utf-8')

    print('已讀取文件.')

    return content


def get_img(content, file_path):

    # 正則匹配圖片鏈接
    # p=r'<img src="([^"]+\.png)"'  # 可用于網(wǎng)頁爬取
    p=r'https://img-blog\.csdnimg\.cn/[\w\-/]+\.(?:png|jpg|jpeg)'

    #返回正則表達(dá)式在字符串中所有匹配結(jié)果的列表
    print('\n正在讀取圖片鏈接...')
    img_list=re.findall(p, content)
    list_len = str(len(img_list))
    print('已讀取圖片鏈接.\n')

    for img_url in img_list:
        print(img_url)
    print('\n共 ' + list_len + ' 條數(shù)據(jù)')

    # 圖片保存位置。如果文件夾不存在則創(chuàng)建
    save_path = file_path + '/assets/'

    if not os.path.exists(save_path):
        os.makedirs(save_path)

    print('\n正在保存圖片...\n')
    num = 0  # 用于記錄進(jìn)度
    for each in img_list:
        #以 / 為分隔符,-1返回最后一個(gè)值
        photo_name=each.split("/")[-1]

        #訪問 each,并將頁面的二進(jìn)制數(shù)據(jù)賦值給photo
        photo=urllib .request .urlopen(each)

        w=photo .read()

        # f=open(save_path + photo_name + '.png', 'wb')
        f=open(save_path + photo_name, 'wb')
        f.write(w)
        f.close()

        # 展示進(jìn)度
        print(num % 10, end="")
        if (num + 1) % 10 == 0 and num != 0:
            print('    進(jìn)度: ' + str(num + 1) + '/' + list_len)
        sys.stdout.flush()  # 刷新輸出緩沖
        num += 1

    print('\n\n完成!\n')


if __name__=='__main__':
    if len(sys.argv) != 2:
        print("\nUsage:   python spider.py <file>")
        print('example: python spider.py "F:\\T\\test.md"')
        sys.exit()

    file = str(sys.argv[1])

    file_name = os.path.basename(file)
    file_path = os.path.dirname(file)
    print('\nfile_name: ' + file_name)
    print('file_path: ' + file_path)

    # 讀取文件內(nèi)容
    content = read_file(file)

    # 爬取圖片
    get_img(content, file_path)

效果

《爬蟲》爬取頁面圖片并保存,小·意·思,爬蟲

《爬蟲》爬取頁面圖片并保存,小·意·思,爬蟲


別后相思人似月,云間水上到層城。

——《明月夜留別》(唐)李冶 文章來源地址http://www.zghlxwxcb.cn/news/detail-638784.html

到了這里,關(guān)于《爬蟲》爬取頁面圖片并保存的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Python爬蟲 爬取圖片

    Python爬蟲 爬取圖片

    在我們?nèi)粘I暇W(wǎng)瀏覽網(wǎng)頁的時(shí)候,經(jīng)常會(huì)看到一些好看的圖片,我們就希望把這些圖片保存下載,或者用戶用來做桌面壁紙,或者用來做設(shè)計(jì)的素材。 我們最常規(guī)的做法就是通過鼠標(biāo)右鍵,選擇另存為。但有些圖片鼠標(biāo)右鍵的時(shí)候并沒有另存為選項(xiàng),還有辦法就通過就是通過

    2024年02月13日
    瀏覽(92)
  • Python爬蟲-爬取文檔內(nèi)容,如何去掉文檔中的表格,并保存正文內(nèi)容

    Python爬蟲-爬取文檔內(nèi)容,如何去掉文檔中的表格,并保存正文內(nèi)容

    前言 本文是該專欄的第58篇,后面會(huì)持續(xù)分享python爬蟲干貨知識,記得關(guān)注。 做過爬蟲項(xiàng)目的同學(xué),可能或多或少爬取過文檔數(shù)據(jù),比如說“政務(wù)網(wǎng)站,新聞網(wǎng)站,小說網(wǎng)站”等平臺的文檔數(shù)據(jù)。爬取文檔數(shù)據(jù),筆者這里就不過多詳述,而本文, 筆者將主要介紹在爬取文檔

    2024年02月08日
    瀏覽(28)
  • python爬蟲 爬取網(wǎng)頁圖片

    python爬蟲 爬取網(wǎng)頁圖片

    目錄 一:爬蟲基礎(chǔ) 二:安裝html解析的python工具 三:爬取網(wǎng)頁圖片 爬蟲基本過程: 1.請求標(biāo)頭 headers 2.創(chuàng)建一個(gè)會(huì)話 requests.Session 3.確定請求的路徑 4.根據(jù)路徑獲取網(wǎng)頁資源(HTML文件) 5.解析html文件BeautifulSoup div a 標(biāo)簽 獲取對應(yīng)的圖片 6.建立網(wǎng)絡(luò)連接進(jìn)行下載? 創(chuàng)建出下載的圖

    2024年02月02日
    瀏覽(101)
  • 網(wǎng)絡(luò)爬蟲丨基于scrapy+mysql爬取博客信息并保存到數(shù)據(jù)庫中

    網(wǎng)絡(luò)爬蟲丨基于scrapy+mysql爬取博客信息并保存到數(shù)據(jù)庫中

    本期內(nèi)容 :基于scrapy+mysql爬取博客信息并保存到數(shù)據(jù)庫中 實(shí)驗(yàn)需求 anaconda丨pycharm python3.11.4 scrapy mysql 項(xiàng)目下載地址:https://download.csdn.net/download/m0_68111267/88740730 本次實(shí)驗(yàn)實(shí)現(xiàn)了:使用Scrapy框架爬取博客專欄的目錄信息并保存到MySQL數(shù)據(jù)庫中,實(shí)驗(yàn)主要涉及到Python的爬蟲技術(shù)以

    2024年01月17日
    瀏覽(21)
  • 爬蟲實(shí)例(二)—— 爬取高清4K圖片

    爬蟲實(shí)例(二)—— 爬取高清4K圖片

    大家好,我是 Enovo飛魚,今天繼續(xù)分享一個(gè)爬蟲案例,爬取高清4K圖片,加油??。 ? ? 目錄 前言 增加異常處理 增加代碼靈活性 基本環(huán)境配置 爬取目標(biāo)網(wǎng)站 分析網(wǎng)站頁面 具體代碼實(shí)現(xiàn) 圖片下載示例 感謝支持???+?? ? ? 上篇內(nèi)容,我們已經(jīng)了解并驚嘆于5行Python代碼的強(qiáng)

    2024年02月21日
    瀏覽(775)
  • Python爬蟲入門之2022軟科中國大學(xué)排名爬取保存到csv文件

    Python爬蟲入門之2022軟科中國大學(xué)排名爬取保存到csv文件

    1、獲得“2022軟科中國大學(xué)排名”數(shù)據(jù),從【軟科排名】2022年最新軟科中國大學(xué)排名|中國最好大學(xué)排名網(wǎng)頁中獲得排名數(shù)據(jù)信息,并將數(shù)據(jù)保存到csv文件中。 2、調(diào)用兩個(gè)CSV文件,將他們合成一個(gè)文件,并按排名先后對其進(jìn)行排序 3、將合并文件儲存為txt文件和json文件 我們采

    2024年02月07日
    瀏覽(29)
  • Java爬蟲爬取圖片壁紙

    Java爬蟲爬取圖片壁紙

    以 sougou 圖片為例: https://pic.sogou.com/ JDK17、SpringBoot3.2.X、hutool5.8.24實(shí)現(xiàn)Java爬蟲,爬取頁面圖片 開發(fā)工具: IDEA2023.2.5 JDK: Java17 SpringBoot: 3.2.x 通過 SpringBoot 快速構(gòu)建開發(fā)環(huán)境,通過 Jsoup 實(shí)現(xiàn)對網(wǎng)頁的解析,并獲取想要的資源數(shù)據(jù) 使用 hutool 工具,將所需要的字符串轉(zhuǎn)成 J

    2024年01月17日
    瀏覽(17)
  • Python爬蟲入門系列之Selenium實(shí)現(xiàn)動(dòng)態(tài)頁面爬取

    在前一篇博客中,我們學(xué)習(xí)了如何使用多線程優(yōu)化爬蟲程序。但是,如果要爬取的網(wǎng)頁是動(dòng)態(tài)生成的或者包含大量JavaScript代碼,單純的靜態(tài)頁面爬取就不足夠了。為了解決這個(gè)問題,我們可以使用Selenium庫來模擬真實(shí)的瀏覽器行為,從而實(shí)現(xiàn)動(dòng)態(tài)頁面的爬取。 Selenium是一個(gè)用

    2024年02月11日
    瀏覽(19)
  • Python爬取讀書網(wǎng)的圖片鏈接和書名并保存在數(shù)據(jù)庫中

    Python爬取讀書網(wǎng)的圖片鏈接和書名并保存在數(shù)據(jù)庫中

    一個(gè)比較基礎(chǔ)且常見的爬蟲,寫下來用于記錄和鞏固相關(guān)知識。 本項(xiàng)目采用 scrapy 框架進(jìn)行爬取,需要提前安裝 由于需要保存數(shù)據(jù)到數(shù)據(jù)庫,因此需要下載 pymysql 進(jìn)行數(shù)據(jù)庫相關(guān)的操作 同時(shí)在數(shù)據(jù)庫中創(chuàng)立對應(yīng)的表 在終端進(jìn)入準(zhǔn)備存放項(xiàng)目的文件夾中 1、創(chuàng)建項(xiàng)目 創(chuàng)建成功

    2024年02月06日
    瀏覽(22)
  • python-爬蟲-xpath方法-批量爬取王者皮膚圖片

    python-爬蟲-xpath方法-批量爬取王者皮膚圖片

    球員:喬爾-恩比德 - - - 球隊(duì):76人 球員:盧卡-東契奇 - - - 球隊(duì):獨(dú)行俠 球員:達(dá)米安-利拉德 - - - 球隊(duì):開拓者 爬取一張圖片 該角色有7個(gè)皮膚 爬取7個(gè)圖片 獲取這7個(gè)皮膚的名字 保存圖片 獲取所有英雄皮膚 把該行網(wǎng)址復(fù)制到網(wǎng)址欄,會(huì)自動(dòng)下載該文件 https://pvp.qq.com/web20160

    2024年02月09日
    瀏覽(96)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包