国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<ul id="0x0ye"><input id="0x0ye"><s id="0x0ye"></s></input></ul>

《爬蟲》爬取頁面圖片并保存

2年前作者：鏡壇主分類：Toy博客閱讀(22)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了《爬蟲》爬取頁面圖片并保存。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

title: 《小·意·思》爬取頁面圖片并保存
date: 2023-08-10 22:12:30
updated: 2023-08-29 17:07:55
categories: 番外：小·意·思
excerpt: 上下標(biāo)號、標(biāo)點(diǎn)、運(yùn)算符、標(biāo)號、時(shí)間相關(guān)、語言、貨幣、音樂、形狀符號、其他符號。
comments: false
tags:
top_image: /images/backimg/SunsetClimbing.png

簡單的爬取圖片

前言

這幾天打算整理與遷移一下博客。~~因?yàn)?CSDN 的 Markdown 編輯器很好用~~ ，所以全部文章與相關(guān)圖片都保存在 CSDN。而且 CSDN 支持一鍵導(dǎo)出自己的文章為 markdown 文件。但導(dǎo)出的文件中圖片的連接依舊是 url 連接。為了方便將圖片保存到本地，在這里保存一下爬蟲代碼。

只要修改正則匹配代碼，同樣適用于博客園爬取。

代碼

為了提高效率，該腳本將從保存的本地 markdown 文件讀取圖片鏈接。當(dāng)然腳本中也保留了爬取某個(gè)頁面所有圖片的函數(shù)。

腳本名：spider.py

import urllib.request 
import urllib.parse
import sys
import os
import re 


def open_url(url):
    '''
    用于網(wǎng)頁爬取。這里不采用這個(gè)函數(shù)
    '''
    req = urllib.request.Request(url) 
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')
    # 訪問url，并將頁面的二進(jìn)制數(shù)據(jù)賦值給 page
    page = urllib.request.urlopen(req)
    # 將page中的內(nèi)容轉(zhuǎn)換為utf-8編碼
    html = page.read().decode('utf-8')

    return html


def read_file(file):
    print('\n正在讀取文件...')
    with open(file, 'rb') as my_file:
        content = my_file.read()
        content = content.decode('utf-8')

    print('已讀取文件.')

    return content


def get_img(content, file_path):

    # 正則匹配圖片鏈接
    # p=r'<img src="([^"]+\.png)"'  # 可用于網(wǎng)頁爬取
    p=r'https://img-blog\.csdnimg\.cn/[\w\-/]+\.(?:png|jpg|jpeg)'

    #返回正則表達(dá)式在字符串中所有匹配結(jié)果的列表
    print('\n正在讀取圖片鏈接...')
    img_list=re.findall(p, content)
    list_len = str(len(img_list))
    print('已讀取圖片鏈接.\n')

    for img_url in img_list:
        print(img_url)
    print('\n共 ' + list_len + ' 條數(shù)據(jù)')

    # 圖片保存位置。如果文件夾不存在則創(chuàng)建
    save_path = file_path + '/assets/'

    if not os.path.exists(save_path):
        os.makedirs(save_path)

    print('\n正在保存圖片...\n')
    num = 0  # 用于記錄進(jìn)度
    for each in img_list:
        #以 / 為分隔符，-1返回最后一個(gè)值
        photo_name=each.split("/")[-1]

        #訪問 each，并將頁面的二進(jìn)制數(shù)據(jù)賦值給photo
        photo=urllib .request .urlopen(each)

        w=photo .read()

        # f=open(save_path + photo_name + '.png', 'wb')
        f=open(save_path + photo_name, 'wb')
        f.write(w)
        f.close()

        # 展示進(jìn)度
        print(num % 10, end="")
        if (num + 1) % 10 == 0 and num != 0:
            print('    進(jìn)度: ' + str(num + 1) + '/' + list_len)
        sys.stdout.flush()  # 刷新輸出緩沖
        num += 1

    print('\n\n完成!\n')


if __name__=='__main__':
    if len(sys.argv) != 2:
        print("\nUsage:   python spider.py <file>")
        print('example: python spider.py "F:\\T\\test.md"')
        sys.exit()

    file = str(sys.argv[1])

    file_name = os.path.basename(file)
    file_path = os.path.dirname(file)
    print('\nfile_name: ' + file_name)
    print('file_path: ' + file_path)

    # 讀取文件內(nèi)容
    content = read_file(file)

    # 爬取圖片
    get_img(content, file_path)

效果

《爬蟲》爬取頁面圖片并保存,小·意·思,爬蟲

《爬蟲》爬取頁面圖片并保存,小·意·思,爬蟲

別后相思人似月，云間水上到層城。

——《明月夜留別》（唐）李冶文章來源地址http://www.zghlxwxcb.cn/news/detail-638784.html

到了這里，關(guān)于《爬蟲》爬取頁面圖片并保存的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Python爬蟲爬取圖片
在我們?nèi)粘Ｉ暇W(wǎng)瀏覽網(wǎng)頁的時(shí)候，經(jīng)常會(huì)看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設(shè)計(jì)的素材。我們最常規(guī)的做法就是通過鼠標(biāo)右鍵，選擇另存為。但有些圖片鼠標(biāo)右鍵的時(shí)候并沒有另存為選項(xiàng)，還有辦法就通過就是通過
2024年02月13日
瀏覽(92)
Python爬蟲-爬取文檔內(nèi)容，如何去掉文檔中的表格，并保存正文內(nèi)容
前言本文是該專欄的第58篇，后面會(huì)持續(xù)分享python爬蟲干貨知識，記得關(guān)注。做過爬蟲項(xiàng)目的同學(xué)，可能或多或少爬取過文檔數(shù)據(jù)，比如說“政務(wù)網(wǎng)站，新聞網(wǎng)站，小說網(wǎng)站”等平臺的文檔數(shù)據(jù)。爬取文檔數(shù)據(jù)，筆者這里就不過多詳述，而本文，筆者將主要介紹在爬取文檔
2024年02月08日
瀏覽(28)
python爬蟲爬取網(wǎng)頁圖片
目錄一：爬蟲基礎(chǔ) 二：安裝html解析的python工具三：爬取網(wǎng)頁圖片爬蟲基本過程： 1.請求標(biāo)頭 headers 2.創(chuàng)建一個(gè)會(huì)話 requests.Session 3.確定請求的路徑 4.根據(jù)路徑獲取網(wǎng)頁資源(HTML文件) 5.解析html文件BeautifulSoup div a 標(biāo)簽獲取對應(yīng)的圖片 6.建立網(wǎng)絡(luò)連接進(jìn)行下載? 創(chuàng)建出下載的圖
2024年02月02日
瀏覽(101)
網(wǎng)絡(luò)爬蟲丨基于scrapy+mysql爬取博客信息并保存到數(shù)據(jù)庫中
本期內(nèi)容：基于scrapy+mysql爬取博客信息并保存到數(shù)據(jù)庫中實(shí)驗(yàn)需求 anaconda丨pycharm python3.11.4 scrapy mysql 項(xiàng)目下載地址：https://download.csdn.net/download/m0_68111267/88740730 本次實(shí)驗(yàn)實(shí)現(xiàn)了：使用Scrapy框架爬取博客專欄的目錄信息并保存到MySQL數(shù)據(jù)庫中，實(shí)驗(yàn)主要涉及到Python的爬蟲技術(shù)以
2024年01月17日
瀏覽(21)
爬蟲實(shí)例（二）—— 爬取高清4K圖片
大家好，我是 Enovo飛魚，今天繼續(xù)分享一個(gè)爬蟲案例，爬取高清4K圖片，加油??。 ? ? 目錄前言增加異常處理增加代碼靈活性基本環(huán)境配置爬取目標(biāo)網(wǎng)站分析網(wǎng)站頁面具體代碼實(shí)現(xiàn) 圖片下載示例感謝支持???+?? ? ? 上篇內(nèi)容，我們已經(jīng)了解并驚嘆于5行Python代碼的強(qiáng)
2024年02月21日
瀏覽(775)
Python爬蟲入門之2022軟科中國大學(xué)排名爬取保存到csv文件
1、獲得“2022軟科中國大學(xué)排名”數(shù)據(jù)，從【軟科排名】2022年最新軟科中國大學(xué)排名|中國最好大學(xué)排名網(wǎng)頁中獲得排名數(shù)據(jù)信息，并將數(shù)據(jù)保存到csv文件中。 2、調(diào)用兩個(gè)CSV文件，將他們合成一個(gè)文件，并按排名先后對其進(jìn)行排序 3、將合并文件儲存為txt文件和json文件我們采
2024年02月07日
瀏覽(29)
Java爬蟲爬取圖片壁紙
以 sougou 圖片為例： https://pic.sogou.com/ JDK17、SpringBoot3.2.X、hutool5.8.24實(shí)現(xiàn)Java爬蟲，爬取頁面圖片開發(fā)工具： IDEA2023.2.5 JDK： Java17 SpringBoot： 3.2.x 通過 SpringBoot 快速構(gòu)建開發(fā)環(huán)境，通過 Jsoup 實(shí)現(xiàn)對網(wǎng)頁的解析，并獲取想要的資源數(shù)據(jù) 使用 hutool 工具，將所需要的字符串轉(zhuǎn)成 J
2024年01月17日
瀏覽(17)
Python爬蟲入門系列之Selenium實(shí)現(xiàn)動(dòng)態(tài)頁面爬取
在前一篇博客中，我們學(xué)習(xí)了如何使用多線程優(yōu)化爬蟲程序。但是，如果要爬取的網(wǎng)頁是動(dòng)態(tài)生成的或者包含大量JavaScript代碼，單純的靜態(tài)頁面爬取就不足夠了。為了解決這個(gè)問題，我們可以使用Selenium庫來模擬真實(shí)的瀏覽器行為，從而實(shí)現(xiàn)動(dòng)態(tài)頁面的爬取。 Selenium是一個(gè)用
2024年02月11日
瀏覽(19)
Python爬取讀書網(wǎng)的圖片鏈接和書名并保存在數(shù)據(jù)庫中
一個(gè)比較基礎(chǔ)且常見的爬蟲，寫下來用于記錄和鞏固相關(guān)知識。本項(xiàng)目采用 scrapy 框架進(jìn)行爬取，需要提前安裝由于需要保存數(shù)據(jù)到數(shù)據(jù)庫，因此需要下載 pymysql 進(jìn)行數(shù)據(jù)庫相關(guān)的操作同時(shí)在數(shù)據(jù)庫中創(chuàng)立對應(yīng)的表在終端進(jìn)入準(zhǔn)備存放項(xiàng)目的文件夾中 1、創(chuàng)建項(xiàng)目創(chuàng)建成功
2024年02月06日
瀏覽(22)
python-爬蟲-xpath方法-批量爬取王者皮膚圖片
球員：喬爾-恩比德 - - - 球隊(duì):76人球員：盧卡-東契奇 - - - 球隊(duì):獨(dú)行俠球員：達(dá)米安-利拉德 - - - 球隊(duì):開拓者爬取一張圖片該角色有7個(gè)皮膚爬取7個(gè)圖片獲取這7個(gè)皮膚的名字保存圖片獲取所有英雄皮膚把該行網(wǎng)址復(fù)制到網(wǎng)址欄，會(huì)自動(dòng)下載該文件 https://pvp.qq.com/web20160
2024年02月09日
瀏覽(96)