??當(dāng)查看源代碼,發(fā)現(xiàn)網(wǎng)址在thumbURL之后時(shí),用此代碼:
# 當(dāng)查看源代碼,發(fā)現(xiàn)網(wǎng)址在thumbURL之后時(shí),用此代碼:
import requests
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:121.0) Gecko/20100101 Firefox/121.0',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate, br',
'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2'
}
url = input("請(qǐng)輸入你想保存的圖片的網(wǎng)址:")
response = requests.get(url, headers = headers)
print(response)
print(response.status_code)
file = input("請(qǐng)輸入你想圖片保存在的文件夾名稱:")
import os
os.makedirs(f'./{file}', exist_ok = True)
# 新建目錄,用于存儲(chǔ)圖片
# def makedirs(name, mode=0o777, exist_ok=False):
# 參數(shù)說(shuō)明:
# name:用于指定要?jiǎng)?chuàng)建目錄的路徑。
# mode:指定目錄的模式,默認(rèn)模式為八進(jìn)制的 777。類似于 chmod() 方法。
# exist_ok:可選參數(shù),如果值為 False,當(dāng)要?jiǎng)?chuàng)建的目錄已經(jīng)存在時(shí),拋出 FileExistsError 異常;如果值為True,
# 當(dāng)要?jiǎng)?chuàng)建的目錄已經(jīng)存在時(shí),不會(huì)拋出異常。默認(rèn)值為 False。
import re
html = response.text
image_url_list = re.findall('"thumbURL":"(.*?)",', html, re.S)
# 用于查找得到thumbURL后面的圖片網(wǎng)址,目前還不會(huì)正則表達(dá)式
# print(image_url_list)
q = 0
for url in image_url_list:
# print(url)
res=requests.get(url)
picture=res.content
q+=1
with open(f'{file}\\{q}.jpg',mode='wb') as f:
f.write(picture)
# 在小貓文件夾下保存圖片,以q為圖片文件名
?
#? 當(dāng)用requests.get請(qǐng)求得到的源代碼是html文件,每一行是一個(gè)標(biāo)簽時(shí),可以用此代碼文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-809780.html
# 當(dāng)用requests.get請(qǐng)求得到的源代碼是html文件,每一行是一個(gè)標(biāo)簽時(shí),可以用此代碼
import requests
from bs4 import BeautifulSoup
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:121.0) Gecko/20100101 Firefox/121.0',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate, br',
'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2'
}
url = input("請(qǐng)輸入你想保存的圖片的網(wǎng)址:")
response = requests.get(url, headers = headers)
print(response)
print(response.status_code)
file = input("請(qǐng)輸入你想圖片保存在的文件夾名稱:")
# response=requests.get('https://www.umei.cc/meinvtupian/')
response.encoding='utf-8'
# print(response.text)
soup=BeautifulSoup(response.text,'html.parser')
# print(soup)
import os
os.makedirs(f'./圖片/{file}', exist_ok=True)
lis = soup.find_all('div',class_="taotu-main")
# print(a)
print("*********")
q=0
t = 0
for l in lis:
if(t == 0):
print(l)
t += 1
p=l.find_all('img')
for i in p:
pic=i.get('data-original')
print(pic)
res=requests.get(pic)
picture=res.content
q+=1
with open(f'圖片/{file}\\{q}.jpg',mode='wb') as f:
f.write(picture)
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-809780.html
到了這里,關(guān)于python爬取圖片(thumbURL和html文件標(biāo)簽分別爬取)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!