1、 引言
小屌絲:魚哥, 我最近在練習(xí)寫爬蟲, 你有沒有什么便捷的方式…
小魚:比如呢?
小屌絲:比如,一句話就可以搞得定爬取整個(gè)網(wǎng)站。
小魚:我不是寫過挺多的爬蟲案例嘛,你咋還問這個(gè)問題,
小屌絲:你寫的哪些教程,像我這種比較懶散的人,不適用!
小魚:我擦~ ~ 你這…
小屌絲:魚哥,你就像這篇《只用1行代碼就下載全網(wǎng)視頻》,就一行代碼, 我保證妥妥的會(huì)。
小魚:Let me 想一下。
2、Scrapeasy
按照小屌絲的想法, 我想到了一個(gè)庫:Scrapeasy
小屌絲:這是不是第三方庫。
小魚:必須的,python自帶庫,能有這么強(qiáng)大的功能嗎?
2.1 簡(jiǎn)介
2.1.1 Scrap
關(guān)于Scrapeasy 大家可能了解的不多,
但是 Scrap 爬蟲大佬肯定了解。
那什么是Scrap呢?
Scrapy
Scrapy是一個(gè)功能強(qiáng)大的網(wǎng)絡(luò)爬蟲類庫,通過命令pip install scrapy進(jìn)行安裝,爬取的海量數(shù)據(jù)可以通過MongoDB進(jìn)行存儲(chǔ)。
我上一個(gè)架構(gòu)圖:
關(guān)于Scrap的其他功能,
可以移步 Scrap官網(wǎng)進(jìn)行閱讀,這里不做過多介紹。
2.1.2 Scrapeasy
我們?cè)賮砹私?Scrapeasy。
Scrapeay 是Python的一個(gè)第三方庫,主要功能:
- 可以抓取網(wǎng)頁數(shù)據(jù);
- 從單網(wǎng)頁提取數(shù)據(jù);
- 多網(wǎng)頁提取數(shù)據(jù);
- 可以從PDF和HTML表格中提取數(shù)據(jù);
聽著是很牛的樣子,
接下來,我們就去代碼中實(shí)踐,看看到底有多牛。
2.2 安裝
涉及到第三方庫,肯定就需要安裝
老規(guī)矩,pip 安裝
pip install scrapeasy
其它安裝方式,直接看這兩篇:
- 《Python3,選擇Python自動(dòng)安裝第三方庫,從此跟pip說拜拜?。?/strong>》
- 《Python3:我低調(diào)的只用一行代碼,就導(dǎo)入Python所有庫!》
2.3 代碼示例
代碼示例
# -*- coding:utf-8 -*-
# @Time : 2022-10-31
# @Author : Carl_DJ
'''
實(shí)現(xiàn)功能:
通過scrapeasy 來實(shí)現(xiàn)爬取數(shù)據(jù)
'''
from scrapeasy import Website,Page
#創(chuàng)建網(wǎng)站對(duì)象
#這里我就以我博客的地址為例子
webs = Website("https://blog.csdn.net/wuyoudeyuer?type=blog")
#獲取所有子鏈接
urls = webs.getSubpagesLinks()
#輸出信息
print(f'打印所有鏈接信息:{urls}')
#查找圖片
images = webs.getImages()
print(f'打印所有的圖片信息:{images}')
#下載圖片
webs.download('img','./data')
#下載pdf
webs.download('pdf','./data')
#獲取鏈接
main_urls = webs.getLinks(intern=False,extern=False,domain=True)
#獲取鏈接域
domain = webs.getLinks(intern=False,extern=True,domain=False)
# 下載其他類型的文件
cal_urls = webs.get("php")
解析
- 下載所有鏈接: getSubpagesLinks() 方法;
- 查找圖片:getImages()方法;
- 下載:webs.download()方法;
- 下載其他格式文件:get(“文件類型”);
3、總結(jié)
看到這里,今天的分享差不多就該結(jié)束了。
今天主要是針對(duì)scrapeasy這個(gè)庫進(jìn)行簡(jiǎn)單的分享。
學(xué)會(huì)scrapeasy,你算是邁入的爬蟲的 門檻。
其實(shí)關(guān)于爬蟲,我也寫過一些教程和案例,例如:
- 《Python3:我只用1行代碼就下載全網(wǎng)視頻,我被我的才華和顏值征服了!!》
- 《Python3,20行代碼,通過微信電腦版爬取朋友圈數(shù)據(jù),老板再也抓不到我上班看手機(jī)了?。?!》
- 《Python3,多線程爬完B站UP主的視頻彈幕及評(píng)論,我飄了~ ~ ~》
- 《Pyhotn3,爬取B站up主的信息!》
這里就不過多列舉了,更多的示例,可以看小魚的爬蟲實(shí)戰(zhàn)專欄的。
我是小魚:文章來源:http://www.zghlxwxcb.cn/news/detail-450298.html
- CSDN博客專家;
- 51Testing認(rèn)證講師;
- 金牌面試官;
- 商務(wù)合作|面試培訓(xùn)|職場(chǎng)規(guī)劃,可以掃碼咨詢。
關(guān)注我,帶你學(xué)習(xí)Python領(lǐng)域更多更專業(yè)的技能。文章來源地址http://www.zghlxwxcb.cn/news/detail-450298.html
到了這里,關(guān)于Python3,爬蟲有多簡(jiǎn)單,一個(gè)庫,一行代碼,就OK, 你確定不來試試?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!