軟件介紹
EasySpider是一款可視化爬蟲軟件,此軟件可以讓大家使用圖形化界面,無代碼可視化的設(shè)計(jì)和執(zhí)行爬蟲任務(wù)。只需要在網(wǎng)頁上選擇自己想要爬的內(nèi)容并根據(jù)提示框操作即可完成爬蟲設(shè)計(jì)和執(zhí)行。同時(shí)軟件還可以以Web服務(wù)的方式進(jìn)行API調(diào)用,從而可以很方便的嵌入到其他系統(tǒng)中。
以下是示例界面:
相關(guān)鏈接
代碼倉庫
Github倉庫地址,歡迎大家Star:
EasySpider Githubhttps://xn--github-9e0c.com/NaiboWang/EasySpider
下載 EasySpider
進(jìn)入Releases Page?下載最新版本:
EasySpider下載地址https://github.com/NaiboWang/EasySpider/releases
視頻教程
Bilibili/B站視頻教程:
可視化爬蟲EasySpider:一個(gè)無需寫代碼,可視化的幾分鐘設(shè)計(jì)一個(gè)爬蟲的開源免費(fèi)軟件
可視化爬蟲EasySpider:如何無代碼可視化的爬取需要登錄才能爬的網(wǎng)站
可視化爬蟲EasySpider: 如何爬需要輸入驗(yàn)證碼的網(wǎng)站
流程圖執(zhí)行邏輯解析 - 58同城房源描述采集案例https://www.bilibili.com/video/BV1YL411z7uW
MacOS系統(tǒng)設(shè)計(jì)和執(zhí)行eBay網(wǎng)站爬蟲任務(wù)教程https://www.bilibili.com/video/BV1WL411h71r
文檔
請暫時(shí)翻譯英文文檔:Wiki of EasySpider,或看作者的碩士畢業(yè)論文(主要看第三章和第五章):面向WEB應(yīng)用的智能化服務(wù)封裝系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)https://github.com/NaiboWang/EasySpider/blob/master/Docs/%E9%9D%A2%E5%90%91WEB%E5%BA%94%E7%94%A8%E7%9A%84%E6%99%BA%E8%83%BD%E5%8C%96%E6%9C%8D%E5%8A%A1%E5%B0%81%E8%A3%85%E7%B3%BB%E7%BB%9F%E8%AE%BE%E8%AE%A1%E4%B8%8E%E5%AE%9E%E7%8E%B0.pdf
相關(guān)榮譽(yù)和出版物
1、 作者本人通過此軟件完成了浙江大學(xué)碩士論文并取得了碩士學(xué)位。
2、 獲得了中國國家發(fā)明專利授權(quán),作者是第一發(fā)明人。
3、 被CCF A頂級會議WWW 2023接收:https://dl.acm.org/doi/abs/10.1145/3543873.3587345
4、 被微博81.6萬粉絲互聯(lián)網(wǎng)大V“愛可可-愛生活”轉(zhuǎn)發(fā)和宣傳: https://s.weibo.com/weibo?q=easyspider
?
樓主剛從美國參加WWW 2023回來,當(dāng)時(shí)很多人對該軟件感興趣,下面是現(xiàn)場海報(bào):
?
為什么要用EasySpider
相比其他可視化爬蟲軟件,EasySpider有以下優(yōu)勢:
1. 代碼開源,因此可以進(jìn)行二次開發(fā)。
2. 完全免費(fèi),不同于八爪魚等軟件的“免費(fèi)”,EasySpider是一個(gè)無需登錄,無限多開,無限機(jī)器部署的軟件,不需要向作者本人支付一分錢。(當(dāng)然,EasySpider受到專利保護(hù),因此如果要商用,還請聯(lián)系浙江大學(xué)天道專利事務(wù)所)。相比之下,其他軟件的免費(fèi)有諸多限制,具體可以看他們的價(jià)格詳情頁。
3. 安全,所有信息完全保存在用戶本地,包括任務(wù)和采集的數(shù)據(jù),不用擔(dān)心數(shù)據(jù)泄露問題。
4. 跨平臺:同時(shí)支持Windows,Linux和MacOS。
5. 速度快,通常一個(gè)爬蟲任務(wù)只需要2-5分鐘即可設(shè)計(jì)完成,采集速度也快,通常取決于具體機(jī)器環(huán)境。
6. 更加靈活,保存的瀏覽器配置信息更多,最重要的是可擴(kuò)展,自由的安裝各種插件,比如驗(yàn)證碼識別插件,推薦以下插件來識別驗(yàn)證碼:
從需求導(dǎo)向來說,爬蟲算是一項(xiàng)基本的需求,我們經(jīng)常需要去爬一些網(wǎng)上的信息,比如對于科研工作者,爬取維基百科語料庫進(jìn)行訓(xùn)練是做NLP的同學(xué)經(jīng)常做的事情;做社交網(wǎng)絡(luò)分析的同學(xué)經(jīng)常需要爬取Twitter和微博的信息;做推薦系統(tǒng)的同學(xué)會去爬購物網(wǎng)站的信息等等。市面上爬蟲需求很多,這里就不在贅述了。有了EasySpider,不管大家之前會不會寫爬蟲,現(xiàn)在都可以不需要費(fèi)心費(fèi)力的寫代碼了。
軟件相關(guān)截圖
這些圖片來自我的碩士論文,這里只放圖,具體這些圖是做什么的請大家去看我的碩士論文,因?yàn)樘L了:
面向WEB應(yīng)用的智能化服務(wù)封裝系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)https://github.com/NaiboWang/EasySpider/blob/master/Docs/%E9%9D%A2%E5%90%91WEB%E5%BA%94%E7%94%A8%E7%9A%84%E6%99%BA%E8%83%BD%E5%8C%96%E6%9C%8D%E5%8A%A1%E5%B0%81%E8%A3%85%E7%B3%BB%E7%BB%9F%E8%AE%BE%E8%AE%A1%E4%B8%8E%E5%AE%9E%E7%8E%B0.pdf
?
?
?
?
?
?
?
?
?
?
?
?
技術(shù)交流
由于EasySpider所有的算法設(shè)計(jì),代碼實(shí)現(xiàn)以及文檔編寫都是我一個(gè)人完成的,所以項(xiàng)目肯定不如一個(gè)團(tuán)隊(duì)一起寫那么完善,而且很多功能我想開發(fā)也是心有余而力不足,所以肯定有很多可以改進(jìn)的地方。由于代碼全部公開,所以大家可以自行fork之后進(jìn)行修改和添加新功能,也歡迎大家提PR使得這個(gè)軟件的功能更加完善,共同構(gòu)建一個(gè)美好的開源社區(qū)。 對于軟件中涉及到的算法細(xì)節(jié),大家可以看樓主的碩士畢業(yè)論文,里面寫的很詳細(xì):
面向WEB應(yīng)用的智能化服務(wù)封裝系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)https://github.com/NaiboWang/EasySpider/blob/master/Docs/%E9%9D%A2%E5%90%91WEB%E5%BA%94%E7%94%A8%E7%9A%84%E6%99%BA%E8%83%BD%E5%8C%96%E6%9C%8D%E5%8A%A1%E5%B0%81%E8%A3%85%E7%B3%BB%E7%BB%9F%E8%AE%BE%E8%AE%A1%E4%B8%8E%E5%AE%9E%E7%8E%B0.pdf
對于軟件開發(fā)使用到的具體技術(shù),如chrome擴(kuò)展開發(fā),websocket的使用,ElectronJS跨平臺框架等等,大家可以在下載代碼之后去研究下我的寫法,我相信我的代碼寫法絕不是最好的,甚至當(dāng)時(shí)由于想趕緊畢業(yè)所以只是想寫一個(gè)能用的demo出來所以可以說有些粗糙,比如耦合性太強(qiáng),不夠模塊化等等,因此可改進(jìn)空間還有很多,歡迎大家提出意見和建議。文章來源:http://www.zghlxwxcb.cn/news/detail-498357.html
對于初學(xué)CS的學(xué)弟學(xué)妹來說,這個(gè)項(xiàng)目也算是不錯(cuò)的樣例,因?yàn)閺拈_發(fā)角度來說,這個(gè)項(xiàng)目包含了前端開發(fā),后臺開發(fā),數(shù)據(jù)庫操作,瀏覽器擴(kuò)展開發(fā)等模塊;從算法角度來說,這個(gè)項(xiàng)目包含了如深度優(yōu)先,廣度優(yōu)先,數(shù)據(jù)結(jié)構(gòu),圖,編譯原理,遞歸等等算法技巧。大家如果想學(xué)習(xí),也許可以從這個(gè)項(xiàng)目源碼里學(xué)到一些知識。 最后,真心希望軟件可以幫到大家!文章來源地址http://www.zghlxwxcb.cn/news/detail-498357.html
到了這里,關(guān)于無代碼可視化開源爬蟲軟件EasySpider,希望能幫到大家的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!