前言
本文是該專欄的第31篇,后面會持續(xù)分享python的各種干貨知識,值得關(guān)注。
在工作上,尤其是在處理爬蟲項目中,會遇到這樣的需求。訪問某個網(wǎng)頁或者在采集某個頁面的時候,正文部分含有docx,或pdf,或xls,或doc,或wps,或ofd,或xlsx,或zip等鏈接。需要你使用python自動將頁面上含有的這些信息鏈接下載并保存到指定文件夾。
遇到這種情況需要怎么做呢?別擔(dān)心,跟著筆者直接往下看正文的詳細(xì)解決方法。(附完整代碼)
正文
1. doc下載
在有些網(wǎng)頁的正文中,有時會有如下圖中的doc鏈接。比如爬蟲在采集正文數(shù)據(jù)的時候,像標(biāo)題,正文內(nèi)容,作者,發(fā)布時間等等信息都可以直接通過數(shù)據(jù)解析抓取并保存到本地。而下圖中的doc一般在網(wǎng)頁中,我們只需要通過鼠標(biāo)點擊就可自動下載并保存到本地目錄文件里。而通過程序代碼要怎樣讓它自動下載并保存到本地呢。實現(xiàn)方法如下:
文章來源:http://www.zghlxwxcb.cn/news/detail-582045.html
以上圖中的doc為例,我們可以通過xpath或者正則,bs4等解析方法將其doc鏈接地址提取出來,然后使用如下文章來源地址http://www.zghlxwxcb.cn/news/detail-582045.html
到了這里,關(guān)于Python實現(xiàn)將pdf,docx,xls,doc,wps,zip,xlsx,ofd鏈接下載并將文件保存到本地的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!