前言
本文是該專欄的第58篇,后面會(huì)持續(xù)分享python爬蟲(chóng)干貨知識(shí),記得關(guān)注。
做過(guò)爬蟲(chóng)項(xiàng)目的同學(xué),可能或多或少爬取過(guò)文檔數(shù)據(jù),比如說(shuō)“政務(wù)網(wǎng)站,新聞網(wǎng)站,小說(shuō)網(wǎng)站”等平臺(tái)的文檔數(shù)據(jù)。爬取文檔數(shù)據(jù),筆者這里就不過(guò)多詳述,而本文,筆者將主要介紹在爬取文檔數(shù)據(jù)的過(guò)程中,遇到文檔的正文內(nèi)容含有表格的情況要怎么去除掉表格,并將正文保存。
具體實(shí)現(xiàn)思路,跟著筆者直接往下看正文詳細(xì)內(nèi)容。(附帶完整代碼)
正文
地址:aHR0cDovL2Znay5tb2YuZ292LmNuL3VpL3NyYy92aWV3cy9sYXdfaHRtbC82NDU0Ny5odG1s
目標(biāo):將正文中的表格去除,將正文內(nèi)容保存到本地
1. 問(wèn)題說(shuō)明
如下圖所示:文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-709693.html
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-709693.html
到了這里,關(guān)于Python爬蟲(chóng)-爬取文檔內(nèi)容,如何去掉文檔中的表格,并保存正文內(nèi)容的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!