使用Selenium抓取網(wǎng)頁動態(tài)內(nèi)容
根據(jù)權(quán)威機(jī)構(gòu)發(fā)布的全球互聯(lián)網(wǎng)可訪問性審計報告,全球約有四分之三的網(wǎng)站其內(nèi)容或部分內(nèi)容是通過JavaScript動態(tài)生成的,這就意味著在瀏覽器窗口中“查看網(wǎng)頁源代碼”時無法在HTML代碼中找到這些內(nèi)容,也就是說我們之前用的抓取數(shù)據(jù)的方式無法正常運(yùn)轉(zhuǎn)了。解決這樣的問題基本上有兩種方案,一是獲取提供動態(tài)內(nèi)容的數(shù)據(jù)接口,這種方式也適用于抓取手機(jī) App 的數(shù)據(jù);另一種是通過自動化測試工具 Selenium 運(yùn)行瀏覽器獲取渲染后的動態(tài)內(nèi)容。對于第一種方案,我們可以使用瀏覽器的“開發(fā)者工具”或者更為專業(yè)的抓包工具(如:Charles、Fiddler、Wireshark等)來獲取到數(shù)據(jù)接口,后續(xù)的操作跟上一個章節(jié)中講解的獲取“360圖片”網(wǎng)站的數(shù)據(jù)是一樣的,這里我們不再進(jìn)行贅述。這一章我們重點(diǎn)講解如何使用自動化測試工具 Selenium 來獲取網(wǎng)站的動態(tài)內(nèi)容。文章來源:http://www.zghlxwxcb.cn/news/detail-706672.html
Selenium 介紹
Selenium 是一個自動化測試工具,利用它可以驅(qū)動瀏覽器執(zhí)行特定的行為,最終幫助爬蟲開發(fā)者獲取到網(wǎng)頁的動態(tài)內(nèi)容。簡單的說,只要我們在瀏覽器窗口中能夠看到的內(nèi)容,都可以使用 Selenium 獲取到,對于那些使用了 JavaScript 動態(tài)渲染技術(shù)的網(wǎng)站,Selenium 會是一個重要的選擇。下面,我們還是以 Chrome 瀏覽器為例,來講解 Selenium 的用法,大家需要先安裝 Chrome 瀏覽器并下載它的驅(qū)動。Chrome 瀏覽器的驅(qū)動程序可以在ChromeDriver官網(wǎng)進(jìn)行下載,驅(qū)動的版本要跟瀏覽器的版本對應(yīng),如果沒有完全對應(yīng)的版本,就選擇版本代號最為接近的版本。<文章來源地址http://www.zghlxwxcb.cn/news/detail-706672.html
到了這里,關(guān)于100天玩轉(zhuǎn)python——day67 使用Selenium抓取網(wǎng)頁動態(tài)內(nèi)容的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!