国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲實戰(zhàn):selenium爬取電商平臺商品數(shù)據(jù)(1)

這篇具有很好參考價值的文章主要介紹了Python爬蟲實戰(zhàn):selenium爬取電商平臺商品數(shù)據(jù)(1)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

def index_page(page):

“”"

抓取索引頁

:param page: 頁碼

“”"

print(‘正在爬取第’, str(page), ‘頁數(shù)據(jù)’)

try:

url = ‘https://search.jd.com/Search?keyword=iPhone&ev=exbrand_Apple’

driver.get(url)

if page > 1:

input = driver.find_element_by_xpath(‘//*[@id=“J_bottomPage”]/span[2]/input’)

button = driver.find_element_by_xpath(‘//*[@id=“J_bottomPage”]/span[2]/a’)

input.clear()

input.send_keys(page)

button.click()

get_products()

except TimeoutException:

index_page(page)

這里我們依然使用隱式等待來進行 URL 訪問,這里小編通過 xpath 的方式獲取到了整個頁面最下面的翻頁組件:

csdnpython爬電商網(wǎng)站數(shù)據(jù),程序員學(xué)習(xí),python,爬蟲,selenium

小編這里的翻頁實際上是使用這里的輸入框和后面的確認按鈕進行的。

獲取商品詳細數(shù)據(jù)


這里其實有一個坑,JD 的首頁上的圖片是懶加載的,就是當頁面的滾動條沒有滾到這個圖片可以顯示在屏幕上的位置的時候,這個圖片是不會加載出來的。這就造成了小編一開始的只能獲取到前 4 個商品的圖片地址。

小編后來想了個辦法,使用 JavaScript 來模擬滾動條滾動,先將所有的圖片加載出來,然后再進行數(shù)據(jù)的獲取,代碼如下:

def get_products():

“”"

提取商品數(shù)據(jù)

“”"

js = ‘’’

timer = setInterval(function(){

var scrollTop=document.documentElement.scrollTop||document.body.scrollTop;

var ispeed=Math.floor(document.body.scrollHeight / 100);

if(scrollTop > document.body.scrollHeight * 90 / 100){

clearInterval(timer);

}

console.log(‘scrollTop:’+scrollTop)

console.log(‘scrollHeight:’+document.body.scrollHeight)

window.scrollTo(0, scrollTop+ispeed)

}, 20)

‘’’

driver.execute_script(js)

time.sleep(2.5)

html = driver.page_source

doc = PyQuery(html)

items = doc(‘#J_goodsList .gl-item .gl-i-wrap’).items()

i = 0

for item in items:

insert_data = {

‘image’: item.find(‘.p-img a img’).attr(‘src’),

‘price’: item.find(‘.p-price i’).text(),

‘name’: item.find(‘.p-name em’).text(),

‘commit’: item.find(‘.p-commit a’).text(),

‘shop’: item.find(‘.p-shop a’).text(),

‘icons’: item.find(‘.p-icons .goods-icons’).text()

}

i += 1

print(‘當前第’, str(i), ‘條數(shù)據(jù),內(nèi)容為:’ , insert_data)

中間那段 js 就是模擬滾動條向下滾動的代碼,這里小編做了一個定時任務(wù),這個定時任務(wù)將整個頁面的長度分成了 100 份,每 20 ms 就向下滾動 1% ,共計應(yīng)該總共 2s 可以滾到最下面,這里下面做了 2.5s 的睡眠,保證這個頁面的圖片都能加載出來,最后再獲取頁面上的數(shù)據(jù)。

主體代碼到這里就結(jié)束了,剩下的代碼無非就是將數(shù)據(jù)保存起來,不管是保存在數(shù)據(jù)中還是保存在 Excel 中,或者是 CSV 中,又或者是純粹的文本文件 txt 或者是 json ,都不難,小編這次就不寫了,希望大家能自己完善下這個代碼。

運行的時候,可以看到一個瀏覽器彈出來,然后滾動條自動以比較順滑的速度滾到最下方(小編為了這個順滑的速度調(diào)了很久),確保所有圖片都加載出來,再使用 pyquery 獲取相關(guān)的數(shù)據(jù),最后組成了一個 json 對象,給大家看下抓取下來的結(jié)果吧:

csdnpython爬電商網(wǎng)站數(shù)據(jù),程序員學(xué)習(xí),python,爬蟲,selenium

Chrome 無界面模式


我們在爬取數(shù)據(jù)的時候,彈出來一個瀏覽器總感覺有點老不爽了,可以使用如下命令將這個瀏覽器隱藏起來,不過需要的是 Chrome 比較新的版本。

開啟無窗口模式

chrome_options = webdriver.ChromeOptions()

chrome_options.add_argument(‘–headless’)

driver = webdriver.Chrome(chrome_options=chrome_options)

首先,創(chuàng)建 ChromeOptions 對象,接著添加 headless 參數(shù),然后在初始化 Chrome 對象的時候通過 chrome_options 傳遞這個 ChromeOptions 對象,這樣我們就可以成功啟用 Chrome 的Headless模式了。

FireFox


(1)Python所有方向的學(xué)習(xí)路線(新版)

這是我花了幾天的時間去把Python所有方向的技術(shù)點做的整理,形成各個領(lǐng)域的知識點匯總,它的用處就在于,你可以按照上面的知識點去找對應(yīng)的學(xué)習(xí)資源,保證自己學(xué)得較為全面。

最近我才對這些路線做了一下新的更新,知識體系更全面了。

csdnpython爬電商網(wǎng)站數(shù)據(jù),程序員學(xué)習(xí),python,爬蟲,selenium

(2)Python學(xué)習(xí)視頻

包含了Python入門、爬蟲、數(shù)據(jù)分析和web開發(fā)的學(xué)習(xí)視頻,總共100多個,雖然沒有那么全面,但是對于入門來說是沒問題的,學(xué)完這些之后,你可以按照我上面的學(xué)習(xí)路線去網(wǎng)上找其他的知識資源進行進階。

csdnpython爬電商網(wǎng)站數(shù)據(jù),程序員學(xué)習(xí),python,爬蟲,selenium

(3)100多個練手項目

我們在看視頻學(xué)習(xí)的時候,不能光動眼動腦不動手,比較科學(xué)的學(xué)習(xí)方法是在理解之后運用它們,這時候練手項目就很適合了,只是里面的項目比較多,水平也是參差不齊,大家可以挑自己能做的項目去練練。

csdnpython爬電商網(wǎng)站數(shù)據(jù),程序員學(xué)習(xí),python,爬蟲,selenium

小編13年上海交大畢業(yè),曾經(jīng)在小公司待過,也去過華為、OPPO等大廠,18年進入阿里一直到現(xiàn)在。

深知大多數(shù)初中級Python工程師,想要提升技能,往往是自己摸索成長或者是報班學(xué)習(xí),但自己不成體系的自學(xué)效果低效又漫長,而且極易碰到天花板技術(shù)停滯不前!

因此收集整理了一份《2024年P(guān)ython爬蟲全套學(xué)習(xí)資料》送給大家,初衷也很簡單,就是希望能夠幫助到想自學(xué)提升又不知道該從何學(xué)起的朋友,同時減輕大家的負擔。

由于文件比較大,這里只是將部分目錄截圖出來,每個節(jié)點里面都包含大廠面經(jīng)、學(xué)習(xí)筆記、源碼講義、實戰(zhàn)項目、講解視頻

如果你覺得這些內(nèi)容對你有幫助,可以添加下面V無償領(lǐng)?。。▊渥ⅲ簆ython)
csdnpython爬電商網(wǎng)站數(shù)據(jù),程序員學(xué)習(xí),python,爬蟲,selenium

整理了一份《2024年P(guān)ython爬蟲全套學(xué)習(xí)資料》送給大家,初衷也很簡單,就是希望能夠幫助到想自學(xué)提升又不知道該從何學(xué)起的朋友,同時減輕大家的負擔。**

由于文件比較大,這里只是將部分目錄截圖出來,每個節(jié)點里面都包含大廠面經(jīng)、學(xué)習(xí)筆記、源碼講義、實戰(zhàn)項目、講解視頻

如果你覺得這些內(nèi)容對你有幫助,可以添加下面V無償領(lǐng)?。。▊渥ⅲ簆ython)
[外鏈圖片轉(zhuǎn)存中…(img-HRW7Sr2l-1710878137025)]文章來源地址http://www.zghlxwxcb.cn/news/detail-861159.html

到了這里,關(guān)于Python爬蟲實戰(zhàn):selenium爬取電商平臺商品數(shù)據(jù)(1)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 爬蟲——有關(guān)抖音商品數(shù)據(jù)的爬取(蟬媽媽數(shù)據(jù)平臺)

    爬蟲——有關(guān)抖音商品數(shù)據(jù)的爬?。ㄏs媽媽數(shù)據(jù)平臺)

    抖音帶貨的興起,讓抖音電商一躍成為與淘寶電商、京東電商等電商平臺共同爭奪電商市場的存在,與淘寶電商、京東電商等電商平臺相比,抖音電商擁有獨特的優(yōu)勢,抖音以短視頻的形式能夠帶來巨大的流量和熱度,抖音以此為基礎(chǔ)帶來全新的帶貨方式——短視頻帶貨,除

    2024年02月08日
    瀏覽(21)
  • Python爬蟲實戰(zhàn)之爬淘寶商品--selenium+Xpath

    Python爬蟲實戰(zhàn)之爬淘寶商品--selenium+Xpath

    代碼鏈接 利用selenium來自動翻頁爬取淘寶商品的標題,價格,銷量,產(chǎn)地信息。 導(dǎo)入庫: 注意自己配置好python環(huán)境(谷歌驅(qū)動…) 利用selenium,手動登錄獲取cookie保存在本地用于登錄平臺(便于測試代碼),訪問商品頁url通過Xpath選中對象拿數(shù)據(jù),翻頁,通過Xpath選中對象拿數(shù)據(jù),翻頁

    2024年02月04日
    瀏覽(25)
  • python爬蟲實戰(zhàn) scrapy+selenium爬取動態(tài)網(wǎng)頁

    python爬蟲實戰(zhàn) scrapy+selenium爬取動態(tài)網(wǎng)頁

    最近學(xué)習(xí)了scrapy爬蟲框架,想要找個目標練練手。由于現(xiàn)在很多網(wǎng)頁都是動態(tài)的,因此還需要配合selenium爬取。本文旨在記錄這次學(xué)習(xí)經(jīng)歷,如有疑問或不當之處,可以在評論區(qū)指出,一起學(xué)習(xí)。 對scrapy不了解的同學(xué)可以閱讀這篇文章 爬蟲框架 Scrapy 詳解,對scrapy框架介紹的

    2024年02月07日
    瀏覽(50)
  • 用Python采集電商平臺商品數(shù)據(jù)進行可視化分析

    用Python采集電商平臺商品數(shù)據(jù)進行可視化分析

    前言 嗨嘍~大家好呀,這里是魔王吶 ? ~! 環(huán)境使用: python 3.8 解釋器 pycharm 編輯器 模塊使用: 第三方模塊 需要安裝 requests — 發(fā)送 HTTP請求 內(nèi)置模塊 不需要安裝 csv — 數(shù)據(jù)處理中經(jīng)常會用到的一種文件格式 第三方模塊安裝: win + R 輸入cmd 輸入安裝命令 pip install 模塊名 (如果你

    2024年02月17日
    瀏覽(19)
  • 爬蟲與數(shù)據(jù)分析項目實戰(zhàn)2.1 Selenium爬取Boss招聘信息

    完成: 1.爬取信息 2.基于爬取結(jié)果篩選符合條件的信息 ? ?崗位名稱、薪資、崗位要求、地區(qū)、公司名稱、公司規(guī)模、細節(jié)鏈接 3.篩選base杭州的崗位保存到csv文件中 But容易出現(xiàn)網(wǎng)絡(luò)不穩(wěn)定造成的無法定位元素所在位置的情況,小范圍爬取可以 4.基于csv分析后續(xù)

    2024年02月08日
    瀏覽(26)
  • Python爬蟲|使用Selenium輕松爬取網(wǎng)頁數(shù)據(jù)

    Python爬蟲|使用Selenium輕松爬取網(wǎng)頁數(shù)據(jù)

    1. 什么是selenium? Selenium是一個用于Web應(yīng)用程序自動化測試工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作瀏覽器一樣。支持的瀏覽器包括IE,F(xiàn)irefox,Safari,Chrome等。 Selenium可以驅(qū)動瀏覽器自動執(zhí)行自定義好的邏輯代碼,也就是可以通過代碼完全模擬成人類使用

    2024年02月04日
    瀏覽(31)
  • 【python爬蟲】閑魚爬蟲,可以爬取商品

    【python爬蟲】閑魚爬蟲,可以爬取商品

    目錄 前言 一、介紹 二、爬蟲流程 1. 確定并構(gòu)造URL 2. 發(fā)送網(wǎng)絡(luò)請求 3. 解析HTML并提取數(shù)據(jù) 4. 保存數(shù)據(jù) 三、使用代理IP 四、完整代碼 五、總結(jié) 前言 閑魚是一個很受歡迎的二手交易平臺,但是由于沒有開放API,我們需要使用爬蟲來獲取數(shù)據(jù)。本文將介紹如何使用Python爬

    2024年02月08日
    瀏覽(29)
  • 爬蟲——python爬取京東商品用戶評價

    爬蟲——python爬取京東商品用戶評價

    以小米手環(huán)7為例,分別爬取小米手環(huán)7用戶評價中的好評、中評、差評 使用工具:PyCharm Community 需要python庫:requests 安裝方法:File--Settings--Project --Python Interpreter 代碼如下: 好評: 中評: 差評: 其中重要參數(shù)來源: 打開開發(fā)者工具,快捷鍵F12鍵,或鼠標右鍵--檢查--網(wǎng)絡(luò)

    2024年02月11日
    瀏覽(21)
  • Python爬蟲實戰(zhàn)——爬取新聞數(shù)據(jù)(簡單的深度爬蟲)

    Python爬蟲實戰(zhàn)——爬取新聞數(shù)據(jù)(簡單的深度爬蟲)

    ? ? ? ? 又到了爬新聞的環(huán)節(jié)(好像學(xué)爬蟲都要去爬爬新聞,沒辦法誰讓新聞一般都很好爬呢XD,拿來練練手),只作為技術(shù)分享,這一次要的數(shù)據(jù)是分在了兩個界面,所以試一下深度爬蟲,不過是很簡單的。 ?網(wǎng)頁url 1.先看看網(wǎng)站網(wǎng)址的規(guī)律 ?發(fā)現(xiàn)這部分就是每一天的新聞

    2024年02月11日
    瀏覽(20)
  • Python爬蟲入門:使用selenium庫,webdriver庫模擬瀏覽器爬蟲,模擬用戶爬蟲,爬取網(wǎng)站內(nèi)文章數(shù)據(jù),循環(huán)爬取網(wǎng)站全部數(shù)據(jù)。

    Python爬蟲入門:使用selenium庫,webdriver庫模擬瀏覽器爬蟲,模擬用戶爬蟲,爬取網(wǎng)站內(nèi)文章數(shù)據(jù),循環(huán)爬取網(wǎng)站全部數(shù)據(jù)。

    *嚴正聲明:本文僅限于技術(shù)討論與分享,嚴禁用于非法途徑。 目錄 準備工具: 思路: 具體操作: 調(diào)用需要的庫: 啟動瀏覽器驅(qū)動: 代碼主體: ?完整代碼(解析注釋): Python環(huán)境; 安裝selenium庫; Python編輯器; 待爬取的網(wǎng)站; 安裝好的瀏覽器; 與瀏覽器版本相對應(yīng)的

    2023年04月24日
    瀏覽(102)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包