国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【python爬蟲】閑魚爬蟲,可以爬取商品

這篇具有很好參考價值的文章主要介紹了【python爬蟲】閑魚爬蟲,可以爬取商品。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

目錄

前言

一、介紹

二、爬蟲流程

1. 確定關(guān)鍵詞并構(gòu)造URL

2. 發(fā)送網(wǎng)絡(luò)請求

3. 解析HTML并提取數(shù)據(jù)

4. 保存數(shù)據(jù)

三、使用代理IP

四、完整代碼

五、總結(jié)


前言

閑魚是一個很受歡迎的二手交易平臺,但是由于沒有開放API,我們需要使用爬蟲來獲取數(shù)據(jù)。本文將介紹如何使用Python爬蟲爬取閑魚上的商品信息,包括構(gòu)造URL、發(fā)送網(wǎng)絡(luò)請求、解析HTML并提取數(shù)據(jù)以及使用代理IP來進行爬取。如果您需要抓取閑魚的其他數(shù)據(jù),本文也提供了一些參考。

【python爬蟲】閑魚爬蟲,可以爬取商品,python,爬蟲,開發(fā)語言

一、介紹

隨著電子商務(wù)的興起,二手交易平臺也變得越來越受歡迎。作為淘寶旗下的二手交易平臺,閑魚的日活躍用戶已經(jīng)超過了1億。因此,對于一些商家和買家來說,閑魚是一個極具吸引力的平臺。

對于我們開發(fā)者來說,有時候我們需要從閑魚上抓取一些數(shù)據(jù),比如價格走勢,熱門商品,關(guān)鍵詞排名等等。但是,閑魚并沒有開放API,這就需要我們使用爬蟲來獲取數(shù)據(jù)。

本文將詳細介紹如何使用Python爬蟲爬取閑魚上的商品信息。我們將主要使用requests庫和BeautifulSoup庫來完成這個任務(wù)。此外,為了避免被閑魚封禁IP地址,我們還將使用代理IP來進行爬取。

二、爬蟲流程

要完成我們的閑魚爬蟲,我們需要掌握以下幾個步驟:

1. 確定關(guān)鍵詞并構(gòu)造URL

在爬取閑魚數(shù)據(jù)之前,首先我們需要確定要搜索的關(guān)鍵詞。這個關(guān)鍵詞可以是任何你想要的內(nèi)容,比如“二手手機”、“二手電腦”等等。

根據(jù)我們選擇的關(guān)鍵詞,我們需要構(gòu)造一個URL,即閑魚商品搜索的URL。URL的構(gòu)造方法如下:

url = "https://2.taobao.com/search/index.htm?q={}&search_type=item&app=shopsearch".format(keyword)

其中,keyword為我們選擇的關(guān)鍵詞。

2. 發(fā)送網(wǎng)絡(luò)請求

我們使用requests庫來發(fā)送網(wǎng)絡(luò)請求:

headers = {
? ?'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36'}
response = requests.get(url, headers=headers)

在發(fā)送請求之前,我們需要設(shè)置請求頭。這個請求頭包含了我們?yōu)g覽器的信息,這樣可以避免被服務(wù)器輕易識別為爬蟲。

3. 解析HTML并提取數(shù)據(jù)

我們使用BeautifulSoup庫來解析HTML并提取數(shù)據(jù):

soup = BeautifulSoup(response.text, 'html.parser')
goods_list = soup.find_all('div', {'class': 'J_MouserOnverReq'})

解析完HTML之后,我們需要找出包含商品信息的標(biāo)簽。我們可以通過查看閑魚網(wǎng)頁的源代碼,找到所有商品信息都被包含在一個class為“J_MouserOnverReq”的div中。

4. 保存數(shù)據(jù)

最后一步,我們需要將爬取到的數(shù)據(jù)保存下來。這里我們使用csv庫將數(shù)據(jù)保存到csv文件中。

with open('goods_info.csv', 'w', newline='') as f:
? ? writer = csv.writer(f)
? ? writer.writerow(['商品名稱', '商品價格', '商品鏈接'])
? ? for goods in goods_list:
? ? ? ? title = goods.find('p', {'class': 'item-title'}).text.strip()
? ? ? ? price = goods.find('p', {'class': 'price'}).text.strip()
? ? ? ? link = goods.find('a', {'class': 'item-link'}).get('href')
? ? ? ? writer.writerow([title, price, link])

通過使用以上四個步驟,我們可以完成閑魚商品信息的爬蟲。

三、使用代理IP

由于頻繁的發(fā)送網(wǎng)絡(luò)請求會使服務(wù)器懷疑我們是爬蟲,并且封禁我們的IP地址,所以我們需要使用代理IP來隱藏我們的真實IP地址。

我們可以從代理IP網(wǎng)站上獲取代理IP。這里我們使用站大爺?shù)腁PI,可以通過以下的代碼來獲取代理IP:

def get_proxies():
? ? response = requests.get("http://ip.zdaye.com/dayProxy.html")
? ? soup = BeautifulSoup(response.text, 'html.parser')
? ? trs = soup.find_all('tr')
? ? proxies = []
? ? for tr in trs[1:]:
? ? ? ? tds = tr.find_all('td')
? ? ? ? ip = tds[0].text.strip()
? ? ? ? port = tds[1].text.strip()
? ? ? ? protocol = tds[3].text.strip().lower()
? ? ? ? proxies.append("{}://{}:{}".format(protocol, ip, port))
? ? return proxies

該函數(shù)會返回一個代理IP池。

我們可以在發(fā)送網(wǎng)絡(luò)請求的時候使用代理IP,代碼如下:

proxies = {
? ? "http": random.choice(get_proxies()),
? ? "https": random.choice(get_proxies())
}

response = requests.get(url, headers=headers, proxies=proxies)

在構(gòu)造requests對象的時候,我們傳入proxies參數(shù),代表我們使用一個代理IP來發(fā)送網(wǎng)絡(luò)請求。

四、完整代碼

import csv
import random
import requests
from bs4 import BeautifulSoup


def get_proxies():
? ? """
? ? 獲取代理IP
? ? """
? ? response = requests.get("http://ip.zdaye.com/dayProxy.html")
? ? soup = BeautifulSoup(response.text, 'html.parser')
? ? trs = soup.find_all('tr')
? ? proxies = []
? ? for tr in trs[1:]:
? ? ? ? tds = tr.find_all('td')
? ? ? ? ip = tds[0].text.strip()
? ? ? ? port = tds[1].text.strip()
? ? ? ? protocol = tds[3].text.strip().lower()
? ? ? ? proxies.append("{}://{}:{}".format(protocol, ip, port))
? ? return proxies


def get_goods_info(keyword):
? ? """
? ? 爬取商品信息
? ? """
? ? url = "https://2.taobao.com/search/index.htm?q={}&search_type=item&app=shopsearch".format(keyword)

? ? headers = {
? ? ? ? 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
? ? ? ? ? ? ? ? ? ? ? 'Chrome/58.0.3029.96 Safari/537.36'}
? ? proxies = {
? ? ? ? "http": random.choice(get_proxies()),
? ? ? ? "https": random.choice(get_proxies())
? ? }

? ? response = requests.get(url, headers=headers, proxies=proxies)

? ? soup = BeautifulSoup(response.text, 'html.parser')
? ? goods_list = soup.find_all('div', {'class': 'J_MouserOnverReq'})

? ? with open('goods_info.csv', 'w', newline='') as f:
? ? ? ? writer = csv.writer(f)
? ? ? ? writer.writerow(['商品名稱', '商品價格', '商品鏈接'])
? ? ? ? for goods in goods_list:
? ? ? ? ? ? title = goods.find('p', {'class': 'item-title'}).text.strip()
? ? ? ? ? ? price = goods.find('p', {'class': 'price'}).text.strip()
? ? ? ? ? ? link = goods.find('a', {'class': 'item-link'}).get('href')
? ? ? ? ? ? writer.writerow([title, price, link])


if __name__ == '__main__':
? ? get_goods_info('二手手機')

五、總結(jié)

本文介紹了如何使用Python爬蟲爬取閑魚上的商品信息,并且使用代理IP防止被封禁IP地址。如果您還需要爬取其他數(shù)據(jù),比如評論、店鋪信息等等,您可以根據(jù)本文提到的方法進行嘗試。文章來源地址http://www.zghlxwxcb.cn/news/detail-721215.html

到了這里,關(guān)于【python爬蟲】閑魚爬蟲,可以爬取商品的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 爬蟲——有關(guān)抖音商品數(shù)據(jù)的爬?。ㄏs媽媽數(shù)據(jù)平臺)

    爬蟲——有關(guān)抖音商品數(shù)據(jù)的爬取(蟬媽媽數(shù)據(jù)平臺)

    抖音帶貨的興起,讓抖音電商一躍成為與淘寶電商、京東電商等電商平臺共同爭奪電商市場的存在,與淘寶電商、京東電商等電商平臺相比,抖音電商擁有獨特的優(yōu)勢,抖音以短視頻的形式能夠帶來巨大的流量和熱度,抖音以此為基礎(chǔ)帶來全新的帶貨方式——短視頻帶貨,除

    2024年02月08日
    瀏覽(22)
  • 爬蟲之牛刀小試(十):爬取某寶手機商品的銷量,價格和店鋪

    爬蟲之牛刀小試(十):爬取某寶手機商品的銷量,價格和店鋪

    首先淘寶需要登錄,這一點如果用selenium如何解決,只能手動登錄?如果不用selenium,用cookies登錄也可。但是驗證碼又是一個問題,現(xiàn)在的驗證碼五花八門,難以處理。 我們回到正題,假設(shè)你已經(jīng)登錄上淘寶了,接著我們需要找到輸入框和搜索按鈕,輸入“手機”,點擊搜索

    2024年04月10日
    瀏覽(21)
  • Python爬蟲學(xué)習(xí)筆記:1688商品詳情API 開發(fā)API接口文檔

    Python爬蟲學(xué)習(xí)筆記:1688商品詳情API 開發(fā)API接口文檔

    ? 1688API接口是阿里巴巴集團推出的一種開放平臺,提供了豐富的數(shù)據(jù)接口、轉(zhuǎn)換工具以及開發(fā)資源,為開發(fā)者提供了通用的應(yīng)用接口及大量數(shù)據(jù)資源,支持開發(fā)者在1688上進行商品搜索、訂單管理、交易報表及物流等方面的操作。 1688API接口主要包含以下幾類: 商品API:提供

    2024年02月16日
    瀏覽(28)
  • 用python語言爬蟲爬取微博評論--上--初步爬蟲(超詳細版,大學(xué)生不騙大學(xué)生)

    用python語言爬蟲爬取微博評論--上--初步爬蟲(超詳細版,大學(xué)生不騙大學(xué)生)

    目錄 一、找到頁面 ?二、學(xué)會使用檢查元素 2.1 打開檢查元素界面 2.2 找到所有評論所在的位置 2.2.1 搜索評論 2.2.2 ?找到data表 三、基礎(chǔ)部分代碼實現(xiàn)???????? 全部已經(jīng)更完(下面兩個鏈接是中和下) https://blog.csdn.net/m0_68325382/article/details/137234661?spm=1001.2014.3001.5502 爬

    2024年04月10日
    瀏覽(34)
  • 【Python爬蟲開發(fā)實戰(zhàn)①】使用urllib以及XPath爬取可愛小貓圖片

    【Python爬蟲開發(fā)實戰(zhàn)①】使用urllib以及XPath爬取可愛小貓圖片

    個人主頁 :為夢而生~ 關(guān)注我一起學(xué)習(xí)吧! 專欄 :python網(wǎng)絡(luò)爬蟲從基礎(chǔ)到實戰(zhàn) 歡迎訂閱!后面的內(nèi)容會越來越有意思~ 往期推薦 : 【Python爬蟲開發(fā)基礎(chǔ)⑦】urllib庫的基本使用 【Python爬蟲開發(fā)基礎(chǔ)⑧】XPath庫及其基本用法 我們在之前已經(jīng)有8篇文章講述基礎(chǔ)知識了,下面我們

    2024年02月11日
    瀏覽(168)
  • 【Python爬蟲開發(fā)實戰(zhàn)②】使用urllib以及jsonpath爬取即將上映電影信息

    【Python爬蟲開發(fā)實戰(zhàn)②】使用urllib以及jsonpath爬取即將上映電影信息

    ?? 個人主頁 :為夢而生~ 關(guān)注我一起學(xué)習(xí)吧! ?? 專欄 :python網(wǎng)絡(luò)爬蟲從基礎(chǔ)到實戰(zhàn) 歡迎訂閱!后面的內(nèi)容會越來越有意思~ ?? 往期推薦 : ??首先,我們前面講了多篇基礎(chǔ)內(nèi)容: 【Python爬蟲開發(fā)基礎(chǔ)④】爬蟲原理 【Python爬蟲開發(fā)基礎(chǔ)⑤】HTML概述與基本標(biāo)簽詳解 【P

    2024年02月12日
    瀏覽(29)
  • 一鍵搜索閑魚商品詳情,快速找到心儀的寶貝

    一鍵搜索閑魚商品詳情,快速找到心儀的寶貝

    在如今快節(jié)奏的生活中,我們總是尋求更加便捷的方式來滿足我們的需求。而對于喜歡在閑魚平臺上購物的用戶來說,一鍵搜索閑魚商品詳情,簡直就是一種福音。聯(lián)訊數(shù)據(jù),這一功能使我們能夠以更高效的方式找到心儀的寶貝,無需繁瑣的操作和浪費時間。 什么是一鍵搜索

    2024年01月24日
    瀏覽(57)
  • Python爬取商品評價-京東

    Python爬取商品評價-京東

    1.數(shù)據(jù)采集邏輯 在進行數(shù)據(jù)采集之前,明確哪些數(shù)據(jù)為所需,制定數(shù)據(jù)Schema為爬取工作做出要求,并根據(jù)數(shù)據(jù)Schema制定出有針對性的爬取方案和采集邏輯。 2.數(shù)據(jù)Schema 3.數(shù)據(jù)爬取 抓取平臺任一商品的評論信息,此案例抓取的商品是某一店鋪的車?yán)遄釉u價信息。 評論信息是由

    2024年02月11日
    瀏覽(24)
  • 閑魚寶庫亮相!閑魚商品詳情關(guān)鍵詞搜索電商API接口助你暢享無盡好貨!

    閑魚寶庫亮相!閑魚商品詳情關(guān)鍵詞搜索電商API接口助你暢享無盡好貨!

    隨著互聯(lián)網(wǎng)的快速發(fā)展,電商平臺的崛起已經(jīng)改變了人們的購物習(xí)慣。而在眾多電商平臺中,閑魚作為一款社區(qū)二手交易平臺,一直備受用戶喜愛。如今,閑魚寶庫正式亮相,為用戶帶來了更加全面、詳細的商品詳情搜索電商API接口,聯(lián)訊數(shù)據(jù)助你暢享無盡好貨。 寶庫

    2024年01月16日
    瀏覽(28)
  • 使用python爬取淘寶商品信息

    要使用Python爬取淘寶商品信息,您可以按照以下步驟: 安裝必要的庫 您需要安裝Python的requests庫和BeautifulSoup庫。 發(fā)送請求并解析HTML頁面 使用requests庫發(fā)送HTTP請求,然后使用BeautifulSoup庫解析HTML頁面。在這里,我們將以淘寶的\\\"蚊帳\\\"為例。 提取所需的信息 通過分析HTML頁面,

    2024年02月15日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包