国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【python爬蟲】閑魚爬蟲，可以爬取商品

2年前作者：卑微阿文分類：Toy博客閱讀(29)違法舉報

這篇具有很好參考價值的文章主要介紹了【python爬蟲】閑魚爬蟲，可以爬取商品。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

目錄

前言

一、介紹

二、爬蟲流程

1. 確定關(guān)鍵詞并構(gòu)造URL

2. 發(fā)送網(wǎng)絡(luò)請求

3. 解析HTML并提取數(shù)據(jù)

4. 保存數(shù)據(jù)

三、使用代理IP

四、完整代碼

五、總結(jié)

前言

閑魚是一個很受歡迎的二手交易平臺，但是由于沒有開放API，我們需要使用爬蟲來獲取數(shù)據(jù)。本文將介紹如何使用Python爬蟲爬取閑魚上的商品信息，包括構(gòu)造URL、發(fā)送網(wǎng)絡(luò)請求、解析HTML并提取數(shù)據(jù)以及使用代理IP來進行爬取。如果您需要抓取閑魚的其他數(shù)據(jù)，本文也提供了一些參考。

【python爬蟲】閑魚爬蟲，可以爬取商品,python,爬蟲,開發(fā)語言

一、介紹

隨著電子商務(wù)的興起，二手交易平臺也變得越來越受歡迎。作為淘寶旗下的二手交易平臺，閑魚的日活躍用戶已經(jīng)超過了1億。因此，對于一些商家和買家來說，閑魚是一個極具吸引力的平臺。

對于我們開發(fā)者來說，有時候我們需要從閑魚上抓取一些數(shù)據(jù)，比如價格走勢，熱門商品，關(guān)鍵詞排名等等。但是，閑魚并沒有開放API，這就需要我們使用爬蟲來獲取數(shù)據(jù)。

本文將詳細介紹如何使用Python爬蟲爬取閑魚上的商品信息。我們將主要使用requests庫和BeautifulSoup庫來完成這個任務(wù)。此外，為了避免被閑魚封禁IP地址，我們還將使用代理IP來進行爬取。

二、爬蟲流程

要完成我們的閑魚爬蟲，我們需要掌握以下幾個步驟：

1. 確定關(guān)鍵詞并構(gòu)造URL

在爬取閑魚數(shù)據(jù)之前，首先我們需要確定要搜索的關(guān)鍵詞。這個關(guān)鍵詞可以是任何你想要的內(nèi)容，比如“二手手機”、“二手電腦”等等。

根據(jù)我們選擇的關(guān)鍵詞，我們需要構(gòu)造一個URL，即閑魚商品搜索的URL。URL的構(gòu)造方法如下：

url = "https://2.taobao.com/search/index.htm?q={}&search_type=item&app=shopsearch".format(keyword)

其中，keyword為我們選擇的關(guān)鍵詞。

2. 發(fā)送網(wǎng)絡(luò)請求

我們使用requests庫來發(fā)送網(wǎng)絡(luò)請求：

headers = {
? ?'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36'}
response = requests.get(url, headers=headers)

在發(fā)送請求之前，我們需要設(shè)置請求頭。這個請求頭包含了我們?yōu)g覽器的信息，這樣可以避免被服務(wù)器輕易識別為爬蟲。

3. 解析HTML并提取數(shù)據(jù)

我們使用BeautifulSoup庫來解析HTML并提取數(shù)據(jù)：

soup = BeautifulSoup(response.text, 'html.parser')
goods_list = soup.find_all('div', {'class': 'J_MouserOnverReq'})

解析完HTML之后，我們需要找出包含商品信息的標(biāo)簽。我們可以通過查看閑魚網(wǎng)頁的源代碼，找到所有商品信息都被包含在一個class為“J_MouserOnverReq”的div中。

4. 保存數(shù)據(jù)

最后一步，我們需要將爬取到的數(shù)據(jù)保存下來。這里我們使用csv庫將數(shù)據(jù)保存到csv文件中。

with open('goods_info.csv', 'w', newline='') as f:
? ? writer = csv.writer(f)
? ? writer.writerow(['商品名稱', '商品價格', '商品鏈接'])
? ? for goods in goods_list:
? ? ? ? title = goods.find('p', {'class': 'item-title'}).text.strip()
? ? ? ? price = goods.find('p', {'class': 'price'}).text.strip()
? ? ? ? link = goods.find('a', {'class': 'item-link'}).get('href')
? ? ? ? writer.writerow([title, price, link])

通過使用以上四個步驟，我們可以完成閑魚商品信息的爬蟲。

三、使用代理IP

由于頻繁的發(fā)送網(wǎng)絡(luò)請求會使服務(wù)器懷疑我們是爬蟲，并且封禁我們的IP地址，所以我們需要使用代理IP來隱藏我們的真實IP地址。

我們可以從代理IP網(wǎng)站上獲取代理IP。這里我們使用站大爺?shù)腁PI，可以通過以下的代碼來獲取代理IP：

def get_proxies():
? ? response = requests.get("http://ip.zdaye.com/dayProxy.html")
? ? soup = BeautifulSoup(response.text, 'html.parser')
? ? trs = soup.find_all('tr')
? ? proxies = []
? ? for tr in trs[1:]:
? ? ? ? tds = tr.find_all('td')
? ? ? ? ip = tds[0].text.strip()
? ? ? ? port = tds[1].text.strip()
? ? ? ? protocol = tds[3].text.strip().lower()
? ? ? ? proxies.append("{}://{}:{}".format(protocol, ip, port))
? ? return proxies

該函數(shù)會返回一個代理IP池。

我們可以在發(fā)送網(wǎng)絡(luò)請求的時候使用代理IP，代碼如下：

proxies = {
? ? "http": random.choice(get_proxies()),
? ? "https": random.choice(get_proxies())
}

response = requests.get(url, headers=headers, proxies=proxies)

在構(gòu)造requests對象的時候，我們傳入proxies參數(shù)，代表我們使用一個代理IP來發(fā)送網(wǎng)絡(luò)請求。

四、完整代碼

import csv
import random
import requests
from bs4 import BeautifulSoup


def get_proxies():
? ? """
? ? 獲取代理IP
? ? """
? ? response = requests.get("http://ip.zdaye.com/dayProxy.html")
? ? soup = BeautifulSoup(response.text, 'html.parser')
? ? trs = soup.find_all('tr')
? ? proxies = []
? ? for tr in trs[1:]:
? ? ? ? tds = tr.find_all('td')
? ? ? ? ip = tds[0].text.strip()
? ? ? ? port = tds[1].text.strip()
? ? ? ? protocol = tds[3].text.strip().lower()
? ? ? ? proxies.append("{}://{}:{}".format(protocol, ip, port))
? ? return proxies


def get_goods_info(keyword):
? ? """
? ? 爬取商品信息
? ? """
? ? url = "https://2.taobao.com/search/index.htm?q={}&search_type=item&app=shopsearch".format(keyword)

? ? headers = {
? ? ? ? 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
? ? ? ? ? ? ? ? ? ? ? 'Chrome/58.0.3029.96 Safari/537.36'}
? ? proxies = {
? ? ? ? "http": random.choice(get_proxies()),
? ? ? ? "https": random.choice(get_proxies())
? ? }

? ? response = requests.get(url, headers=headers, proxies=proxies)

? ? soup = BeautifulSoup(response.text, 'html.parser')
? ? goods_list = soup.find_all('div', {'class': 'J_MouserOnverReq'})

? ? with open('goods_info.csv', 'w', newline='') as f:
? ? ? ? writer = csv.writer(f)
? ? ? ? writer.writerow(['商品名稱', '商品價格', '商品鏈接'])
? ? ? ? for goods in goods_list:
? ? ? ? ? ? title = goods.find('p', {'class': 'item-title'}).text.strip()
? ? ? ? ? ? price = goods.find('p', {'class': 'price'}).text.strip()
? ? ? ? ? ? link = goods.find('a', {'class': 'item-link'}).get('href')
? ? ? ? ? ? writer.writerow([title, price, link])


if __name__ == '__main__':
? ? get_goods_info('二手手機')

五、總結(jié)

本文介紹了如何使用Python爬蟲爬取閑魚上的商品信息，并且使用代理IP防止被封禁IP地址。如果您還需要爬取其他數(shù)據(jù)，比如評論、店鋪信息等等，您可以根據(jù)本文提到的方法進行嘗試。文章來源地址http://www.zghlxwxcb.cn/news/detail-721215.html

到了這里，關(guān)于【python爬蟲】閑魚爬蟲，可以爬取商品的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

爬蟲——有關(guān)抖音商品數(shù)據(jù)的爬取（蟬媽媽數(shù)據(jù)平臺）
抖音帶貨的興起，讓抖音電商一躍成為與淘寶電商、京東電商等電商平臺共同爭奪電商市場的存在，與淘寶電商、京東電商等電商平臺相比，抖音電商擁有獨特的優(yōu)勢，抖音以短視頻的形式能夠帶來巨大的流量和熱度，抖音以此為基礎(chǔ)帶來全新的帶貨方式——短視頻帶貨，除
2024年02月08日
瀏覽(22)
爬蟲之牛刀小試（十）：爬取某寶手機商品的銷量，價格和店鋪
首先淘寶需要登錄，這一點如果用selenium如何解決，只能手動登錄？如果不用selenium，用cookies登錄也可。但是驗證碼又是一個問題，現(xiàn)在的驗證碼五花八門，難以處理。我們回到正題，假設(shè)你已經(jīng)登錄上淘寶了，接著我們需要找到輸入框和搜索按鈕，輸入“手機”，點擊搜索
2024年04月10日
瀏覽(21)
Python爬蟲學(xué)習(xí)筆記：1688商品詳情API 開發(fā)API接口文檔
? 1688API接口是阿里巴巴集團推出的一種開放平臺，提供了豐富的數(shù)據(jù)接口、轉(zhuǎn)換工具以及開發(fā)資源，為開發(fā)者提供了通用的應(yīng)用接口及大量數(shù)據(jù)資源，支持開發(fā)者在1688上進行商品搜索、訂單管理、交易報表及物流等方面的操作。 1688API接口主要包含以下幾類：商品API：提供
2024年02月16日
瀏覽(28)
用python語言爬蟲爬取微博評論--上--初步爬蟲(超詳細版，大學(xué)生不騙大學(xué)生)
目錄一、找到頁面 ?二、學(xué)會使用檢查元素 2.1 打開檢查元素界面 2.2 找到所有評論所在的位置 2.2.1 搜索評論 2.2.2 ?找到data表三、基礎(chǔ)部分代碼實現(xiàn)???????? 全部已經(jīng)更完（下面兩個鏈接是中和下） https://blog.csdn.net/m0_68325382/article/details/137234661?spm=1001.2014.3001.5502 爬
2024年04月10日
瀏覽(34)
【Python爬蟲開發(fā)實戰(zhàn)①】使用urllib以及XPath爬取可愛小貓圖片
個人主頁：為夢而生~ 關(guān)注我一起學(xué)習(xí)吧！專欄：python網(wǎng)絡(luò)爬蟲從基礎(chǔ)到實戰(zhàn) 歡迎訂閱！后面的內(nèi)容會越來越有意思~ 往期推薦：【Python爬蟲開發(fā)基礎(chǔ)⑦】urllib庫的基本使用【Python爬蟲開發(fā)基礎(chǔ)⑧】XPath庫及其基本用法我們在之前已經(jīng)有8篇文章講述基礎(chǔ)知識了，下面我們
2024年02月11日
瀏覽(168)
【Python爬蟲開發(fā)實戰(zhàn)②】使用urllib以及jsonpath爬取即將上映電影信息
?? 個人主頁：為夢而生~ 關(guān)注我一起學(xué)習(xí)吧！ ?? 專欄：python網(wǎng)絡(luò)爬蟲從基礎(chǔ)到實戰(zhàn) 歡迎訂閱！后面的內(nèi)容會越來越有意思~ ?? 往期推薦： ??首先，我們前面講了多篇基礎(chǔ)內(nèi)容：【Python爬蟲開發(fā)基礎(chǔ)④】爬蟲原理【Python爬蟲開發(fā)基礎(chǔ)⑤】HTML概述與基本標(biāo)簽詳解【P
2024年02月12日
瀏覽(29)
一鍵搜索閑魚商品詳情，快速找到心儀的寶貝
在如今快節(jié)奏的生活中，我們總是尋求更加便捷的方式來滿足我們的需求。而對于喜歡在閑魚平臺上購物的用戶來說，一鍵搜索閑魚商品詳情，簡直就是一種福音。聯(lián)訊數(shù)據(jù)，這一功能使我們能夠以更高效的方式找到心儀的寶貝，無需繁瑣的操作和浪費時間。什么是一鍵搜索
2024年01月24日
瀏覽(57)
Python爬取商品評價-京東
1.數(shù)據(jù)采集邏輯在進行數(shù)據(jù)采集之前，明確哪些數(shù)據(jù)為所需，制定數(shù)據(jù)Schema為爬取工作做出要求，并根據(jù)數(shù)據(jù)Schema制定出有針對性的爬取方案和采集邏輯。 2.數(shù)據(jù)Schema 3.數(shù)據(jù)爬取抓取平臺任一商品的評論信息，此案例抓取的商品是某一店鋪的車?yán)遄釉u價信息。評論信息是由
2024年02月11日
瀏覽(24)
閑魚寶庫亮相！閑魚商品詳情關(guān)鍵詞搜索電商API接口助你暢享無盡好貨！
隨著互聯(lián)網(wǎng)的快速發(fā)展，電商平臺的崛起已經(jīng)改變了人們的購物習(xí)慣。而在眾多電商平臺中，閑魚作為一款社區(qū)二手交易平臺，一直備受用戶喜愛。如今，閑魚寶庫正式亮相，為用戶帶來了更加全面、詳細的商品詳情搜索電商API接口，聯(lián)訊數(shù)據(jù)助你暢享無盡好貨。寶庫
2024年01月16日
瀏覽(28)
使用python爬取淘寶商品信息
要使用Python爬取淘寶商品信息，您可以按照以下步驟：安裝必要的庫您需要安裝Python的requests庫和BeautifulSoup庫。發(fā)送請求并解析HTML頁面使用requests庫發(fā)送HTTP請求，然后使用BeautifulSoup庫解析HTML頁面。在這里，我們將以淘寶的\\\"蚊帳\\\"為例。提取所需的信息通過分析HTML頁面，
2024年02月15日
瀏覽(23)

<pre id="forop"><xmp id="forop"><kbd id="forop"></kbd>

<mark id="forop"><pre id="forop"></pre></mark>

<li id="forop"></li>

<label id="forop"></label>

<label id="forop"><strong id="forop"></strong></label>

<label id="forop"></label>