国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<li id="mlebq"></li>

<i id="mlebq"></i>

Python爬蟲(十七)_糗事百科案例

2年前作者：python 筱水花分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Python爬蟲(十七)_糗事百科案例。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

糗事百科實(shí)例

爬取糗事百科段子，假設(shè)頁面的URL是: http://www.qiushibaike.com/8hr/page/1

要求：

使用requests獲取頁面信息，用XPath/re做數(shù)據(jù)提取
獲取每個(gè)帖子里的用戶頭像連接、用戶姓名、段子內(nèi)容、點(diǎn)贊次數(shù)和評(píng)論次數(shù)
保存到j(luò)son文件內(nèi)

參考代碼

#-*- coding:utf-8 -*-

import requests
from lxml import etree

page = 1
url = 'http://www.qiushibaike.com/8hr/page/' + str(page) 
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36',
    'Accept-Language': 'zh-CN,zh;q=0.8'}

try:
    response = requests.get(url, headers=headers)
    resHtml = response.text

    html = etree.HTML(resHtml)
    result = html.xpath('//div[contains(@id,"qiushi_tag")]')

    for site in result:
        item = {}

        imgUrl = site.xpath('./div//img/@src')[0].encode('utf-8')

        # print(imgUrl)
        username = site.xpath('./div//h2')[0].text
        # print(username)
        content = site.xpath('.//div[@class="content"]/span')[0].text.strip().encode('utf-8')
        # print(content)
        # 投票次數(shù)
        vote = site.xpath('.//i')[0].text
        # print(vote)
        #print site.xpath('.//*[@class="number"]')[0].text
        # 評(píng)論信息
        comments = site.xpath('.//i')[1].text
        # print(comments)
        print imgUrl, username, content, vote, comments

except Exception, e:
    print e

演示效果

Python爬蟲(十七)_糗事百科案例,python,爬蟲,開發(fā)語言,學(xué)習(xí),json

糗事百科文章來源地址http://www.zghlxwxcb.cn/news/detail-687656.html

到了這里，關(guān)于Python爬蟲(十七)_糗事百科案例的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

python爬蟲小案例——汽車之家
本篇文章是使用bs4中的BeautifulSoup和requests解析網(wǎng)頁和獲取數(shù)據(jù)???? 為了更深入的學(xué)習(xí)爬蟲，今天來了解下bs4的使用和實(shí)踐，當(dāng)然解析網(wǎng)頁不止只有bs4的BeautifulSoup可以做到，還有xpath語法和正則表達(dá)式。本期是初步的了解BeautifulSoup模塊的使用，歡迎初學(xué)者學(xué)習(xí)本期內(nèi)容。 B
2024年04月25日
瀏覽(21)
Python爬蟲實(shí)戰(zhàn)案例——第一例
X盧小說登錄(包括驗(yàn)證碼處理) 地址：aHR0cHM6Ly91LmZhbG9vLmNvbS9yZWdpc3QvbG9naW4uYXNweA== 打開頁面直接進(jìn)行分析任意輸入用戶名密碼及驗(yàn)證碼之后可以看到抓到的包中傳輸?shù)臄?shù)據(jù)明顯需要的是 txtPwd 進(jìn)行加密分析。按 ctrl+shift+f 進(jìn)行搜索。定位來到源代碼中斷點(diǎn)進(jìn)行調(diào)試。然后直接跟
2024年02月12日
瀏覽(22)
Python Selenium 爬蟲淘寶案例
在前一章中，我們已經(jīng)成功嘗試分析 Ajax 來抓取相關(guān)數(shù)據(jù)，但是并不是所有頁面都可以通過分析 Ajax 來完成抓取。比如，淘寶，它的整個(gè)頁面數(shù)據(jù)確實(shí)也是通過 Ajax 獲取的，但是這些 Ajax 接口參數(shù)比較復(fù)雜，可能會(huì)包含加密密鑰等，所以如果想自己構(gòu)造 Ajax 參數(shù)，還是比較困
2024年02月20日
瀏覽(28)
Python爬蟲實(shí)戰(zhàn)案例——第二例
某某美劇劇集下載(從搜索片名開始) 本篇文章主要是為大家提供某些電影網(wǎng)站的較常規(guī)的下載電影的分析思路與代碼思路(通過爬蟲下載電影)，我們會(huì)從搜索某部影片的開始直到成功下載某一部電影。地址：aHR0cHM6Ly93d3cuOTltZWlqdXR0LmNvbS9pbmRleC5odG1s 先來分析頁面打開開發(fā)
2024年02月11日
瀏覽(18)
python爬蟲5：requests庫-案例3
前言 ? python實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲非常簡(jiǎn)單，只需要掌握一定的基礎(chǔ)知識(shí)和一定的庫使用技巧即可。本系列目標(biāo)旨在梳理相關(guān)知識(shí)點(diǎn)，方便以后復(fù)習(xí)。申明 ? 本系列所涉及的代碼僅用于個(gè)人研究與討論，并不會(huì)對(duì)網(wǎng)站產(chǎn)生不好影響。目錄結(jié)構(gòu) 1. 目標(biāo) ? 本次案例的主要目標(biāo)是幫助
2024年02月13日
瀏覽(25)
分享Python7個(gè)爬蟲小案例（附源碼）_爬蟲實(shí)例
在這篇文章中，我們將分享7個(gè)Python爬蟲的小案例，幫助大家更好地學(xué)習(xí)和了解Python爬蟲的基礎(chǔ)知識(shí)。以下是每個(gè)案例的簡(jiǎn)介和源代碼： 1. 爬取豆瓣電影Top250 這個(gè)案例使用BeautifulSoup庫爬取豆瓣電影Top250的電影名稱、評(píng)分和評(píng)價(jià)人數(shù)等信息，并將這些信息保存到CSV文件中。 2
2024年04月16日
瀏覽(18)
最簡(jiǎn)單的python爬蟲案例，適合入門學(xué)習(xí)
用python從網(wǎng)頁爬取數(shù)據(jù)，網(wǎng)上相關(guān)文章很多，但能讓零基礎(chǔ)初學(xué)者輕松上手的卻很少?？赡苁怯械淖髡哂X得有些知識(shí)點(diǎn)太簡(jiǎn)單不值得花費(fèi)精力講，結(jié)果是難者不會(huì)會(huì)者不難，初學(xué)者常常因此而蒙圈。本人也是小白，剛摸索著爬了兩個(gè)簡(jiǎn)單的網(wǎng)頁數(shù)據(jù)，經(jīng)歷了初學(xué)者易犯的各種
2024年02月08日
瀏覽(26)
〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)?〗- Selenium案例實(shí)戰(zhàn)（一）
訂閱：新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+? ????????????????python項(xiàng)目實(shí)戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列（零基礎(chǔ)小白搬磚逆襲) 說明：本專欄持續(xù)更新中，目前專欄免費(fèi)訂閱，在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的，可以免費(fèi)訂閱付費(fèi)專欄，
2024年02月14日
瀏覽(18)
史上最全！Python爬蟲requests庫(附案例)
Requests 是一個(gè)為人類設(shè)計(jì)的簡(jiǎn)單而優(yōu)雅的 HTTP 庫。requests 庫是一個(gè)原生的 HTTP 庫，比 urllib3 庫更為容易使用。requests 庫發(fā)送原生的 HTTP 1.1 請(qǐng)求，無需手動(dòng)為 URL 添加查詢串，也不需要對(duì) POST 數(shù)據(jù)進(jìn)行表單編碼。相對(duì)于 urllib3 庫， requests 庫擁有完全自動(dòng)化 Keep-alive 和 HTTP 連接
2024年02月04日
瀏覽(27)
〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)?〗- Selenium案例實(shí)戰(zhàn)（三）
訂閱：新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+? ????????????????python項(xiàng)目實(shí)戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列（零基礎(chǔ)小白搬磚逆襲) 說明：本專欄持續(xù)更新中，目前專欄免費(fèi)訂閱，在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的，可以免費(fèi)訂閱付費(fèi)專欄，
2024年02月07日
瀏覽(51)

<rt id="d8k6s"></rt>