国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲(十七)_糗事百科案例

這篇具有很好參考價(jià)值的文章主要介紹了Python爬蟲(十七)_糗事百科案例。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

糗事百科實(shí)例

爬取糗事百科段子,假設(shè)頁面的URL是: http://www.qiushibaike.com/8hr/page/1

要求:

  1. 使用requests獲取頁面信息,用XPath/re做數(shù)據(jù)提取
  2. 獲取每個(gè)帖子里的用戶頭像連接、用戶姓名、段子內(nèi)容、點(diǎn)贊次數(shù)和評(píng)論次數(shù)
  3. 保存到j(luò)son文件內(nèi)

參考代碼

#-*- coding:utf-8 -*-

import requests
from lxml import etree

page = 1
url = 'http://www.qiushibaike.com/8hr/page/' + str(page) 
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36',
    'Accept-Language': 'zh-CN,zh;q=0.8'}

try:
    response = requests.get(url, headers=headers)
    resHtml = response.text

    html = etree.HTML(resHtml)
    result = html.xpath('//div[contains(@id,"qiushi_tag")]')

    for site in result:
        item = {}

        imgUrl = site.xpath('./div//img/@src')[0].encode('utf-8')

        # print(imgUrl)
        username = site.xpath('./div//h2')[0].text
        # print(username)
        content = site.xpath('.//div[@class="content"]/span')[0].text.strip().encode('utf-8')
        # print(content)
        # 投票次數(shù)
        vote = site.xpath('.//i')[0].text
        # print(vote)
        #print site.xpath('.//*[@class="number"]')[0].text
        # 評(píng)論信息
        comments = site.xpath('.//i')[1].text
        # print(comments)
        print imgUrl, username, content, vote, comments

except Exception, e:
    print e

演示效果

Python爬蟲(十七)_糗事百科案例,python,爬蟲,開發(fā)語言,學(xué)習(xí),json

糗事百科文章來源地址http://www.zghlxwxcb.cn/news/detail-687656.html

到了這里,關(guān)于Python爬蟲(十七)_糗事百科案例的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • python爬蟲小案例——汽車之家

    python爬蟲小案例——汽車之家

    本篇文章是使用bs4中的BeautifulSoup和requests解析網(wǎng)頁和獲取數(shù)據(jù)???? 為了更深入的學(xué)習(xí)爬蟲,今天來了解下bs4的使用和實(shí)踐,當(dāng)然解析網(wǎng)頁不止只有bs4的BeautifulSoup可以做到,還有xpath語法和正則表達(dá)式。本期是初步的了解BeautifulSoup模塊的使用,歡迎初學(xué)者學(xué)習(xí)本期內(nèi)容。 B

    2024年04月25日
    瀏覽(21)
  • Python爬蟲實(shí)戰(zhàn)案例——第一例

    Python爬蟲實(shí)戰(zhàn)案例——第一例

    X盧小說登錄(包括驗(yàn)證碼處理) 地址:aHR0cHM6Ly91LmZhbG9vLmNvbS9yZWdpc3QvbG9naW4uYXNweA== 打開頁面直接進(jìn)行分析 任意輸入用戶名密碼及驗(yàn)證碼之后可以看到抓到的包中傳輸?shù)臄?shù)據(jù)明顯需要的是 txtPwd 進(jìn)行加密分析。按 ctrl+shift+f 進(jìn)行搜索。 定位來到源代碼中斷點(diǎn)進(jìn)行調(diào)試。 然后直接跟

    2024年02月12日
    瀏覽(22)
  • Python Selenium 爬蟲淘寶案例

    Python Selenium 爬蟲淘寶案例

    在前一章中,我們已經(jīng)成功嘗試分析 Ajax 來抓取相關(guān)數(shù)據(jù),但是并不是所有頁面都可以通過分析 Ajax 來完成抓取。比如,淘寶,它的整個(gè)頁面數(shù)據(jù)確實(shí)也是通過 Ajax 獲取的,但是這些 Ajax 接口參數(shù)比較復(fù)雜,可能會(huì)包含加密密鑰等,所以如果想自己構(gòu)造 Ajax 參數(shù),還是比較困

    2024年02月20日
    瀏覽(28)
  • Python爬蟲實(shí)戰(zhàn)案例——第二例

    Python爬蟲實(shí)戰(zhàn)案例——第二例

    某某美劇劇集下載(從搜索片名開始) 本篇文章主要是為大家提供某些電影網(wǎng)站的較常規(guī)的下載電影的分析思路與代碼思路(通過爬蟲下載電影),我們會(huì)從搜索某部影片的開始直到成功下載某一部電影。 地址:aHR0cHM6Ly93d3cuOTltZWlqdXR0LmNvbS9pbmRleC5odG1s 先來分析頁面 打開開發(fā)

    2024年02月11日
    瀏覽(18)
  • python爬蟲5:requests庫-案例3

    python爬蟲5:requests庫-案例3

    前言 ? python實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲非常簡(jiǎn)單,只需要掌握一定的基礎(chǔ)知識(shí)和一定的庫使用技巧即可。本系列目標(biāo)旨在梳理相關(guān)知識(shí)點(diǎn),方便以后復(fù)習(xí)。 申明 ? 本系列所涉及的代碼僅用于個(gè)人研究與討論,并不會(huì)對(duì)網(wǎng)站產(chǎn)生不好影響。 目錄結(jié)構(gòu) 1. 目標(biāo) ? 本次案例的主要目標(biāo)是幫助

    2024年02月13日
    瀏覽(25)
  • 分享Python7個(gè)爬蟲小案例(附源碼)_爬蟲實(shí)例

    分享Python7個(gè)爬蟲小案例(附源碼)_爬蟲實(shí)例

    在這篇文章中,我們將分享7個(gè)Python爬蟲的小案例,幫助大家更好地學(xué)習(xí)和了解Python爬蟲的基礎(chǔ)知識(shí)。以下是每個(gè)案例的簡(jiǎn)介和源代碼: 1. 爬取豆瓣電影Top250 這個(gè)案例使用BeautifulSoup庫爬取豆瓣電影Top250的電影名稱、評(píng)分和評(píng)價(jià)人數(shù)等信息,并將這些信息保存到CSV文件中。 2

    2024年04月16日
    瀏覽(18)
  • 最簡(jiǎn)單的python爬蟲案例,適合入門學(xué)習(xí)

    最簡(jiǎn)單的python爬蟲案例,適合入門學(xué)習(xí)

    用python從網(wǎng)頁爬取數(shù)據(jù),網(wǎng)上相關(guān)文章很多,但能讓零基礎(chǔ)初學(xué)者輕松上手的卻很少??赡苁怯械淖髡哂X得有些知識(shí)點(diǎn)太簡(jiǎn)單不值得花費(fèi)精力講,結(jié)果是難者不會(huì)會(huì)者不難,初學(xué)者常常因此而蒙圈。本人也是小白,剛摸索著爬了兩個(gè)簡(jiǎn)單的網(wǎng)頁數(shù)據(jù),經(jīng)歷了初學(xué)者易犯的各種

    2024年02月08日
    瀏覽(26)
  • 〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)?〗- Selenium案例實(shí)戰(zhàn)(一)

    訂閱:新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+? ????????????????python項(xiàng)目實(shí)戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列(零基礎(chǔ)小白搬磚逆襲) 說明:本專欄持續(xù)更新中,目前專欄免費(fèi)訂閱,在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的,可以免費(fèi)訂閱付費(fèi)專欄,

    2024年02月14日
    瀏覽(18)
  • 史上最全!Python爬蟲requests庫(附案例)

    Requests 是一個(gè)為人類設(shè)計(jì)的簡(jiǎn)單而優(yōu)雅的 HTTP 庫。requests 庫是一個(gè)原生的 HTTP 庫,比 urllib3 庫更為容易使用。requests 庫發(fā)送原生的 HTTP 1.1 請(qǐng)求,無需手動(dòng)為 URL 添加查詢串, 也不需要對(duì) POST 數(shù)據(jù)進(jìn)行表單編碼。相對(duì)于 urllib3 庫, requests 庫擁有完全自動(dòng)化 Keep-alive 和 HTTP 連接

    2024年02月04日
    瀏覽(27)
  • 〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)?〗- Selenium案例實(shí)戰(zhàn)(三)

    訂閱:新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+? ????????????????python項(xiàng)目實(shí)戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列(零基礎(chǔ)小白搬磚逆襲) 說明:本專欄持續(xù)更新中,目前專欄免費(fèi)訂閱,在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的,可以免費(fèi)訂閱付費(fèi)專欄,

    2024年02月07日
    瀏覽(51)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包