国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

初學(xué)python爬蟲學(xué)習(xí)筆記——爬取網(wǎng)頁中小說標(biāo)題

這篇具有很好參考價(jià)值的文章主要介紹了初學(xué)python爬蟲學(xué)習(xí)筆記——爬取網(wǎng)頁中小說標(biāo)題。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

初學(xué)python爬蟲學(xué)習(xí)筆記——爬取網(wǎng)頁中小說標(biāo)題

一、要爬取的網(wǎng)站小說如下圖

初學(xué)python爬蟲學(xué)習(xí)筆記——爬取網(wǎng)頁中小說標(biāo)題,Python學(xué)習(xí)記錄,python,爬蟲,學(xué)習(xí)

二、打開網(wǎng)頁的“檢查”,查看html頁面

發(fā)現(xiàn)每個(gè)標(biāo)題是列表下的一個(gè)個(gè)超鏈接,從183.html到869.html
可以使用for循環(huán)依次得到:

x = range(183,600)
for i in x:
    print(soup.find('a', href="http://www.kanxshuo.com/11/182/"+str(i)+".html").get_text())

初學(xué)python爬蟲學(xué)習(xí)筆記——爬取網(wǎng)頁中小說標(biāo)題,Python學(xué)習(xí)記錄,python,爬蟲,學(xué)習(xí)
初學(xué)python爬蟲學(xué)習(xí)筆記——爬取網(wǎng)頁中小說標(biāo)題,Python學(xué)習(xí)記錄,python,爬蟲,學(xué)習(xí)

三、具體代碼如下:

import requests
import random
from bs4 import BeautifulSoup
# 要爬取的網(wǎng)站
url = "http://www.kanxshuo.com/11/182/"
# 發(fā)出訪問請(qǐng)求,獲得對(duì)應(yīng)網(wǎng)頁
response = requests.get(url)
print(response)

# 將獲得的頁面解析內(nèi)容寫入soup備用
soup = BeautifulSoup(response.content, 'lxml')

# 解析網(wǎng)站數(shù)據(jù)
# print(soup)

# 根據(jù)目標(biāo),首先要獲得小說的標(biāo)題和章節(jié)標(biāo)題
# <a  title="第一卷 第二十九章 神祗遺聞">第一卷 第二十九章 神祗遺聞</a>
t1 = soup.find('a', href="http://www.kanxshuo.com/11/182/").get_text()
t2 = soup.find(id='booklistBox')
print(soup.find('a', href="http://www.kanxshuo.com/11/182/"+"183"+".html").get_text())
x = range(183,600)
for i in x:
    print(soup.find('a', href="http://www.kanxshuo.com/11/182/"+str(i)+".html").get_text())
    

初學(xué)python爬蟲學(xué)習(xí)筆記——爬取網(wǎng)頁中小說標(biāo)題,Python學(xué)習(xí)記錄,python,爬蟲,學(xué)習(xí)
第一次學(xué)習(xí)爬蟲,能得出查詢結(jié)果,心中還是無限的高興。
不過,還是發(fā)現(xiàn)的很多,比如for循環(huán)的多種使用掌握不熟練,soup.find()和soup.find_all()的使用存在較多問題。文章來源地址http://www.zghlxwxcb.cn/news/detail-702007.html

到了這里,關(guān)于初學(xué)python爬蟲學(xué)習(xí)筆記——爬取網(wǎng)頁中小說標(biāo)題的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Python網(wǎng)頁爬蟲爬取起點(diǎn)小說——re解析網(wǎng)頁數(shù)據(jù)

    Python網(wǎng)頁爬蟲爬取起點(diǎn)小說——re解析網(wǎng)頁數(shù)據(jù)

    ?。∽⒁猓何覀儷@取到的網(wǎng)頁響應(yīng)數(shù)據(jù),可能會(huì)與網(wǎng)頁源代碼中呈現(xiàn)的格式不同。因?yàn)橛行┚W(wǎng)頁文件是用JavaScript加載的,瀏覽器會(huì)自動(dòng)將其解析成html文檔格式,而我們獲取到的內(nèi)容是JavaScript格式的文檔。所以獲取到響應(yīng)數(shù)據(jù)之后先要查看內(nèi)容是否與網(wǎng)頁源碼中的一致,不一

    2024年02月04日
    瀏覽(41)
  • python爬蟲爬取微信公眾號(hào)的閱讀數(shù)、喜愛數(shù)、文章標(biāo)題和鏈接等信息

    python爬蟲爬取微信公眾號(hào)的閱讀數(shù)、喜愛數(shù)、文章標(biāo)題和鏈接等信息

    爬蟲的步驟: (1)申請(qǐng)自己的公眾號(hào) (2)使用fiddler抓包工具 (3)pycharm (一)申請(qǐng)公眾號(hào) 官網(wǎng):微信公眾平臺(tái) 填入相關(guān)信息創(chuàng)建微信公眾號(hào) 進(jìn)入公眾號(hào)界面如下: 找到新的創(chuàng)作-圖文信息 在彈出的界面中查找公眾號(hào)文章-輸入公眾號(hào)名稱-確定 點(diǎn)擊確認(rèn)之后,進(jìn)入公眾號(hào)

    2024年02月05日
    瀏覽(24)
  • Python 爬蟲:如何用 BeautifulSoup 爬取網(wǎng)頁數(shù)據(jù)

    Python 爬蟲:如何用 BeautifulSoup 爬取網(wǎng)頁數(shù)據(jù)

    在網(wǎng)絡(luò)時(shí)代,數(shù)據(jù)是最寶貴的資源之一。而爬蟲技術(shù)就是一種獲取數(shù)據(jù)的重要手段。Python 作為一門高效、易學(xué)、易用的編程語言,自然成為了爬蟲技術(shù)的首選語言之一。而 BeautifulSoup 則是 Python 中最常用的爬蟲庫之一,它能夠幫助我們快速、簡(jiǎn)單地解析 HTML 和 XML 文檔,從而

    2024年02月04日
    瀏覽(89)
  • python爬蟲實(shí)戰(zhàn) scrapy+selenium爬取動(dòng)態(tài)網(wǎng)頁

    python爬蟲實(shí)戰(zhàn) scrapy+selenium爬取動(dòng)態(tài)網(wǎng)頁

    最近學(xué)習(xí)了scrapy爬蟲框架,想要找個(gè)目標(biāo)練練手。由于現(xiàn)在很多網(wǎng)頁都是動(dòng)態(tài)的,因此還需要配合selenium爬取。本文旨在記錄這次學(xué)習(xí)經(jīng)歷,如有疑問或不當(dāng)之處,可以在評(píng)論區(qū)指出,一起學(xué)習(xí)。 對(duì)scrapy不了解的同學(xué)可以閱讀這篇文章 爬蟲框架 Scrapy 詳解,對(duì)scrapy框架介紹的

    2024年02月07日
    瀏覽(49)
  • Python爬蟲|使用Selenium輕松爬取網(wǎng)頁數(shù)據(jù)

    Python爬蟲|使用Selenium輕松爬取網(wǎng)頁數(shù)據(jù)

    1. 什么是selenium? Selenium是一個(gè)用于Web應(yīng)用程序自動(dòng)化測(cè)試工具。Selenium測(cè)試直接運(yùn)行在瀏覽器中,就像真正的用戶在操作瀏覽器一樣。支持的瀏覽器包括IE,F(xiàn)irefox,Safari,Chrome等。 Selenium可以驅(qū)動(dòng)瀏覽器自動(dòng)執(zhí)行自定義好的邏輯代碼,也就是可以通過代碼完全模擬成人類使用

    2024年02月04日
    瀏覽(30)
  • [爬蟲篇]Python爬蟲之爬取網(wǎng)頁音頻_爬蟲怎么下載已經(jīng)找到的聲頻

    [爬蟲篇]Python爬蟲之爬取網(wǎng)頁音頻_爬蟲怎么下載已經(jīng)找到的聲頻

    audio_DATA_get = requests.get(url=audio_DATA,headers=headers) audio_DATA_get_text = audio_DATA_get.text audio_DATA_download_url = re.findall(‘“src”:“(.*?)”’,audio_DATA_get_text) print(audio_DATA_download_url) download_data_url = audio_DATA_download_url[0] try: open_download_data_url = urllib.request.urlopen(download_data_url) except: print(downlo

    2024年04月22日
    瀏覽(96)
  • Python爬蟲:為什么你爬取不到網(wǎng)頁數(shù)據(jù)

    Python爬蟲:為什么你爬取不到網(wǎng)頁數(shù)據(jù)

    前言: 之前小編寫了一篇關(guān)于爬蟲為什么爬取不到數(shù)據(jù)文章(文章鏈接為:https://liuze.blog.csdn.net/article/details/105965562),但是當(dāng)時(shí)小編也是胡亂編寫的,其實(shí)里面有很多問題的,現(xiàn)在小編重新發(fā)布一篇關(guān)于爬蟲爬取不到數(shù)據(jù)文章,希望各位讀者更加了解爬蟲。 1. 最基礎(chǔ)的爬蟲

    2024年02月05日
    瀏覽(29)
  • 第一個(gè)Python程序_獲取網(wǎng)頁 HTML 信息[Python爬蟲學(xué)習(xí)筆記]

    第一個(gè)Python程序_獲取網(wǎng)頁 HTML 信息[Python爬蟲學(xué)習(xí)筆記]

    使用 Python 內(nèi)置的 urllib 庫獲取網(wǎng)頁的 html 信息。注意,urllib 庫屬于 Python 的標(biāo)準(zhǔn)庫模塊,無須單獨(dú)安裝,它是 Python 爬蟲的常用模塊。 1) 獲取響應(yīng)對(duì)象 向百度(http://www.baidu.com/)發(fā)起請(qǐng)求,獲取百度首頁的 HTML 信息,代碼如下: 上述代碼會(huì)返回百度首頁的響應(yīng)對(duì)象, 其中

    2024年01月17日
    瀏覽(21)
  • 【python爬蟲】中央氣象局預(yù)報(bào)—靜態(tài)網(wǎng)頁圖像爬取練習(xí)

    【python爬蟲】中央氣象局預(yù)報(bào)—靜態(tài)網(wǎng)頁圖像爬取練習(xí)

    中央氣象臺(tái) 是中國(guó)氣象局(中央氣象臺(tái))發(fā)布的七天降水預(yù)報(bào)頁面。這個(gè)頁面提供了未來一周內(nèi)各地區(qū)的降水預(yù)報(bào)情況,幫助人們了解即將到來的降水情況,以做出相應(yīng)的應(yīng)對(duì)措施。頁面中的預(yù)報(bào)內(nèi)容通常包括以下要點(diǎn): 地區(qū)分布 :頁面展示了中國(guó)各地區(qū)的降水預(yù)報(bào)情況。

    2024年02月10日
    瀏覽(19)
  • Python網(wǎng)絡(luò)爬蟲逆向分析爬取動(dòng)態(tài)網(wǎng)頁、使用Selenium庫爬取動(dòng)態(tài)網(wǎng)頁、?編輯將數(shù)據(jù)存儲(chǔ)入MongoDB數(shù)據(jù)庫

    Python網(wǎng)絡(luò)爬蟲逆向分析爬取動(dòng)態(tài)網(wǎng)頁、使用Selenium庫爬取動(dòng)態(tài)網(wǎng)頁、?編輯將數(shù)據(jù)存儲(chǔ)入MongoDB數(shù)據(jù)庫

    目錄 逆向分析爬取動(dòng)態(tài)網(wǎng)頁 了解靜態(tài)網(wǎng)頁和動(dòng)態(tài)網(wǎng)頁區(qū)別 1.判斷靜態(tài)網(wǎng)頁 ?2.判斷動(dòng)態(tài)網(wǎng)頁 ?逆向分析爬取動(dòng)態(tài)網(wǎng)頁 使用Selenium庫爬取動(dòng)態(tài)網(wǎng)頁 安裝Selenium庫以及下載瀏覽器補(bǔ)丁 頁面等待 ?頁面操作 1.填充表單 2.執(zhí)行JavaScript 元素選取 Selenium庫的find_element的語法使用格式如下

    2024年02月15日
    瀏覽(63)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包