初學(xué)python爬蟲學(xué)習(xí)筆記——爬取網(wǎng)頁中小說標(biāo)題
一、要爬取的網(wǎng)站小說如下圖
二、打開網(wǎng)頁的“檢查”,查看html頁面
發(fā)現(xiàn)每個(gè)標(biāo)題是列表下的一個(gè)個(gè)超鏈接,從183.html到869.html
可以使用for循環(huán)依次得到:
x = range(183,600)
for i in x:
print(soup.find('a', href="http://www.kanxshuo.com/11/182/"+str(i)+".html").get_text())
文章來源:http://www.zghlxwxcb.cn/news/detail-702007.html
三、具體代碼如下:
import requests
import random
from bs4 import BeautifulSoup
# 要爬取的網(wǎng)站
url = "http://www.kanxshuo.com/11/182/"
# 發(fā)出訪問請(qǐng)求,獲得對(duì)應(yīng)網(wǎng)頁
response = requests.get(url)
print(response)
# 將獲得的頁面解析內(nèi)容寫入soup備用
soup = BeautifulSoup(response.content, 'lxml')
# 解析網(wǎng)站數(shù)據(jù)
# print(soup)
# 根據(jù)目標(biāo),首先要獲得小說的標(biāo)題和章節(jié)標(biāo)題
# <a title="第一卷 第二十九章 神祗遺聞">第一卷 第二十九章 神祗遺聞</a>
t1 = soup.find('a', href="http://www.kanxshuo.com/11/182/").get_text()
t2 = soup.find(id='booklistBox')
print(soup.find('a', href="http://www.kanxshuo.com/11/182/"+"183"+".html").get_text())
x = range(183,600)
for i in x:
print(soup.find('a', href="http://www.kanxshuo.com/11/182/"+str(i)+".html").get_text())
第一次學(xué)習(xí)爬蟲,能得出查詢結(jié)果,心中還是無限的高興。
不過,還是發(fā)現(xiàn)的很多,比如for循環(huán)的多種使用掌握不熟練,soup.find()和soup.find_all()的使用存在較多問題。文章來源地址http://www.zghlxwxcb.cn/news/detail-702007.html
到了這里,關(guān)于初學(xué)python爬蟲學(xué)習(xí)筆記——爬取網(wǎng)頁中小說標(biāo)題的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!