国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<abbr id="genoe"></abbr>

爬取豆瓣Top250圖書(shū)數(shù)據(jù)

2年前作者：pretty_spider分類(lèi)：Toy博客閱讀(26)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了爬取豆瓣Top250圖書(shū)數(shù)據(jù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

爬取豆瓣Top250圖書(shū)數(shù)據(jù)

項(xiàng)目的實(shí)現(xiàn)步驟
1.項(xiàng)目結(jié)構(gòu)
2.獲取網(wǎng)頁(yè)數(shù)據(jù)
3.提取網(wǎng)頁(yè)中的關(guān)鍵信息
4.保存數(shù)據(jù)
1.項(xiàng)目結(jié)構(gòu)
爬取豆瓣Top250圖書(shū)數(shù)據(jù)

2.獲取網(wǎng)頁(yè)數(shù)據(jù)
對(duì)應(yīng)的網(wǎng)址為https://book.douban.com/top250
爬取豆瓣Top250圖書(shū)數(shù)據(jù)

import requests
from bs4 import BeautifulSoup
"""
獲取網(wǎng)頁(yè)數(shù)據(jù)，解析數(shù)據(jù)，將相應(yīng)的數(shù)據(jù)傳出
"""
def get_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) '
                     'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 '
                     'Mobile Safari/537.36 Edg/114.0.1823.43'
    }
    resp=requests.get(url,headers=headers)
    soup=BeautifulSoup(resp.text,'html.parser')
    return soup

3.提取網(wǎng)頁(yè)中的關(guān)鍵信息
獲取傳出的解析后的數(shù)據(jù)，獲取對(duì)應(yīng)的圖片，書(shū)名，作者，價(jià)格，評(píng)價(jià)，簡(jiǎn)介

from geturlcocument.get_document import get_page
import re
# 初始數(shù)據(jù)
pictures=[]
names=[]
authors=[]
prices=[]
scores=[]
sums=[]
def get_single():
    # 網(wǎng)址地址
    urls = [f"https://book.douban.com/top250?start={num}" for num in range(0,250,25)]
    for url in urls:
        # 獲取對(duì)應(yīng)的網(wǎng)頁(yè)文本
        text = get_page.get_page(url)
        # 所有數(shù)據(jù)的集合
        all_tr = text.find_all(name="tr", attrs={"class": "item"})
        # 查找每個(gè)單項(xiàng)
        for tr in all_tr:
            # 數(shù)據(jù)類(lèi)型：圖片，書(shū)名，作者，價(jià)格，評(píng)分，簡(jiǎn)介
            # 圖片
            picture = tr.find(name="img")
            picture = picture.get('src')
            # print(picture)
            # 書(shū)名
            div = tr.find(name='div', attrs={'class': 'pl2'})
            name = div.find('a').text
            name = re.sub(r'\s+', '', name)
            # 作者
            author = tr.find(name='p', attrs={'class': 'pl'}).text
            author = author.split('/')[0]
            # 價(jià)格
            price = author.split('/')[-1]
            price = re.sub(r'元', '', price)
            # 評(píng)分
            score = tr.find(name='span', attrs={'class': 'rating_nums'}).text
            try:
                sum = tr.find(name='span', attrs={'class': 'inq'}).text
            except AttributeError:
                sum = ''
            pictures.append(picture)
            names.append(name)
            authors.append(author)
            prices.append(price)
            scores.append(score)
            sums.append(sum)
    data = {
        "picture": pictures,
        "name": names,
        "author": authors,
        "price": prices,
        "score": scores,
        "sum": sums
    }
    return data

將獲取的數(shù)據(jù)存入到字典中，將數(shù)據(jù)傳出，使用re庫(kù)對(duì)相應(yīng)的數(shù)據(jù)進(jìn)行處理，運(yùn)用異常檢錯(cuò)
4.保存數(shù)據(jù)
獲取傳出的字典類(lèi)型的數(shù)據(jù)，將數(shù)據(jù)存入到pandas的DataFrame類(lèi)型中

from geturlcocument.get_single_docuemnt import get_single
import pandas as pd
# 獲取字典類(lèi)型的數(shù)據(jù)
data=get_single.get_single()
# 用pandas的DataFrame類(lèi)型存儲(chǔ)數(shù)據(jù)
df=pd.DataFrame(data)
df.to_csv('./books.csv',encoding='utf-8')
print('ending of data')

該項(xiàng)目完成?。?！文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-481176.html

到了這里，關(guān)于爬取豆瓣Top250圖書(shū)數(shù)據(jù)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

[Python練習(xí)]使用Python爬蟲(chóng)爬取豆瓣top250的電影的頁(yè)面源碼
在終端中輸入以下代碼（直接在cmd命令提示符中，不需要打開(kāi)Python）從豆瓣網(wǎng)提供的鏡像網(wǎng)站下載requests第三方庫(kù) 是從國(guó)外網(wǎng)站下載，速度慢甚至有時(shí)候無(wú)法下載運(yùn)行代碼之后，沒(méi)反應(yīng)，無(wú)輸出結(jié)果可以看一下返回的頁(yè)面請(qǐng)求狀態(tài)碼是多少：狀態(tài)碼是 418 ，所有4開(kāi)頭的狀態(tài)
2024年01月17日
瀏覽(23)
爬蟲(chóng)項(xiàng)目實(shí)戰(zhàn)：利用基于selenium框架的爬蟲(chóng)模板爬取豆瓣電影Top250
?? Hi, I’m @貨又星 ?? I’m interested in … ?? I’m currently learning … ?? I’m looking to collaborate on … ?? How to reach me … README 目錄（持續(xù)更新中）各種錯(cuò)誤處理、爬蟲(chóng)實(shí)戰(zhàn)及模板、百度智能云人臉識(shí)別、計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)CNN圖像識(shí)別與分類(lèi)、PaddlePaddle自然語(yǔ)言處理知識(shí)圖譜、
2024年02月04日
瀏覽(32)
【python】爬取豆瓣電影排行榜TOP250存儲(chǔ)到CSV文件中【附源碼】
? ? ?? 代碼首先導(dǎo)入了需要使用的模塊：requests、lxml和csv。 ??????? 如果出現(xiàn)模塊報(bào)錯(cuò) ??????? 進(jìn)入控制臺(tái)輸入：建議使用國(guó)內(nèi)鏡像源 ???????? 我大致羅列了以下幾種國(guó)內(nèi)鏡像源： ???? ????????設(shè)置了請(qǐng)求頭部信息，以模擬瀏覽器的請(qǐng)求，函數(shù)返回響應(yīng)數(shù)據(jù)
2024年02月04日
瀏覽(21)
【python】爬取豆瓣電影排行榜Top250存儲(chǔ)到Excel文件中【附源碼】
?? 近年來(lái)，Python在數(shù)據(jù)爬取和處理方面的應(yīng)用越來(lái)越廣泛。本文將介紹一個(gè)基于Python的爬蟲(chóng)程序，用于抓取豆瓣電影Top250的相關(guān)信息，并將其保存為Excel文件。 ?????? ??程序包含以下幾個(gè)部分： ?????????? 導(dǎo)入模塊：程序?qū)肓?BeautifulSoup、re、urllib.request、urllib
2024年02月03日
瀏覽(32)
爬蟲(chóng)入門(mén)指南(7):使用Selenium和BeautifulSoup爬取豆瓣電影Top250實(shí)例講解【爬蟲(chóng)小白必看】
在本篇博客中，我們將使用 Python 的 Selenium 和 BeautifulSoup 庫(kù)來(lái)實(shí)現(xiàn)一個(gè)簡(jiǎn)單的網(wǎng)頁(yè)爬蟲(chóng)，目的是爬取豆瓣電影TOP250的數(shù)據(jù)，并將結(jié)果保存到Excel文件中。 Selenium 是一個(gè)自動(dòng)化測(cè)試工具，可以模擬用戶(hù)在瀏覽器中的交互操作。我們將使用 Selenium 來(lái)打開(kāi)網(wǎng)頁(yè)、獲取網(wǎng)頁(yè)源碼。 B
2024年02月12日
瀏覽(24)
python爬蟲(chóng)項(xiàng)目——豆瓣Top250
我們今天講一個(gè)爬蟲(chóng)項(xiàng)目案例，實(shí)現(xiàn)對(duì)豆瓣電影top榜的爬取。把爬取的數(shù)據(jù)存到我們電腦本地文件當(dāng)中。通過(guò)這個(gè)項(xiàng)目可以讓我們真正感受到爬蟲(chóng)的帶給我們的樂(lè)趣。現(xiàn)在我來(lái)講一下思路以及實(shí)現(xiàn)方法，因?yàn)槎拱觌娪暗倪@個(gè)反爬機(jī)制不高，所以我們可以通過(guò)這個(gè)案列快速上手
2024年02月11日
瀏覽(41)
樸素貝葉斯算法實(shí)現(xiàn) 豆瓣Top250電影評(píng)價(jià)的情感分析與預(yù)測(cè)。?
本文使用樸素貝葉斯算法實(shí)現(xiàn) 豆瓣Top250電影評(píng)價(jià)的情感分析與預(yù)測(cè)。最近在學(xué)習(xí)自然語(yǔ)言正負(fù)面情感的處理問(wèn)題，但是絕大部分能搜索到的實(shí)踐都是Kggle上IMDB影評(píng)的情感分析。所以在這里我就用最基礎(chǔ)的樸素貝葉斯算法來(lái)對(duì)豆瓣的影評(píng)進(jìn)行情感分析與預(yù)測(cè)。在這里我參考了
2024年02月10日
瀏覽(18)
python爬取豆瓣電影排行前250獲取電影名稱(chēng)和網(wǎng)絡(luò)鏈接[靜態(tài)網(wǎng)頁(yè)]————爬蟲(chóng)實(shí)例（1）
目錄 1.算法原理： 2.程序流程： 3.程序代碼： 4.運(yùn)行結(jié)果(部分結(jié)果展示)： 5.結(jié)果分析：（1）利用import命令導(dǎo)入模塊或者導(dǎo)入模塊中的對(duì)象； ①利用requests庫(kù)獲取數(shù)據(jù)； ②用BeautifulSoup庫(kù)將網(wǎng)頁(yè)源代碼轉(zhuǎn)換成BeautifulSoup類(lèi)型，以便于數(shù)據(jù)的解析和處理； ③用time庫(kù)進(jìn)行時(shí)間延時(shí)
2023年04月16日
瀏覽(97)
【爬蟲(chóng)】一次爬取某瓣top電影前250的學(xué)習(xí)記錄
先貼上爬取的腳本： import requests import re for i in range(1,11): ? ? num=(i-1)*25 ? ? url=f\\\"https://movie.douban.com/top250?start={num}filter=\\\" ? ? head={\\\"User-Agent\\\":\\\"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36\\\"}#偽造請(qǐng)求頭 ? ? res=requests.get(url,headers=head) ? ?
2024年02月06日
瀏覽(24)
【騰訊云 TDSQL-C Serverless 產(chǎn)品體驗(yàn)】以TDSQL-C Mysql Serverless 作為數(shù)據(jù)中心爬取豆瓣圖書(shū)數(shù)據(jù)
最近我一直在研究 python 爬蟲(chóng)，公司需要很多數(shù)據(jù)源的數(shù)據(jù)，但遇到一個(gè)很大的障礙，就是沒(méi)有合適的數(shù)據(jù)庫(kù)儲(chǔ)存這些數(shù)據(jù)，因?yàn)槠胀ǖ臋C(jī)器的性能瓶頸非常明顯，而且爬蟲(chóng)數(shù)據(jù)性能的要求也不是非常穩(wěn)定，如果購(gòu)買(mǎi)一臺(tái)高配按月付費(fèi)的機(jī)器，那無(wú)疑浪費(fèi)了沒(méi)有使用到的性能
2024年02月08日
瀏覽(20)

<rp id="h3cjc"><u id="h3cjc"></u></rp>

<center id="h3cjc"></center>

<tfoot id="h3cjc"><xmp id="h3cjc"><center id="h3cjc"></center>