国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

爬取豆瓣Top250圖書(shū)數(shù)據(jù)

這篇具有很好參考價(jià)值的文章主要介紹了爬取豆瓣Top250圖書(shū)數(shù)據(jù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

爬取豆瓣Top250圖書(shū)數(shù)據(jù)

項(xiàng)目的實(shí)現(xiàn)步驟
1.項(xiàng)目結(jié)構(gòu)
2.獲取網(wǎng)頁(yè)數(shù)據(jù)
3.提取網(wǎng)頁(yè)中的關(guān)鍵信息
4.保存數(shù)據(jù)
1.項(xiàng)目結(jié)構(gòu)
爬取豆瓣Top250圖書(shū)數(shù)據(jù)

2.獲取網(wǎng)頁(yè)數(shù)據(jù)
對(duì)應(yīng)的網(wǎng)址為https://book.douban.com/top250
爬取豆瓣Top250圖書(shū)數(shù)據(jù)
爬取豆瓣Top250圖書(shū)數(shù)據(jù)

import requests
from bs4 import BeautifulSoup
"""
獲取網(wǎng)頁(yè)數(shù)據(jù),解析數(shù)據(jù),將相應(yīng)的數(shù)據(jù)傳出
"""
def get_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) '
                     'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 '
                     'Mobile Safari/537.36 Edg/114.0.1823.43'
    }
    resp=requests.get(url,headers=headers)
    soup=BeautifulSoup(resp.text,'html.parser')
    return soup

3.提取網(wǎng)頁(yè)中的關(guān)鍵信息
獲取傳出的解析后的數(shù)據(jù),獲取對(duì)應(yīng)的圖片,書(shū)名,作者,價(jià)格,評(píng)價(jià),簡(jiǎn)介

from geturlcocument.get_document import get_page
import re
# 初始數(shù)據(jù)
pictures=[]
names=[]
authors=[]
prices=[]
scores=[]
sums=[]
def get_single():
    # 網(wǎng)址地址
    urls = [f"https://book.douban.com/top250?start={num}" for num in range(0,250,25)]
    for url in urls:
        # 獲取對(duì)應(yīng)的網(wǎng)頁(yè)文本
        text = get_page.get_page(url)
        # 所有數(shù)據(jù)的集合
        all_tr = text.find_all(name="tr", attrs={"class": "item"})
        # 查找每個(gè)單項(xiàng)
        for tr in all_tr:
            # 數(shù)據(jù)類(lèi)型:圖片,書(shū)名,作者,價(jià)格,評(píng)分,簡(jiǎn)介
            # 圖片
            picture = tr.find(name="img")
            picture = picture.get('src')
            # print(picture)
            # 書(shū)名
            div = tr.find(name='div', attrs={'class': 'pl2'})
            name = div.find('a').text
            name = re.sub(r'\s+', '', name)
            # 作者
            author = tr.find(name='p', attrs={'class': 'pl'}).text
            author = author.split('/')[0]
            # 價(jià)格
            price = author.split('/')[-1]
            price = re.sub(r'元', '', price)
            # 評(píng)分
            score = tr.find(name='span', attrs={'class': 'rating_nums'}).text
            try:
                sum = tr.find(name='span', attrs={'class': 'inq'}).text
            except AttributeError:
                sum = ''
            pictures.append(picture)
            names.append(name)
            authors.append(author)
            prices.append(price)
            scores.append(score)
            sums.append(sum)
    data = {
        "picture": pictures,
        "name": names,
        "author": authors,
        "price": prices,
        "score": scores,
        "sum": sums
    }
    return data

將獲取的數(shù)據(jù)存入到字典中,將數(shù)據(jù)傳出,使用re庫(kù)對(duì)相應(yīng)的數(shù)據(jù)進(jìn)行處理,運(yùn)用異常檢錯(cuò)
4.保存數(shù)據(jù)
獲取傳出的字典類(lèi)型的數(shù)據(jù),將數(shù)據(jù)存入到pandas的DataFrame類(lèi)型中

from geturlcocument.get_single_docuemnt import get_single
import pandas as pd
# 獲取字典類(lèi)型的數(shù)據(jù)
data=get_single.get_single()
# 用pandas的DataFrame類(lèi)型存儲(chǔ)數(shù)據(jù)
df=pd.DataFrame(data)
df.to_csv('./books.csv',encoding='utf-8')
print('ending of data')

該項(xiàng)目完成?。?!文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-481176.html

到了這里,關(guān)于爬取豆瓣Top250圖書(shū)數(shù)據(jù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • [Python練習(xí)]使用Python爬蟲(chóng)爬取豆瓣top250的電影的頁(yè)面源碼

    [Python練習(xí)]使用Python爬蟲(chóng)爬取豆瓣top250的電影的頁(yè)面源碼

    在終端中輸入以下代碼(直接在cmd命令提示符中,不需要打開(kāi)Python) 從豆瓣網(wǎng)提供的鏡像網(wǎng)站下載requests第三方庫(kù) 是從國(guó)外網(wǎng)站下載,速度慢甚至有時(shí)候無(wú)法下載 運(yùn)行代碼之后,沒(méi)反應(yīng),無(wú)輸出結(jié)果 可以看一下返回的頁(yè)面請(qǐng)求狀態(tài)碼是多少: 狀態(tài)碼是 418 ,所有4開(kāi)頭的狀態(tài)

    2024年01月17日
    瀏覽(23)
  • 爬蟲(chóng)項(xiàng)目實(shí)戰(zhàn):利用基于selenium框架的爬蟲(chóng)模板爬取豆瓣電影Top250

    爬蟲(chóng)項(xiàng)目實(shí)戰(zhàn):利用基于selenium框架的爬蟲(chóng)模板爬取豆瓣電影Top250

    ?? Hi, I’m @貨又星 ?? I’m interested in … ?? I’m currently learning … ?? I’m looking to collaborate on … ?? How to reach me … README 目錄(持續(xù)更新中) 各種錯(cuò)誤處理、爬蟲(chóng)實(shí)戰(zhàn)及模板、百度智能云人臉識(shí)別、計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)CNN圖像識(shí)別與分類(lèi)、PaddlePaddle自然語(yǔ)言處理知識(shí)圖譜、

    2024年02月04日
    瀏覽(32)
  • 【python】爬取豆瓣電影排行榜TOP250存儲(chǔ)到CSV文件中【附源碼】

    【python】爬取豆瓣電影排行榜TOP250存儲(chǔ)到CSV文件中【附源碼】

    ? ? ?? 代碼首先導(dǎo)入了需要使用的模塊:requests、lxml和csv。 ??????? 如果出現(xiàn)模塊報(bào)錯(cuò) ??????? 進(jìn)入控制臺(tái)輸入:建議使用國(guó)內(nèi)鏡像源 ???????? 我大致羅列了以下幾種國(guó)內(nèi)鏡像源: ???? ????????設(shè)置了請(qǐng)求頭部信息,以模擬瀏覽器的請(qǐng)求,函數(shù)返回響應(yīng)數(shù)據(jù)

    2024年02月04日
    瀏覽(21)
  • 【python】爬取豆瓣電影排行榜Top250存儲(chǔ)到Excel文件中【附源碼】

    【python】爬取豆瓣電影排行榜Top250存儲(chǔ)到Excel文件中【附源碼】

    ?? 近年來(lái),Python在數(shù)據(jù)爬取和處理方面的應(yīng)用越來(lái)越廣泛。本文將介紹一個(gè)基于Python的爬蟲(chóng)程 序,用于抓取豆瓣電影Top250的相關(guān)信息,并將其保存為Excel文件。 ?????? ??程序包含以下幾個(gè)部分: ?????????? 導(dǎo)入模塊:程序?qū)肓?BeautifulSoup、re、urllib.request、urllib

    2024年02月03日
    瀏覽(32)
  • 爬蟲(chóng)入門(mén)指南(7):使用Selenium和BeautifulSoup爬取豆瓣電影Top250實(shí)例講解【爬蟲(chóng)小白必看】

    爬蟲(chóng)入門(mén)指南(7):使用Selenium和BeautifulSoup爬取豆瓣電影Top250實(shí)例講解【爬蟲(chóng)小白必看】

    在本篇博客中,我們將使用 Python 的 Selenium 和 BeautifulSoup 庫(kù)來(lái)實(shí)現(xiàn)一個(gè)簡(jiǎn)單的網(wǎng)頁(yè)爬蟲(chóng),目的是爬取豆瓣電影TOP250的數(shù)據(jù),并將結(jié)果保存到Excel文件中。 Selenium 是一個(gè)自動(dòng)化測(cè)試工具,可以模擬用戶(hù)在瀏覽器中的交互操作。我們將使用 Selenium 來(lái)打開(kāi)網(wǎng)頁(yè)、獲取網(wǎng)頁(yè)源碼。 B

    2024年02月12日
    瀏覽(24)
  • python爬蟲(chóng)項(xiàng)目——豆瓣Top250

    python爬蟲(chóng)項(xiàng)目——豆瓣Top250

    我們今天講一個(gè)爬蟲(chóng)項(xiàng)目案例,實(shí)現(xiàn)對(duì)豆瓣電影top榜的爬取 。把爬取的數(shù)據(jù)存到我們電腦本地文件當(dāng)中。通過(guò)這個(gè)項(xiàng)目可以讓我們真正感受到爬蟲(chóng)的帶給我們的樂(lè)趣。現(xiàn)在我來(lái)講一下思路以及實(shí)現(xiàn)方法,因?yàn)槎拱觌娪暗倪@個(gè)反爬機(jī)制不高,所以我們可以通過(guò)這個(gè)案列快速上手

    2024年02月11日
    瀏覽(41)
  • 樸素貝葉斯算法實(shí)現(xiàn) 豆瓣Top250電影評(píng)價(jià)的情感分析與預(yù)測(cè)。?

    樸素貝葉斯算法實(shí)現(xiàn) 豆瓣Top250電影評(píng)價(jià)的情感分析與預(yù)測(cè)。?

    本文使用樸素貝葉斯算法實(shí)現(xiàn) 豆瓣Top250電影評(píng)價(jià)的情感分析與預(yù)測(cè)。 最近在學(xué)習(xí)自然語(yǔ)言正負(fù)面情感的處理問(wèn)題,但是絕大部分能搜索到的實(shí)踐都是Kggle上IMDB影評(píng)的情感分析。 所以在這里我就用最基礎(chǔ)的樸素貝葉斯算法來(lái)對(duì)豆瓣的影評(píng)進(jìn)行情感分析與預(yù)測(cè)。 在這里我參考了

    2024年02月10日
    瀏覽(18)
  • python爬取豆瓣電影排行前250獲取電影名稱(chēng)和網(wǎng)絡(luò)鏈接[靜態(tài)網(wǎng)頁(yè)]————爬蟲(chóng)實(shí)例(1)

    python爬取豆瓣電影排行前250獲取電影名稱(chēng)和網(wǎng)絡(luò)鏈接[靜態(tài)網(wǎng)頁(yè)]————爬蟲(chóng)實(shí)例(1)

    目錄 1.算法原理: 2.程序流程: 3.程序代碼: 4.運(yùn)行結(jié)果(部分結(jié)果展示): 5.結(jié)果分析: (1)利用import命令導(dǎo)入模塊或者導(dǎo)入模塊中的對(duì)象; ①利用requests庫(kù)獲取數(shù)據(jù); ②用BeautifulSoup庫(kù)將網(wǎng)頁(yè)源代碼轉(zhuǎn)換成BeautifulSoup類(lèi)型,以便于數(shù)據(jù)的解析和處理; ③用time庫(kù)進(jìn)行時(shí)間延時(shí)

    2023年04月16日
    瀏覽(97)
  • 【爬蟲(chóng)】一次爬取某瓣top電影前250的學(xué)習(xí)記錄

    【爬蟲(chóng)】一次爬取某瓣top電影前250的學(xué)習(xí)記錄

    先貼上爬取的腳本: import requests import re for i in range(1,11): ? ? num=(i-1)*25 ? ? url=f\\\"https://movie.douban.com/top250?start={num}filter=\\\" ? ? head={\\\"User-Agent\\\":\\\"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36\\\"}#偽造請(qǐng)求頭 ? ? res=requests.get(url,headers=head) ? ?

    2024年02月06日
    瀏覽(24)
  • 【騰訊云 TDSQL-C Serverless 產(chǎn)品體驗(yàn)】以TDSQL-C Mysql Serverless 作為數(shù)據(jù)中心爬取豆瓣圖書(shū)數(shù)據(jù)

    【騰訊云 TDSQL-C Serverless 產(chǎn)品體驗(yàn)】以TDSQL-C Mysql Serverless 作為數(shù)據(jù)中心爬取豆瓣圖書(shū)數(shù)據(jù)

    最近我一直在研究 python 爬蟲(chóng),公司需要很多數(shù)據(jù)源的數(shù)據(jù),但遇到一個(gè)很大的障礙,就是沒(méi)有合適的數(shù)據(jù)庫(kù)儲(chǔ)存這些數(shù)據(jù),因?yàn)槠胀ǖ臋C(jī)器的性能瓶頸非常明顯,而且爬蟲(chóng)數(shù)據(jù)性能的要求也不是非常穩(wěn)定,如果購(gòu)買(mǎi)一臺(tái)高配按月付費(fèi)的機(jī)器,那無(wú)疑浪費(fèi)了沒(méi)有使用到的性能

    2024年02月08日
    瀏覽(20)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包