国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

爬蟲(chóng)之牛刀小試(九):爬取小說(shuō)

這篇具有很好參考價(jià)值的文章主要介紹了爬蟲(chóng)之牛刀小試(九):爬取小說(shuō)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

今天爬取的是一本小說(shuō)
爬蟲(chóng)之牛刀小試(九):爬取小說(shuō),爬蟲(chóng),爬蟲(chóng),python,開(kāi)發(fā)語(yǔ)言
代碼如下:


from selenium import webdriver
from selenium.webdriver.common.proxy import Proxy, ProxyType
import random
import time
from selenium.webdriver.common.by import By

def check():
    option = webdriver.ChromeOptions()
    option.add_argument('--ignore-certificate-errors')
    driver = webdriver.Chrome(options=option)
    url="https://www.fd80.com/305/305890/2099286.html"
    for i in range(267,445):  
        print("正在爬取第"+str(i)+"章")
        driver.get(url)
        time.sleep(1)
        url=get_text(driver)
        print("爬取完成")

def get_text(driver):
    element = driver.find_element(By.XPATH, '//*[@id="novelcontent"]/div')
    title=driver.find_element(By.XPATH, '//*[@id="chaptertitle"]')
    nexthtml=driver.find_element(By.XPATH, '//*[@id="next_url"]')
    # 獲取下一章的鏈接
    next_url = nexthtml.get_attribute('href')
    # 將結(jié)果寫(xiě)入文件
    with open('無(wú)敵六皇子.txt', 'a', encoding='utf-8') as f:
        f.write(title.text + '\n')
        f.write(element.text + '\n\n')
    return next_url
    


if __name__ == '__main__':
    check()

接著寫(xiě)一個(gè)網(wǎng)頁(yè)來(lái)表示出文本內(nèi)容(此段代碼由陳同學(xué)提供,不方便展示),效果如下:
爬蟲(chóng)之牛刀小試(九):爬取小說(shuō),爬蟲(chóng),爬蟲(chóng),python,開(kāi)發(fā)語(yǔ)言
最近新開(kāi)了公眾號(hào),請(qǐng)大家關(guān)注一下。
爬蟲(chóng)之牛刀小試(九):爬取小說(shuō),爬蟲(chóng),爬蟲(chóng),python,開(kāi)發(fā)語(yǔ)言文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-822276.html

到了這里,關(guān)于爬蟲(chóng)之牛刀小試(九):爬取小說(shuō)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 牛刀小試 - C++ 實(shí)現(xiàn)2048(可存檔)

    牛刀小試 - C++ 實(shí)現(xiàn)2048(可存檔)

    借助了這位大佬的開(kāi)發(fā)思路, 開(kāi)發(fā)過(guò)程中學(xué)到了很多 C語(yǔ)言實(shí)現(xiàn)《2048游戲》 system調(diào)整控制臺(tái)大小的問(wèn)題 unsigned and 符號(hào)位 C++對(duì)齊輸出(左對(duì)齊和右對(duì)齊) C++ goto語(yǔ)句詳解

    2024年01月25日
    瀏覽(42)
  • 工欲善其事必先利其器--CMake牛刀小試

    這里假設(shè)用戶已經(jīng)安裝好MinGW編譯套件!并配置好環(huán)境變量!具體怎么下載和配置網(wǎng)上教程非常多,這里貼上一個(gè)鏈接:不僅教你安裝MinGW還教你安裝VScode配置 1、學(xué)習(xí)c plus plus編碼為什么要學(xué)習(xí)CMake? 在Windows下使用集成開(kāi)發(fā)環(huán)境(IDE)開(kāi)發(fā)項(xiàng)目時(shí),一般會(huì)使用IDE自帶的構(gòu)建工

    2024年02月06日
    瀏覽(21)
  • 爬蟲(chóng)小試牛刀(爬取學(xué)校通知公告)

    完成抓取并解析DGUT通知公告12頁(yè)數(shù)據(jù),并提交excel文件格式數(shù)據(jù),數(shù)據(jù)需要包含日期標(biāo)題,若能夠?qū)崿F(xiàn)將詳情頁(yè)主體內(nèi)容與發(fā)布人信息數(shù)據(jù)也一并抓取更佳 提交內(nèi)容:Excel數(shù)據(jù)文件 首先看到頁(yè)面呈現(xiàn)規(guī)則的各個(gè)方框,這意味著它們之間的一定是一樣的 此處該有圖 我們點(diǎn)開(kāi)后

    2024年02月09日
    瀏覽(18)
  • python爬蟲(chóng)實(shí)戰(zhàn)——小說(shuō)爬取

    python爬蟲(chóng)實(shí)戰(zhàn)——小說(shuō)爬取

    基于 requests 庫(kù)和 lxml 庫(kù)編寫(xiě)的爬蟲(chóng),目標(biāo)小說(shuō)網(wǎng)站域名http://www.365kk.cc/,類似的小說(shuō)網(wǎng)站殊途同歸,均可采用本文方法爬取。 目標(biāo)網(wǎng)站 :傳送門(mén) 本文的目標(biāo)書(shū)籍 :《我的師兄實(shí)在太穩(wěn)健了》 “渡劫只有九成八的把握,和送死有什么區(qū)別?” 網(wǎng)絡(luò)爬蟲(chóng)的工作實(shí)際上主要分為

    2024年02月06日
    瀏覽(25)
  • Python網(wǎng)頁(yè)爬蟲(chóng)爬取起點(diǎn)小說(shuō)——re解析網(wǎng)頁(yè)數(shù)據(jù)

    Python網(wǎng)頁(yè)爬蟲(chóng)爬取起點(diǎn)小說(shuō)——re解析網(wǎng)頁(yè)數(shù)據(jù)

    ??!注意:我們獲取到的網(wǎng)頁(yè)響應(yīng)數(shù)據(jù),可能會(huì)與網(wǎng)頁(yè)源代碼中呈現(xiàn)的格式不同。因?yàn)橛行┚W(wǎng)頁(yè)文件是用JavaScript加載的,瀏覽器會(huì)自動(dòng)將其解析成html文檔格式,而我們獲取到的內(nèi)容是JavaScript格式的文檔。所以獲取到響應(yīng)數(shù)據(jù)之后先要查看內(nèi)容是否與網(wǎng)頁(yè)源碼中的一致,不一

    2024年02月04日
    瀏覽(42)
  • 爬蟲(chóng)源碼---爬取自己想要看的小說(shuō)

    爬蟲(chóng)源碼---爬取自己想要看的小說(shuō)

    小說(shuō)作為在自己空閑時(shí)間下的消遣工具,對(duì)我們打發(fā)空閑時(shí)間很有幫助,而我們?cè)诰W(wǎng)站上面瀏覽小說(shuō)時(shí)會(huì)被廣告和其他一些東西影響我們的觀看體驗(yàn),而這時(shí)我們就可以利用爬蟲(chóng)將我們想要觀看的小說(shuō)下載下來(lái),這樣就不會(huì)擔(dān)心廣告的影響了。 Python版本:3.7.3 IDE:PyCharm 所需庫(kù)

    2024年02月09日
    瀏覽(27)
  • 網(wǎng)頁(yè)學(xué)習(xí)-小試牛刀

    網(wǎng)頁(yè)學(xué)習(xí)-小試牛刀

    分為三大部分: HTML 、 CSS 和 JavaScript 。 HTML(Hyper Text Markup Language,即超文本標(biāo)記語(yǔ)言),網(wǎng)頁(yè)骨架。 CSS(Cascading Style Sheets,層疊樣式表),使頁(yè)面變得美觀、優(yōu)雅,網(wǎng)頁(yè)皮膚。 JavaScript(簡(jiǎn)稱JS,是一種腳本語(yǔ)言),實(shí)現(xiàn)實(shí)時(shí)、動(dòng)態(tài)、交互的頁(yè)面功能,網(wǎng)頁(yè)肌肉。 學(xué)習(xí)目的

    2023年04月22日
    瀏覽(46)
  • Mapreduce小試牛刀(1)

    Mapreduce小試牛刀(1)

    1.與hdfs一樣,mapreduce基于hadoop框架,所以我們首先要啟動(dòng)hadoop服務(wù)器 --------------------------------------------------------------------------------------------------------------------------------- 2.修改hadoop-env.sh位置JAVA_HOME配置,在JAVA_HOME前面加上export,重啟主虛擬機(jī),最好也把另外兩個(gè)節(jié)點(diǎn)同位置的

    2024年02月04日
    瀏覽(23)
  • 運(yùn)維Shell腳本小試牛刀(二)

    運(yùn)維Shell腳本小試牛刀(二)

    運(yùn)維Shell腳本小試牛刀(一) 運(yùn)維Shell腳本小試牛刀(二) 運(yùn)維Shell腳本小試牛刀(三)::$(cd $(dirname $0); pwd)命令詳解 [root@www shelldic]# cat checkpass.sh? #!/bin/bash - #================================================================================================================== # # # ? ? ? ? ? ? ? ? ? ? ? ? ?

    2024年02月10日
    瀏覽(28)
  • 快速上手kettle(二)小試牛刀

    快速上手kettle(二)小試牛刀

    目錄 一 、前言 二 、兩個(gè)小目標(biāo) 三、 kettle核心概念介紹 3.1 轉(zhuǎn)換 3.1.1 步驟(Step) 3.1.2 跳(Hop) 3.1.3 元素?fù)?jù) 3.1.4 數(shù)據(jù)類型 3.1.5 并發(fā)執(zhí)行 3.2 作業(yè) 四、實(shí)踐操作 4.1 案例1 將csv文件轉(zhuǎn)換成excel文件 4.1.1 在kettle中新建一個(gè)轉(zhuǎn)換 4.1.2選擇輸入控件并設(shè)置 4.1.3 選擇輸出控件并設(shè)置 4.

    2024年02月06日
    瀏覽(25)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包