国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù)

這篇具有很好參考價(jià)值的文章主要介紹了python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

想要每天看到新聞數(shù)據(jù)又不想占用太多時(shí)間去整理,萌生自己抓取新聞網(wǎng)站的想法。

1. 準(zhǔn)備工作

使用python語(yǔ)言可以快速實(shí)現(xiàn),調(diào)用BeautifulSoup包里面的方法
安裝BeautifulSoup

pip install BeautifulSoup

完成以后引入項(xiàng)目

2. 開發(fā)

定義請(qǐng)求頭,方便把請(qǐng)求包裝成正常的用戶請(qǐng)求,防止被拒絕

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36"
}

定義被抓取的url,并請(qǐng)求加上請(qǐng)求頭

    response = requests.get(url=url, headers=headers)

BeautifulSoup解析

    soup = BeautifulSoup(response.text, "html.parser")

分析網(wǎng)站需要提取數(shù)據(jù)的標(biāo)簽python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù),python,開發(fā)語(yǔ)言,爬蟲python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù),python,開發(fā)語(yǔ)言,爬蟲
因?yàn)楂@取的對(duì)象是li標(biāo)簽的第一個(gè),即

        divs = soup.find(class_="js-item item")

這樣默認(rèn)就是第一個(gè),如果需要獲取全部,則需要find_all,遍歷集合
防止獲取到的新聞是當(dāng)天的做一個(gè)日期判斷

        a = first_div.find(class_="title")
        if a.getText().__contains__(datetime.date.today().strftime("%#m月%#d日")):

日期存在title里面所以為了判斷單獨(dú)取一下信息
然后要取到最新日期的新聞自己的url,并get請(qǐng)求這個(gè)url
python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù),python,開發(fā)語(yǔ)言,爬蟲

            b = a.get('href')
            response = requests.get(url=b, headers=headers)
            soup = BeautifulSoup(response.text, "html.parser")

打開新的網(wǎng)址后分析網(wǎng)站標(biāo)簽信息

python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù),python,開發(fā)語(yǔ)言,爬蟲
取這個(gè)標(biāo)簽,獲取到p標(biāo)簽的值

            body = soup.find(class_="post_body")
            p = body.find_all('p')

獲取到的是個(gè)數(shù)組,去掉第一個(gè)元素,從第二個(gè)開始即是我們需要的結(jié)果

            p_id_tag = p[1].__str__()

輸出的信息帶有元素標(biāo)記,使用正則處理一下

            raw_text = re.findall(r'<p[^>]*>(.*?)</p>', p_id_tag).__str__()
            # 去掉 HTML 標(biāo)簽并換行顯示
            clean_text = raw_text.replace('<br/>', '\n').replace('<p>', '').replace('</p>', '').replace("']",
                                                                                                        "").replace(
                "['", "").replace(r"\u200b", "")

然后把抓取的信息寫入txt

            file = open("C:\\Users\\Administrator\\Desktop\\每日新聞" + '.txt',
                        'w', encoding='utf-8')
            file.write(clean_text)
            file.close()

最后使用定時(shí)任務(wù)每天定時(shí)抓取,這樣就可以每天更新了

    schedule.every().day.at("08:00").do(getNews)
    while True:
        schedule.run_pending()
        time.sleep(1)

運(yùn)行效果
python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù),python,開發(fā)語(yǔ)言,爬蟲文章來源地址http://www.zghlxwxcb.cn/news/detail-638028.html

到了這里,關(guān)于python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【Python爬蟲開發(fā)實(shí)戰(zhàn)②】使用urllib以及jsonpath爬取即將上映電影信息

    【Python爬蟲開發(fā)實(shí)戰(zhàn)②】使用urllib以及jsonpath爬取即將上映電影信息

    ?? 個(gè)人主頁(yè) :為夢(mèng)而生~ 關(guān)注我一起學(xué)習(xí)吧! ?? 專欄 :python網(wǎng)絡(luò)爬蟲從基礎(chǔ)到實(shí)戰(zhàn) 歡迎訂閱!后面的內(nèi)容會(huì)越來越有意思~ ?? 往期推薦 : ??首先,我們前面講了多篇基礎(chǔ)內(nèi)容: 【Python爬蟲開發(fā)基礎(chǔ)④】爬蟲原理 【Python爬蟲開發(fā)基礎(chǔ)⑤】HTML概述與基本標(biāo)簽詳解 【P

    2024年02月12日
    瀏覽(29)
  • 〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)?〗- Ajax數(shù)據(jù)爬取之Ajax 案例實(shí)戰(zhàn)

    訂閱:新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+ ????????????????python項(xiàng)目實(shí)戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列(零基礎(chǔ)小白搬磚逆襲) 說明:本專欄持續(xù)更新中,目前專欄免費(fèi)訂閱,在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的,可以免費(fèi)訂閱付費(fèi)專欄,

    2024年02月06日
    瀏覽(59)
  • Python爬蟲實(shí)戰(zhàn):selenium爬取電商平臺(tái)商品數(shù)據(jù)(1)

    Python爬蟲實(shí)戰(zhàn):selenium爬取電商平臺(tái)商品數(shù)據(jù)(1)

    def index_page(page): “”\\\" 抓取索引頁(yè) :param page: 頁(yè)碼 “”\\\" print(‘正在爬取第’, str(page), ‘頁(yè)數(shù)據(jù)’) try: url = ‘https://search.jd.com/Search?keyword=iPhoneev=exbrand_Apple’ driver.get(url) if page 1: input = driver.find_element_by_xpath(‘//*[@id=“J_bottomPage”]/span[2]/input’) button = driver.find_element_by_xpath(‘

    2024年04月28日
    瀏覽(39)
  • 〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)?〗- Ajax數(shù)據(jù)爬取之Ajax 分析案例

    訂閱:新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+ ????????????????python項(xiàng)目實(shí)戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列(零基礎(chǔ)小白搬磚逆襲) 說明:本專欄持續(xù)更新中,目前專欄免費(fèi)訂閱,在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的,可以免費(fèi)訂閱付費(fèi)專欄,

    2024年02月07日
    瀏覽(55)
  • 【python爬蟲實(shí)戰(zhàn)】用python爬取愛奇藝電視劇十大榜單的全部數(shù)據(jù)!

    【python爬蟲實(shí)戰(zhàn)】用python爬取愛奇藝電視劇十大榜單的全部數(shù)據(jù)!

    目錄 一、爬取目標(biāo) 二、講解代碼 三、查看結(jié)果 四、視頻演示 五、附完整源碼 本次爬取的目標(biāo)是,愛奇藝電視劇類目下的10個(gè)榜單:電視劇風(fēng)云榜-愛奇藝風(fēng)云榜 ? 可以看到,這10個(gè)榜單包含了: 熱播榜、飆升榜、必看榜、古裝榜、言情榜、都市榜、搞笑榜、年代榜、懸疑

    2024年02月08日
    瀏覽(94)
  • 爬蟲機(jī)試題-爬取新聞網(wǎng)站

    爬蟲機(jī)試題-爬取新聞網(wǎng)站

    之前投簡(jiǎn)歷時(shí)遇到了這樣的一個(gè)筆試。本以為會(huì)是數(shù)據(jù)結(jié)構(gòu)算法之類的沒想到直接發(fā)了一個(gè)word直接提需求,感覺挺有意思就寫了這篇文章,感興趣的朋友可以看看。 通過分析頁(yè)面結(jié)構(gòu)我們得以知道,這個(gè)頁(yè)面本身沒有新聞信息,是由js代碼執(zhí)行后才將信息插入到html中的,因

    2024年04月25日
    瀏覽(21)
  • python爬蟲實(shí)戰(zhàn)——小說爬取

    python爬蟲實(shí)戰(zhàn)——小說爬取

    基于 requests 庫(kù)和 lxml 庫(kù)編寫的爬蟲,目標(biāo)小說網(wǎng)站域名http://www.365kk.cc/,類似的小說網(wǎng)站殊途同歸,均可采用本文方法爬取。 目標(biāo)網(wǎng)站 :傳送門 本文的目標(biāo)書籍 :《我的師兄實(shí)在太穩(wěn)健了》 “渡劫只有九成八的把握,和送死有什么區(qū)別?” 網(wǎng)絡(luò)爬蟲的工作實(shí)際上主要分為

    2024年02月06日
    瀏覽(25)
  • selenium爬蟲——以爬取澎湃新聞某搜索結(jié)果為例

    selenium爬蟲——以爬取澎湃新聞某搜索結(jié)果為例

    本程序致力于實(shí)現(xiàn)以下目標(biāo): (1)爬取澎湃新聞關(guān)于“反腐”的全部文章內(nèi)容; (2)按標(biāo)題、鏈接將其整理到excel中; (3)將標(biāo)題和文章整合到一個(gè)word文檔中。 許久沒有正經(jīng)寫過了,有些生疏,代碼耦合度蠻高的,所幸目標(biāo)達(dá)成了。 webdriver的版本要與瀏覽器一致 如果用

    2024年02月06日
    瀏覽(45)
  • 【爬蟲系列】Python爬蟲實(shí)戰(zhàn)--招聘網(wǎng)站的職位信息爬取

    【爬蟲系列】Python爬蟲實(shí)戰(zhàn)--招聘網(wǎng)站的職位信息爬取

    1. 需求分析 從網(wǎng)上找工作,大家一般都會(huì)通過各種招聘網(wǎng)站去檢索相關(guān)信息,今天利用爬蟲采集招聘網(wǎng)站的職位信息,比如崗位名稱,崗位要求,薪資,公司名稱,公司規(guī)模,公司位置,福利待遇等最為關(guān)心的內(nèi)容。在采集和解析完成后,使用 Excel 或 csv 文件保存。 2. 目標(biāo)

    2024年02月02日
    瀏覽(29)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包