国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<th id="qaj85"></th><legend id="qaj85"><menu id="qaj85"></menu></legend>

python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù)

1年前作者：ChrisitineTX分類：Toy博客閱讀(30)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

想要每天看到新聞數(shù)據(jù)又不想占用太多時(shí)間去整理，萌生自己抓取新聞網(wǎng)站的想法。

1. 準(zhǔn)備工作

使用python語(yǔ)言可以快速實(shí)現(xiàn)，調(diào)用BeautifulSoup包里面的方法
安裝BeautifulSoup

pip install BeautifulSoup

完成以后引入項(xiàng)目

2. 開發(fā)

定義請(qǐng)求頭，方便把請(qǐng)求包裝成正常的用戶請(qǐng)求，防止被拒絕

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36"
}

定義被抓取的url，并請(qǐng)求加上請(qǐng)求頭

    response = requests.get(url=url, headers=headers)

BeautifulSoup解析

    soup = BeautifulSoup(response.text, "html.parser")

分析網(wǎng)站需要提取數(shù)據(jù)的標(biāo)簽 python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù),python,開發(fā)語(yǔ)言,爬蟲
因?yàn)楂@取的對(duì)象是li標(biāo)簽的第一個(gè)，即

        divs = soup.find(class_="js-item item")

這樣默認(rèn)就是第一個(gè)，如果需要獲取全部，則需要find_all，遍歷集合
防止獲取到的新聞是當(dāng)天的做一個(gè)日期判斷

        a = first_div.find(class_="title")
        if a.getText().__contains__(datetime.date.today().strftime("%#m月%#d日")):

日期存在title里面所以為了判斷單獨(dú)取一下信息
然后要取到最新日期的新聞自己的url，并get請(qǐng)求這個(gè)url
python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù),python,開發(fā)語(yǔ)言,爬蟲

            b = a.get('href')
            response = requests.get(url=b, headers=headers)
            soup = BeautifulSoup(response.text, "html.parser")

打開新的網(wǎng)址后分析網(wǎng)站標(biāo)簽信息

python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù),python,開發(fā)語(yǔ)言,爬蟲
取這個(gè)標(biāo)簽，獲取到p標(biāo)簽的值

            body = soup.find(class_="post_body")
            p = body.find_all('p')

獲取到的是個(gè)數(shù)組，去掉第一個(gè)元素，從第二個(gè)開始即是我們需要的結(jié)果

            p_id_tag = p[1].__str__()

輸出的信息帶有元素標(biāo)記，使用正則處理一下

            raw_text = re.findall(r'<p[^>]*>(.*?)</p>', p_id_tag).__str__()
            # 去掉 HTML 標(biāo)簽并換行顯示
            clean_text = raw_text.replace('<br/>', '\n').replace('<p>', '').replace('</p>', '').replace("']",
                                                                                                        "").replace(
                "['", "").replace(r"\u200b", "")

然后把抓取的信息寫入txt

            file = open("C:\\Users\\Administrator\\Desktop\\每日新聞" + '.txt',
                        'w', encoding='utf-8')
            file.write(clean_text)
            file.close()

最后使用定時(shí)任務(wù)每天定時(shí)抓取，這樣就可以每天更新了

    schedule.every().day.at("08:00").do(getNews)
    while True:
        schedule.run_pending()
        time.sleep(1)

運(yùn)行效果
python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù),python,開發(fā)語(yǔ)言,爬蟲文章來源地址http://www.zghlxwxcb.cn/news/detail-638028.html

到了這里，關(guān)于python爬蟲實(shí)戰(zhàn)(1)--爬取新聞數(shù)據(jù)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【Python爬蟲開發(fā)實(shí)戰(zhàn)②】使用urllib以及jsonpath爬取即將上映電影信息
?? 個(gè)人主頁(yè) ：為夢(mèng)而生~ 關(guān)注我一起學(xué)習(xí)吧！ ?? 專欄：python網(wǎng)絡(luò)爬蟲從基礎(chǔ)到實(shí)戰(zhàn) 歡迎訂閱！后面的內(nèi)容會(huì)越來越有意思~ ?? 往期推薦： ??首先，我們前面講了多篇基礎(chǔ)內(nèi)容：【Python爬蟲開發(fā)基礎(chǔ)④】爬蟲原理【Python爬蟲開發(fā)基礎(chǔ)⑤】HTML概述與基本標(biāo)簽詳解【P
2024年02月12日
瀏覽(29)
〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)?〗- Ajax數(shù)據(jù)爬取之Ajax 案例實(shí)戰(zhàn)
訂閱：新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+ ????????????????python項(xiàng)目實(shí)戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列（零基礎(chǔ)小白搬磚逆襲) 說明：本專欄持續(xù)更新中，目前專欄免費(fèi)訂閱，在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的，可以免費(fèi)訂閱付費(fèi)專欄，
2024年02月06日
瀏覽(59)
Python爬蟲實(shí)戰(zhàn)：selenium爬取電商平臺(tái)商品數(shù)據(jù)(1)
def index_page(page): “”\\\" 抓取索引頁(yè) :param page: 頁(yè)碼 “”\\\" print(‘正在爬取第’, str(page), ‘頁(yè)數(shù)據(jù)’) try: url = ‘https://search.jd.com/Search?keyword=iPhoneev=exbrand_Apple’ driver.get(url) if page 1: input = driver.find_element_by_xpath(‘//*[@id=“J_bottomPage”]/span[2]/input’) button = driver.find_element_by_xpath(‘
2024年04月28日
瀏覽(39)
〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)?〗- Ajax數(shù)據(jù)爬取之Ajax 分析案例
訂閱：新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+ ????????????????python項(xiàng)目實(shí)戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列（零基礎(chǔ)小白搬磚逆襲) 說明：本專欄持續(xù)更新中，目前專欄免費(fèi)訂閱，在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的，可以免費(fèi)訂閱付費(fèi)專欄，
2024年02月07日
瀏覽(55)
（十五）python網(wǎng)絡(luò)爬蟲（理論+實(shí)戰(zhàn)）——實(shí)戰(zhàn)：eastmoney滬深京A股股票數(shù)據(jù)爬取，表格解析
目錄 7 爬取滬深京A股股票數(shù)據(jù) ? ? ? 7.1 爬取目標(biāo)
2023年04月22日
瀏覽(26)
【python爬蟲實(shí)戰(zhàn)】用python爬取愛奇藝電視劇十大榜單的全部數(shù)據(jù)！
目錄一、爬取目標(biāo) 二、講解代碼三、查看結(jié)果四、視頻演示五、附完整源碼本次爬取的目標(biāo)是，愛奇藝電視劇類目下的10個(gè)榜單：電視劇風(fēng)云榜-愛奇藝風(fēng)云榜 ? 可以看到，這10個(gè)榜單包含了：熱播榜、飆升榜、必看榜、古裝榜、言情榜、都市榜、搞笑榜、年代榜、懸疑
2024年02月08日
瀏覽(94)
爬蟲機(jī)試題-爬取新聞網(wǎng)站
之前投簡(jiǎn)歷時(shí)遇到了這樣的一個(gè)筆試。本以為會(huì)是數(shù)據(jù)結(jié)構(gòu)算法之類的沒想到直接發(fā)了一個(gè)word直接提需求，感覺挺有意思就寫了這篇文章，感興趣的朋友可以看看。通過分析頁(yè)面結(jié)構(gòu)我們得以知道，這個(gè)頁(yè)面本身沒有新聞信息，是由js代碼執(zhí)行后才將信息插入到html中的，因
2024年04月25日
瀏覽(21)
python爬蟲實(shí)戰(zhàn)——小說爬取
基于 requests 庫(kù)和 lxml 庫(kù)編寫的爬蟲，目標(biāo)小說網(wǎng)站域名http://www.365kk.cc/，類似的小說網(wǎng)站殊途同歸，均可采用本文方法爬取。目標(biāo)網(wǎng)站：傳送門本文的目標(biāo)書籍：《我的師兄實(shí)在太穩(wěn)健了》 “渡劫只有九成八的把握，和送死有什么區(qū)別？” 網(wǎng)絡(luò)爬蟲的工作實(shí)際上主要分為
2024年02月06日
瀏覽(25)
selenium爬蟲——以爬取澎湃新聞某搜索結(jié)果為例
本程序致力于實(shí)現(xiàn)以下目標(biāo)：（1）爬取澎湃新聞關(guān)于“反腐”的全部文章內(nèi)容；（2）按標(biāo)題、鏈接將其整理到excel中；（3）將標(biāo)題和文章整合到一個(gè)word文檔中。許久沒有正經(jīng)寫過了，有些生疏，代碼耦合度蠻高的，所幸目標(biāo)達(dá)成了。 webdriver的版本要與瀏覽器一致如果用
2024年02月06日
瀏覽(45)
【爬蟲系列】Python爬蟲實(shí)戰(zhàn)--招聘網(wǎng)站的職位信息爬取
1. 需求分析從網(wǎng)上找工作，大家一般都會(huì)通過各種招聘網(wǎng)站去檢索相關(guān)信息，今天利用爬蟲采集招聘網(wǎng)站的職位信息，比如崗位名稱，崗位要求，薪資，公司名稱，公司規(guī)模，公司位置，福利待遇等最為關(guān)心的內(nèi)容。在采集和解析完成后，使用 Excel 或 csv 文件保存。 2. 目標(biāo)
2024年02月02日
瀏覽(29)

<menuitem id="udizh"></menuitem>