国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python實(shí)驗(yàn)項(xiàng)目9 ：網(wǎng)絡(luò)爬蟲與自動(dòng)化

2年前作者：！?。?25分類：Toy博客閱讀(23)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Python實(shí)驗(yàn)項(xiàng)目9 ：網(wǎng)絡(luò)爬蟲與自動(dòng)化。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

實(shí)驗(yàn)?1：爬取網(wǎng)頁(yè)中的數(shù)據(jù)。

要求：使用?urllib?庫(kù)和?requests?庫(kù)分別爬取?http://www.sohu.com?首頁(yè)的前?360?個(gè)字節(jié)的數(shù)據(jù)。

# 要求：使用 urllib 庫(kù)和 requests 庫(kù)分別爬取 http://www.sohu.com 首頁(yè)的前 360 個(gè)字節(jié)的數(shù)據(jù)。
import urllib.request
import requests
# 使用 urllib 庫(kù)爬取 http://www.sohu.com 首頁(yè)的前 360 個(gè)字節(jié)的數(shù)據(jù)。
url = 'http://www.sohu.com'
req = urllib.request.Request(url)
res = urllib.request.urlopen(req)
data = res.read(360)
print(data)


# 使用 requests 庫(kù)爬取 http://www.sohu.com 首頁(yè)的前 360 個(gè)字節(jié)的數(shù)據(jù)。
#url = 'http://www.sohu.com'
#res = requests.get(url)
#data = res.content[:360]
#print(data)

實(shí)驗(yàn)?2：測(cè)試?BeautifulSoup?對(duì)象的方法。

要求：

1）創(chuàng)建?BeautifulSoup?對(duì)象。

2）測(cè)試搜索文檔樹的?find_all()方法和?find()方法。

# 實(shí)驗(yàn) 2：測(cè)試 BeautifulSoup 對(duì)象的方法。
# 要求：
# 1）創(chuàng)建 BeautifulSoup 對(duì)象。
# 2）測(cè)試搜索文檔樹的 find_all()方法和 find()方法。
from bs4 import BeautifulSoup
import requests
# 過http請(qǐng)求加載網(wǎng)頁(yè)
response = requests.get("http://www.sohu.com")
# 創(chuàng)建BeautifulSoup對(duì)象
soup = BeautifulSoup(response.text, "html.parser")
# 搜索文檔樹的find_all()方法
print(soup.find_all("a"))
# 搜索文檔樹的find()方法
print(soup.find("a"))

?實(shí)驗(yàn)?3：爬取并分析網(wǎng)頁(yè)頁(yè)面數(shù)據(jù)。

?（1）使用requests庫(kù)爬取https://www.hnnu.edu.cn/main.htm首頁(yè)內(nèi)容。

（2）編寫程序獲取https://www.hnnu.edu.cn/119/list.htm的通知公告的信息。??

# 實(shí)驗(yàn) 3：爬取并分析網(wǎng)頁(yè)頁(yè)面數(shù)據(jù)。
# （1）使用requests庫(kù)爬取https://www.hnnu.edu.cn/main.htm首頁(yè)內(nèi)容。
# （2）編寫程序獲取https://www.hnnu.edu.cn/119/list.htm的通知公告的信息。
import requests
from bs4 import BeautifulSoup
url = 'https://www.hnnu.edu.cn/main.htm'
res = requests.get(url)
soup = BeautifulSoup(res.text,'html.parser')
print(soup.find_all('a'))
print(soup.find('a'))

for i in range(1,23,1):
    url = 'https://www.hnnu.edu.cn/119/list.htm{}.htm'.format(i)
    res = requests.get(url)
    soup = BeautifulSoup(res.text,'html.parser')
    print("-------------------------------------------------------")
    print(soup)
    #print(soup.find('a'))

實(shí)驗(yàn)四：爬取關(guān)鍵詞+制作詞云

# 爬取關(guān)鍵字
from typing import List, Any

import requests

from bs4 import BeautifulSoup

urls=[]

for i in range(1,23):

    urls.append('https://www.hnnu.edu.cn/gyxy/list'+str(i)+'.htm')# 這里改地址

def getURL(url):

    r=requests.get(url)

    r.encoding='utf-8'

    return r.text

def getSoup(url):

    txt=getURL(url)

    soup=BeautifulSoup(txt,'html.parser')

    return soup



def getContent(soup):

    content=soup.find('ul',{'class':'news_list list2'})# ul對(duì)應(yīng)的list

    titles=[]

    dates=[]

    for item in content.find_all('li'):

#         titles.append(item.a['title'])

        date=item.find('span',{'class':'news_meta'})

#         dates.append(date.string)

        titles.append([date.string,item.a['title']])

    return titles

articles=[]

for url in urls:

    soup=getSoup(url)

    articles.append(getContent(soup))
t=""
for item in articles:
    t=t+(str)(item)
# 制作詞云
import jieba

import wordcloud

jieba.add_word("淮南師范學(xué)院")

ls=jieba.lcut(t)

w=wordcloud.WordCloud(width=1000,height=700,background_color='white',font_path='simhei.ttf')

txt=" ".join(ls)

w.generate(txt)

w.to_file('out1.png')

文章來源地址http://www.zghlxwxcb.cn/news/detail-773404.html

到了這里，關(guān)于Python實(shí)驗(yàn)項(xiàng)目9 ：網(wǎng)絡(luò)爬蟲與自動(dòng)化的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Python爬蟲實(shí)戰(zhàn)：自動(dòng)化數(shù)據(jù)采集與分析
在大數(shù)據(jù)時(shí)代，數(shù)據(jù)采集與分析已經(jīng)成為了許多行業(yè)的核心競(jìng)爭(zhēng)力。Python作為一門廣泛應(yīng)用的編程語言，擁有豐富的爬蟲庫(kù)，使得我們能夠輕松實(shí)現(xiàn)自動(dòng)化數(shù)據(jù)采集與分析。本文將通過一個(gè)簡(jiǎn)單的示例，帶您了解如何使用Python進(jìn)行爬蟲實(shí)戰(zhàn)。一、環(huán)境準(zhǔn)備首先，確保您已經(jīng)
2024年02月11日
瀏覽(28)
Python爬蟲實(shí)戰(zhàn)——Lazada商品數(shù)據(jù)（selenium自動(dòng)化爬蟲，xpath定位）
? ? ? ? 在此說明，這個(gè)項(xiàng)目是我第一次真正去爬的一個(gè)網(wǎng)站，里面寫的代碼我自己都看不下去，但是已經(jīng)不想花時(shí)間去重構(gòu)了，所以看個(gè)樂呵就好，要噴也可以（下手輕一點(diǎn)）。這篇文算是記錄我的學(xué)習(xí)中出現(xiàn)的一些問題，不建議拿來學(xué)習(xí)和真拿我的代碼去爬Lazada的數(shù)據(jù)，
2024年02月02日
瀏覽(23)
Python爬蟲技術(shù)之Selenium自動(dòng)化測(cè)試及模擬點(diǎn)擊頁(yè)面爬蟲最全知識(shí)
Selenium是一套Web網(wǎng)站的程序自動(dòng)化操作解決方案（比如點(diǎn)擊界面按鈕，在文本框中輸入文字等操作） Selenium的自動(dòng)化原理如下 3.1 下載selenium庫(kù)的命令 3.2 下載谷歌瀏覽器Chrome對(duì)應(yīng)的驅(qū)動(dòng) 驅(qū)動(dòng)庫(kù)網(wǎng)址：http://chromedriver.storage.googleapis.com/index.html 注意：根據(jù)自己的Chrome版本進(jìn)行選擇
2024年01月16日
瀏覽(95)
Python爬蟲框架之Selenium庫(kù)入門：用Python實(shí)現(xiàn)網(wǎng)頁(yè)自動(dòng)化測(cè)試詳解
是否還在為網(wǎng)頁(yè)測(cè)試而煩惱？是否還在為重復(fù)的點(diǎn)擊、等待而勞累？試試強(qiáng)大的 Selenium ！讓你的網(wǎng)頁(yè)自動(dòng)化測(cè)試變得輕松有趣！ Selenium 是一個(gè)強(qiáng)大的自動(dòng)化測(cè)試工具，它可以讓你直接操控瀏覽器，完成各種與網(wǎng)頁(yè)交互的任務(wù)。通過使用 Python 的 Selenium 庫(kù)，你可以高效地實(shí)現(xiàn)
2024年02月10日
瀏覽(24)
Python爬蟲技術(shù)系列-06selenium完成自動(dòng)化測(cè)試V01
使用selenium庫(kù)完成動(dòng)點(diǎn)擊下一頁(yè)，點(diǎn)擊視頻操作等過程，如果你非要說這是XX，那我也不過多辯解，畢竟批評(píng)不自由，贊美無意義。本案例僅是技術(shù)演示，所以會(huì)隱去相關(guān)網(wǎng)址等，讀者可以重點(diǎn)查看這里使用的selenium技術(shù)點(diǎn)即可。另外本版本為V01版本，所以僅僅是可用，很多
2024年02月05日
瀏覽(25)
從零開始學(xué)習(xí)Python控制開源Selenium庫(kù)自動(dòng)化瀏覽器操作，實(shí)現(xiàn)爬蟲，自動(dòng)化測(cè)試等功能（一）
介紹Selenium ： Selenium是一個(gè)用于自動(dòng)化瀏覽器操作的開源工具和庫(kù)。它最初是為Web應(yīng)用測(cè)試而創(chuàng)建的，但隨著時(shí)間的推移，它被廣泛用于Web數(shù)據(jù)抓取和網(wǎng)頁(yè)自動(dòng)化操作。Selenium 支持多種編程語言，包括Python，Java，C#等。這里我們主要實(shí)現(xiàn)采用Python的方式 Selenium 的主要特點(diǎn)和
2024年01月22日
瀏覽(92)
從零開始學(xué)python（十三）爬蟲工程師自動(dòng)化和抓包
回顧之前講述了python語法編程必修入門基礎(chǔ)和網(wǎng)絡(luò)編程，多線程/多進(jìn)程/協(xié)程等方面的內(nèi)容，后續(xù)講到了數(shù)據(jù)庫(kù)編程篇MySQL，Redis，MongoDB篇，和機(jī)器學(xué)習(xí)，全棧開發(fā)，數(shù)據(jù)分析，爬蟲數(shù)據(jù)采集前面沒看的也不用往前翻，系列文已經(jīng)整理好了： 1.跟我一起從零開始學(xué)python（一）
2024年02月14日
瀏覽(29)
爬蟲實(shí)戰(zhàn)（一）Python+selenium自動(dòng)化獲取數(shù)據(jù)存儲(chǔ)到Mysql中
??行話說得好，“爬蟲學(xué)得好，牢飯吃到飽！”哈哈博主是因這句話入的坑，不為別的就為邀大家一起鐵窗淚（bushi），本人雖小牛一只，但是喜愛搗鼓技術(shù)，有興趣的小伙伴們可以共同探討，也歡迎各位大佬們的指點(diǎn)，愿共同進(jìn)步！ ??這次計(jì)劃是翻墻爬取外網(wǎng)某網(wǎng)站
2024年01月17日
瀏覽(34)
Python-playwright：一款強(qiáng)大的UI自動(dòng)化工具、新興爬蟲利器
點(diǎn)擊名片關(guān)注?阿塵blog，一起學(xué)習(xí)，一起成長(zhǎng) 本文主要分享由微軟開發(fā)的實(shí)現(xiàn)Web UI自動(dòng)化測(cè)試工具Playwright庫(kù)，相比于之前學(xué)習(xí)過selenium庫(kù)，playwright對(duì)于編寫自動(dòng)化代碼絕對(duì)是更輕松了，因?yàn)樗С帜_本錄制，如果只求簡(jiǎn)單點(diǎn)可以不用寫一行代碼就能夠?qū)崿F(xiàn)自動(dòng)化，而且play
2024年02月04日
瀏覽(86)
Python-爬蟲、自動(dòng)化（selenium，動(dòng)態(tài)網(wǎng)頁(yè)翻頁(yè)，模擬搜索，下拉列表選擇、selenium行為鏈）
selenium是一個(gè)Web自動(dòng)化測(cè)試工具，可以直接運(yùn)行在瀏覽器上·支持所有主流的瀏覽器.可以根據(jù)我們的指令，讓瀏覽器自動(dòng)加載頁(yè)面，獲取需要的數(shù)據(jù)，基礎(chǔ)頁(yè)面截圖等。使用pip install selenium命令下載selenium模塊。運(yùn)行下列代碼：說明沒有下載對(duì)應(yīng)瀏覽器的驅(qū)動(dòng)，這里使用谷歌
2024年02月01日
瀏覽(28)