国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python實(shí)驗(yàn)項(xiàng)目9 :網(wǎng)絡(luò)爬蟲與自動(dòng)化

這篇具有很好參考價(jià)值的文章主要介紹了Python實(shí)驗(yàn)項(xiàng)目9 :網(wǎng)絡(luò)爬蟲與自動(dòng)化。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

實(shí)驗(yàn)?1:爬取網(wǎng)頁(yè)中的數(shù)據(jù)。

要求:使用?urllib?庫(kù)和?requests?庫(kù)分別爬取?http://www.sohu.com?首頁(yè)的前?360?個(gè)字節(jié)的數(shù)據(jù)。

# 要求:使用 urllib 庫(kù)和 requests 庫(kù)分別爬取 http://www.sohu.com 首頁(yè)的前 360 個(gè)字節(jié)的數(shù)據(jù)。
import urllib.request
import requests
# 使用 urllib 庫(kù)爬取 http://www.sohu.com 首頁(yè)的前 360 個(gè)字節(jié)的數(shù)據(jù)。
url = 'http://www.sohu.com'
req = urllib.request.Request(url)
res = urllib.request.urlopen(req)
data = res.read(360)
print(data)


# 使用 requests 庫(kù)爬取 http://www.sohu.com 首頁(yè)的前 360 個(gè)字節(jié)的數(shù)據(jù)。
#url = 'http://www.sohu.com'
#res = requests.get(url)
#data = res.content[:360]
#print(data)

python爬蟲實(shí)驗(yàn),Python,python,開發(fā)語言

實(shí)驗(yàn)?2:測(cè)試?BeautifulSoup?對(duì)象的方法。

要求:

1)創(chuàng)建?BeautifulSoup?對(duì)象。
2)測(cè)試搜索文檔樹的?find_all()方法和?find()方法。
# 實(shí)驗(yàn) 2:測(cè)試 BeautifulSoup 對(duì)象的方法。
# 要求:
# 1)創(chuàng)建 BeautifulSoup 對(duì)象。
# 2)測(cè)試搜索文檔樹的 find_all()方法和 find()方法。
from bs4 import BeautifulSoup
import requests
# 過http請(qǐng)求加載網(wǎng)頁(yè)
response = requests.get("http://www.sohu.com")
# 創(chuàng)建BeautifulSoup對(duì)象
soup = BeautifulSoup(response.text, "html.parser")
# 搜索文檔樹的find_all()方法
print(soup.find_all("a"))
# 搜索文檔樹的find()方法
print(soup.find("a"))

python爬蟲實(shí)驗(yàn),Python,python,開發(fā)語言

?實(shí)驗(yàn)?3:爬取并分析網(wǎng)頁(yè)頁(yè)面數(shù)據(jù)。

?(1)使用requests庫(kù)爬取https://www.hnnu.edu.cn/main.htm首頁(yè)內(nèi)容。
(2)編寫程序獲取https://www.hnnu.edu.cn/119/list.htm的通知公告的信息。??
# 實(shí)驗(yàn) 3:爬取并分析網(wǎng)頁(yè)頁(yè)面數(shù)據(jù)。
# (1)使用requests庫(kù)爬取https://www.hnnu.edu.cn/main.htm首頁(yè)內(nèi)容。
# (2)編寫程序獲取https://www.hnnu.edu.cn/119/list.htm的通知公告的信息。
import requests
from bs4 import BeautifulSoup
url = 'https://www.hnnu.edu.cn/main.htm'
res = requests.get(url)
soup = BeautifulSoup(res.text,'html.parser')
print(soup.find_all('a'))
print(soup.find('a'))

for i in range(1,23,1):
    url = 'https://www.hnnu.edu.cn/119/list.htm{}.htm'.format(i)
    res = requests.get(url)
    soup = BeautifulSoup(res.text,'html.parser')
    print("-------------------------------------------------------")
    print(soup)
    #print(soup.find('a'))

python爬蟲實(shí)驗(yàn),Python,python,開發(fā)語言

實(shí)驗(yàn)四:爬取關(guān)鍵詞+制作詞云

# 爬取關(guān)鍵字
from typing import List, Any

import requests

from bs4 import BeautifulSoup

urls=[]

for i in range(1,23):

    urls.append('https://www.hnnu.edu.cn/gyxy/list'+str(i)+'.htm')# 這里改地址

def getURL(url):

    r=requests.get(url)

    r.encoding='utf-8'

    return r.text

def getSoup(url):

    txt=getURL(url)

    soup=BeautifulSoup(txt,'html.parser')

    return soup



def getContent(soup):

    content=soup.find('ul',{'class':'news_list list2'})# ul對(duì)應(yīng)的list

    titles=[]

    dates=[]

    for item in content.find_all('li'):

#         titles.append(item.a['title'])

        date=item.find('span',{'class':'news_meta'})

#         dates.append(date.string)

        titles.append([date.string,item.a['title']])

    return titles

articles=[]

for url in urls:

    soup=getSoup(url)

    articles.append(getContent(soup))
t=""
for item in articles:
    t=t+(str)(item)
# 制作詞云
import jieba

import wordcloud

jieba.add_word("淮南師范學(xué)院")

ls=jieba.lcut(t)

w=wordcloud.WordCloud(width=1000,height=700,background_color='white',font_path='simhei.ttf')

txt=" ".join(ls)

w.generate(txt)

w.to_file('out1.png')

python爬蟲實(shí)驗(yàn),Python,python,開發(fā)語言

python爬蟲實(shí)驗(yàn),Python,python,開發(fā)語言文章來源地址http://www.zghlxwxcb.cn/news/detail-773404.html

到了這里,關(guān)于Python實(shí)驗(yàn)項(xiàng)目9 :網(wǎng)絡(luò)爬蟲與自動(dòng)化的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Python爬蟲實(shí)戰(zhàn):自動(dòng)化數(shù)據(jù)采集與分析

    在大數(shù)據(jù)時(shí)代,數(shù)據(jù)采集與分析已經(jīng)成為了許多行業(yè)的核心競(jìng)爭(zhēng)力。Python作為一門廣泛應(yīng)用的編程語言,擁有豐富的爬蟲庫(kù),使得我們能夠輕松實(shí)現(xiàn)自動(dòng)化數(shù)據(jù)采集與分析。本文將通過一個(gè)簡(jiǎn)單的示例,帶您了解如何使用Python進(jìn)行爬蟲實(shí)戰(zhàn)。 一、環(huán)境準(zhǔn)備 首先,確保您已經(jīng)

    2024年02月11日
    瀏覽(28)
  • Python爬蟲實(shí)戰(zhàn)——Lazada商品數(shù)據(jù)(selenium自動(dòng)化爬蟲,xpath定位)

    Python爬蟲實(shí)戰(zhàn)——Lazada商品數(shù)據(jù)(selenium自動(dòng)化爬蟲,xpath定位)

    ? ? ? ? 在此說明,這個(gè)項(xiàng)目是我第一次真正去爬的一個(gè)網(wǎng)站,里面寫的代碼我自己都看不下去,但是已經(jīng)不想花時(shí)間去重構(gòu)了,所以看個(gè)樂呵就好,要噴也可以(下手輕一點(diǎn))。這篇文算是記錄我的學(xué)習(xí)中出現(xiàn)的一些問題,不建議拿來學(xué)習(xí)和真拿我的代碼去爬Lazada的數(shù)據(jù),

    2024年02月02日
    瀏覽(23)
  • Python爬蟲技術(shù)之Selenium自動(dòng)化測(cè)試及模擬點(diǎn)擊頁(yè)面爬蟲最全知識(shí)

    Python爬蟲技術(shù)之Selenium自動(dòng)化測(cè)試及模擬點(diǎn)擊頁(yè)面爬蟲最全知識(shí)

    Selenium是一套Web網(wǎng)站的程序自動(dòng)化操作解決方案(比如點(diǎn)擊界面按鈕,在文本框中輸入文字等操作) Selenium的自動(dòng)化原理如下 3.1 下載selenium庫(kù)的命令 3.2 下載谷歌瀏覽器Chrome對(duì)應(yīng)的驅(qū)動(dòng) 驅(qū)動(dòng)庫(kù)網(wǎng)址:http://chromedriver.storage.googleapis.com/index.html 注意:根據(jù)自己的Chrome版本進(jìn)行選擇

    2024年01月16日
    瀏覽(95)
  • Python爬蟲框架之Selenium庫(kù)入門:用Python實(shí)現(xiàn)網(wǎng)頁(yè)自動(dòng)化測(cè)試詳解

    Python爬蟲框架之Selenium庫(kù)入門:用Python實(shí)現(xiàn)網(wǎng)頁(yè)自動(dòng)化測(cè)試詳解

    是否還在為網(wǎng)頁(yè)測(cè)試而煩惱?是否還在為重復(fù)的點(diǎn)擊、等待而勞累?試試強(qiáng)大的 Selenium !讓你的網(wǎng)頁(yè)自動(dòng)化測(cè)試變得輕松有趣! Selenium 是一個(gè)強(qiáng)大的自動(dòng)化測(cè)試工具,它可以讓你直接操控瀏覽器,完成各種與網(wǎng)頁(yè)交互的任務(wù)。通過使用 Python 的 Selenium 庫(kù),你可以高效地實(shí)現(xiàn)

    2024年02月10日
    瀏覽(24)
  • Python爬蟲技術(shù)系列-06selenium完成自動(dòng)化測(cè)試V01

    Python爬蟲技術(shù)系列-06selenium完成自動(dòng)化測(cè)試V01

    使用selenium庫(kù)完成動(dòng)點(diǎn)擊下一頁(yè),點(diǎn)擊視頻操作等過程, 如果你非要說這是XX,那我也不過多辯解,畢竟 批評(píng)不自由,贊美無意義 。 本案例僅是技術(shù)演示,所以會(huì)隱去相關(guān)網(wǎng)址等,讀者可以重點(diǎn)查看這里使用的selenium技術(shù)點(diǎn)即可。另外本版本為V01版本,所以僅僅是可用,很多

    2024年02月05日
    瀏覽(25)
  • 從零開始學(xué)習(xí)Python控制開源Selenium庫(kù)自動(dòng)化瀏覽器操作,實(shí)現(xiàn)爬蟲,自動(dòng)化測(cè)試等功能(一)

    從零開始學(xué)習(xí)Python控制開源Selenium庫(kù)自動(dòng)化瀏覽器操作,實(shí)現(xiàn)爬蟲,自動(dòng)化測(cè)試等功能(一)

    介紹Selenium : Selenium是一個(gè)用于自動(dòng)化瀏覽器操作的開源工具和庫(kù)。它最初是為Web應(yīng)用測(cè)試而創(chuàng)建的,但隨著時(shí)間的推移,它被廣泛用于Web數(shù)據(jù)抓取和網(wǎng)頁(yè)自動(dòng)化操作。Selenium 支持多種編程語言,包括Python,Java,C#等。 這里我們主要實(shí)現(xiàn)采用Python的方式 Selenium 的主要特點(diǎn)和

    2024年01月22日
    瀏覽(92)
  • 從零開始學(xué)python(十三)爬蟲工程師自動(dòng)化和抓包

    從零開始學(xué)python(十三)爬蟲工程師自動(dòng)化和抓包

    回顧之前講述了python語法編程 必修入門基礎(chǔ)和網(wǎng)絡(luò)編程,多線程/多進(jìn)程/協(xié)程等方面的內(nèi)容,后續(xù)講到了數(shù)據(jù)庫(kù)編程篇MySQL,Redis,MongoDB篇,和機(jī)器學(xué)習(xí),全棧開發(fā),數(shù)據(jù)分析,爬蟲數(shù)據(jù)采集前面沒看的也不用往前翻,系列文已經(jīng)整理好了: 1.跟我一起從零開始學(xué)python(一)

    2024年02月14日
    瀏覽(29)
  • 爬蟲實(shí)戰(zhàn)(一)Python+selenium自動(dòng)化獲取數(shù)據(jù)存儲(chǔ)到Mysql中

    爬蟲實(shí)戰(zhàn)(一)Python+selenium自動(dòng)化獲取數(shù)據(jù)存儲(chǔ)到Mysql中

    ??行話說得好,“爬蟲學(xué)得好,牢飯吃到飽!”哈哈博主是因這句話入的坑,不為別的就為邀大家一起鐵窗淚(bushi),本人雖小牛一只,但是喜愛搗鼓技術(shù),有興趣的小伙伴們可以共同探討,也歡迎各位大佬們的指點(diǎn),愿共同進(jìn)步! ??這次計(jì)劃是翻墻爬取外網(wǎng)某網(wǎng)站

    2024年01月17日
    瀏覽(34)
  • Python-playwright:一款強(qiáng)大的UI自動(dòng)化工具、新興爬蟲利器

    Python-playwright:一款強(qiáng)大的UI自動(dòng)化工具、新興爬蟲利器

    點(diǎn)擊名片關(guān)注?阿塵blog,一起學(xué)習(xí),一起成長(zhǎng) 本文主要分享由微軟開發(fā)的實(shí)現(xiàn)Web UI自動(dòng)化測(cè)試工具Playwright庫(kù),相比于之前學(xué)習(xí)過selenium庫(kù),playwright對(duì)于編寫自動(dòng)化代碼絕對(duì)是更輕松了,因?yàn)樗С帜_本錄制,如果只求簡(jiǎn)單點(diǎn)可以不用寫一行代碼就能夠?qū)崿F(xiàn)自動(dòng)化,而且play

    2024年02月04日
    瀏覽(86)
  • Python-爬蟲、自動(dòng)化(selenium,動(dòng)態(tài)網(wǎng)頁(yè)翻頁(yè),模擬搜索,下拉列表選擇、selenium行為鏈)

    Python-爬蟲、自動(dòng)化(selenium,動(dòng)態(tài)網(wǎng)頁(yè)翻頁(yè),模擬搜索,下拉列表選擇、selenium行為鏈)

    selenium是一個(gè)Web自動(dòng)化測(cè)試工具,可以直接運(yùn)行在瀏覽器上·支持所有主流的瀏覽器.可以根據(jù)我們的指令,讓瀏覽器自動(dòng)加載頁(yè)面,獲取需要的數(shù)據(jù),基礎(chǔ)頁(yè)面截圖等。 使用pip install selenium命令下載selenium模塊。 運(yùn)行下列代碼: 說明沒有下載對(duì)應(yīng)瀏覽器的驅(qū)動(dòng),這里使用谷歌

    2024年02月01日
    瀏覽(28)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包