国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python 爬蟲之簡單的爬蟲（一）

2年前作者：因果盡加吾身分類：Toy博客閱讀(12)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Python 爬蟲之簡單的爬蟲（一）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

爬取網(wǎng)頁上所有鏈接

前言

最近也學(xué)了點(diǎn)爬蟲的東西。今天就先給大家寫一個(gè)簡單的爬蟲吧。循序漸進(jìn)，慢慢來哈哈哈哈哈哈哈哈哈哈哈

一、基本內(nèi)容

主要是以下幾部分（下文基本會(huì)按照這個(gè)步驟來寫）：

導(dǎo)入需要的庫
要測(cè)試的網(wǎng)頁
生成代理，請(qǐng)求網(wǎng)頁
請(qǐng)求成功，解析網(wǎng)頁，找到并保存想要的東西
請(qǐng)求失敗，返回相應(yīng)狀態(tài)碼

二、代碼編寫

1.引入庫

代碼如下：

import requests
from bs4 import BeautifulSoup

requests： 這是一個(gè)非常流行的 Python 庫，用于發(fā)送 HTTP 請(qǐng)求。它可以方便地讓我們獲取網(wǎng)頁內(nèi)容、下載文件、提交表單等網(wǎng)絡(luò)操作。

BeautifulSoup： 這是一個(gè)用于解析 HTML 和 XML 文檔的 Python 庫。它能夠?qū)?fù)雜的HTML文檔轉(zhuǎn)換成樹形結(jié)構(gòu)，使得我們可以輕松地搜索、遍歷和修改文檔中的元素。

2.測(cè)試網(wǎng)頁

代碼如下：

# 目標(biāo)網(wǎng)頁地址
url = 'http://www.santostang.com/'

3.請(qǐng)求網(wǎng)頁

代碼如下：

# 定義請(qǐng)求頭的瀏覽器代理，偽裝成瀏覽器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome'
                  '/114.0.5735.289 Safari/537.36',
    'host': 'www.santostang.com'}

# 請(qǐng)求網(wǎng)頁
response = requests.get(url, headers=headers)
print(response.text)

請(qǐng)求頭header提供了關(guān)于請(qǐng)求、相應(yīng)或其他發(fā)送實(shí)體的信息?？傊痪湓?，這個(gè)很重要不能少。

不清楚這個(gè)請(qǐng)求頭怎么搞的不要擔(dān)心，下面我會(huì)另起一章節(jié)告訴大家怎么弄。

response.text 的內(nèi)容如下圖（下面會(huì)從這個(gè)里面檢索獲取我們想要的信息）：

Python 爬蟲之簡單的爬蟲（一）,Python 爬蟲,python,爬蟲,開發(fā)語言

4.解析網(wǎng)頁并保存

代碼如下：

# 狀態(tài)碼為200，請(qǐng)求成功
if response.status_code == 200:

    # 打印狀態(tài)碼
    print('Status Code: ', response.status_code)

    # 解析 HTML 文檔
    soup = BeautifulSoup(response.text, 'html.parser')

    # 找到所有的 <a>, <img> 和 <form> 標(biāo)簽
    elements = soup.find_all(['a', 'img', 'form'])

    # 打開一個(gè)文本文檔并寫入
    with open('url.text', 'w', encoding='utf-8') as f:

        # 打印每個(gè)元素的 href、src 或 action 屬性
        for element in elements:
            if element.name == 'a':
                link = element.get('href')
            elif element.name == 'img':
                link = element.get('src')
            elif element.name == 'form':
                link = element.get('action')

            if link is not None:
                # 每寫入一個(gè)鏈接另起一行
                f.write(link + '\n')
 else:
    # 請(qǐng)求未成功，返回相應(yīng)的狀態(tài)碼
    print(f'Failed to fetch the page with status code {response.status_code}')

第一步：判斷是否請(qǐng)求成功，成功則進(jìn)行下一步，失敗則返回相應(yīng)的狀態(tài)碼。
第二步：先解析解析 HTML 文檔（response.text）。
第三步：找到所有鏈接前面的標(biāo)簽都有啥。
第四步：根據(jù)標(biāo)簽定位到相應(yīng)的鏈接，獲取它們。
第五步：判定標(biāo)簽后面的不為空，寫入這些鏈接。

下面是本人測(cè)試的效果圖：

Python 爬蟲之簡單的爬蟲（一）,Python 爬蟲,python,爬蟲,開發(fā)語言

三、如何定義請(qǐng)求頭？

很簡單。首先，隨便打開一個(gè)網(wǎng)頁。然后按一下F12，接著按照下圖上的步驟一步一步來，就可以得到想要的東西。
Python 爬蟲之簡單的爬蟲（一）,Python 爬蟲,python,爬蟲,開發(fā)語言

總結(jié)

這樣，一個(gè)簡單的爬蟲小程序就搞定了。慢慢來吧，后續(xù)教大家爬一些有用的東西(# ^ . ^ #)。文章來源地址http://www.zghlxwxcb.cn/news/detail-786248.html

到了這里，關(guān)于Python 爬蟲之簡單的爬蟲（一）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Python爬蟲市場(chǎng)簡單分析
Python爬蟲是目前互聯(lián)網(wǎng)行業(yè)中最重要的組成部分之一。Python作為一門易學(xué)易懂的編程語言，不需要過多的軟件環(huán)境和部署條件，基本覆蓋了爬蟲開發(fā)的大部分需求，是網(wǎng)絡(luò)數(shù)據(jù)爬取和處理的首選技術(shù)之一。Python通過一系列優(yōu)秀的爬蟲框架和庫的支持，例如Scrapy、BeautifulSoup、
2024年02月08日
瀏覽(20)
簡單的python爬蟲
#導(dǎo)入requests模塊 import requests #a,b賦值的是文件名和后綴 a=[\\\'xx\\\',\\\'xxx\\\',\\\'123\\\',\\\'xihuan\\\',\\\'666\\\'] b=[\\\'jpg\\\',\\\'jpeg\\\',\\\'png\\\',\\\'gif\\\',\\\'zip\\\',\\\'rar\\\',\\\'php\\\'] #for循環(huán)a+b for name1 in a: ? ? for name2 in b: ? ? ? ? name=(name1+\\\'.\\\'+name2) ? ? ? ? q=requests.get(\\\'http://ip/\\\'+name) ? ? ? ? q.status_code ? ? ? ? print(name) ? ? ? ? print(q)
2023年04月10日
瀏覽(17)
python爬蟲的簡單實(shí)現(xiàn)
當(dāng)涉及網(wǎng)絡(luò)爬蟲時(shí)，Python中最常用的庫之一是requests。它能夠發(fā)送HTTP請(qǐng)求并獲取網(wǎng)頁內(nèi)容。下面是一個(gè)簡單的示例，展示如何使用requests庫來獲取一個(gè)網(wǎng)頁的內(nèi)容： import requests url = ‘https://example.com’ response = requests.get(url) if response.status_code == 200: # 輸出網(wǎng)頁內(nèi)容 print(response
2024年02月13日
瀏覽(20)
Python爬蟲簡單入門教程
這篇 Python 爬蟲教程主要講解以下 5 部分了解網(wǎng)頁結(jié)構(gòu)；使用 requests 庫抓取網(wǎng)站數(shù)據(jù)；使用 Beautiful Soup 解析網(wǎng)頁；清洗和組織數(shù)據(jù)；爬蟲攻防戰(zhàn)；網(wǎng)頁一般由三部分組成，分別是 HTML（超文本標(biāo)記語言）、CSS（層疊樣式表）和 JScript（活動(dòng)腳本語言）。 HTML 負(fù)責(zé)定義網(wǎng)頁
2024年02月06日
瀏覽(23)
python實(shí)現(xiàn)簡單的爬蟲功能
前言 Python是一種廣泛應(yīng)用于爬蟲的高級(jí)編程語言，它提供了許多強(qiáng)大的庫和框架，可以輕松地創(chuàng)建自己的爬蟲程序。在本文中，我們將介紹如何使用Python實(shí)現(xiàn)簡單的爬蟲功能，并提供相關(guān)的代碼實(shí)例。如何實(shí)現(xiàn)簡單的爬蟲 1. 導(dǎo)入必要的庫和模塊在編寫Python爬蟲時(shí)，我們需要
2024年02月14日
瀏覽(33)
Python爬蟲實(shí)戰(zhàn)——爬取新聞數(shù)據(jù)（簡單的深度爬蟲）
? ? ? ? 又到了爬新聞的環(huán)節(jié)（好像學(xué)爬蟲都要去爬爬新聞，沒辦法誰讓新聞一般都很好爬呢XD，拿來練練手），只作為技術(shù)分享，這一次要的數(shù)據(jù)是分在了兩個(gè)界面，所以試一下深度爬蟲，不過是很簡單的。 ?網(wǎng)頁url 1.先看看網(wǎng)站網(wǎng)址的規(guī)律 ?發(fā)現(xiàn)這部分就是每一天的新聞
2024年02月11日
瀏覽(20)
用python寫一個(gè)簡單的爬蟲
爬蟲是一種自動(dòng)化程序，用于從互聯(lián)網(wǎng)上獲取數(shù)據(jù)。它能夠模擬人類瀏覽網(wǎng)頁的行為，訪問網(wǎng)頁并提取所需的信息。爬蟲在很多領(lǐng)域都有廣泛的應(yīng)用，例如數(shù)據(jù)采集、信息監(jiān)控、搜索引擎索引等。下面是一個(gè)使用Python編寫的簡單爬蟲示例：在這個(gè)示例中，我們使用了request
2024年02月05日
瀏覽(21)
Python爬蟲—requests模塊簡單應(yīng)用
requests的作用與安裝作用：發(fā)送網(wǎng)絡(luò)請(qǐng)求，返回響應(yīng)數(shù)據(jù) 安裝：pip install requests requests模塊發(fā)送簡單的get請(qǐng)求、獲取響應(yīng) 需求：通過requests向百度首頁發(fā)送請(qǐng)求，獲取百度首頁的數(shù)據(jù) response的常用屬性： response.text 響應(yīng)體str類型 response.encoding 從HTTP header中猜測(cè)的響應(yīng)內(nèi)容的編
2024年01月24日
瀏覽(32)
【Python爬蟲01】Selenium簡單認(rèn)識(shí)
在現(xiàn)代的Web開發(fā)中，自動(dòng)化測(cè)試是不可或缺的一環(huán)。而Selenium是一個(gè)強(qiáng)大的Python庫，用于自動(dòng)化Web瀏覽器的操作和測(cè)試。本篇博文將為您介紹Selenium的基礎(chǔ)知識(shí)和使用方法，并通過案例說明如何進(jìn)行Web自動(dòng)化測(cè)試。 Selenium是一個(gè)開源的自動(dòng)化測(cè)試框架，主要用于模擬用戶與We
2024年02月16日
瀏覽(20)
簡單python網(wǎng)絡(luò)爬蟲批量下載視頻
寒假閑來無事，決定嘗試一下用python寫一個(gè)小網(wǎng)絡(luò)爬蟲批量下載視頻。由于是第一次寫網(wǎng)絡(luò)爬蟲，可以說是兩眼一抹黑，整個(gè)程序都是自己一點(diǎn)點(diǎn)試出來的，所以程序本身肯定有一些漏洞和缺陷，如果有建議請(qǐng)批評(píng)指正。由于CSDN審核不允許出現(xiàn)具體網(wǎng)址否則會(huì)因?yàn)榘鏅?quán)問題
2023年04月08日
瀏覽(30)