国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python 爬蟲之簡單的爬蟲(一)

這篇具有很好參考價(jià)值的文章主要介紹了Python 爬蟲之簡單的爬蟲(一)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

爬取網(wǎng)頁上所有鏈接



前言

最近也學(xué)了點(diǎn)爬蟲的東西。今天就先給大家寫一個(gè)簡單的爬蟲吧。循序漸進(jìn),慢慢來哈哈哈哈哈哈哈哈哈哈哈


一、基本內(nèi)容

主要是以下幾部分(下文基本會(huì)按照這個(gè)步驟來寫):

  • 導(dǎo)入需要的庫
  • 要測(cè)試的網(wǎng)頁
  • 生成代理,請(qǐng)求網(wǎng)頁
  • 請(qǐng)求成功,解析網(wǎng)頁,找到并保存想要的東西
  • 請(qǐng)求失敗,返回相應(yīng)狀態(tài)碼

二、代碼編寫

1.引入庫

代碼如下:

import requests
from bs4 import BeautifulSoup

requests: 這是一個(gè)非常流行的 Python 庫,用于發(fā)送 HTTP 請(qǐng)求。它可以方便地讓我們獲取網(wǎng)頁內(nèi)容、下載文件、提交表單等網(wǎng)絡(luò)操作。

BeautifulSoup: 這是一個(gè)用于解析 HTML 和 XML 文檔的 Python 庫。它能夠?qū)?fù)雜的HTML文檔轉(zhuǎn)換成樹形結(jié)構(gòu),使得我們可以輕松地搜索、遍歷和修改文檔中的元素。


2.測(cè)試網(wǎng)頁

代碼如下:

# 目標(biāo)網(wǎng)頁地址
url = 'http://www.santostang.com/'

3.請(qǐng)求網(wǎng)頁

代碼如下:

# 定義請(qǐng)求頭的瀏覽器代理,偽裝成瀏覽器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome'
                  '/114.0.5735.289 Safari/537.36',
    'host': 'www.santostang.com'}

# 請(qǐng)求網(wǎng)頁
response = requests.get(url, headers=headers)
print(response.text)

請(qǐng)求頭header提供了關(guān)于請(qǐng)求、相應(yīng)或其他發(fā)送實(shí)體的信息??傊痪湓?,這個(gè)很重要不能少。

不清楚這個(gè)請(qǐng)求頭怎么搞的不要擔(dān)心,下面我會(huì)另起一章節(jié)告訴大家怎么弄。

response.text 的內(nèi)容如下圖(下面會(huì)從這個(gè)里面檢索獲取我們想要的信息):

Python 爬蟲之簡單的爬蟲(一),Python 爬蟲,python,爬蟲,開發(fā)語言


4.解析網(wǎng)頁并保存

代碼如下:

# 狀態(tài)碼為200,請(qǐng)求成功
if response.status_code == 200:

    # 打印狀態(tài)碼
    print('Status Code: ', response.status_code)

    # 解析 HTML 文檔
    soup = BeautifulSoup(response.text, 'html.parser')

    # 找到所有的 <a>, <img> 和 <form> 標(biāo)簽
    elements = soup.find_all(['a', 'img', 'form'])

    # 打開一個(gè)文本文檔并寫入
    with open('url.text', 'w', encoding='utf-8') as f:

        # 打印每個(gè)元素的 href、src 或 action 屬性
        for element in elements:
            if element.name == 'a':
                link = element.get('href')
            elif element.name == 'img':
                link = element.get('src')
            elif element.name == 'form':
                link = element.get('action')

            if link is not None:
                # 每寫入一個(gè)鏈接另起一行
                f.write(link + '\n')
 else:
    # 請(qǐng)求未成功,返回相應(yīng)的狀態(tài)碼
    print(f'Failed to fetch the page with status code {response.status_code}')               

第一步:判斷是否請(qǐng)求成功,成功則進(jìn)行下一步,失敗則返回相應(yīng)的狀態(tài)碼。
第二步:先解析解析 HTML 文檔(response.text)。
第三步:找到所有鏈接前面的標(biāo)簽都有啥。
第四步:根據(jù)標(biāo)簽定位到相應(yīng)的鏈接,獲取它們。
第五步:判定標(biāo)簽后面的不為空,寫入這些鏈接。

下面是本人測(cè)試的效果圖:

Python 爬蟲之簡單的爬蟲(一),Python 爬蟲,python,爬蟲,開發(fā)語言


三、如何定義請(qǐng)求頭?

很簡單。首先,隨便打開一個(gè)網(wǎng)頁。然后按一下F12,接著按照下圖上的步驟一步一步來,就可以得到想要的東西。
Python 爬蟲之簡單的爬蟲(一),Python 爬蟲,python,爬蟲,開發(fā)語言


總結(jié)

這樣,一個(gè)簡單的爬蟲小程序就搞定了。慢慢來吧,后續(xù)教大家爬一些有用的東西(# ^ . ^ #)。文章來源地址http://www.zghlxwxcb.cn/news/detail-786248.html

到了這里,關(guān)于Python 爬蟲之簡單的爬蟲(一)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Python爬蟲市場(chǎng)簡單分析

    Python爬蟲是目前互聯(lián)網(wǎng)行業(yè)中最重要的組成部分之一。Python作為一門易學(xué)易懂的編程語言,不需要過多的軟件環(huán)境和部署條件,基本覆蓋了爬蟲開發(fā)的大部分需求,是網(wǎng)絡(luò)數(shù)據(jù)爬取和處理的首選技術(shù)之一。Python通過一系列優(yōu)秀的爬蟲框架和庫的支持,例如Scrapy、BeautifulSoup、

    2024年02月08日
    瀏覽(20)
  • 簡單的python爬蟲

    #導(dǎo)入requests模塊 import requests #a,b賦值的是文件名和后綴 a=[\\\'xx\\\',\\\'xxx\\\',\\\'123\\\',\\\'xihuan\\\',\\\'666\\\'] b=[\\\'jpg\\\',\\\'jpeg\\\',\\\'png\\\',\\\'gif\\\',\\\'zip\\\',\\\'rar\\\',\\\'php\\\'] #for循環(huán)a+b for name1 in a: ? ? for name2 in b: ? ? ? ? name=(name1+\\\'.\\\'+name2) ? ? ? ? q=requests.get(\\\'http://ip/\\\'+name) ? ? ? ? q.status_code ? ? ? ? print(name) ? ? ? ? print(q)

    2023年04月10日
    瀏覽(17)
  • python爬蟲的簡單實(shí)現(xiàn)

    當(dāng)涉及網(wǎng)絡(luò)爬蟲時(shí),Python中最常用的庫之一是requests。它能夠發(fā)送HTTP請(qǐng)求并獲取網(wǎng)頁內(nèi)容。下面是一個(gè)簡單的示例,展示如何使用requests庫來獲取一個(gè)網(wǎng)頁的內(nèi)容: import requests url = ‘https://example.com’ response = requests.get(url) if response.status_code == 200: # 輸出網(wǎng)頁內(nèi)容 print(response

    2024年02月13日
    瀏覽(20)
  • Python爬蟲簡單入門教程

    Python爬蟲簡單入門教程

    這篇 Python 爬蟲教程主要講解以下 5 部分 了解網(wǎng)頁結(jié)構(gòu); 使用 requests 庫抓取網(wǎng)站數(shù)據(jù); 使用 Beautiful Soup 解析網(wǎng)頁; 清洗和組織數(shù)據(jù); 爬蟲攻防戰(zhàn); 網(wǎng)頁一般由三部分組成,分別是 HTML(超文本標(biāo)記語言)、CSS(層疊樣式表)和 JScript(活動(dòng)腳本語言)。 HTML 負(fù)責(zé)定義網(wǎng)頁

    2024年02月06日
    瀏覽(23)
  • python實(shí)現(xiàn)簡單的爬蟲功能

    python實(shí)現(xiàn)簡單的爬蟲功能

    前言 Python是一種廣泛應(yīng)用于爬蟲的高級(jí)編程語言,它提供了許多強(qiáng)大的庫和框架,可以輕松地創(chuàng)建自己的爬蟲程序。在本文中,我們將介紹如何使用Python實(shí)現(xiàn)簡單的爬蟲功能,并提供相關(guān)的代碼實(shí)例。 如何實(shí)現(xiàn)簡單的爬蟲 1. 導(dǎo)入必要的庫和模塊 在編寫Python爬蟲時(shí),我們需要

    2024年02月14日
    瀏覽(33)
  • Python爬蟲實(shí)戰(zhàn)——爬取新聞數(shù)據(jù)(簡單的深度爬蟲)

    Python爬蟲實(shí)戰(zhàn)——爬取新聞數(shù)據(jù)(簡單的深度爬蟲)

    ? ? ? ? 又到了爬新聞的環(huán)節(jié)(好像學(xué)爬蟲都要去爬爬新聞,沒辦法誰讓新聞一般都很好爬呢XD,拿來練練手),只作為技術(shù)分享,這一次要的數(shù)據(jù)是分在了兩個(gè)界面,所以試一下深度爬蟲,不過是很簡單的。 ?網(wǎng)頁url 1.先看看網(wǎng)站網(wǎng)址的規(guī)律 ?發(fā)現(xiàn)這部分就是每一天的新聞

    2024年02月11日
    瀏覽(20)
  • 用python寫一個(gè)簡單的爬蟲

    用python寫一個(gè)簡單的爬蟲

    爬蟲是一種自動(dòng)化程序,用于從互聯(lián)網(wǎng)上獲取數(shù)據(jù)。它能夠模擬人類瀏覽網(wǎng)頁的行為,訪問網(wǎng)頁并提取所需的信息。爬蟲在很多領(lǐng)域都有廣泛的應(yīng)用,例如數(shù)據(jù)采集、信息監(jiān)控、搜索引擎索引等。 下面是一個(gè)使用Python編寫的簡單爬蟲示例: 在這個(gè)示例中,我們使用了request

    2024年02月05日
    瀏覽(21)
  • Python爬蟲—requests模塊簡單應(yīng)用

    Python爬蟲—requests模塊簡單應(yīng)用

    requests的作用與安裝 作用:發(fā)送網(wǎng)絡(luò)請(qǐng)求,返回響應(yīng)數(shù)據(jù) 安裝:pip install requests requests模塊發(fā)送簡單的get請(qǐng)求、獲取響應(yīng) 需求:通過requests向百度首頁發(fā)送請(qǐng)求,獲取百度首頁的數(shù)據(jù) response的常用屬性: response.text 響應(yīng)體str類型 response.encoding 從HTTP header中猜測(cè)的響應(yīng)內(nèi)容的編

    2024年01月24日
    瀏覽(32)
  • 【Python爬蟲01】Selenium簡單認(rèn)識(shí)

    【Python爬蟲01】Selenium簡單認(rèn)識(shí)

    在現(xiàn)代的Web開發(fā)中,自動(dòng)化測(cè)試是不可或缺的一環(huán)。而Selenium是一個(gè)強(qiáng)大的Python庫,用于自動(dòng)化Web瀏覽器的操作和測(cè)試。本篇博文將為您介紹Selenium的基礎(chǔ)知識(shí)和使用方法,并通過案例說明如何進(jìn)行Web自動(dòng)化測(cè)試。 Selenium是一個(gè)開源的自動(dòng)化測(cè)試框架,主要用于模擬用戶與We

    2024年02月16日
    瀏覽(20)
  • 簡單python網(wǎng)絡(luò)爬蟲批量下載視頻

    簡單python網(wǎng)絡(luò)爬蟲批量下載視頻

    寒假閑來無事,決定嘗試一下用python寫一個(gè)小網(wǎng)絡(luò)爬蟲批量下載視頻。 由于是第一次寫網(wǎng)絡(luò)爬蟲,可以說是兩眼一抹黑,整個(gè)程序都是自己一點(diǎn)點(diǎn)試出來的,所以程序本身肯定有一些漏洞和缺陷,如果有建議請(qǐng)批評(píng)指正。 由于CSDN審核不允許出現(xiàn)具體網(wǎng)址否則會(huì)因?yàn)榘鏅?quán)問題

    2023年04月08日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包