国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【python】網(wǎng)絡爬蟲與信息提取--正則表達式

這篇具有很好參考價值的文章主要介紹了【python】網(wǎng)絡爬蟲與信息提取--正則表達式。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一、正則表達式

? ? ? ? 正則表達式是用來簡潔表達一組字符串的表達式。是通用的字符串表達框架,簡潔表達一組字符串的表達式,針對字符串表達“簡潔”和“特征”思想的工具,判斷某字符串的特征歸屬。

? ? ? ? 用處:表達文本類型的特征;同時查找或替換一組字符串;匹配字符串的全部或部分。

? ? ? ? 編譯:將符合正則表達式語法的字符串轉換成正則表達式特征。

? ? ? ? 語法:正則表達式由字符和操作符構成。

? ? ? ? 正則表達式的常用操作符:

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

? ? ? ? 實例:

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

????????

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

二、RE庫的基本使用

? ? ? ? RE庫是python的標準庫,主要用于字符串的匹配。

? ? ? ? 調(diào)用方法:import re

? ? ? ? RE庫使用raw string類型來表達正則表達式,表示為:r'text',例如:r'[1-9]\d{5}';也使用string類型,但是由于string類型中將斜杠理解為轉義符,所以會更加繁瑣,例如:'[1-9]\\d{5}'。綜上,當正則表達式包含轉義符時使用raw string。

? ? ? ? re庫的主要功能函數(shù):

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

?re.search(pattern,string,flags=0)? ? ? ??

? ? ? ? ?pattern:正則表達式的字符串或原生字符串表示

????????string:待匹配字符串

? ? ? ? flags:正則表達式使用時的控制標記

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

? ? ? ? 例子:我們匹配的字符串是BIT100081

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

re.match(pattern,string,flags=0)

????????pattern:正則表達式的字符串或原生字符串表示

????????string:待匹配字符串

? ? ? ? flags:正則表達式使用時的控制標記

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

? ? ? ? 仔細看下這個錯誤提示,NoneType這說明現(xiàn)在由match函數(shù)返回的變量match它并沒有一個屬性叫group,也就是說這個match是空的。我們知道,這邊所用的正則表達式表示了一個中國區(qū)的郵政編碼,而它從后邊的string類型中,從起始位置開始匹配,但我們給出的string起始位置并不是郵政編碼,因此它的正則表達式匹配結果應該是空。所以我們在使用之前一定要先判斷這個match是不是空的。

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

re.findall(pattern,string,flags=0)

????????pattern:正則表達式的字符串或原生字符串表示

????????string:待匹配字符串

? ? ? ? flags:正則表達式使用時的控制標記

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

re.split(pattern,string,maxsplit=0,flags=0)

????????pattern:正則表達式的字符串或原生字符串表示

????????string:待匹配字符串

? ? ? ? maxsplit:最大分割數(shù),剩余部分作為最后一個元素輸出

? ? ? ? flags:正則表達式使用時的控制標記

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

????????maxsplit=1表示只匹配第一個位置,匹配之后它將BIT分割出來

re.finditer(pattern,string,flags=0)

????????pattern:正則表達式的字符串或原生字符串表示

????????string:待匹配字符串

? ? ? ? flags:正則表達式使用時的控制標記

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

re.sub(pattern,repl,string,count=0,flags=0)

????????pattern:正則表達式的字符串或原生字符串表示

? ? ? ? repl:替換匹配字符串的字符串

????????string:待匹配字符串

? ? ? ? count:匹配的最大替換次數(shù)

? ? ? ? flags:正則表達式使用時的控制標記

?【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

RE庫的另一種等價用法

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

? ? ? ? re.compile(pattern,flags=0):將正則表達式的字符串形式編譯成正則表達式對象。pattern:正則表達式的字符串或原生字符串表示,flags:正則表達式使用時的控制標記。

三、RE庫的match對象

? ? ? ? match對象就是一次匹配的結果,它包含了很多匹配的相關關系,

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

match對象的屬性?

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

????????只有經(jīng)過compile的正則表達式才是真正的正則表達式,如果沒經(jīng)過,就是compile的一種表示。

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

四、Re庫的貪婪匹配和最小匹配

? ? ? ??r'PY.*n'表示以PY字母開頭,以N結尾,之間可以有若干個字母的字符串。

? ? ? ? 貪婪匹配:RE庫默認采用貪婪匹配,即輸出匹配最長的子串。

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

? ? ? ? 輸出最短的子串:

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式

????????最小匹配操作符:?

【python】網(wǎng)絡爬蟲與信息提取--正則表達式,python,爬蟲,正則表達式文章來源地址http://www.zghlxwxcb.cn/news/detail-826133.html

?

到了這里,關于【python】網(wǎng)絡爬蟲與信息提取--正則表達式的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 8.網(wǎng)絡爬蟲—正則表達式RE實戰(zhàn)

    8.網(wǎng)絡爬蟲—正則表達式RE實戰(zhàn)

    前言 : ??????個人簡介:以山河作禮。 ??????:Python領域新星創(chuàng)作者,CSDN實力新星認證 ??????此專欄文章是專門針對網(wǎng)絡爬蟲基礎,歡迎免費訂閱! ?????第一篇文章《1.認識網(wǎng)絡爬蟲》獲得 全站熱榜第一 ,python 領域熱榜第一 , 第四篇文章《4.網(wǎng)絡爬蟲—

    2023年04月08日
    瀏覽(18)
  • python 自動化數(shù)據(jù)提取之正則表達式

    ?前? ? 言 我們在做接口自動化的時候,處理接口依賴的相關數(shù)據(jù)時,通常會使用正則表達式來進行提取相關的數(shù)據(jù),今天在這邊和大家聊聊如何在python中使用正則表達式。 正則表達式 ,又稱正規(guī)表示式、正規(guī)表示法、正規(guī)表達式、規(guī)則表達式、常規(guī)表示法(英語:Regular

    2024年02月14日
    瀏覽(24)
  • Python正則表達式提取文本中的IP地址

    Python正則表達式提取文本中的IP地址 在Python中,使用正則表達式可以方便地從文本中抽取符合規(guī)則的字符串。其中,IP地址是一個常見的需要抽取的內(nèi)容之一。IP地址通常由四段數(shù)字組成,每段數(shù)字的取值范圍是0~255。下面將演示如何在Python中使用正則表達式抽取文本中的IP地

    2024年02月16日
    瀏覽(55)
  • Python爬蟲(十)_正則表達式

    Python爬蟲(十)_正則表達式

    什么是正則表達式 正則表達式,又稱規(guī)則表達式,通常被用來檢索、替換那些符合某個模式(規(guī)則)的文本。 正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規(guī)則字符串”,這個“規(guī)則字符串”用來表達

    2024年02月13日
    瀏覽(51)
  • python爬蟲入門(三)正則表達式

    開源中國提供的正則表達式測試工具 http://tool.oschina.net/regex/,輸入待匹配的文本,然后選擇常用的正則表達式,就可以得出相應的匹配結果了 常用的匹配規(guī)則如下 模 式 描 述 w 匹配字母、數(shù)字及下劃線 W 匹配不是字母、數(shù)字及下劃線的字符 s 匹配任意空白字符,等價于

    2024年02月08日
    瀏覽(21)
  • Python爬蟲基礎之正則表達式

    Python爬蟲基礎之正則表達式

    目錄 一、什么是正則表達式? 二、re.compile()編譯函數(shù) 三、group()獲取匹配結果函數(shù) 四、常用匹配規(guī)則 4.1匹配單個字符 4.2匹配前字符次數(shù) 4.3匹配原生字符串 4.4匹配字符串開頭和結尾 4.5分組匹配 五、re.match()開頭匹配函數(shù) 六、re.search()全文搜索函數(shù) 七、re.findall()查找所有函數(shù)

    2024年02月10日
    瀏覽(30)
  • python爬蟲之正則表達式學習

    網(wǎng)絡安全離不開腳本和工具的開發(fā),python很多又需要正則表達式。 這是一個很好的學習正則表達式的項目 正則表達式其實就是在執(zhí)行搜索時的格式,它由一些字母和數(shù)字組合而成。 例如:一個正則表達式? the ,它表示一個規(guī)則:由字母 t 開始,接著是 h ,再接著是 e, 正則

    2024年02月09日
    瀏覽(86)
  • python爬蟲之正則表達式解析實戰(zhàn)

    python爬蟲之正則表達式解析實戰(zhàn)

    先獲取網(wǎng)址,URL:https://www.xiachufang.com/category/40076/ 定位想要爬取的內(nèi)容 使用正則表達式爬取 導入模塊 指定URL UA偽裝(模擬瀏覽器) 發(fā)起請求,獲取當前頁面的數(shù)據(jù)內(nèi)容,并使用通用爬蟲爬取整個頁面 編譯正則表達式(提取想要的內(nèi)容) 解析請求內(nèi)容 指定圖片存儲路徑 持

    2024年02月08日
    瀏覽(19)
  • Jmeter接口關聯(lián)(三)【使用正則表達式提取值】以及正則表達式提取器中模板的含義及用法

    Jmeter接口關聯(lián)(三)【使用正則表達式提取值】以及正則表達式提取器中模板的含義及用法

    文章目錄 前言 一、Jmeter中使用正則表達式匹配 1、選擇 RegExp Tester 2、在線程組------》添加------》后置處理器-------里面添加一個“正則表達式提取器” 二、關于正則表達式提取器里面字段的解釋 參數(shù)說明 三、進一步解釋Jmeter正則表達式提取器中的模板 1、當模板設置為$0$?

    2024年02月13日
    瀏覽(51)
  • Jmeter正則表達式提取

    Jmeter正則表達式提取

    Jmeter提供邊界值提取、正則表達式提取、JSON提取、xpath提取 可以提取接口返回體(響應結果)的內(nèi)容。實現(xiàn)從上一個返回體中獲取下一個請求體中需要的數(shù)據(jù) 例如: Jmeter接口測試時,許多請求都需要用到token,而賬號登錄返回的token是動態(tài)的。固定的token賬號重新登錄或退出

    2024年02月09日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包