国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python爬蟲入門（三）正則表達(dá)式

2年前作者：濕物男分類：Toy博客閱讀(20)違法舉報

這篇具有很好參考價值的文章主要介紹了python爬蟲入門（三）正則表達(dá)式。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

開源中國提供的正則表達(dá)式測試工具 http://tool.oschina.net/regex/，輸入待匹配的文本，然后選擇常用的正則表達(dá)式，就可以得出相應(yīng)的匹配結(jié)果了

常用的匹配規(guī)則如下

?！　∈?/th>	描　　述
\w	匹配字母、數(shù)字及下劃線
\W	匹配不是字母、數(shù)字及下劃線的字符
\s	匹配任意空白字符，等價于 [\t\n\r\f]
\S	匹配任意非空字符
\d	匹配任意數(shù)字，等價于 [0-9]
\D	匹配任意非數(shù)字的字符
\A	匹配字符串開頭
\Z	匹配字符串結(jié)尾，如果存在換行，只匹配到換行前的結(jié)束字符串
\z	匹配字符串結(jié)尾，如果存在換行，同時還會匹配換行符
\G	匹配最后匹配完成的位置
\n	匹配一個換行符
\t	匹配一個制表符
^	匹配一行字符串的開頭
$	匹配一行字符串的結(jié)尾
.	匹配任意字符，除了換行符，當(dāng) re.DOTALL 標(biāo)記被指定時，則可以匹配包括換行符的任意字符
[…]	用來表示一組字符，單獨(dú)列出，比如 [amk] 匹配 a、m 或 k
	不在 [] 中的字符，比如匹配除了 a、b、c 之外的字符
*	匹配 0 個或多個表達(dá)式
+	匹配 1 個或多個表達(dá)式
?	匹配 0 個或 1 個前面的正則表達(dá)式定義的片段，非貪婪方式
{n}	精確匹配 n 個前面的表達(dá)式
{n, m}	匹配 n 到 m 次由前面正則表達(dá)式定義的片段，貪婪方式
a	b
( )	匹配括號內(nèi)的表達(dá)式，也表示一個組

match

match 方法會嘗試從字符串的起始位置匹配正則表達(dá)式，如果匹配，就返回匹配成功的結(jié)果；如果不匹配，就返回 None。

例如句子‘Hello 123 4567 World_This is a Regex Demo’，接下來我們寫一個正則表達(dá)式：

^Hello\s\d\d\d\s\d{4}\s\w{10}

開頭的 ^ 是匹配字符串的開頭，也就是以 Hello 開頭；然后 \s 匹配空白字符，用來匹配目標(biāo)字符串的空格；\d 匹配數(shù)字，3 個 \d 匹配 123；然后再寫 1 個 \s 匹配空格；后面還有 4567，我們其實(shí)可以依然用 4 個 \d 來匹配，但是這么寫比較煩瑣，所以后面可以跟 {4} 以代表匹配前面的規(guī)則 4 次，也就是匹配 4 個數(shù)字；然后后面再緊接 1 個空白字符，最后 \w{10} 匹配 10 個字母及下劃線。

調(diào)用match函數(shù)：

result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)

結(jié)果為：<_sre.SRE_Match object; span=(0, 25), match=‘Hello 123 4567 World_This’>

結(jié)果是 SRE_Match 對象，這證明成功匹配。

該對象有兩個方法：group 方法可以輸出匹配到的內(nèi)容，結(jié)果是 Hello 123 4567 World_This，這恰好是正則表達(dá)式規(guī)則所匹配的內(nèi)容；span 方法可以輸出匹配的范圍，結(jié)果是 (0, 25)，這就是匹配到的結(jié)果字符串在原字符串中的位置范圍。

匹配目標(biāo)

用 match 方法可以得到匹配到的字符串內(nèi)容，如果想從字符串中提取一部分內(nèi)容?？梢允褂?() 括號將想提取的子字符串括起來。() 實(shí)際上標(biāo)記了一個子表達(dá)式的開始和結(jié)束位置，被標(biāo)記的每個子表達(dá)式會依次對應(yīng)每一個分組，調(diào)用 group 方法傳入分組的索引即可獲取提取的結(jié)果。

仍然是上面的例子：Hello 1234567 World_This is a Regex Demo

這里我們想把字符串中的1234567提取出來，此時可以將數(shù)字部分的正則表達(dá)式用 () 括起來，然后調(diào)用了 group(1) 獲取匹配結(jié)果。

result = re.match('^Hello\s(\d+)\sWorld', content)
print(result.group(1))

group(1)，它與 group() 有所不同，后者會輸出完整的匹配結(jié)果，而前者會輸出第一個被 () 包圍的匹配結(jié)果。如果還有（）包裹的內(nèi)容，依次用group（1），group（2）輸出。

通用匹配

上面的正則表達(dá)式可以簡化，.（點(diǎn)）可以匹配任意字符（除換行符），*代表匹配前面的字符無限次，組合在一起就可以匹配任意字符了。

對上式進(jìn)行改寫：result = re.match('^Hello.Demo$', content)，將中間部分直接省略，全部用 . 來代替，最后加一個結(jié)尾字符串就好了。

貪婪與非貪婪

使用上面的通用匹配 .* 時，可能有時候匹配到的并不是我們想要的結(jié)果?？聪旅娴睦樱?/p>

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7

只得到了 7 這個數(shù)字。

在貪婪匹配下，. *會匹配盡可能多的字符。正則表達(dá)式中.* 后面是 \d+，也就是至少一個數(shù)字，并沒有指定具體多少個數(shù)字，因此，.* 就盡可能匹配多的字符，這里就把 123456 匹配了，給 \d + 留下一個可滿足條件的數(shù)字 7，最后得到的內(nèi)容就只有數(shù)字 7 了。

這里只需要使用非貪婪匹配就好了。非貪婪匹配的寫法是 .*?，多了一個？

此時就可以成功獲取 1234567 了。非貪婪匹配就是盡可能匹配少的字符。當(dāng) .? 匹配到 Hello 后面的空白字符時，再往后的字符就是數(shù)字了，而 \d + 恰好可以匹配，那么這里 .? 就不再進(jìn)行匹配，交給 \d+ 去匹配后面的數(shù)字。

這里需要注意，如果匹配的結(jié)果在字符串結(jié)尾，.*? 就有可能匹配不到任何內(nèi)容了，因?yàn)樗鼤ヅ浔M可能少的字符。

修飾符

正則表達(dá)式可以包含一些可選標(biāo)志修飾符來控制匹配的模式。修飾符被指定為一個可選的標(biāo)志。

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content)

在字符串中加了換行符，正則表達(dá)式還是一樣的，用來匹配其中的數(shù)字。運(yùn)行直接報錯，也就是說正則表達(dá)式?jīng)]有匹配到這個字符串，返回結(jié)果為 None，而我們又調(diào)用了 group 方法導(dǎo)致 AttributeError。

匹配的是除換行符之外的任意字符，當(dāng)遇到換行符時，.*? 就不能匹配了，所以導(dǎo)致匹配失敗。這里只需加一個修飾符 re.S，即可修正這個錯誤。

result = re.match('^He.*?(\d+).*?Demo$', content, re.S)

這個 re.S 在網(wǎng)頁匹配中經(jīng)常用到。因?yàn)?HTML 節(jié)點(diǎn)經(jīng)常會有換行，加上它，就可以匹配節(jié)點(diǎn)與節(jié)點(diǎn)之間的換行了。

修飾符

修飾符	描　　述
re.I	使匹配對大小寫不敏感
re.L	做本地化識別（locale-aware）匹配
re.M	多行匹配，影響 ^ 和 $
re.S	使.匹配包括換行在內(nèi)的所有字符
re.U	根據(jù) Unicode 字符集解析字符。這個標(biāo)志影響 \w、\W、\b 和 \B
re.X	該標(biāo)志通過給予你更靈活的格式以便你將正則表達(dá)式寫得更易于理解

轉(zhuǎn)義匹配

如果目標(biāo)字符串里面就包含.，要用到轉(zhuǎn)義匹配，例如：

content = '(百度) www.baidu.com'
result = re.match('\(百度 \) www\.baidu\.com', content)

當(dāng)遇到用于正則匹配模式的特殊字符時，在前面加反斜線轉(zhuǎn)義一下即可。

search

match 方法是從字符串的開頭開始匹配的，一旦開頭不匹配，那么整個匹配就失敗了。它更適合用來檢測某個字符串是否符合某個正則表達(dá)式的規(guī)則。

這里就有另外一個方法 search，它在匹配時會掃描整個字符串，然后返回第一個成功匹配的結(jié)果。也就是說，正則表達(dá)式可以是字符串的一部分，在匹配時，search 方法會依次掃描字符串，直到找到第一個符合規(guī)則的字符串，然后返回匹配內(nèi)容，如果搜索完了還沒有找到，就返回 None。

首先，這里有一段待匹配的 HTML 文本，接下來寫幾個正則表達(dá)式實(shí)例來實(shí)現(xiàn)相應(yīng)信息的提?。?/p>

html = '''<div id="songs-list">
<h2 class="title"> 經(jīng)典老歌 </h2>
<p class="introduction">
經(jīng)典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2"> 一路上有你 </li>
<li data-view="7">
<a href="/2.mp3" singer="任賢齊"> 滄海一聲笑 </a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齊秦"> 往事隨風(fēng) </a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond"> 光輝歲月 </a></li>
<li data-view="5"><a href="/5.mp3" singer="陳慧琳"> 記事本 </a></li>
<li data-view="5">
<a href="/6.mp3" singer="鄧麗君"> 但愿人長久 </a>
</li>
</ul>
</div>'''

嘗試提取 class 為 active 的 li 節(jié)點(diǎn)內(nèi)部的超鏈接包含的歌手名和歌名，此時需要提取第三個 li 節(jié)點(diǎn)下 a 節(jié)點(diǎn)的 singer 屬性和文本。

此時正則表達(dá)式可以以 li 開頭，然后尋找一個標(biāo)志符 active，中間的部分可以用 .? 來匹配。接下來，要提取 singer 這個屬性值，所以還需要寫入 singer="(.?)"，這里需要提取的部分用小括號括起來，以便用 group 方法提取出來，它的兩側(cè)邊界是雙引號。然后還需要匹配 a 節(jié)點(diǎn)的文本，其中它的左邊界是 & gt;，右邊界是 & lt;/a>。然后目標(biāo)內(nèi)容依然用 (.*?) 來匹配，所以最后的正則表達(dá)式就變成了：

<li.*?active.*?singer="(.*?)">(.*?)</a>

調(diào)用 search 方法，它會搜索整個 HTML 文本，找到符合正則表達(dá)式的第一個內(nèi)容返回。另外，由于代碼有換行，所以這里第三個參數(shù)需要傳入 re.S。

findall

如果想要獲取匹配正則表達(dá)式的所有內(nèi)容，就要借助 findall 方法了。該方法會搜索整個字符串，然后返回匹配正則表達(dá)式的所有內(nèi)容。

還是上面的 HTML 文本，如果想獲取所有 a 節(jié)點(diǎn)的超鏈接、歌手和歌名，就可以將 search 方法換成 findall 方法。如果有返回結(jié)果的話，就是列表類型，所以需要遍歷一下來依次獲取每組內(nèi)容。

[('/2.mp3', ' 任賢齊 ', ' 滄海一聲笑 '), ('/3.mp3', ' 齊秦 ', ' 往事隨風(fēng) '), ('/4.mp3', 'beyond', ' 光輝歲月 '), ('/5.mp3', ' 陳慧琳 ', ' 記事本 '), ('/6.mp3', ' 鄧麗君 ', ' 但愿人長久 ')]
<class 'list'>
('/2.mp3', ' 任賢齊 ', ' 滄海一聲笑 ')
/2.mp3 任賢齊 滄海一聲笑
('/3.mp3', ' 齊秦 ', ' 往事隨風(fēng) ')
/3.mp3 齊秦 往事隨風(fēng)
('/4.mp3', 'beyond', ' 光輝歲月 ')
/4.mp3 beyond 光輝歲月
('/5.mp3', ' 陳慧琳 ', ' 記事本 ')
/5.mp3 陳慧琳 記事本
('/6.mp3', ' 鄧麗君 ', ' 但愿人長久 ')
/6.mp3 鄧麗君 但愿人長久

sub

想要把一串文本中的所有數(shù)字都去掉，如果只用字符串的 replace 方法，那就太煩瑣了，這時可以借助 sub 方法。

content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+', '', content)

結(jié)果如下：

aKyroiRixLg

這里只需要給第一個參數(shù)傳入 \d+ 來匹配所有的數(shù)字，第二個參數(shù)為替換成的字符串（如果去掉該參數(shù)的話，可以賦值為空）。

在上面的 HTML 文本中，如果想獲取所有 li 節(jié)點(diǎn)的歌名，直接用正則表達(dá)式來提取可能比較煩瑣。比如，可以寫成這樣子：

results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)
for result in results:
    print(result[1])

此時借助 sub 方法就比較簡單了?？梢韵扔?sub 方法將 a 節(jié)點(diǎn)去掉，只留下文本，然后再利用 findall 提取就好了：

html = re.sub('<a.*?>|</a>', '', html)
print(html)
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
for result in results:
    print(result.strip())

去除后html如下：

<div id="songs-list">
    <h2 class="title"> 經(jīng)典老歌 </h2>
    <p class="introduction">
        經(jīng)典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2"> 一路上有你 </li>
        <li data-view="7">
            滄海一聲笑
        </li>
        <li data-view="4" class="active">
            往事隨風(fēng)
        </li>
        <li data-view="6"> 光輝歲月 </li>
        <li data-view="5"> 記事本 </li>
        <li data-view="5">
            但愿人長久
        </li>
    </ul>
</div>

compile

compile 方法可以將正則字符串編譯成正則表達(dá)式對象，以便在后面的匹配中復(fù)用。

content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)

這里有 3 個日期，我們想分別將 3 個日期中的時間去掉，這時可以借助 sub 方法。compile 還可以傳入修飾符，例如 re.S 等修飾符。文章來源地址http://www.zghlxwxcb.cn/news/detail-720040.html

到了這里，關(guān)于python爬蟲入門（三）正則表達(dá)式的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

python爬蟲之正則表達(dá)式解析實(shí)戰(zhàn)
先獲取網(wǎng)址，URL：https://www.xiachufang.com/category/40076/ 定位想要爬取的內(nèi)容使用正則表達(dá)式爬取導(dǎo)入模塊指定URL UA偽裝（模擬瀏覽器）發(fā)起請求，獲取當(dāng)前頁面的數(shù)據(jù)內(nèi)容，并使用通用爬蟲爬取整個頁面編譯正則表達(dá)式（提取想要的內(nèi)容）解析請求內(nèi)容指定圖片存儲路徑持
2024年02月08日
瀏覽(19)
【python】網(wǎng)絡(luò)爬蟲與信息提取--正則表達(dá)式
? ? ? ? 正則表達(dá)式是用來簡潔表達(dá)一組字符串的表達(dá)式。是通用的字符串表達(dá)框架，簡潔表達(dá)一組字符串的表達(dá)式，針對字符串表達(dá)“簡潔”和“特征”思想的工具，判斷某字符串的特征歸屬。 ? ? ? ? 用處：表達(dá)文本類型的特征；同時查找或替換一組字符串；匹配字符串
2024年02月19日
瀏覽(22)
〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)⑨〗- 正則表達(dá)式基本原理
訂閱：新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+? ????????????????python項(xiàng)目實(shí)戰(zhàn) ????????????????Python編程基礎(chǔ)教程系列（零基礎(chǔ)小白搬磚逆襲) 說明：本專欄持續(xù)更新中，目前專欄免費(fèi)訂閱，在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的，可以免費(fèi)訂閱付費(fèi)專欄，
2023年04月15日
瀏覽(23)
機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)-專題1 Python正則表達(dá)式-【正則表達(dá)式入門-1】
為了完成本關(guān)任務(wù)，你需要掌握：在 Python 中使用正則表達(dá)式；最基礎(chǔ)正則表達(dá)式；正則匹配函數(shù)。在 Python 中使用正則表達(dá)式正可謂人生苦短，我用 Python。Python 有個特點(diǎn)就是庫非常多，自然擁有正則匹配這種常見的庫，并且此庫已經(jīng)嵌入在 Python 標(biāo)準(zhǔn)庫中，使用起來非常
2024年01月22日
瀏覽(108)
十分鐘python入門正則表達(dá)式
正則常見的三種功能，它們分別是：校驗(yàn)數(shù)據(jù)的有效性、查找符合要求的文本以及對文本進(jìn)行切割和替換等操作。所謂元字符就是指那些在正則表達(dá)式中具有特殊意義的專用字符元字符大致分成這幾類：表示單個特殊字符的，表示空白符的，表示某個范圍的，表示次數(shù)的量
2024年02月13日
瀏覽(92)
爬蟲之正則表達(dá)式
個人主頁：Lei寶啊? 愿所有美好如期而遇概念：正則表達(dá)式(regular expression)描述了一種字符串匹配的模式（pattern），正則匹配是一個模糊的匹配(不是精確匹配) 如下四個方法經(jīng)常使用： match() search() findall() finditer() 匹配單個字符或數(shù)字：? 匹配說明 . 匹配除換行符以外的任
2024年02月20日
瀏覽(23)
正則表達(dá)式和爬蟲
目錄一、正則表達(dá)式： ? ? ? ? 作用：字符類（只匹配一個字符） ? ? ? ? ? ? ? ? 細(xì)節(jié) 預(yù)定義字符字符（只匹配一個字符） ? ? ? ? ? ? ? ? 細(xì)節(jié) 數(shù)量詞二、爬蟲 ? ? ? ? Pattern ? ? ? ? Matcher ? ? ? ? ? ? ? ? 要點(diǎn)說明 ? ? ? ? ? ? ? ? 1、校驗(yàn)字符串是否滿足規(guī)則
2024年01月17日
瀏覽(19)
006集正則表達(dá)式 re 應(yīng)用實(shí)例—python基礎(chǔ)入門實(shí)例
正則表達(dá)式指預(yù)先定義好一個 “ 字符串模板 ” ，通過這個 “ 字符串模板” 可以匹配、查找和替換那些匹配 “ 字符串模板 ” 的字符串。 Python的中 re 模塊，主要是用來處理正則表達(dá)式，還可以利用 re 模塊通過正則表達(dá)式來進(jìn)行網(wǎng)頁數(shù)據(jù)的爬取和存儲。正則表達(dá)式的英文
2024年02月01日
瀏覽(31)
Python零基礎(chǔ)入門（六）——超詳細(xì)的字符串與正則表達(dá)式
個人簡介：機(jī)電專業(yè)在讀研究生，CSDN內(nèi)容合伙人，博主個人首頁 Python入門專欄：《Python入門》歡迎閱讀，一起進(jìn)步！?????? 碼字不易，如果覺得文章不錯或能幫助到你學(xué)習(xí)，可以點(diǎn)贊??收藏??評論??+關(guān)注哦！?????? 歡迎來到本系列教程的第六篇，之前的文章已經(jīng)介
2024年02月13日
瀏覽(28)
爬蟲day2 正則表達(dá)式作業(yè)
利用正則表達(dá)式完成下面的操作: 一、不定項(xiàng)選擇題能夠完全匹配字符串\\\"(010)-62661617\\\"和字符串\\\"01062661617\\\"的正則表達(dá)式包括（ABD） A. r\\\"(?d{3})?-?d{8}\\\" B. r\\\"[0-9()-]+\\\" 中括號里面的字符出現(xiàn)任意次 C. r\\\"[0-9(-)]*d*\\\" （-) 表示(到)的所有字符 D. r\\\"[(]?d*[)-]*d*\\\" [(]就是一個(； [)-]是)- 能夠
2023年04月08日
瀏覽(24)

<b id="9jdsb"><menuitem id="9jdsb"></menuitem></b>

<b id="9jdsb"><abbr id="9jdsb"></abbr></b>

<strong id="9jdsb"><dl id="9jdsb"></dl></strong>