開源中國提供的正則表達(dá)式測試工具 http://tool.oschina.net/regex/,輸入待匹配的文本,然后選擇常用的正則表達(dá)式,就可以得出相應(yīng)的匹配結(jié)果了
常用的匹配規(guī)則如下
?! ∈?/th> | 描 述 |
---|---|
\w | 匹配字母、數(shù)字及下劃線 |
\W | 匹配不是字母、數(shù)字及下劃線的字符 |
\s | 匹配任意空白字符,等價于 [\t\n\r\f] |
\S | 匹配任意非空字符 |
\d | 匹配任意數(shù)字,等價于 [0-9] |
\D | 匹配任意非數(shù)字的字符 |
\A | 匹配字符串開頭 |
\Z | 匹配字符串結(jié)尾,如果存在換行,只匹配到換行前的結(jié)束字符串 |
\z | 匹配字符串結(jié)尾,如果存在換行,同時還會匹配換行符 |
\G | 匹配最后匹配完成的位置 |
\n | 匹配一個換行符 |
\t | 匹配一個制表符 |
^ | 匹配一行字符串的開頭 |
$ | 匹配一行字符串的結(jié)尾 |
. | 匹配任意字符,除了換行符,當(dāng) re.DOTALL 標(biāo)記被指定時,則可以匹配包括換行符的任意字符 |
[…] | 用來表示一組字符,單獨(dú)列出,比如 [amk] 匹配 a、m 或 k |
不在 [] 中的字符,比如 匹配除了 a、b、c 之外的字符 | |
* | 匹配 0 個或多個表達(dá)式 |
+ | 匹配 1 個或多個表達(dá)式 |
? | 匹配 0 個或 1 個前面的正則表達(dá)式定義的片段,非貪婪方式 |
{n} | 精確匹配 n 個前面的表達(dá)式 |
{n, m} | 匹配 n 到 m 次由前面正則表達(dá)式定義的片段,貪婪方式 |
a | b |
( ) | 匹配括號內(nèi)的表達(dá)式,也表示一個組 |
match
match 方法會嘗試從字符串的起始位置匹配正則表達(dá)式,如果匹配,就返回匹配成功的結(jié)果;如果不匹配,就返回 None。
例如句子‘Hello 123 4567 World_This is a Regex Demo’,接下來我們寫一個正則表達(dá)式:
^Hello\s\d\d\d\s\d{4}\s\w{10}
開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭;然后 \s 匹配空白字符,用來匹配目標(biāo)字符串的空格;\d 匹配數(shù)字,3 個 \d 匹配 123;然后再寫 1 個 \s 匹配空格;后面還有 4567,我們其實(shí)可以依然用 4 個 \d 來匹配,但是這么寫比較煩瑣,所以后面可以跟 {4} 以代表匹配前面的規(guī)則 4 次,也就是匹配 4 個數(shù)字;然后后面再緊接 1 個空白字符,最后 \w{10} 匹配 10 個字母及下劃線。
調(diào)用match函數(shù):
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
結(jié)果為:<_sre.SRE_Match object; span=(0, 25), match=‘Hello 123 4567 World_This’>
結(jié)果是 SRE_Match 對象,這證明成功匹配。
該對象有兩個方法:group 方法可以輸出匹配到的內(nèi)容,結(jié)果是 Hello 123 4567 World_This,這恰好是正則表達(dá)式規(guī)則所匹配的內(nèi)容;span 方法可以輸出匹配的范圍,結(jié)果是 (0, 25),這就是匹配到的結(jié)果字符串在原字符串中的位置范圍。
匹配目標(biāo)
用 match 方法可以得到匹配到的字符串內(nèi)容,如果想從字符串中提取一部分內(nèi)容??梢允褂?() 括號將想提取的子字符串括起來。() 實(shí)際上標(biāo)記了一個子表達(dá)式的開始和結(jié)束位置,被標(biāo)記的每個子表達(dá)式會依次對應(yīng)每一個分組,調(diào)用 group 方法傳入分組的索引即可獲取提取的結(jié)果。
仍然是上面的例子:Hello 1234567 World_This is a Regex Demo
這里我們想把字符串中的1234567提取出來,此時可以將數(shù)字部分的正則表達(dá)式用 () 括起來,然后調(diào)用了 group(1) 獲取匹配結(jié)果。
result = re.match('^Hello\s(\d+)\sWorld', content)
print(result.group(1))
group(1),它與 group() 有所不同,后者會輸出完整的匹配結(jié)果,而前者會輸出第一個被 () 包圍的匹配結(jié)果。如果還有()包裹的內(nèi)容,依次用group(1),group(2)輸出。
通用匹配
上面的正則表達(dá)式可以簡化,.(點(diǎn))可以匹配任意字符(除換行符),*代表匹配前面的字符無限次,組合在一起就可以匹配任意字符了。
對上式進(jìn)行改寫:result = re.match('^Hello.Demo$', content),將中間部分直接省略,全部用 . 來代替,最后加一個結(jié)尾字符串就好了。
貪婪與非貪婪
使用上面的通用匹配 .* 時,可能有時候匹配到的并不是我們想要的結(jié)果??聪旅娴睦樱?/p>
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7
只得到了 7 這個數(shù)字。
在貪婪匹配下,. *會匹配盡可能多的字符。正則表達(dá)式中.* 后面是 \d+,也就是至少一個數(shù)字,并沒有指定具體多少個數(shù)字,因此,.* 就盡可能匹配多的字符,這里就把 123456 匹配了,給 \d + 留下一個可滿足條件的數(shù)字 7,最后得到的內(nèi)容就只有數(shù)字 7 了。
這里只需要使用非貪婪匹配就好了。非貪婪匹配的寫法是 .*?,多了一個 ?
此時就可以成功獲取 1234567 了。非貪婪匹配就是盡可能匹配少的字符。當(dāng) .? 匹配到 Hello 后面的空白字符時,再往后的字符就是數(shù)字了,而 \d + 恰好可以匹配,那么這里 .? 就不再進(jìn)行匹配,交給 \d+ 去匹配后面的數(shù)字。
這里需要注意,如果匹配的結(jié)果在字符串結(jié)尾,.*? 就有可能匹配不到任何內(nèi)容了,因?yàn)樗鼤ヅ浔M可能少的字符。
修飾符
正則表達(dá)式可以包含一些可選標(biāo)志修飾符來控制匹配的模式。修飾符被指定為一個可選的標(biāo)志。
content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content)
在字符串中加了換行符,正則表達(dá)式還是一樣的,用來匹配其中的數(shù)字。運(yùn)行直接報錯,也就是說正則表達(dá)式?jīng)]有匹配到這個字符串,返回結(jié)果為 None,而我們又調(diào)用了 group 方法導(dǎo)致 AttributeError。
匹配的是除換行符之外的任意字符,當(dāng)遇到換行符時,.*? 就不能匹配了,所以導(dǎo)致匹配失敗。這里只需加一個修飾符 re.S,即可修正這個錯誤。
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
這個 re.S 在網(wǎng)頁匹配中經(jīng)常用到。因?yàn)?HTML 節(jié)點(diǎn)經(jīng)常會有換行,加上它,就可以匹配節(jié)點(diǎn)與節(jié)點(diǎn)之間的換行了。
修飾符
修飾符 | 描 述 |
---|---|
re.I | 使匹配對大小寫不敏感 |
re.L | 做本地化識別(locale-aware)匹配 |
re.M | 多行匹配,影響 ^ 和 $ |
re.S | 使.匹配包括換行在內(nèi)的所有字符 |
re.U | 根據(jù) Unicode 字符集解析字符。這個標(biāo)志影響 \w、\W、\b 和 \B |
re.X | 該標(biāo)志通過給予你更靈活的格式以便你將正則表達(dá)式寫得更易于理解 |
轉(zhuǎn)義匹配
如果目標(biāo)字符串里面就包含.,要用到轉(zhuǎn)義匹配,例如:
content = '(百度) www.baidu.com'
result = re.match('\(百度 \) www\.baidu\.com', content)
當(dāng)遇到用于正則匹配模式的特殊字符時,在前面加反斜線轉(zhuǎn)義一下即可。
search
match 方法是從字符串的開頭開始匹配的,一旦開頭不匹配,那么整個匹配就失敗了。它更適合用來檢測某個字符串是否符合某個正則表達(dá)式的規(guī)則。
這里就有另外一個方法 search,它在匹配時會掃描整個字符串,然后返回第一個成功匹配的結(jié)果。也就是說,正則表達(dá)式可以是字符串的一部分,在匹配時,search 方法會依次掃描字符串,直到找到第一個符合規(guī)則的字符串,然后返回匹配內(nèi)容,如果搜索完了還沒有找到,就返回 None。
首先,這里有一段待匹配的 HTML 文本,接下來寫幾個正則表達(dá)式實(shí)例來實(shí)現(xiàn)相應(yīng)信息的提?。?/p>
html = '''<div id="songs-list">
<h2 class="title"> 經(jīng)典老歌 </h2>
<p class="introduction">
經(jīng)典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2"> 一路上有你 </li>
<li data-view="7">
<a href="/2.mp3" singer="任賢齊"> 滄海一聲笑 </a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齊秦"> 往事隨風(fēng) </a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond"> 光輝歲月 </a></li>
<li data-view="5"><a href="/5.mp3" singer="陳慧琳"> 記事本 </a></li>
<li data-view="5">
<a href="/6.mp3" singer="鄧麗君"> 但愿人長久 </a>
</li>
</ul>
</div>'''
嘗試提取 class 為 active 的 li 節(jié)點(diǎn)內(nèi)部的超鏈接包含的歌手名和歌名,此時需要提取第三個 li 節(jié)點(diǎn)下 a 節(jié)點(diǎn)的 singer 屬性和文本。
此時正則表達(dá)式可以以 li 開頭,然后尋找一個標(biāo)志符 active,中間的部分可以用 .? 來匹配。接下來,要提取 singer 這個屬性值,所以還需要寫入 singer="(.?)",這里需要提取的部分用小括號括起來,以便用 group 方法提取出來,它的兩側(cè)邊界是雙引號。然后還需要匹配 a 節(jié)點(diǎn)的文本,其中它的左邊界是 & gt;,右邊界是 & lt;/a>。然后目標(biāo)內(nèi)容依然用 (.*?) 來匹配,所以最后的正則表達(dá)式就變成了:
<li.*?active.*?singer="(.*?)">(.*?)</a>
調(diào)用 search 方法,它會搜索整個 HTML 文本,找到符合正則表達(dá)式的第一個內(nèi)容返回。另外,由于代碼有換行,所以這里第三個參數(shù)需要傳入 re.S。
findall
如果想要獲取匹配正則表達(dá)式的所有內(nèi)容,就要借助 findall 方法了。該方法會搜索整個字符串,然后返回匹配正則表達(dá)式的所有內(nèi)容。
還是上面的 HTML 文本,如果想獲取所有 a 節(jié)點(diǎn)的超鏈接、歌手和歌名,就可以將 search 方法換成 findall 方法。如果有返回結(jié)果的話,就是列表類型,所以需要遍歷一下來依次獲取每組內(nèi)容。
[('/2.mp3', ' 任賢齊 ', ' 滄海一聲笑 '), ('/3.mp3', ' 齊秦 ', ' 往事隨風(fēng) '), ('/4.mp3', 'beyond', ' 光輝歲月 '), ('/5.mp3', ' 陳慧琳 ', ' 記事本 '), ('/6.mp3', ' 鄧麗君 ', ' 但愿人長久 ')]
<class 'list'>
('/2.mp3', ' 任賢齊 ', ' 滄海一聲笑 ')
/2.mp3 任賢齊 滄海一聲笑
('/3.mp3', ' 齊秦 ', ' 往事隨風(fēng) ')
/3.mp3 齊秦 往事隨風(fēng)
('/4.mp3', 'beyond', ' 光輝歲月 ')
/4.mp3 beyond 光輝歲月
('/5.mp3', ' 陳慧琳 ', ' 記事本 ')
/5.mp3 陳慧琳 記事本
('/6.mp3', ' 鄧麗君 ', ' 但愿人長久 ')
/6.mp3 鄧麗君 但愿人長久
sub
想要把一串文本中的所有數(shù)字都去掉,如果只用字符串的 replace 方法,那就太煩瑣了,這時可以借助 sub 方法。
content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+', '', content)
結(jié)果如下:
aKyroiRixLg
這里只需要給第一個參數(shù)傳入 \d+ 來匹配所有的數(shù)字,第二個參數(shù)為替換成的字符串(如果去掉該參數(shù)的話,可以賦值為空)。
在上面的 HTML 文本中,如果想獲取所有 li 節(jié)點(diǎn)的歌名,直接用正則表達(dá)式來提取可能比較煩瑣。比如,可以寫成這樣子:
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)
for result in results:
print(result[1])
此時借助 sub 方法就比較簡單了??梢韵扔?sub 方法將 a 節(jié)點(diǎn)去掉,只留下文本,然后再利用 findall 提取就好了:
html = re.sub('<a.*?>|</a>', '', html)
print(html)
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
for result in results:
print(result.strip())
去除后html如下:
<div id="songs-list">
<h2 class="title"> 經(jīng)典老歌 </h2>
<p class="introduction">
經(jīng)典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2"> 一路上有你 </li>
<li data-view="7">
滄海一聲笑
</li>
<li data-view="4" class="active">
往事隨風(fēng)
</li>
<li data-view="6"> 光輝歲月 </li>
<li data-view="5"> 記事本 </li>
<li data-view="5">
但愿人長久
</li>
</ul>
</div>
compile
compile 方法可以將正則字符串編譯成正則表達(dá)式對象,以便在后面的匹配中復(fù)用。文章來源:http://www.zghlxwxcb.cn/news/detail-720040.html
content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
這里有 3 個日期,我們想分別將 3 個日期中的時間去掉,這時可以借助 sub 方法。compile 還可以傳入修飾符,例如 re.S 等修飾符。文章來源地址http://www.zghlxwxcb.cn/news/detail-720040.html
到了這里,關(guān)于python爬蟲入門(三)正則表達(dá)式的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!