本文將使用實(shí)際的例子來解釋Python的urlparse() 函數(shù)來解析和提取URL中的域名。我們還將討論如何提高我們解析 URL 的能力和使用它們的不同組件。
用urlparse() 從 URL 中提取域名
urlparse() 方法是Python的urllib 模塊的一部分,當(dāng)你需要將URL拆分成不同的組件并將它們用于不同的目的時(shí)非常有用。讓我們看一下這個(gè)例子:
from urllib.parse import urlparse
component = urlparse('http://www.google.com/doodles/mothers-day-2021-april-07')
print(component)
在這個(gè)代碼片斷中,我們首先包含了urllib 模塊中的庫文件。然后,我們將一個(gè)URL傳遞給urlparse 函數(shù)。這個(gè)函數(shù)的返回值是一個(gè)對(duì)象,它就像一個(gè)數(shù)組,有六個(gè)元素,如下所示:
- scheme – 指定我們可以用來獲取在線資源的協(xié)議,例如,HTTP/HTTPS 。
- netloc – net 表示網(wǎng)絡(luò),loc 表示位置;所以它表示URLs的網(wǎng)絡(luò)位置。
- path – 一個(gè)網(wǎng)絡(luò)瀏覽器用來訪問所提供的資源的特定途徑。
- params – 這些是path 元素的參數(shù)。
- query – 遵循path 組件和數(shù)據(jù)的蒸汽,一個(gè)資源可以使用。
- fragment – 它對(duì)部件進(jìn)行分類。
當(dāng)我們使用打印函數(shù)顯示這個(gè)對(duì)象時(shí),它將打印其組件的值。上述代碼柵欄的輸出將如下:
ParseResult(scheme='http', netloc='www.google.com', path='/doodles/mothers-day-2021-april-07', params='', query='', fragment='')
你可以從輸出中看到,所有的URL組件都被分離出來,作為單獨(dú)的元素存儲(chǔ)在對(duì)象中。我們可以像這樣通過使用其名稱來獲得任何組件的值:
from urllib.parse import urlparse
domain_name = urlparse('http://www.google.com/doodles/mothers-day-2021-april-07').netloc
print(domain_name)
使用netloc 組件,我們可以得到URL的域名,如下所示:文章來源:http://www.zghlxwxcb.cn/news/detail-708290.html
www.google.com
這樣,我們可以得到我們的URL解析,并在我們的編程中使用其不同的組件來達(dá)到各種目的。文章來源地址http://www.zghlxwxcb.cn/news/detail-708290.html
到了這里,關(guān)于用Python從URL中提取域名的方法的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!