国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲html網(wǎng)址實(shí)戰(zhàn)筆記

2年前作者：是筱倩阿分類：Toy博客閱讀(20)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Python爬蟲html網(wǎng)址實(shí)戰(zhàn)筆記。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

僅供學(xué)習(xí)參考文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-829606.html

一、獲取html網(wǎng)址中文本和鏈接，寫入TXT文件中

import requests
from lxml import html

base_url = "https://abcdef自己的網(wǎng)址要改"
response = requests.get(base_url)
response.encoding = 'utf-8'  # 指定正確的編碼方式

tree = html.fromstring(response.content, parser=html.HTMLParser(encoding='utf-8'))

# 固定部分XPath，只有最后一個(gè)div的索引會(huì)變化，自己修改，復(fù)制網(wǎng)址的xpath路徑
fixed_xpath = "/html/body/div[4]/div[2]/ul/li[{div_index}]/a"

filename = "現(xiàn)TXT文本內(nèi)容.txt"

with open(filename, "w", encoding="utf-8") as f:
    for div_index in range(1, 100):  # 假設(shè)有100個(gè)人
        # 構(gòu)建完整的XPath
        xpath = fixed_xpath.format(div_index=div_index)

        # 使用XPath定位每個(gè)人員信息的元素
        person_elements = tree.xpath(xpath)

        for person_element in person_elements:
            # 獲取網(wǎng)址路徑和姓名信息
            url_path = person_element.get("href")
            full_url = base_url + url_path if url_path else ""
            name = person_element.xpath('string()').strip()  # 提取文本內(nèi)容并去除空格

            # 僅輸出網(wǎng)址中的路徑部分
            url_path = full_url.replace(base_url, "")
            output_str = f"網(wǎng)址路徑：{url_path}\n姓名：{name}\n\n"
            print(output_str)
            f.write(output_str)

print(f"輸出已保存到文件 {filename}")

結(jié)果：現(xiàn)TXT文本內(nèi)容

網(wǎng)址路徑：http://abc.html
姓名：abc

二、根據(jù)現(xiàn)有的TXT文本，打開鏈接找到需要的內(nèi)容。將內(nèi)容放入姓名之后，以新的文本輸出

import re
import requests
from lxml import html

# 讀取文件內(nèi)容
with open("現(xiàn)TXT文本內(nèi)容.txt", "rb") as file:
    content = file.read().decode('utf-8', 'ignore')

lines = content.splitlines()

email_xpath = '/html/body/div[4]/div/div/div/div/div[2]/div[1]/div[2]/div[4]/div[1]/text()'

filename = "現(xiàn)TXT文本內(nèi)容郵箱.txt"

with open(filename, "w", encoding="utf-8") as f:
    # 遍歷每一行內(nèi)容
    for i in range(0, len(lines), 1):
        url_line = lines[i]  # 當(dāng)前行為URL
        name_line = lines[i + 1]  # 下一行為姓名

        # 從URL和姓名行中提取URL和姓名信息
        url_match = re.search(r"https?://[^\s]+", url_line)
        name_match = re.search(r"姓名：(.+)", name_line)

        # 如果URL和姓名都匹配到了
        if url_match and name_match:
            url = url_match.group()
            name = name_match.group(1)

            # 發(fā)送GET請(qǐng)求到URL獲取頁(yè)面內(nèi)容
            response = requests.get(url)
            # 將頁(yè)面內(nèi)容轉(zhuǎn)為XPath對(duì)象
            tree = html.fromstring(response.content)

            # 使用XPath表達(dá)式提取郵箱信息
            email = tree.xpath(email_xpath)
            email = email[0] if email else "未找到郵箱地址"

            # 將姓名和郵箱信息寫入文件
            output_str = f"{name}：{email}\n"
            print(output_str)
            f.write(output_str)

# 輸出保存結(jié)果
print(f"輸出已保存到文件 {filename}")

輸出TXT文本內(nèi)容
abc：abc@aa.com
...

到了這里，關(guān)于Python爬蟲html網(wǎng)址實(shí)戰(zhàn)筆記的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

爬蟲學(xué)習(xí)筆記-scrapy爬取電影天堂(雙層網(wǎng)址嵌套)
? 1.終端運(yùn)行scrapy startproject movie,創(chuàng)建項(xiàng)目 2.接口查找 ?3.終端cd到spiders,cd scrapy_carhome/scrapy_movie/spiders,運(yùn)行?scrapy genspider mv https://dy2018.com/ 4.打開mv,編寫代碼,爬取電影名和網(wǎng)址 5.用爬取的網(wǎng)址請(qǐng)求,使用meta屬性傳遞name?,callback調(diào)用自定義的parse_second 6.導(dǎo)入ScrapyMovieItem,將movie對(duì)象
2024年02月19日
瀏覽(27)
Python爬蟲(十九)_動(dòng)態(tài)HTML介紹
JavaScript是網(wǎng)絡(luò)上最常用也是支持者對(duì)多的客戶端腳本語(yǔ)言。它可以收集用戶的跟蹤數(shù)據(jù)，不需要重載頁(yè)面直接提交表單，在頁(yè)面嵌入多媒體文件，甚至運(yùn)行網(wǎng)頁(yè)游戲。我們可以在網(wǎng)頁(yè)源代碼的 script 標(biāo)簽里看到，比如： jQuery是一個(gè)非常常見的庫(kù)，70%最流行的網(wǎng)站(約200萬(wàn))和約
2024年02月09日
瀏覽(12)
Python實(shí)戰(zhàn)，爬蟲實(shí)戰(zhàn)，用Python搶票
Python是一門高級(jí)編程語(yǔ)言，其在大數(shù)據(jù)、人工智能、科學(xué)計(jì)算等眾多領(lǐng)域都有廣泛應(yīng)用。而在互聯(lián)網(wǎng)時(shí)代，Python更是成為網(wǎng)絡(luò)爬蟲、數(shù)據(jù)挖掘的主要選擇之一。那么，如何將Python應(yīng)用于實(shí)戰(zhàn)中，實(shí)現(xiàn)搶票等功能呢？接下來(lái)，將介紹Python實(shí)戰(zhàn)爬蟲搶票的全流程。爬蟲先來(lái)談一
2024年02月06日
瀏覽(31)
Python爬蟲——BeautifulSoup，獲取HTML中文檔，標(biāo)簽等內(nèi)容
將復(fù)雜的HTML文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹形結(jié)構(gòu)，每個(gè)結(jié)點(diǎn)都是一個(gè)Python對(duì)象，所有對(duì)象可以分為四種： Tag NavigableString BeautifulSoup Comment 首先要引入該函數(shù)，再打開相應(yīng)的html文件讀取其中的內(nèi)容，在使用BeautiSoup對(duì)其進(jìn)行解析，解析的時(shí)候要使用相應(yīng)類型的解析器html.parser bs當(dāng)中
2024年02月06日
瀏覽(28)
Python爬蟲技術(shù)系列-02HTML解析-BS4
參考連接： https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/# http://c.biancheng.net/python_spider/bs4.html 2.1.1 Beautiful Soup安裝 Beautiful Soup 簡(jiǎn)稱 BS4（其中 4 表示版本號(hào)）是一個(gè) Python 第三方庫(kù)，它可以從 HTML 或 XML 文檔中快速地提取指定的數(shù)據(jù)。Beautiful Soup 語(yǔ)法簡(jiǎn)單，使用方便，并且容易理解，
2024年02月05日
瀏覽(36)
【Python爬蟲開發(fā)基礎(chǔ)⑤】HTML概述與基本標(biāo)簽詳解
專欄：python網(wǎng)絡(luò)爬蟲從基礎(chǔ)到實(shí)戰(zhàn) 歡迎訂閱！近期還會(huì)不斷更新~ 往期推薦：【Python爬蟲開發(fā)基礎(chǔ)①】Python基礎(chǔ)（變量及其命名規(guī)范）【Python爬蟲開發(fā)基礎(chǔ)②】Python基礎(chǔ)（正則表達(dá)式）【Python爬蟲開發(fā)基礎(chǔ)③】Python基礎(chǔ)（文件操作方法匯總）【Python爬蟲開發(fā)基礎(chǔ)④】爬蟲
2024年02月09日
瀏覽(37)
一個(gè)月學(xué)通Python(二十九)：Python獲取網(wǎng)絡(luò)資源及解析HTML頁(yè)面（爬蟲）
結(jié)合自身經(jīng)驗(yàn)和內(nèi)部資料總結(jié)的Python教程，每天3-5章，最短1個(gè)月就能全方位的完成Python的學(xué)習(xí)并進(jìn)行實(shí)戰(zhàn)開發(fā)，學(xué)完了定能成為大佬！加油吧！卷起來(lái)！全部文章請(qǐng)?jiān)L問專欄：《Python全棧教程（0基礎(chǔ)）》
2024年02月14日
瀏覽(23)
python爬蟲實(shí)戰(zhàn)案例——某站視頻爬蟲
今天突然發(fā)現(xiàn)，某站的視頻在電腦上是不能下載的。于是乎，就打算在電腦上爬取一下某站的視頻。讓大家在電腦上也能看，某站的視頻是音頻和視頻分開的，我在網(wǎng)上搜了一下，要用到一個(gè)叫ffmpeg的音視頻合成的庫(kù)，網(wǎng)上教程很多，大家搜一下就可以找到了，我就不在此贅
2024年02月10日
瀏覽(28)
Python爬蟲技術(shù)系列-02HTML解析-xpath與lxml
參考連接： XPath教程 https://www.w3school.com.cn/xpath/index.asp lxml文檔 https://lxml.de/index.html#support-the-project 爬蟲專欄 https://blog.csdn.net/m0_38139250/category_12001010.html XPath的中文名稱為XML路徑語(yǔ)言（XML Path Language），其最初的設(shè)計(jì)是用來(lái)搜索 XML 文檔，但也適用于HTML文檔搜索。1996年11月，
2024年02月07日
瀏覽(20)
python爬蟲實(shí)戰(zhàn)代碼（一）
目錄一、程序效果二、程序代碼三、答疑解惑 ?四、同步視頻講解 python爬蟲爬取豆瓣電影top250數(shù)據(jù)并存入excel表格爬蟲的效果如下完整程序代碼如下，復(fù)制粘貼可直接運(yùn)行出結(jié)果！有任何問題的小伙伴可以添加我的微信:safeseaa 推薦大家兩個(gè)相關(guān)的視頻講解，有需要的可以
2024年02月12日
瀏覽(24)