国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲html網(wǎng)址實(shí)戰(zhàn)筆記

這篇具有很好參考價(jià)值的文章主要介紹了Python爬蟲html網(wǎng)址實(shí)戰(zhàn)筆記。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

僅供學(xué)習(xí)參考文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-829606.html

一、獲取html網(wǎng)址中文本和鏈接,寫入TXT文件中

import requests
from lxml import html

base_url = "https://abcdef自己的網(wǎng)址要改"
response = requests.get(base_url)
response.encoding = 'utf-8'  # 指定正確的編碼方式

tree = html.fromstring(response.content, parser=html.HTMLParser(encoding='utf-8'))

# 固定部分XPath,只有最后一個(gè)div的索引會(huì)變化,自己修改,復(fù)制網(wǎng)址的xpath路徑
fixed_xpath = "/html/body/div[4]/div[2]/ul/li[{div_index}]/a"

filename = "現(xiàn)TXT文本內(nèi)容.txt"

with open(filename, "w", encoding="utf-8") as f:
    for div_index in range(1, 100):  # 假設(shè)有100個(gè)人
        # 構(gòu)建完整的XPath
        xpath = fixed_xpath.format(div_index=div_index)

        # 使用XPath定位每個(gè)人員信息的元素
        person_elements = tree.xpath(xpath)

        for person_element in person_elements:
            # 獲取網(wǎng)址路徑和姓名信息
            url_path = person_element.get("href")
            full_url = base_url + url_path if url_path else ""
            name = person_element.xpath('string()').strip()  # 提取文本內(nèi)容并去除空格

            # 僅輸出網(wǎng)址中的路徑部分
            url_path = full_url.replace(base_url, "")
            output_str = f"網(wǎng)址路徑:{url_path}\n姓名:{name}\n\n"
            print(output_str)
            f.write(output_str)

print(f"輸出已保存到文件 {filename}")

結(jié)果:現(xiàn)TXT文本內(nèi)容

網(wǎng)址路徑:http://abc.html
姓名:abc

二、根據(jù)現(xiàn)有的TXT文本,打開鏈接找到需要的內(nèi)容。將內(nèi)容放入姓名之后,以新的文本輸出

import re
import requests
from lxml import html

# 讀取文件內(nèi)容
with open("現(xiàn)TXT文本內(nèi)容.txt", "rb") as file:
    content = file.read().decode('utf-8', 'ignore')

lines = content.splitlines()

email_xpath = '/html/body/div[4]/div/div/div/div/div[2]/div[1]/div[2]/div[4]/div[1]/text()'

filename = "現(xiàn)TXT文本內(nèi)容郵箱.txt"

with open(filename, "w", encoding="utf-8") as f:
    # 遍歷每一行內(nèi)容
    for i in range(0, len(lines), 1):
        url_line = lines[i]  # 當(dāng)前行為URL
        name_line = lines[i + 1]  # 下一行為姓名

        # 從URL和姓名行中提取URL和姓名信息
        url_match = re.search(r"https?://[^\s]+", url_line)
        name_match = re.search(r"姓名:(.+)", name_line)

        # 如果URL和姓名都匹配到了
        if url_match and name_match:
            url = url_match.group()
            name = name_match.group(1)

            # 發(fā)送GET請(qǐng)求到URL獲取頁(yè)面內(nèi)容
            response = requests.get(url)
            # 將頁(yè)面內(nèi)容轉(zhuǎn)為XPath對(duì)象
            tree = html.fromstring(response.content)

            # 使用XPath表達(dá)式提取郵箱信息
            email = tree.xpath(email_xpath)
            email = email[0] if email else "未找到郵箱地址"

            # 將姓名和郵箱信息寫入文件
            output_str = f"{name}:{email}\n"
            print(output_str)
            f.write(output_str)

# 輸出保存結(jié)果
print(f"輸出已保存到文件 {filename}")
輸出TXT文本內(nèi)容
abc:abc@aa.com
...

到了這里,關(guān)于Python爬蟲html網(wǎng)址實(shí)戰(zhàn)筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 爬蟲學(xué)習(xí)筆記-scrapy爬取電影天堂(雙層網(wǎng)址嵌套)

    爬蟲學(xué)習(xí)筆記-scrapy爬取電影天堂(雙層網(wǎng)址嵌套)

    ? 1.終端運(yùn)行scrapy startproject movie,創(chuàng)建項(xiàng)目 2.接口查找 ?3.終端cd到spiders,cd scrapy_carhome/scrapy_movie/spiders,運(yùn)行?scrapy genspider mv https://dy2018.com/ 4.打開mv,編寫代碼,爬取電影名和網(wǎng)址 5.用爬取的網(wǎng)址請(qǐng)求,使用meta屬性傳遞name?,callback調(diào)用自定義的parse_second 6.導(dǎo)入ScrapyMovieItem,將movie對(duì)象

    2024年02月19日
    瀏覽(27)
  • Python爬蟲(十九)_動(dòng)態(tài)HTML介紹

    Python爬蟲(十九)_動(dòng)態(tài)HTML介紹

    JavaScript是網(wǎng)絡(luò)上最常用也是支持者對(duì)多的客戶端腳本語(yǔ)言。它可以收集用戶的跟蹤數(shù)據(jù),不需要重載頁(yè)面直接提交表單,在頁(yè)面嵌入多媒體文件,甚至運(yùn)行網(wǎng)頁(yè)游戲。 我們可以在網(wǎng)頁(yè)源代碼的 script 標(biāo)簽里看到,比如: jQuery是一個(gè)非常常見的庫(kù),70%最流行的網(wǎng)站(約200萬(wàn))和約

    2024年02月09日
    瀏覽(12)
  • Python實(shí)戰(zhàn),爬蟲實(shí)戰(zhàn),用Python搶票

    Python是一門高級(jí)編程語(yǔ)言,其在大數(shù)據(jù)、人工智能、科學(xué)計(jì)算等眾多領(lǐng)域都有廣泛應(yīng)用。而在互聯(lián)網(wǎng)時(shí)代,Python更是成為網(wǎng)絡(luò)爬蟲、數(shù)據(jù)挖掘的主要選擇之一 。那么,如何將Python應(yīng)用于實(shí)戰(zhàn)中,實(shí)現(xiàn)搶票等功能呢?接下來(lái),將介紹Python實(shí)戰(zhàn)爬蟲搶票的全流程。 爬蟲 先來(lái)談一

    2024年02月06日
    瀏覽(31)
  • Python爬蟲——BeautifulSoup,獲取HTML中文檔,標(biāo)簽等內(nèi)容

    Python爬蟲——BeautifulSoup,獲取HTML中文檔,標(biāo)簽等內(nèi)容

    將復(fù)雜的HTML文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹形結(jié)構(gòu),每個(gè)結(jié)點(diǎn)都是一個(gè)Python對(duì)象,所有對(duì)象可以分為四種: Tag NavigableString BeautifulSoup Comment 首先要引入該函數(shù),再打開相應(yīng)的html文件讀取其中的內(nèi)容,在使用BeautiSoup對(duì)其進(jìn)行解析,解析的時(shí)候要使用相應(yīng)類型的解析器html.parser bs當(dāng)中

    2024年02月06日
    瀏覽(28)
  • Python爬蟲技術(shù)系列-02HTML解析-BS4

    Python爬蟲技術(shù)系列-02HTML解析-BS4

    參考連接: https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/# http://c.biancheng.net/python_spider/bs4.html 2.1.1 Beautiful Soup安裝 Beautiful Soup 簡(jiǎn)稱 BS4(其中 4 表示版本號(hào))是一個(gè) Python 第三方庫(kù),它可以從 HTML 或 XML 文檔中快速地提取指定的數(shù)據(jù)。Beautiful Soup 語(yǔ)法簡(jiǎn)單,使用方便,并且容易理解,

    2024年02月05日
    瀏覽(36)
  • 【Python爬蟲開發(fā)基礎(chǔ)⑤】HTML概述與基本標(biāo)簽詳解

    【Python爬蟲開發(fā)基礎(chǔ)⑤】HTML概述與基本標(biāo)簽詳解

    專欄 :python網(wǎng)絡(luò)爬蟲從基礎(chǔ)到實(shí)戰(zhàn) 歡迎訂閱!近期還會(huì)不斷更新~ 往期推薦 : 【Python爬蟲開發(fā)基礎(chǔ)①】Python基礎(chǔ)(變量及其命名規(guī)范) 【Python爬蟲開發(fā)基礎(chǔ)②】Python基礎(chǔ)(正則表達(dá)式) 【Python爬蟲開發(fā)基礎(chǔ)③】Python基礎(chǔ)(文件操作方法匯總) 【Python爬蟲開發(fā)基礎(chǔ)④】爬蟲

    2024年02月09日
    瀏覽(37)
  • 一個(gè)月學(xué)通Python(二十九):Python獲取網(wǎng)絡(luò)資源及解析HTML頁(yè)面(爬蟲)

    結(jié)合自身經(jīng)驗(yàn)和內(nèi)部資料總結(jié)的Python教程,每天3-5章,最短1個(gè)月就能全方位的完成Python的學(xué)習(xí)并進(jìn)行實(shí)戰(zhàn)開發(fā),學(xué)完了定能成為大佬!加油吧!卷起來(lái)! 全部文章請(qǐng)?jiān)L問專欄:《Python全棧教程(0基礎(chǔ))》

    2024年02月14日
    瀏覽(23)
  • python爬蟲實(shí)戰(zhàn)案例——某站視頻爬蟲

    python爬蟲實(shí)戰(zhàn)案例——某站視頻爬蟲

    今天突然發(fā)現(xiàn),某站的視頻在電腦上是不能下載的。于是乎,就打算在電腦上爬取一下某站的視頻。讓大家在電腦上也能看, 某站的視頻是音頻和視頻分開的,我在網(wǎng)上搜了一下,要用到一個(gè)叫ffmpeg的音視頻合成的庫(kù),網(wǎng)上教程很多,大家搜一下就可以找到了,我就不在此贅

    2024年02月10日
    瀏覽(28)
  • Python爬蟲技術(shù)系列-02HTML解析-xpath與lxml

    Python爬蟲技術(shù)系列-02HTML解析-xpath與lxml

    參考連接: XPath教程 https://www.w3school.com.cn/xpath/index.asp lxml文檔 https://lxml.de/index.html#support-the-project 爬蟲專欄 https://blog.csdn.net/m0_38139250/category_12001010.html XPath的中文名稱為XML路徑語(yǔ)言(XML Path Language),其最初的設(shè)計(jì)是用來(lái)搜索 XML 文檔,但也適用于HTML文檔搜索。1996年11月,

    2024年02月07日
    瀏覽(20)
  • python爬蟲實(shí)戰(zhàn)代碼(一)

    python爬蟲實(shí)戰(zhàn)代碼(一)

    目錄 一、程序效果 二、程序代碼 三、答疑解惑 ?四、同步視頻講解 python爬蟲爬取豆瓣電影top250數(shù)據(jù)并存入excel表格 爬蟲的效果如下 完整程序代碼如下,復(fù)制粘貼可直接運(yùn)行出結(jié)果! 有任何問題的小伙伴可以添加我的微信:safeseaa 推薦大家兩個(gè)相關(guān)的視頻講解,有需要的可以

    2024年02月12日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包