国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<font id="mjdts"><rp id="mjdts"><thead id="mjdts"></thead></rp></font>

<fieldset id="mjdts"><nav id="mjdts"></nav></fieldset>

<fieldset id="mjdts"><ruby id="mjdts"><dl id="mjdts"></dl></ruby></fieldset>

<form id="mjdts"></form>

<fieldset id="mjdts"><ruby id="mjdts"></ruby></fieldset>

基于selenium和bs4的通用數(shù)據(jù)采集技術(shù)（附代碼）

1年前作者：寫代碼的中青年分類：Toy博客閱讀(15)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了基于selenium和bs4的通用數(shù)據(jù)采集技術(shù)（附代碼）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

AI應(yīng)用開(kāi)發(fā)相關(guān)目錄

本專欄包括AI應(yīng)用開(kāi)發(fā)相關(guān)內(nèi)容分享，包括不限于AI算法部署實(shí)施細(xì)節(jié)、AI應(yīng)用后端分析服務(wù)相關(guān)概念及開(kāi)發(fā)技巧、AI應(yīng)用后端應(yīng)用服務(wù)相關(guān)概念及開(kāi)發(fā)技巧、AI應(yīng)用前端實(shí)現(xiàn)路徑及開(kāi)發(fā)技巧
適用于具備一定算法及Python使用基礎(chǔ)的人群

AI應(yīng)用開(kāi)發(fā)流程概述
Visual Studio Code及Remote Development插件遠(yuǎn)程開(kāi)發(fā)
git開(kāi)源項(xiàng)目的一些問(wèn)題及鏡像解決辦法
python實(shí)現(xiàn)UDP報(bào)文通信
python實(shí)現(xiàn)日志生成及定期清理
Linux終端命令Screen常見(jiàn)用法
python實(shí)現(xiàn)redis數(shù)據(jù)存儲(chǔ)
python字符串轉(zhuǎn)字典
python實(shí)現(xiàn)文本向量化及文本相似度計(jì)算
python對(duì)MySQL數(shù)據(jù)的常見(jiàn)使用
一文總結(jié)python的異常數(shù)據(jù)處理示例
基于selenium和bs4的通用數(shù)據(jù)采集技術(shù)（附代碼）

一、前言

本文所說(shuō)的數(shù)據(jù)采集技術(shù)即爬蟲(chóng)，爬蟲(chóng)技術(shù)用于從互聯(lián)網(wǎng)上抓取大量數(shù)據(jù)。這些爬蟲(chóng)程序能夠自動(dòng)化地訪問(wèn)網(wǎng)頁(yè)/公眾號(hào)平臺(tái)、解析內(nèi)容，并提取所需的信息。在大數(shù)據(jù)和機(jī)器學(xué)習(xí)等領(lǐng)域，爬蟲(chóng)技術(shù)發(fā)揮著至關(guān)重要的作用。

數(shù)據(jù)采集技術(shù)為項(xiàng)目提供豐富的數(shù)據(jù)資源，根據(jù)這些信息進(jìn)行產(chǎn)品設(shè)計(jì)和創(chuàng)新，持續(xù)改進(jìn)和優(yōu)化產(chǎn)品。

二、環(huán)境配置

pip install beautifulsoup4

pip install selenium

安裝WebDriver：Selenium需要WebDriver來(lái)與瀏覽器進(jìn)行交互。不同的瀏覽器需要不同的WebDriver。例如，如果你使用的是Chrome瀏覽器，你需要下載并安裝chromedriver；如果你使用的是Firefox瀏覽器，你需要下載并安裝geckodriver。請(qǐng)根據(jù)你的瀏覽器類型，從官方網(wǎng)站或相關(guān)源下載對(duì)應(yīng)的WebDriver，并將其放置在系統(tǒng)路徑下，以便Selenium能夠找到并調(diào)用它。

基于selenium和bs4的通用數(shù)據(jù)采集技術(shù)（附代碼）,AI應(yīng)用開(kāi)發(fā),selenium,測(cè)試工具,python,爬蟲(chóng),數(shù)據(jù)采集,網(wǎng)絡(luò)爬蟲(chóng)

三、技術(shù)策略

http://ytzwfw.sd.gov.cn/yt/icity/project/index

基于selenium和bs4的通用數(shù)據(jù)采集技術(shù)（附代碼）,AI應(yīng)用開(kāi)發(fā),selenium,測(cè)試工具,python,爬蟲(chóng),數(shù)據(jù)采集,網(wǎng)絡(luò)爬蟲(chóng)
特性1：翻頁(yè)后url無(wú)變化規(guī)律

特性2：數(shù)據(jù)爬取分為2階段，需要在url后再爬取具體數(shù)據(jù)項(xiàng)的url_son，再針對(duì)url_son設(shè)計(jì)程序采集。

基于selenium和bs4的通用數(shù)據(jù)采集技術(shù)（附代碼）,AI應(yīng)用開(kāi)發(fā),selenium,測(cè)試工具,python,爬蟲(chóng),數(shù)據(jù)采集,網(wǎng)絡(luò)爬蟲(chóng)

特性3：html源碼中無(wú)法直接獲取數(shù)據(jù)存在形式，僅開(kāi)發(fā)者模式下才能觀察到

由此可知該網(wǎng)站具備相當(dāng)程度的反扒設(shè)計(jì)。

策略：
設(shè)計(jì)兩個(gè)階段的數(shù)據(jù)采集程序，克服特點(diǎn)2。
采取selenium自動(dòng)化框架，克服特點(diǎn)1。
采取bs4數(shù)據(jù)采集框架，客服特點(diǎn)3。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-850992.html

四、代碼實(shí)例

step1：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time
def get_single_page_data():
    result = []
    for i in range(10):
        try:
            mid_title = driver.find_element(By.XPATH, '//*[@id="itemlist"]/div[' + str(i + 1) + ']/div[1]/a[1]').text
            mid_url = driver.find_element(By.XPATH, '//*[@id="itemlist"]/div[' + str(i + 1) + ']/div[1]/a[1]').get_attribute('onclick')
            mid = [mid_title,mid_title,mid_url.split("'")[-2]]
            # print(mid)
            result.append(mid)
        except:
            print('data error!')
    return result

def write_data_totxt(data:str):
    with open('data.txt', 'a') as f:
        f.write(data)
        f.write('\n')

# 創(chuàng)建一個(gè)Chrome瀏覽器實(shí)例
driver = webdriver.Chrome(options=Options(), executable_path=r'C:\Program Files\Google\Chrome\Application\chromedriver.exe')
# 打開(kāi)目標(biāo)網(wǎng)頁(yè)
driver.get("http://ytzwfw.sd.gov.cn/yt/icity/project/index")


data = []
page = 0
while page<= 628:  # 循環(huán)頁(yè)數(shù)
    try:
        single_page_data = get_single_page_data() # 抓數(shù)據(jù)
        for i in single_page_data:
            print(i)
            write_data_totxt(i[0])
            write_data_totxt(i[-1])
        #     /html/body/div[5]/div/div/div[2]/div/a[8]
        driver.find_element(By

到了這里，關(guān)于基于selenium和bs4的通用數(shù)據(jù)采集技術(shù)（附代碼）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【大數(shù)據(jù) | 綜合實(shí)踐】大數(shù)據(jù)技術(shù)基礎(chǔ)綜合項(xiàng)目 - 基于GitHub API的數(shù)據(jù)采集與分析平臺(tái)
???♂? 個(gè)人主頁(yè): @AI_magician ??主頁(yè)地址：作者簡(jiǎn)介：CSDN內(nèi)容合伙人，全棧領(lǐng)域優(yōu)質(zhì)創(chuàng)作者。 ?????景愿：旨在于能和更多的熱愛(ài)計(jì)算機(jī)的伙伴一起成長(zhǎng)??！????? ???♂?聲明：本人目前大學(xué)就讀于大二，研究興趣方向人工智能硬件（雖然硬件還沒(méi)開(kāi)始玩，但一直
2024年02月08日
瀏覽(32)
基于Python的51job(前程無(wú)憂)招聘網(wǎng)站數(shù)據(jù)采集，通過(guò)selenium繞過(guò)網(wǎng)站反爬，可以采集全國(guó)各地?cái)?shù)十萬(wàn)條招聘信息
使用Python編程語(yǔ)言和Selenium庫(kù)來(lái)實(shí)現(xiàn)自動(dòng)化的網(wǎng)頁(yè)操作，從而實(shí)現(xiàn)登錄、搜索和爬取職位信息的功能。首先，導(dǎo)入了所需的庫(kù)，包括time用于處理時(shí)間，selenium用于模擬瀏覽器操作，csv用于寫入CSV文件，BeautifulSoup用于解析網(wǎng)頁(yè)數(shù)據(jù)。然后，定義了一個(gè)名為login的函數(shù)，該函數(shù)接
2024年01月19日
瀏覽(38)
Python爬蟲(chóng)|基礎(chǔ)知識(shí)點(diǎn)詳細(xì)匯總(requests、urllib、re、bs4、xpath、PyQuery、jsonpath、多線程、協(xié)程、數(shù)據(jù)保存、selenium)
1. 請(qǐng)求數(shù)據(jù) ① requests (1) 基本使用參數(shù) 對(duì)響應(yīng)內(nèi)容的操作 (2) Requests進(jìn)階:使用Session 為什么要用 Session? Session代表服務(wù)器與瀏覽器的一次會(huì)話過(guò)程，Session對(duì)象存儲(chǔ)了特定用戶會(huì)話所需的信息例如:一定時(shí)間內(nèi)記錄賬號(hào)密碼 (自動(dòng)登錄) 可以加快 requests請(qǐng)求速度需要客戶端登錄的
2023年04月08日
瀏覽(31)
【Python爬蟲(chóng)】Python爬蟲(chóng)三大基礎(chǔ)模塊（urllib & BS4 & Selenium）
參考資料 Python爬蟲(chóng)教程（從入門到精通） Python urllib | 菜鳥(niǎo)教程 Beautiful Soup 4 入門手冊(cè)_w3cschool Selenium入門指南 Selenium教程什么是 Scrapy|極客教程 Scrapy入門教程 1、網(wǎng)絡(luò)爬蟲(chóng)是什么？我們所熟悉的一系列搜索引擎都是大型的網(wǎng)絡(luò)爬蟲(chóng) ，比如百度、搜狗、360瀏覽器、谷歌搜索等
2024年02月12日
瀏覽(21)
Python爬蟲(chóng)技術(shù)系列-02HTML解析-BS4
參考連接： https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/# http://c.biancheng.net/python_spider/bs4.html 2.1.1 Beautiful Soup安裝 Beautiful Soup 簡(jiǎn)稱 BS4（其中 4 表示版本號(hào)）是一個(gè) Python 第三方庫(kù)，它可以從 HTML 或 XML 文檔中快速地提取指定的數(shù)據(jù)。Beautiful Soup 語(yǔ)法簡(jiǎn)單，使用方便，并且容易理解，
2024年02月05日
瀏覽(36)
FPGA基于XDMA實(shí)現(xiàn)PCIE X8采集AD9226數(shù)據(jù) 提供工程源碼和QT上位機(jī)程序和技術(shù)支持
PCIE（PCI Express）采用了目前業(yè)內(nèi)流行的點(diǎn)對(duì)點(diǎn)串行連接，比起 PCI 以及更早期的計(jì)算機(jī)總線的共享并行架構(gòu)，每個(gè)設(shè)備都有自己的專用連接，不需要向整個(gè)總線請(qǐng)求帶寬，而且可以把數(shù)據(jù)傳輸率提高到一個(gè)很高的頻率，達(dá)到 PCI 所不能提供的高帶寬，是目前各行業(yè)高速接口的優(yōu)
2024年02月04日
瀏覽(27)
FPGA基于XDMA實(shí)現(xiàn)PCIE X8采集AD7606數(shù)據(jù) 提供工程源碼和QT上位機(jī)程序和技術(shù)支持
PCIE（PCI Express）采用了目前業(yè)內(nèi)流行的點(diǎn)對(duì)點(diǎn)串行連接，比起 PCI 以及更早期的計(jì)算機(jī)總線的共享并行架構(gòu)，每個(gè)設(shè)備都有自己的專用連接，不需要向整個(gè)總線請(qǐng)求帶寬，而且可以把數(shù)據(jù)傳輸率提高到一個(gè)很高的頻率，達(dá)到 PCI 所不能提供的高帶寬，是目前各行業(yè)高速接口的優(yōu)
2024年02月06日
瀏覽(20)
數(shù)據(jù)采集:selenium 提取 Cookie 自動(dòng)登陸
工作需要，簡(jiǎn)單整理博文內(nèi)容涉及通過(guò) selenium 實(shí)現(xiàn)自動(dòng)登陸理解不足小伙伴幫忙指正對(duì)每個(gè)人而言，真正的職責(zé)只有一個(gè)：找到自我。然后在心中堅(jiān)守其一生，全心全意，永不停息。所有其它的路都是不完整的，是人的逃避方式，是對(duì)大眾理想的懦弱回歸，是隨波逐流，
2024年02月10日
瀏覽(13)
Python 網(wǎng)絡(luò)數(shù)據(jù)采集（四）：Selenium 自動(dòng)化
作者：高玉涵時(shí)間：2024.1.11 08:30 博客：blog.csdn.net/cg_i 環(huán)境：Windows 10 專業(yè)版 22H2、Python 3.10.4、selenium 4.10.0 前言在 WEB 功能測(cè)試領(lǐng)域，Selenium 是一個(gè)免費(fèi)、開(kāi)源、跨平臺(tái)的重要工具，它可以對(duì) Chrome、Firefox、Safari 等瀏覽器進(jìn)行測(cè)試，支持多種語(yǔ)言（如 Python、Java、C#、Ruby、J
2024年01月16日
瀏覽(16)
數(shù)據(jù)采集：selenium 獲取某網(wǎng)站CDN 商家排名信息
工作中遇到，簡(jiǎn)單整理理解不足小伙伴幫忙指正對(duì)每個(gè)人而言，真正的職責(zé)只有一個(gè)：找到自我。然后在心中堅(jiān)守其一生，全心全意，永不停息。所有其它的路都是不完整的，是人的逃避方式，是對(duì)大眾理想的懦弱回歸，是隨波逐流，是對(duì)內(nèi)心的恐懼 ——赫爾曼·黑塞《德
2024年02月11日
瀏覽(12)

<fieldset id="q3ibx"><ruby id="q3ibx"></ruby></fieldset>