国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大數(shù)據(jù)采集技術(shù)與預(yù)處理學(xué)習(xí)一:大數(shù)據(jù)概念、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)數(shù)據(jù)采集

這篇具有很好參考價值的文章主要介紹了大數(shù)據(jù)采集技術(shù)與預(yù)處理學(xué)習(xí)一:大數(shù)據(jù)概念、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)數(shù)據(jù)采集。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

目錄

大數(shù)據(jù)概念:

1.數(shù)據(jù)采集過程中會采集哪些類型的數(shù)據(jù)?

2.非結(jié)構(gòu)化數(shù)據(jù)采集的特點是什么?

3.請闡述傳統(tǒng)的數(shù)據(jù)采集與大數(shù)據(jù)采集的區(qū)別?

???????????????4.大數(shù)據(jù)采集的數(shù)據(jù)源有哪些?針對不同的數(shù)據(jù)源,我們可以采用哪些不同的方法和工具?

數(shù)據(jù)預(yù)處理:

1、我們在進行數(shù)據(jù)清洗的時候,要重點處理哪些數(shù)據(jù)?數(shù)據(jù)清洗的基本流程是什么?

2、假設(shè)我們有一組數(shù)值型數(shù)據(jù)如下:[10, 12, 15, 18, 20, 22, 25, 28, 30, 32, 35],請使用等高和等寬分箱的方式對數(shù)據(jù)進行平滑處理

3、王濤作為銀行的數(shù)據(jù)管理員,負(fù)責(zé)管理大量客戶的金融數(shù)據(jù),包括個人信息、賬戶余額和交易記錄等敏感數(shù)據(jù)。他深知金融數(shù)據(jù)的安全性至關(guān)重要,并希望采取措施保護這些敏感數(shù)據(jù)。

網(wǎng)絡(luò)數(shù)據(jù)采集:

1、什么是網(wǎng)絡(luò)爬蟲?結(jié)合流程圖,一般的網(wǎng)絡(luò)爬蟲的基本步驟有哪些?網(wǎng)絡(luò)爬蟲有哪幾種類型?

2、小明是一名熱愛數(shù)據(jù)分析的學(xué)生,他正在學(xué)習(xí)網(wǎng)絡(luò)數(shù)據(jù)采集。他計劃從一個目標(biāo)網(wǎng)站上獲取一些數(shù)據(jù)用于研究,但這個網(wǎng)站采取了一些反爬機制來保護數(shù)據(jù)的安全和隱私。請列舉一下小明可能會遇到的一些反扒手段,并且針對不同的手段,小明可以如何有有效應(yīng)對?

3、Scrapy體系架構(gòu)包括哪幾個組成部分?每個組成部分的功能是什么?

4、Scrapy工作流的主要步驟有哪些??


大數(shù)據(jù)概念:

1.數(shù)據(jù)采集過程中會采集哪些類型的數(shù)據(jù)?

(1)結(jié)構(gòu)化:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)

(2)加工程度:裸數(shù)據(jù)、專家數(shù)據(jù)、信息和價值

(3)抽象程度:可分為數(shù)據(jù)(元)、元數(shù)據(jù)、數(shù)據(jù)對象

大數(shù)據(jù)采集與預(yù)處理項目實訓(xùn),大數(shù)據(jù),學(xué)習(xí)

2.非結(jié)構(gòu)化數(shù)據(jù)采集的特點是什么?

含義:不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來分隔語義元素以及對記錄和字段進行分層,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分,因此,它也被稱為自描述的結(jié)構(gòu)。

本質(zhì):難以發(fā)現(xiàn)同一的結(jié)構(gòu)

特點:

(1)多樣性:非結(jié)構(gòu)化數(shù)據(jù)包括文本、圖像、音頻、視頻等多種形式,涵蓋了大量的信息內(nèi)容和表達方式。這些數(shù)據(jù)來源廣泛,包括社交媒體、新聞網(wǎng)站、傳感器等,具有多樣性和豐富性。

(2)復(fù)雜性:非結(jié)構(gòu)化數(shù)據(jù)通常沒有明確的格式和組織,不易于直接進行處理和分析。數(shù)據(jù)中可能存在大量的噪聲、冗余和不一致性,需要通過數(shù)據(jù)清洗和預(yù)處理等步驟來提取有用的信息。

(3)高維度:非結(jié)構(gòu)化數(shù)據(jù)通常具有高維度的特點,包含大量的變量和屬性。例如,一張圖片可能包含成千上萬個像素點,一個文本文件可能包含數(shù)千個單詞。這些高維度的數(shù)據(jù)需要采用適當(dāng)?shù)募夹g(shù)和算法進行降維和分析。

(4)實時性:非結(jié)構(gòu)化數(shù)據(jù)的采集通常是實時進行的,例如社交媒體上的實時評論、傳感器數(shù)據(jù)的實時監(jiān)測等。這要求采集系統(tǒng)具備高效的處理能力和實時的數(shù)據(jù)傳輸能力。

(5)隱私性:非結(jié)構(gòu)化數(shù)據(jù)中可能包含大量的個人隱私信息,例如社交媒體上的用戶賬號、位置信息等。在采集和處理非結(jié)構(gòu)化數(shù)據(jù)時,需要遵守相關(guān)的隱私保護法規(guī)和規(guī)范,確保數(shù)據(jù)的安全性和合規(guī)性。

3.請闡述傳統(tǒng)的數(shù)據(jù)采集與大數(shù)據(jù)采集的區(qū)別?

(1)傳統(tǒng)數(shù)據(jù)采集:數(shù)據(jù)來源單一,數(shù)據(jù)量相對較少;結(jié)構(gòu)單一;存儲方式為關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫

(2)大數(shù)據(jù)采集:數(shù)據(jù)來源廣泛,數(shù)據(jù)量巨大;數(shù)據(jù)類型豐富,包括結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù);存儲方式是分布式數(shù)據(jù)庫,分布式文件系統(tǒng)

大數(shù)據(jù)采集與預(yù)處理項目實訓(xùn),大數(shù)據(jù),學(xué)習(xí)

??????????????????????4.大數(shù)據(jù)采集的數(shù)據(jù)源有哪些?針對不同的數(shù)據(jù)源,我們可以采用哪些不同的方法和工具?

(1)傳感器數(shù)據(jù):通過攝像頭等傳感器,圖片、視頻等附件的采集

(2)互聯(lián)網(wǎng)數(shù)據(jù):網(wǎng)絡(luò)爬蟲

(3)日志文件:日志采集系統(tǒng)

(4)企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù):ETL 工具

數(shù)據(jù)預(yù)處理:

1、我們在進行數(shù)據(jù)清洗的時候,要重點處理哪些數(shù)據(jù)?數(shù)據(jù)清洗的基本流程是什么?

1在進行數(shù)據(jù)清洗時,重點處理以下幾類數(shù)據(jù):

  • 缺失值:處理數(shù)據(jù)中的缺失值,可以通過填充缺失值、刪除缺失值所在的行或列,或者使用模型預(yù)測填充等方法來處理。
  • 異常值:識別和處理數(shù)據(jù)中的異常值,可以通過統(tǒng)計方法、可視化分析或使用模型來檢測和處理異常值。
  • 重復(fù)值:識別和處理數(shù)據(jù)中的重復(fù)值,可以通過對數(shù)據(jù)集進行排序、使用重復(fù)值檢測函數(shù)或者模型來處理重復(fù)值。
  • 格式錯誤:處理數(shù)據(jù)中的格式錯誤,例如數(shù)據(jù)類型錯誤、日期格式錯誤等。
  • 不一致的數(shù)據(jù):處理數(shù)據(jù)中不一致的數(shù)據(jù),例如名字的大小寫不一致、單位的不統(tǒng)一等。

2數(shù)據(jù)清洗的基本流程如下:

  • 數(shù)據(jù)導(dǎo)入:將原始數(shù)據(jù)導(dǎo)入到數(shù)據(jù)清洗的環(huán)境中。
  • 觀察和初步分析:對數(shù)據(jù)進行觀察和初步分析,包括查看數(shù)據(jù)的結(jié)構(gòu)、大小、缺失值等情況。
  • 處理缺失值:識別并處理數(shù)據(jù)中的缺失值。
  • 處理異常值:識別并處理數(shù)據(jù)中的異常值。
  • 處理重復(fù)值:識別并處理數(shù)據(jù)中的重復(fù)值。
  • 處理格式錯誤:處理數(shù)據(jù)中的格式錯誤。
  • 處理不一致的數(shù)據(jù):處理數(shù)據(jù)中的不一致的數(shù)據(jù)。
  • 數(shù)據(jù)導(dǎo)出:將清洗后的數(shù)據(jù)導(dǎo)出,供后續(xù)分析使用。

數(shù)據(jù)清洗基本流程:

(1)數(shù)據(jù)分析。原始數(shù)據(jù)源中存在數(shù)據(jù)質(zhì)量問題,需要通過人工檢測或計算機分析程序?qū)υ紨?shù)據(jù)源的數(shù)據(jù)進行檢測分析??梢哉f,數(shù)據(jù)分析是數(shù)據(jù)清洗的前提和基礎(chǔ)。

(2)定義數(shù)據(jù)清洗的策略和規(guī)則。根據(jù)數(shù)據(jù)分析步驟得到的數(shù)據(jù)源中的“臟數(shù)據(jù)”的具體情況,制定相應(yīng)的數(shù)據(jù)清洗策略和規(guī)則,并選擇合適的數(shù)據(jù)清洗算法。

(3)搜尋并確定錯誤實例。搜尋并確定錯誤實例步驟包括自動檢測屬性錯誤和用算法檢測重復(fù)記錄。手工檢測數(shù)據(jù)集中的屬性錯誤要花費大量的時間和精力,而且容易出錯,所以需要使用高效的方法自動檢測數(shù)據(jù)集中的屬性錯誤,主要檢測方法有基于統(tǒng)計的方法、聚類方法和關(guān)聯(lián)規(guī)則方法等。檢測重復(fù)記錄的算法可以對兩個數(shù)據(jù)集或一個合并后的數(shù)據(jù)集進行檢測,從而確定同一個實體的重復(fù)記錄。檢測重復(fù)記錄的算法有基本的字段匹配算法、遞歸字段匹配算法等。

(4)糾正發(fā)現(xiàn)的錯誤。根據(jù)不同的“臟數(shù)據(jù)”存在形式,執(zhí)行相應(yīng)的數(shù)據(jù)清洗和轉(zhuǎn)換解決原始數(shù)據(jù)源中存在的質(zhì)量問題。在某些特定領(lǐng)域,我們能夠根據(jù)發(fā)現(xiàn)的錯誤模式,編制程序或借助于外部標(biāo)準(zhǔn)數(shù)據(jù)源文件、數(shù)據(jù)字典等,在一定程度上修正錯誤。有時候也可以相據(jù)數(shù)理統(tǒng)計知識進行自動修正,但是很多情況下都需要編制復(fù)雜的程序或借助于人工干預(yù)來完成修正。需要注意的是,對原始數(shù)據(jù)源進行數(shù)據(jù)清洗時,應(yīng)該將原始數(shù)據(jù)源備份,以防需要撤銷清洗操作。

(5)干凈數(shù)據(jù)回流。在數(shù)據(jù)被清洗后,干凈的數(shù)據(jù)替代原始數(shù)據(jù)源中的“臟數(shù)據(jù)”這樣可以提高信息系統(tǒng)的數(shù)據(jù)質(zhì)量,還可以避免將來再次抽取數(shù)據(jù)后進行重復(fù)的清洗工作。

2、假設(shè)我們有一組數(shù)值型數(shù)據(jù)如下:[10, 12, 15, 18, 20, 22, 25, 28, 30, 32, 35],請使用等高和等寬分箱的方式對數(shù)據(jù)進行平滑處理

  1. 等高分箱的特點是什么?一般用什么值替換箱子內(nèi)的所有元素?請給出等高分箱的結(jié)果。
  • 等高分箱的特點是將數(shù)據(jù)按照相同數(shù)量的元素劃分到每個箱子中,使得每個箱子內(nèi)的元素數(shù)目相等或接近相等?;蛘哒f將數(shù)據(jù)分成數(shù)量相等的若干個箱子,每個箱子內(nèi)包含的數(shù)據(jù)量不同。
  • 一般使用箱子內(nèi)的中位數(shù)、平均值或眾數(shù)替換箱子內(nèi)的所有元素。
  • 對于給定的數(shù)據(jù)集,等高分箱的結(jié)果如下:

分成4個箱子,每個箱子內(nèi)包含3個數(shù)據(jù),將箱子內(nèi)的數(shù)據(jù)用箱子內(nèi)數(shù)據(jù)的中位數(shù)代替,根據(jù)這種方法,數(shù)據(jù)可以被分成如下4個箱子:

箱子1: [10, 12, 15]

箱子2: [18, 20, 22]

箱子3: [25, 28, 30]

箱子4: [32, 35]

按箱的平均值平滑結(jié)果:{12.3,12.3,12.3,20,20,20,27.7,27.7,27.7,33.5,33.5}

按箱的中值平滑結(jié)果:{12,12,12,20,20,20,28,28,28,33.5}

按箱的邊界平滑結(jié)果:{10,10,15,18,18,22,28,28,30,32,35}

2.等寬分箱的特點是什么?一般用什么值替換箱子內(nèi)的所有元素?請給出等寬分箱的結(jié)果。

  • 等寬分箱的特點是將數(shù)據(jù)按照相同的數(shù)值區(qū)間劃分到每個箱子中,使得每個箱子內(nèi)元素的取值范圍相等或接近相等。或者說將數(shù)據(jù)分為具有相同數(shù)據(jù)范圍的若干個箱子,每個箱子內(nèi)包含的數(shù)據(jù)個數(shù)不同。
  • 一般使用箱子內(nèi)的中位數(shù)、平均值或眾數(shù)替換箱子內(nèi)的所有元素。
  • 對于給定的數(shù)據(jù)集,等寬分箱的結(jié)果如下:

設(shè)置每個箱子的范圍為5,將數(shù)據(jù)分配到各個箱子中,將箱子內(nèi)的數(shù)據(jù)用箱子內(nèi)數(shù)據(jù)的平均值代替,根據(jù)這種方法,數(shù)據(jù)可以被分成如下6個箱子:

箱子1: [10, 12]

箱子2: [15, 18]

箱子3: [20, 22]

箱子4: [25, 28]

箱子5: [30, 32]

箱子6: [35]

箱子內(nèi)的數(shù)據(jù)平均值分別為:[11, 16.5, 21, 26.5, 31, 35]

大數(shù)據(jù)采集與預(yù)處理項目實訓(xùn),大數(shù)據(jù),學(xué)習(xí)

  1. 在哪些情況下我們更偏向使用等高分箱?在哪些情況下使用等寬分箱更好?
  • 更偏向使用等高分箱的情況:當(dāng)數(shù)據(jù)中存在較大的離群值時,等高分箱可以在每個箱子內(nèi)保持相同數(shù)量的離群值,避免對離群值進行額外處理。另外,等高分箱對于高度偏斜的數(shù)據(jù)分布也比較適用,可以保持每個箱子內(nèi)的元素分布相對均衡。

?????等高分箱更適用于數(shù)據(jù)量較小、且數(shù)據(jù)分布不連續(xù)、存在異常值的情況。因為等高分箱可以保證每個箱子內(nèi)包含相同數(shù)量的數(shù)據(jù),從而能夠更好地保留數(shù)據(jù)的局部特征和稀有特征,避免過擬合。

  • 使用等寬分箱更好的情況:當(dāng)數(shù)據(jù)分布較為均勻,沒有明顯的離群值時,等寬分箱可以保持每個箱子內(nèi)的取值范圍相同。此外,等寬分箱對于需要保持?jǐn)?shù)據(jù)的絕對大小差異的場景也比較適用,如對于某些機器學(xué)習(xí)算法,可能需要對數(shù)據(jù)進行歸一化處理。

等寬分箱更適用于數(shù)據(jù)量較大、數(shù)據(jù)分布連續(xù)且可預(yù)測的情況。因為等寬分箱將數(shù)據(jù)按照相同的范圍進行劃分,可以將數(shù)據(jù)的差異最小化,并且在某些情況下可能更容易解釋。但是等寬分箱容易受到異常值的影響,并且可能導(dǎo)致一些少見的特征被忽略。

3、王濤作為銀行的數(shù)據(jù)管理員,負(fù)責(zé)管理大量客戶的金融數(shù)據(jù),包括個人信息、賬戶余額和交易記錄等敏感數(shù)據(jù)。他深知金融數(shù)據(jù)的安全性至關(guān)重要,并希望采取措施保護這些敏感數(shù)據(jù)。

  1. 請問在進行數(shù)據(jù)脫敏的過程中,他應(yīng)該遵循哪些原則?

最小化原則:只脫敏必要的數(shù)據(jù),盡量保留數(shù)據(jù)的可用性。

數(shù)據(jù)一致性原則:確保脫敏后的數(shù)據(jù)與原始數(shù)據(jù)在邏輯上保持一致。

不可逆原則:脫敏后的數(shù)據(jù)不可逆轉(zhuǎn)回原始數(shù)據(jù)。

安全性原則:確保脫敏后的數(shù)據(jù)仍能防止未經(jīng)授權(quán)的訪問。

答:①保持原有數(shù)據(jù)特征。數(shù)據(jù)脫敏前后數(shù)據(jù)特征應(yīng)保持不變,例如,身份證號碼由十七位教字本體碼和一位校驗碼組成,分別為區(qū)域地址碼 (6 位)、出生日期(8 位)、順序碼(3位)和校驗碼(1位),那么身份證號碼的脫敏規(guī)則需要保證脫敏后這些特征信息不變。

②保持?jǐn)?shù)據(jù)的一致性。在不同業(yè)務(wù)中,數(shù)據(jù)之間有一定的關(guān)聯(lián)。例如,出生年月或年齡和出生日期有關(guān)聯(lián)。身份證信息脫敏后需要保證出生年月字段和身份證號碼中包含的出生日期的一致性。

③保持業(yè)務(wù)規(guī)則的關(guān)聯(lián)性。保持?jǐn)?shù)據(jù)業(yè)務(wù)規(guī)則的關(guān)聯(lián)性是指數(shù)據(jù)脫敏時數(shù)據(jù)關(guān)聯(lián)性及業(yè)務(wù)語義等保持不變,其中數(shù)據(jù)關(guān)聯(lián)性包括主外鍵關(guān)聯(lián)性、關(guān)聯(lián)字段的業(yè)務(wù)語義關(guān)聯(lián)性等。特別是高度敏感的賬戶類主體數(shù)據(jù),往往會貫穿主體的所有關(guān)系和行為信息,因此需要特別注意保證所有相關(guān)主體數(shù)據(jù)的關(guān)聯(lián)性。

④多次脫敏的數(shù)據(jù)一致性。相同的數(shù)據(jù)進行多次脫敏,或者在不同的測試系統(tǒng)中進行脫敏需要確保每次脫敏后的數(shù)據(jù)一致。只有這樣才能保障業(yè)務(wù)系統(tǒng)數(shù)據(jù)變更的持續(xù)一致性以及廣義業(yè)務(wù)的持續(xù)一致性。

2.對于敏感的客戶的姓名、電話號碼和地址等敏感信息,王濤將客戶的姓名進行部分脫敏,只顯示姓氏的首字母和星號,以隱藏客戶的真實身份;電話號碼中的數(shù)字進行隨機替換,以模糊化真實號碼。在這些操作中,他用到了哪些數(shù)據(jù)脫敏方法?

  • 姓名部分脫敏:只顯示姓氏的首字母和星號,可以采用掩碼法對數(shù)據(jù)進行脫敏。例如,將“張三”脫敏成“張*”。
  • 電話號碼數(shù)字替換:可以采用偽隨機數(shù)法對電話號碼的數(shù)字進行替換,以模糊化真實號碼。例如,將"13812345678"脫敏為"138****5678"。

①姓名部分脫敏法:只顯示姓氏的首字母和星號,以隱藏客戶的真實身份;

②電話號碼隨機替換法:把客戶電話號碼中的數(shù)字進行隨機替換,以模糊化真實號碼。

3.王濤還可以采用哪些數(shù)據(jù)脫敏的方法提升金融數(shù)據(jù)的安全?請為每種方法舉一個簡單的例子。

  • 數(shù)據(jù)加密:對敏感數(shù)據(jù)進行加密,確保只有授權(quán)的用戶能夠解密訪問。例如,可以使用AES、DES等對稱加密算法或RSA、DSA等非對稱加密算法。
  • 數(shù)據(jù)分區(qū):將不同級別的數(shù)據(jù)存儲在不同的分區(qū)中,根據(jù)用戶權(quán)限設(shè)置不同的訪問控制策略。例如將客戶的個人信息和交易記錄分別存儲在不同的數(shù)據(jù)庫表中,并根據(jù)員工的職責(zé)設(shè)置訪問權(quán)限。
  • 數(shù)據(jù)脫敏規(guī)則:制定明確的數(shù)據(jù)脫敏規(guī)則,并對所有敏感數(shù)據(jù)進行統(tǒng)一處理。將數(shù)據(jù)進行分區(qū),只有授權(quán)的人員才能夠查看和操作特定區(qū)域的數(shù)據(jù)。例如對于出生日期的敏感字段,脫敏為年齡范圍,如"20-30歲"。
  • 聚合和采樣:將數(shù)據(jù)進行聚合或者采樣處理,使得敏感數(shù)據(jù)的細(xì)節(jié)難以被推測出來。例如將客戶的交易記錄進行按月聚合,只顯示每月的交易總額。
  • 生成脫敏數(shù)據(jù)對照表:對于部分不可逆的脫敏方法,可以生成一個數(shù)據(jù)對照表,保存原始數(shù)據(jù)和脫敏后的數(shù)據(jù)的對應(yīng)關(guān)系,以便需要時還原數(shù)據(jù)。例如,對于哈希脫敏方法,可以保存哈希值和原始值之間的對應(yīng)關(guān)系。
  • 匿名化:將敏感數(shù)據(jù)中的個人身份信息替換為唯一的標(biāo)識符。例如,將客戶的姓名替換為一個隨機生成的字符串?

①數(shù)據(jù)替換:用設(shè)置的定虛構(gòu)值換真值。例如,將手機號碼統(tǒng)一換為 13900010002。

②無效化: 通過對數(shù)據(jù)值的截斷、加密、隱等使敏感數(shù)據(jù)脫敏,使其不再具有利用價值。例如,將地址的值替換為“******”。無效化與數(shù)據(jù)替換所達成的效果類似。

③偏移和取整:通過隨機移位改變數(shù)值型數(shù)據(jù)。例如,把日期“2018-01-02 8:12:25”變?yōu)椤?018-01-02 8:00:00”。偏移和取整在保持?jǐn)?shù)據(jù)的安全性的同時,保證了范圍的大致真實,這在大數(shù)據(jù)環(huán)境中具有重大價值。

④靈活編碼:在需要特殊脫敏規(guī)則時,可執(zhí)行靈活編碼以滿足各種脫敏規(guī)則。例如,用固定字母和固定位數(shù)的數(shù)字替代合同編號真值。

網(wǎng)絡(luò)數(shù)據(jù)采集:

1、什么是網(wǎng)絡(luò)爬蟲?結(jié)合流程圖,一般的網(wǎng)絡(luò)爬蟲的基本步驟有哪些?網(wǎng)絡(luò)爬蟲有哪幾種類型?

  • 網(wǎng)絡(luò)爬蟲是一種自動化程序,用于在互聯(lián)網(wǎng)上抓取網(wǎng)頁數(shù)據(jù),以供后續(xù)分析和處理。

網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分。

  • 一般的網(wǎng)絡(luò)爬蟲的基本步驟包括:
  1. 確定目標(biāo):確定需要采集的網(wǎng)站、數(shù)據(jù)內(nèi)容和數(shù)據(jù)結(jié)構(gòu),確定采集頻率和數(shù)據(jù)存儲方式。
  2. 發(fā)送HTTP請求:爬蟲程序通過發(fā)送HTTP請求來獲取目標(biāo)網(wǎng)頁的內(nèi)容。可以使用Python中的第三方庫如requests、Scrapy等進行請求和響應(yīng)操作。
  3. 解析HTML:爬蟲程序?qū)@取到的HTML代碼進行解析,提取出所需的數(shù)據(jù)。可以使用Python中的BeatifulSoup、lxml等解析HTML的庫來實現(xiàn)。
  4. 執(zhí)行JavaScript:對于動態(tài)網(wǎng)頁,需要執(zhí)行JavaScript腳本,獲取動態(tài)生成的數(shù)據(jù)??梢允褂肞ython中的Selenium等自動化測試工具來模擬真實瀏覽器環(huán)境,執(zhí)行JavaScript腳本并獲取數(shù)據(jù)。
  5. 存儲數(shù)據(jù):爬蟲程序?qū)⒔馕龅玫降臄?shù)據(jù)存儲到本地文件或者數(shù)據(jù)庫中

基本步驟:

把目標(biāo)種子URL加入到待抓取的URL隊列(發(fā)送HTTP請求到目標(biāo)網(wǎng)站,請求網(wǎng)頁的內(nèi)容)然后讀取URL,DNS解析并網(wǎng)頁下載內(nèi)容,同時把URL放入已爬取的URL中,最后進行網(wǎng)頁解析后進行有效信息的存儲。在訪問已爬取過的URL時直接提取出URL并加入到待爬取的隊列。

  • 網(wǎng)絡(luò)爬蟲有幾種類型,包括:
  1. 通用網(wǎng)絡(luò)爬蟲:用于抓取整個互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)據(jù)。爬行對象從一些種子 URL 擴充到整個 Web,主要為門戶站點搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。
  2. 聚焦網(wǎng)絡(luò)爬蟲:根據(jù)特定的主題或者領(lǐng)域,抓取相關(guān)網(wǎng)站的數(shù)據(jù)。選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲
  3. 增量式網(wǎng)絡(luò)爬蟲:定期抓取更新的網(wǎng)頁數(shù)據(jù),以獲取最新信息。對已下載網(wǎng)頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。
  4. 深層網(wǎng)絡(luò)爬蟲:用于采集深層次的鏈接和數(shù)據(jù)。深層網(wǎng)絡(luò)是那些大部分內(nèi)容不能通過靜態(tài)鏈接獲取的、隱藏在搜索界面后的,只有用戶提交一些關(guān)鍵詞才能獲得的 Web 頁面。

類型:

①通用網(wǎng)絡(luò)爬蟲(全網(wǎng)爬蟲)

原理:爬行對象從一些種子 URL 擴充到整個 Web,該架構(gòu)主要為門戶站點搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。

結(jié)構(gòu):分為頁面爬行模塊 、頁面分析模塊、鏈接過濾模塊、頁面數(shù)據(jù)庫、URL 隊列、初始URL集合。

爬行策略:深度優(yōu)先策略和廣度優(yōu)先策略

聚焦網(wǎng)絡(luò)爬蟲(主題網(wǎng)絡(luò)爬蟲)

原理:是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲。

結(jié)構(gòu):分為頁面爬行模塊 、頁面分析模塊、鏈接過濾模塊、頁面數(shù)據(jù)庫、URL 隊列、初始 URL 集合、鏈接評價模塊以及內(nèi)容評價模塊幾個部分。

爬行策略:基于內(nèi)容評價的爬行策略、基于鏈接結(jié)構(gòu)評價的爬行策略 、基于增強學(xué)習(xí)的爬行策略、基于語境圖的爬行策略。

③增量式網(wǎng)絡(luò)爬蟲(核心:去重)

原理:是指對已下載網(wǎng)頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。

結(jié)構(gòu):包含爬行模塊、排序模塊、更新模塊、本地頁面集、待爬行 URL 集以及本地頁面URL 集。

爬行策略:統(tǒng)一更新法、個體更新法、基于分類的更新法;廣度優(yōu)先策略、PageRank 優(yōu)先策略等(提高本地頁面集中頁面的質(zhì)量)。

④深層網(wǎng)絡(luò)爬蟲

原理:深層網(wǎng)絡(luò)是那些大部分內(nèi)容不能通過靜態(tài)鏈接獲取的、隱藏在搜索界面后的,只有用戶提交一些關(guān)鍵詞才能獲得的 Web 頁面。

結(jié)構(gòu):包含六個基本功能模塊 (爬行控制器、解析器、表單分析器、表單處理器、響應(yīng)分析器、LVS 控制器)和兩個爬蟲內(nèi)部數(shù)據(jù)結(jié)構(gòu)( URL 列表、LVS 表)。

爬行策略:Deep Web 爬蟲爬行過程中最重要部分就是表單填寫,包含兩種類型:基于領(lǐng)域知識的表單填寫、基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫

2、小明是一名熱愛數(shù)據(jù)分析的學(xué)生,他正在學(xué)習(xí)網(wǎng)絡(luò)數(shù)據(jù)采集。他計劃從一個目標(biāo)網(wǎng)站上獲取一些數(shù)據(jù)用于研究,但這個網(wǎng)站采取了一些反爬機制來保護數(shù)據(jù)的安全和隱私。請列舉一下小明可能會遇到的一些反扒手段,并且針對不同的手段,小明可以如何有有效應(yīng)對?

例如:小明嘗試用自己的爬蟲程序直接發(fā)送請求,但他發(fā)現(xiàn)網(wǎng)站返回了一個錯誤頁面,并且在錯誤提示中提到了User-Agent。小明意識到網(wǎng)站通過檢查User-Agent標(biāo)頭來識別爬蟲請求。

應(yīng)對:修改爬蟲程序,設(shè)置一個合理的User-Agent標(biāo)頭,以模擬真實用戶的請求。

小明可能會遇到以下一些反扒手段:

1User-Agent檢測:小明嘗試用自己的爬蟲程序直接發(fā)送請求,但他發(fā)現(xiàn)網(wǎng)站返回了一個錯誤頁面,并且在錯誤提示中提到了User-Agent。小明意識到網(wǎng)站通過檢查User-Agent標(biāo)頭來識別爬蟲請求。

應(yīng)對:修改爬蟲程序,設(shè)置一個合理的User-Agent標(biāo)頭,以模擬真實用戶的請求。

2IP封禁:網(wǎng)站可能會根據(jù)IP地址來封鎖訪問頻率過高或異常的IP地址。小明發(fā)現(xiàn)自己無法在網(wǎng)站上正常訪問,懷疑自己的IP地址被網(wǎng)站屏蔽了。

應(yīng)對:使用代理服務(wù)器。通過使用代理服務(wù)器來隱藏自己的真實IP地址,以避免IP限制?;蛘呤褂肐P池來切換IP地址,以避免被封禁??梢酝ㄟ^購買專業(yè)的代理服務(wù)或者使用免費的代理網(wǎng)站來獲取可用的代理IP。

3Cookie驗證:網(wǎng)站可能會通過Cookie來驗證用戶的身份和訪問權(quán)限。

應(yīng)對:小明可以通過分析網(wǎng)站的Cookie生成規(guī)則,手動設(shè)置Cookie或者使用Cookie池來模擬真實用戶的身份。

4驗證碼:網(wǎng)站設(shè)置驗證碼,要求用戶輸入正確的驗證碼才能繼續(xù)訪問。小明在爬取過程中遇到了驗證碼,需要手動輸入才能繼續(xù)訪問網(wǎng)站。

應(yīng)對:破解驗證碼:通過使用第三方庫或者在線驗證碼識別平臺來自動解析識別和輸入驗證碼,可以通過調(diào)用API接口將驗證碼圖片上傳并獲取識別結(jié)果,然后將識別結(jié)果自動填入驗證碼輸入框?;蛘呤褂萌斯な謩虞斎腧炞C碼。

??(5)登錄限制:小明發(fā)現(xiàn)部分頁面需要登錄才能訪問,無法直接通過爬蟲程序獲取數(shù)據(jù)。

應(yīng)對:使用模擬登錄的方式,通過模擬真實用戶的登錄行為,包括發(fā)送POST請求攜帶用戶名和密碼進行登錄操作??梢允褂玫谌綆烊鏢elenium來模擬瀏覽器行為進行登錄。

6動態(tài)頁面JavaScript渲染:網(wǎng)站可能會使用JavaScript動態(tài)加載數(shù)據(jù)或者進行頁面渲染,而傳統(tǒng)的爬蟲程序無法執(zhí)行JavaScript代碼。小明發(fā)現(xiàn)網(wǎng)站的數(shù)據(jù)是通過JavaScript動態(tài)加載的,無法直接從HTML源碼中獲取到所需數(shù)據(jù)。

???應(yīng)對:使用無頭瀏覽器,或者前端渲染技術(shù)。使用無頭瀏覽器(Headless Browser)模擬真實用戶的行為,可以解析動態(tài)頁面并獲取數(shù)據(jù)。例如使用Selenium + Chrome Headless等工具來模擬真實瀏覽器環(huán)境,讓JavaScript得到執(zhí)行并獲取動態(tài)加載的數(shù)據(jù)(獲取渲染后的頁面數(shù)據(jù))。

7)請求頻率限制:網(wǎng)站可能會對訪問頻率進行限制,例如設(shè)置每分鐘或每小時只能訪問一定次數(shù)。小明在短時間內(nèi)發(fā)送大量請求,發(fā)現(xiàn)網(wǎng)站返回了錯誤或者拒絕訪問。

應(yīng)對:合理控制請求頻率,可以通過設(shè)置延時或者隨機延時來模擬人工訪問的行為。通過設(shè)置訪問間隔時間,或者使用分布式爬蟲來分散訪問壓力,以避免被限制。另外,可以使用分布式爬蟲技術(shù),將請求分散到多個IP上,減少單個IP的請求頻率。

(8)數(shù)據(jù)接口加密:網(wǎng)站可能會對數(shù)據(jù)接口進行加密或者進行訪問權(quán)限限制。

應(yīng)對:小明可以通過分析接口加密算法或者模擬登錄獲取訪問權(quán)限,以獲取加密的數(shù)據(jù)接口。

(9)數(shù)據(jù)混淆:網(wǎng)站可能會對數(shù)據(jù)進行混淆或者加密,使得爬蟲無法直接解析和獲取。

應(yīng)對:小明可以通過分析數(shù)據(jù)混淆算法或者使用反混淆技術(shù)來還原數(shù)據(jù)。

(10)動態(tài)URL:網(wǎng)站可能會使用動態(tài)URL來生成頁面,使得每次請求的URL都不同。

應(yīng)對:小明可以通過分析URL生成規(guī)則,構(gòu)造正確的URL來獲取數(shù)據(jù)。

(11)模擬行為檢測:網(wǎng)站可能通過分析用戶的行為模式來檢測是否是爬蟲,例如檢查鼠標(biāo)移動、點擊等行為。

應(yīng)對:使用Selenium等工具模擬真實用戶的行為,包括鼠標(biāo)移動、點擊等操作,以避免被檢測為爬蟲。

(12)Referer檢測:網(wǎng)站可能通過檢查請求頭中的Referer來判斷請求來源。

應(yīng)對:在爬蟲程序中設(shè)置合理的Referer,以模擬真實用戶的請求來源。

3、Scrapy體系架構(gòu)包括哪幾個組成部分?每個組成部分的功能是什么?

1)Spider(爬蟲):用于定義如何爬取特定網(wǎng)站(包括URL的生成和如何跟蹤鏈接),以及如何從爬取的頁面中提取數(shù)據(jù)。從特定的網(wǎng)頁中提取自己需要的信息,負(fù)責(zé)解析響應(yīng)并生成提取結(jié)果和新的請求。

2)Item(數(shù)據(jù)項):用于定義爬取的數(shù)據(jù)結(jié)構(gòu),類似于數(shù)據(jù)庫表的結(jié)構(gòu)。

3)Pipeline(管道):用于處理爬取到的數(shù)據(jù),包括數(shù)據(jù)的清洗、去重、存儲等操作。

4)Downloader(下載器):負(fù)責(zé)下載網(wǎng)頁并將其轉(zhuǎn)換為Scrapy能夠處理的Response對象。用于下載網(wǎng)頁內(nèi)容,并將網(wǎng)頁內(nèi)容返回給爬蟲

5)Scheduler(調(diào)度器):負(fù)責(zé)處理爬蟲請求的調(diào)度順序,確保請求按照合理的順序發(fā)送給下載器。用來接受 Scrapy 引擎發(fā)過來的請求,壓入隊列中,并在引擎再次請求的時候提供給引擎。同時去除重復(fù)的網(wǎng)址

6)Downloader Middleware(下載器中間件):用于修改Scrapy的默認(rèn)下載行為,如設(shè)置代理、修改請求頭等。

7)Spider Middleware(爬蟲中間件):用于修改Scrapy的默認(rèn)爬蟲行為,如修改請求、處理異常等

8)Engine:處理整個系統(tǒng)的數(shù)據(jù)流,觸發(fā)事務(wù),是整個爬蟲的調(diào)度中心

9)Item Pipeline:負(fù)責(zé)處理由爬蟲從網(wǎng)頁中抽取的實體,主要任務(wù)是持久化實體、驗證實體的有效性、清除不需要的信息

  1. Scrapy引擎(Engine)。Scrapy引擎相當(dāng)于一個中樞站,負(fù)責(zé)調(diào)度器、項目管道、下載器和爬蟲四個組件之間的通信。例如,將接收到的爬蟲發(fā)來的 URL 發(fā)送給調(diào)度器,將爬蟲的存儲請求發(fā)送給項目管道。調(diào)度器發(fā)送的請求會被 Scrapy引擎提交到下載器進行處理,而下載器處理完成后會發(fā)送響應(yīng)給 Scrapy引擎,Scrapy 引擎將其發(fā)送至爬蟲進行處理。
  2. 爬蟲( Spiders)。爬蟲相當(dāng)于一個解析器,負(fù)責(zé)接收 Srapy 引擎發(fā)送過來的響應(yīng),對其進行解析,開發(fā)人員可以在其內(nèi)部編寫解析規(guī)則。解析好后可以發(fā)送存儲請求給 Scrapy 引擎。爬蟲解析出的新的 URL后,可以向 Scrapy 引擎發(fā)送。注意,入口 URL 也存儲在爬蟲中。
  3. 下載器(Downloader)。下載器用于下載搜索引擎發(fā)送的所有請求,并將網(wǎng)頁內(nèi)容返回爬蟲。下載器建立在 Twisted 這個高效的異步模型之上。
  4. 調(diào)度器(Scheduler)。調(diào)度器可以理解成一個隊列,存儲 Scrapy 引擎發(fā)送過來的 URL并按順序取出URL發(fā)送給 Scrapy引擎進行請求操作。
  5. 項目管道(Item Pipeline)。項目管道是保存數(shù)據(jù)用的,它負(fù)責(zé)處理爬蟲獲取的項目,并進行處理,包括去重、持久化存儲(如存數(shù)據(jù)庫或?qū)懭胛募?等。
  6. 下載器中間件(Downloader Middlewares)。下載器中間件是位于 Scrapy引擎和下載器間的框架,主要用于處理 Scrapy引擎與下載器之間的請求及響應(yīng),類似于自定義擴展下載功能的組件。
  7. 爬蟲中間件(Spider Middlewares )。爬蟲中間件是介于 Scrapy 引擎和爬蟲之間的框架主要工作是處理爬蟲的響應(yīng)輸入和請求輸出。
  8. 調(diào)度器中間件(Scheduler Middlewares )。調(diào)度器中間件是介于 Scrapy 引擎和調(diào)度器之間的中間件,用于處理從 Scrapy引擎發(fā)送到調(diào)度器的請求和響應(yīng),可以自定義擴展和操作搜索引警與爬蟲中間“通信”的功能組件(如進入爬蟲的請求和從爬蟲出去的請求 )。

大數(shù)據(jù)采集與預(yù)處理項目實訓(xùn),大數(shù)據(jù),學(xué)習(xí)

4、Scrapy工作流的主要步驟有哪些??

  1. 創(chuàng)建一個Scrapy項目:使用命令行工具創(chuàng)建一個新的Scrapy項目,其中包含了項目的結(jié)構(gòu)和配置文件。
  2. 定義Item:定義要提取的數(shù)據(jù)結(jié)構(gòu),即定義一個Item類,用于存儲從網(wǎng)頁中提取的數(shù)據(jù)。
  3. 編寫Spider:編寫Spider來定義如何爬取特定網(wǎng)頁(包括URL的生成和如何從爬取的頁面中提取數(shù)據(jù))、如何提取數(shù)據(jù)和如何跟進鏈接。Spider是Scrapy的核心部分,通過編寫Spider來控制爬蟲的行為。
  4. 配置Item Pipeline:定義Item Pipeline來處理從Spider中提取的Item對象。編寫管道來處理爬取到的數(shù)據(jù),包括數(shù)據(jù)的清洗、去重、存儲、驗證和持久化等操作。
  5. 配置Downloader Middleware(可選):根據(jù)需要修改Scrapy的默認(rèn)下載行為,如設(shè)置代理、修改請求頭等。
  6. 配置Spider Middleware(可選):根據(jù)需要修改Scrapy的默認(rèn)爬蟲行為,如修改請求、處理異常等。
  7. 配置和啟動爬蟲:配置Scrapy的全局設(shè)置和啟動爬蟲??梢栽O(shè)置一些參數(shù),如請求頭、延時、并發(fā)數(shù)等。使用命令行工具啟動爬蟲,開始從指定的網(wǎng)站爬取數(shù)據(jù)
  8. 處理爬取到的數(shù)據(jù):Scrapy會自動發(fā)送請求和處理響應(yīng),并將提取的數(shù)據(jù)存儲到定義的Item對象中,發(fā)送給管道進行處理,根據(jù)管道的配置進行數(shù)據(jù)的清洗、去重、存儲等操作??梢跃帉懴鄳?yīng)的代碼來處理爬取結(jié)果,如保存到數(shù)據(jù)庫、寫入文件等。
  9. 跟進鏈接和深度優(yōu)先搜索:Spider會根據(jù)定義的規(guī)則跟進鏈接,繼續(xù)爬取下一頁或者其他相關(guān)頁面。Scrapy使用深度優(yōu)先搜索算法來控制爬取的順序。
  10. 異步處理和并發(fā)控制:Scrapy支持異步處理和并發(fā)控制,可以通過設(shè)置參數(shù)來控制同時發(fā)送請求的數(shù)量,以提高爬取效率。
  11. 日志和錯誤處理:Scrapy提供了豐富的日志功能和錯誤處理機制,方便調(diào)試和監(jiān)控爬蟲運行狀態(tài)。
  12. 停止爬蟲:爬取完成或者手動停止爬蟲。

大數(shù)據(jù)采集與預(yù)處理項目實訓(xùn),大數(shù)據(jù),學(xué)習(xí)

①Scrapy 引擎從調(diào)度器中取出一個 URL 用于接下來的抓取。

②Scrapy 引擎把 URL 封裝成一個請求并傳給下載器。

③下載器把資源下載下來,并封裝成應(yīng)答包。

④爬蟲解析應(yīng)答包。

⑤如果解析出的是項目,則交給項目管道進行進一步的處理。

⑥如果解析出的是 URL,則把 URL 交給調(diào)度器等待抓取。文章來源地址http://www.zghlxwxcb.cn/news/detail-824249.html

到了這里,關(guān)于大數(shù)據(jù)采集技術(shù)與預(yù)處理學(xué)習(xí)一:大數(shù)據(jù)概念、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)數(shù)據(jù)采集的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【數(shù)據(jù)采集與預(yù)處理】數(shù)據(jù)傳輸工具Sqoop

    【數(shù)據(jù)采集與預(yù)處理】數(shù)據(jù)傳輸工具Sqoop

    目錄 一、Sqoop簡介 二、Sqoop原理 三、Sqoop安裝配置 (一)下載Sqoop安裝包并解壓 (二)修改配置文件 (三)拷貝JDBC驅(qū)動 (四)驗證Sqoop (五)測試Sqoop是否能夠成功連接數(shù)據(jù)庫 四、導(dǎo)入數(shù)據(jù) (一)RDBMS到HDFS (二)RDBMS到HBase (三)RDBMS到Hive 五、導(dǎo)出數(shù)據(jù) HDFS/Hive到RDBMS 六、

    2024年01月21日
    瀏覽(24)
  • YOLOv5訓(xùn)練自己的數(shù)據(jù)集(含數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)預(yù)處理、借助colab訓(xùn)練)

    YOLOv5訓(xùn)練自己的數(shù)據(jù)集(含數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)預(yù)處理、借助colab訓(xùn)練)

    YOLOv5 github:GitHub - ultralytics/yolov5: YOLOv5 ?? in PyTorch ONNX CoreML TFLite 先從github下載源碼到本地,用pycharm打開工程 ? 本次采集數(shù)據(jù)采用的方式是錄取視頻,然后用python截取視頻幀當(dāng)做圖片,這是處理代碼: ? 可以使用labelimg工具、make sense(Make Sense)在線標(biāo)注,注意數(shù)據(jù)集需要與

    2024年02月05日
    瀏覽(97)
  • yolov2檢測網(wǎng)數(shù)據(jù)集獲取與預(yù)處理_采集健康和非健康貓狗數(shù)據(jù)

    阿里云天池數(shù)據(jù)集-cat-dog 因為開源數(shù)據(jù)庫中沒有非健康貓狗相關(guān)的,所以需要自己下載非健康貓狗數(shù)據(jù),并制作數(shù)據(jù)集。 下面是用于爬取非健康貓狗數(shù)據(jù)的爬蟲代碼: 使用圖片去重/相似圖片清理利器 軟件清除重復(fù)的圖片數(shù)據(jù)。 使用ffmpeg將救助視頻文件按照一秒截取一張

    2024年02月14日
    瀏覽(23)
  • 機器學(xué)習(xí)(8)---數(shù)據(jù)預(yù)處理

    機器學(xué)習(xí)(8)---數(shù)據(jù)預(yù)處理

    ?1. 在機器學(xué)習(xí)算法實踐中,我們往往有著將不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到同一規(guī)格,或不同分布的數(shù)據(jù)轉(zhuǎn)換到某個特定分布的需求,這種需求統(tǒng)稱為將數(shù)據(jù)“無量綱化”。 譬如梯度和矩陣為核心的算法中,譬如邏輯回歸,支持向量機,神經(jīng)網(wǎng)絡(luò),無量綱化可以加快求解速度. 而在

    2024年02月09日
    瀏覽(30)
  • AI人工智能預(yù)處理數(shù)據(jù)的方法和技術(shù)有哪些?

    AI人工智能預(yù)處理數(shù)據(jù)的方法和技術(shù)有哪些?

    在人工智能(Artificial Intelligence,簡稱AI)領(lǐng)域中,數(shù)據(jù)預(yù)處理是非常重要的一環(huán)。它是在將數(shù)據(jù)輸入到模型之前對數(shù)據(jù)進行處理和清洗的過程。數(shù)據(jù)預(yù)處理可以提高模型的準(zhǔn)確性、可靠性和可解釋性。 本文將詳細(xì)介紹AI人工智能預(yù)處理數(shù)據(jù)的方法和技術(shù)。 數(shù)據(jù)清洗是數(shù)據(jù)預(yù)

    2024年02月14日
    瀏覽(93)
  • 機器學(xué)習(xí)實戰(zhàn)4-數(shù)據(jù)預(yù)處理

    機器學(xué)習(xí)實戰(zhàn)4-數(shù)據(jù)預(yù)處理

    導(dǎo)庫 歸一化 另一種寫法 將歸一化的結(jié)果逆轉(zhuǎn) 用numpy實現(xiàn)歸一化 逆轉(zhuǎn) 導(dǎo)庫 實例化 查看屬性 查看結(jié)果 逆標(biāo)準(zhǔn)化 關(guān)于如何選擇這兩種無量綱化的方式要具體問題具體分析,但是我們一般在機器學(xué)習(xí)算法中選擇標(biāo)準(zhǔn)化,這就好比我們能讓他符合標(biāo)準(zhǔn)正態(tài)分布為什么不呢?而且

    2024年02月13日
    瀏覽(26)
  • 動手學(xué)深度學(xué)習(xí)——數(shù)據(jù)預(yù)處理

    為了能用深度學(xué)習(xí)來解決現(xiàn)實世界的問題,我們經(jīng)常從預(yù)處理原始數(shù)據(jù)開始,而不是從那些準(zhǔn)備好的張量格式數(shù)據(jù)開始。 在Python中常用的數(shù)據(jù)分析工具中,我們通常使用 pandas 軟件包。像龐大的Python生態(tài)系統(tǒng)中的許多其他擴展包一樣, pandas 可以與張量兼容。 舉一個例子,我

    2024年02月16日
    瀏覽(31)
  • 深度學(xué)習(xí)預(yù)備知識-數(shù)據(jù)存儲、數(shù)據(jù)預(yù)處理

    深度學(xué)習(xí)預(yù)備知識-數(shù)據(jù)存儲、數(shù)據(jù)預(yù)處理

    為了能夠完成各種數(shù)據(jù)操作,我們需要某種方法來存儲和操作數(shù)據(jù)。 通常,我們需要做兩件重要的事: (1)獲取數(shù)據(jù); (2)將數(shù)據(jù)讀入計算機后對其進行處理。 如果沒有某種方法來存儲數(shù)據(jù),那么獲取數(shù)據(jù)是沒有意義的。 首先,我們介紹n維數(shù)組,也稱為 張量 (tensor)

    2024年01月17日
    瀏覽(25)
  • 【機器學(xué)習(xí)6】數(shù)據(jù)預(yù)處理(三)——處理類別數(shù)據(jù)(有序數(shù)據(jù)和標(biāo)稱數(shù)據(jù))

    【機器學(xué)習(xí)6】數(shù)據(jù)預(yù)處理(三)——處理類別數(shù)據(jù)(有序數(shù)據(jù)和標(biāo)稱數(shù)據(jù))

    在【機器學(xué)習(xí)4】構(gòu)建良好的訓(xùn)練數(shù)據(jù)集——數(shù)據(jù)預(yù)處理(一)處理缺失值及異常值這一篇文章中,主要說明熱數(shù)據(jù)預(yù)處理的重要性以及如何處理缺失值及異常值這些數(shù)值特征。然而,在現(xiàn)實生活中遇到的數(shù)據(jù)集往往不僅僅只會包含 數(shù)值型特征 ,還會包含一個或者多個 類別特征

    2024年02月12日
    瀏覽(27)
  • 機器學(xué)習(xí)流程—數(shù)據(jù)預(yù)處理 縮放和轉(zhuǎn)換

    相信機器學(xué)習(xí)的從業(yè)者,一定聽到到過“特征縮放”這個術(shù)語,它被認(rèn)為是數(shù)據(jù)處理周期中不可跳過的部分,因進行相應(yīng)的操作們可以實現(xiàn) ML 算法的穩(wěn)定和快速訓(xùn)練。在本文中,我們將了解在實踐中用于執(zhí)行特征縮放的不同技術(shù)。 不同評價指標(biāo)往往具有不同的 量綱 和量綱單

    2024年03月11日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包