国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備

這篇具有很好參考價值的文章主要介紹了數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備

數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

任務(wù)1 認(rèn)識數(shù)據(jù)采集技術(shù),熟悉數(shù)據(jù)采集平臺

數(shù)據(jù)采集:足夠的數(shù)據(jù)量是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)的基礎(chǔ),因此數(shù)據(jù)采集成為大數(shù)據(jù)分析的前站。數(shù)據(jù)采集是大數(shù)據(jù)價值挖掘中重要的一環(huán),其后的分析挖掘都建立在數(shù)據(jù)采集的基礎(chǔ)上。大數(shù)據(jù)技術(shù)的意義確實(shí)不在于掌握規(guī)模龐大的數(shù)據(jù)信息,而在于對這些數(shù)據(jù)進(jìn)行智能處理,從而分析和挖掘出有價值的信息,但前提是擁有大量的數(shù)據(jù)。

數(shù)據(jù)采集過程中涉及3個過程:數(shù)據(jù)的抽取Extract,數(shù)據(jù)的清洗轉(zhuǎn)換Transform和數(shù)據(jù)的加載Load。英文縮寫為ETL。

數(shù)據(jù)采集的來源:管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)。

數(shù)據(jù)采集的方法:

? 數(shù)據(jù)采集的新方法有系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法等

? 另外有網(wǎng)頁數(shù)據(jù)采集的方法。

數(shù)據(jù)采集的過程基本步驟如下:

  1. 將需要抓取的數(shù)據(jù)網(wǎng)站的URL信息寫入U(xiǎn)RL隊(duì)列。
  2. 爬蟲從URL隊(duì)列中獲取需要抓取數(shù)據(jù)網(wǎng)站的URL信息。
  3. 獲取某個具體網(wǎng)站的網(wǎng)頁內(nèi)容。
  4. 從網(wǎng)頁內(nèi)容中抽取出該該網(wǎng)站正文頁內(nèi)容的鏈接地址。
  5. 從數(shù)據(jù)庫中讀取已經(jīng)抓取國內(nèi)容的網(wǎng)頁地址。
  6. 過濾URL。對當(dāng)前的URL和已經(jīng)抓去過的URL進(jìn)行比較。
  7. 如果該網(wǎng)頁地址沒被抓去過,則將該地址寫入數(shù)據(jù)庫。如果該地址已經(jīng)被抓取過,則放棄對這個地址的抓取操作。
  8. 獲取該地址的網(wǎng)頁內(nèi)容,并抽取出所需屬性的內(nèi)容值。
  9. 將抽取的網(wǎng)頁內(nèi)容寫入數(shù)據(jù)庫。

任務(wù)實(shí)施

  1. Scrapy系統(tǒng)環(huán)境搭建

Scrapy是Python開發(fā)的一個快速、高層次的屏幕抓取和Web抓取框架。支持多種類型的爬蟲基類。

sudo apt-get install python-pip
pip install --upgrade pip
pip install scrapy

數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

日志系統(tǒng)環(huán)境的搭建

  1. 安裝Flume

Flume是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸系統(tǒng),支持在日志系統(tǒng)中定制各種數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。同時,F(xiàn)lume具有對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接收方的能力。

Flume需要JDK環(huán)境,使用 java -version 命令查看系統(tǒng)是否配置了JDK環(huán)境

數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

沒有的話則需要下載安裝。

接著下載flume。

https://flume.apache.org/

在官網(wǎng)下載。

數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

然后執(zhí)行解壓與安裝

cd 下載
sudo tar -zxvf apache-flume-1.11.0-bin.tar.gz -C /usr/local

數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

cd usr/local
sudo chown 777 apache-flume-1.11.0-bin
sudo mv apache-flume-1.11.0-bin flume

  1. 配置環(huán)境變量

執(zhí)行sudo gedit /etc/profile 命令

export FLUME_HOME=/usr/local/flume
export FLUME_CONF_DIR=$FLUME_HOME/conf
export PATH=$java_home/bin:$PATH:$FLUME_HOME/bin

使用source /etc/profile使其生效。

另外還要修改配置文件什么的,非常繁瑣。

https://blog.csdn.net/qq_43452181/article/details/109187373

給個參考。

檢測成果。

cd /usr/local/flume
./bin/flume-ng version

數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

這樣就行。

任務(wù)2 認(rèn)識數(shù)據(jù)預(yù)處理技術(shù)

數(shù)據(jù)預(yù)處理是指在對數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的主要處理以前,先對原始數(shù)據(jù)進(jìn)行必要的清理、集成、轉(zhuǎn)換、離散、歸約、特征選擇和提取等一系列處理工作,達(dá)到挖掘算法進(jìn)行知識獲取、研究所要求的最低規(guī)范和標(biāo)準(zhǔn)。

數(shù)據(jù)預(yù)處理的常見問題:

  1. 數(shù)據(jù)采樣 分為加權(quán)采樣、隨機(jī)采樣和分層采樣3類,其目的是從數(shù)據(jù)集中采集部分樣本進(jìn)行處理。
  2. 數(shù)據(jù)清理 ,清理技術(shù)通常包括填補(bǔ)遺漏的數(shù)據(jù)值、平滑有噪聲數(shù)據(jù)、識別或者除去異常值。

? 2.1 數(shù)據(jù)填充:包括人工填寫、特殊值填充、平均值填充、熱卡填充(就近填充)、k近鄰填充。

? 2.2 平滑噪聲;分箱、回歸、聚類

? 2.3 數(shù)據(jù)集成: 實(shí)體識別、冗余和相關(guān)分析、元組重復(fù)、數(shù)據(jù)值沖突的檢測與處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約、特征選擇和特征提取。

任務(wù)實(shí)施

搭建pig系統(tǒng)。

https://blog.csdn.net/m0_52595361/article/details/127930651

搭建kettle系統(tǒng)。

https://blog.csdn.net/lcy1619260/article/details/132540385文章來源地址http://www.zghlxwxcb.cn/news/detail-822254.html

到了這里,關(guān)于數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【數(shù)據(jù)采集與預(yù)處理】數(shù)據(jù)傳輸工具Sqoop

    【數(shù)據(jù)采集與預(yù)處理】數(shù)據(jù)傳輸工具Sqoop

    目錄 一、Sqoop簡介 二、Sqoop原理 三、Sqoop安裝配置 (一)下載Sqoop安裝包并解壓 (二)修改配置文件 (三)拷貝JDBC驅(qū)動 (四)驗(yàn)證Sqoop (五)測試Sqoop是否能夠成功連接數(shù)據(jù)庫 四、導(dǎo)入數(shù)據(jù) (一)RDBMS到HDFS (二)RDBMS到HBase (三)RDBMS到Hive 五、導(dǎo)出數(shù)據(jù) HDFS/Hive到RDBMS 六、

    2024年01月21日
    瀏覽(24)
  • YOLOv5訓(xùn)練自己的數(shù)據(jù)集(含數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)預(yù)處理、借助colab訓(xùn)練)

    YOLOv5訓(xùn)練自己的數(shù)據(jù)集(含數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)預(yù)處理、借助colab訓(xùn)練)

    YOLOv5 github:GitHub - ultralytics/yolov5: YOLOv5 ?? in PyTorch ONNX CoreML TFLite 先從github下載源碼到本地,用pycharm打開工程 ? 本次采集數(shù)據(jù)采用的方式是錄取視頻,然后用python截取視頻幀當(dāng)做圖片,這是處理代碼: ? 可以使用labelimg工具、make sense(Make Sense)在線標(biāo)注,注意數(shù)據(jù)集需要與

    2024年02月05日
    瀏覽(97)
  • yolov2檢測網(wǎng)數(shù)據(jù)集獲取與預(yù)處理_采集健康和非健康貓狗數(shù)據(jù)

    阿里云天池?cái)?shù)據(jù)集-cat-dog 因?yàn)殚_源數(shù)據(jù)庫中沒有非健康貓狗相關(guān)的,所以需要自己下載非健康貓狗數(shù)據(jù),并制作數(shù)據(jù)集。 下面是用于爬取非健康貓狗數(shù)據(jù)的爬蟲代碼: 使用圖片去重/相似圖片清理利器 軟件清除重復(fù)的圖片數(shù)據(jù)。 使用ffmpeg將救助視頻文件按照一秒截取一張

    2024年02月14日
    瀏覽(23)
  • 基于爬蟲和Kettle的書籍信息采集與預(yù)處理

    基于爬蟲和Kettle的書籍信息采集與預(yù)處理

    將讀書網(wǎng)上的書籍的基本信息,比如:封面、書名、作者、出版社、價格、出版時間、內(nèi)容簡介、作者簡介、書籍目錄、ISBN和標(biāo)簽爬取出來,并將爬取的結(jié)果放入數(shù)據(jù)庫中,方便存儲。 ??? 圖1讀書網(wǎng)書籍類別詳情 此次實(shí)驗(yàn)爬取讀書網(wǎng)頁面中文學(xué)、小說、傳記、青春文學(xué)、

    2024年01月21日
    瀏覽(24)
  • 基于爬蟲和Kettle的豆瓣電影的采集與預(yù)處理

    基于爬蟲和Kettle的豆瓣電影的采集與預(yù)處理

    將豆瓣電影網(wǎng)上的電影的基本信息,比如:電影名稱、導(dǎo)演、電影類型、國家、上映年份、評分、評論人數(shù)爬取出來,并將爬取的結(jié)果放入csv文件中,方便存儲。 ??? 圖1豆瓣網(wǎng)網(wǎng)站結(jié)構(gòu)詳情 此次實(shí)驗(yàn)爬取豆瓣網(wǎng)中電影頁面中的電影的基本信息。 每一個電影包括電影名稱、

    2024年02月02日
    瀏覽(22)
  • 基于Python的海量豆瓣電影、數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、可視化、大屏設(shè)計(jì)項(xiàng)目(含數(shù)據(jù)庫)

    基于Python的海量豆瓣電影、數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、可視化、大屏設(shè)計(jì)項(xiàng)目(含數(shù)據(jù)庫)

    項(xiàng)目介紹 有需要本項(xiàng)目的代碼或文檔以及全部資源,或者部署調(diào)試可以私信博主!!?。。。。。。?! 本文基于Python的網(wǎng)絡(luò)爬蟲手段對豆瓣電影網(wǎng)站進(jìn)行數(shù)據(jù)的抓取,通過合理的分析豆瓣網(wǎng)站的網(wǎng)頁結(jié)構(gòu),并設(shè)計(jì)出規(guī)則來獲取電影數(shù)據(jù)的JSON數(shù)據(jù)包,采用正態(tài)分布的延時措施

    2024年02月12日
    瀏覽(50)
  • 數(shù)據(jù)預(yù)處理matlab matlab數(shù)據(jù)的獲取、預(yù)處理、統(tǒng)計(jì)、可視化、降維

    1.1 從Excel中獲取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步確定導(dǎo)入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 對象, 再用 opts.Name=Value 的格式逐個添加。 例3: 將導(dǎo)入信息存到變量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    瀏覽(55)
  • 數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)規(guī)約

    數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)規(guī)約

    目錄 一、前言 二、PCA的主要參數(shù): 三、數(shù)據(jù)歸約任務(wù)1 四、數(shù)據(jù)規(guī)約任務(wù)2 PCA(Principal Component Analysis),即主成分分析方法,是一種使用最廣泛的數(shù)據(jù)降維算法。PCA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎(chǔ)上重新構(gòu)

    2024年02月12日
    瀏覽(29)
  • 數(shù)據(jù)分析--數(shù)據(jù)預(yù)處理

    本文主要是個人的學(xué)習(xí)筆記總結(jié),數(shù)據(jù)預(yù)處理的基本思路和方法,包括一些方法的使用示例和參數(shù)解釋,具體的數(shù)據(jù)預(yù)處理案例case詳見其他文章。如有錯誤之處還請指正! 目錄 數(shù)據(jù)的質(zhì)量評定 數(shù)據(jù)處理步驟 缺失值的處理 標(biāo)記缺失值 刪除 缺失值 填充 缺失值 重復(fù)值處理 異

    2024年02月04日
    瀏覽(28)
  • 數(shù)據(jù)清洗和預(yù)處理

    預(yù)計(jì)更新 一、 爬蟲技術(shù)概述 1.1 什么是爬蟲技術(shù) 1.2 爬蟲技術(shù)的應(yīng)用領(lǐng)域 1.3 爬蟲技術(shù)的工作原理 二、 網(wǎng)絡(luò)協(xié)議和HTTP協(xié)議 2.1 網(wǎng)絡(luò)協(xié)議概述 2.2 HTTP協(xié)議介紹 2.3 HTTP請求和響應(yīng) 三、 Python基礎(chǔ) 3.1 Python語言概述 3.2 Python的基本數(shù)據(jù)類型 3.3 Python的流程控制語句 3.4 Python的函數(shù)和模

    2024年02月07日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包