国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

數(shù)據(jù)采集與預(yù)處理01：項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備

2年前作者：深竹清風(fēng)分類：Toy博客閱讀(28)違法舉報(bào)

這篇具有很好參考價值的文章主要介紹了數(shù)據(jù)采集與預(yù)處理01：項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

數(shù)據(jù)采集與預(yù)處理01：項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備

數(shù)據(jù)采集與預(yù)處理01：項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

任務(wù)1 認(rèn)識數(shù)據(jù)采集技術(shù)，熟悉數(shù)據(jù)采集平臺

數(shù)據(jù)采集：足夠的數(shù)據(jù)量是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)的基礎(chǔ)，因此數(shù)據(jù)采集成為大數(shù)據(jù)分析的前站。數(shù)據(jù)采集是大數(shù)據(jù)價值挖掘中重要的一環(huán)，其后的分析挖掘都建立在數(shù)據(jù)采集的基礎(chǔ)上。大數(shù)據(jù)技術(shù)的意義確實(shí)不在于掌握規(guī)模龐大的數(shù)據(jù)信息，而在于對這些數(shù)據(jù)進(jìn)行智能處理，從而分析和挖掘出有價值的信息，但前提是擁有大量的數(shù)據(jù)。

數(shù)據(jù)采集過程中涉及3個過程：數(shù)據(jù)的抽取Extract，數(shù)據(jù)的清洗轉(zhuǎn)換Transform和數(shù)據(jù)的加載Load。英文縮寫為ETL。

數(shù)據(jù)采集的來源：管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)。

數(shù)據(jù)采集的方法：

? 數(shù)據(jù)采集的新方法有系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法等

? 另外有網(wǎng)頁數(shù)據(jù)采集的方法。

數(shù)據(jù)采集的過程基本步驟如下：

將需要抓取的數(shù)據(jù)網(wǎng)站的URL信息寫入U(xiǎn)RL隊(duì)列。
爬蟲從URL隊(duì)列中獲取需要抓取數(shù)據(jù)網(wǎng)站的URL信息。
獲取某個具體網(wǎng)站的網(wǎng)頁內(nèi)容。
從網(wǎng)頁內(nèi)容中抽取出該該網(wǎng)站正文頁內(nèi)容的鏈接地址。
從數(shù)據(jù)庫中讀取已經(jīng)抓取國內(nèi)容的網(wǎng)頁地址。
過濾URL。對當(dāng)前的URL和已經(jīng)抓去過的URL進(jìn)行比較。
如果該網(wǎng)頁地址沒被抓去過，則將該地址寫入數(shù)據(jù)庫。如果該地址已經(jīng)被抓取過，則放棄對這個地址的抓取操作。
獲取該地址的網(wǎng)頁內(nèi)容，并抽取出所需屬性的內(nèi)容值。
將抽取的網(wǎng)頁內(nèi)容寫入數(shù)據(jù)庫。

任務(wù)實(shí)施

Scrapy系統(tǒng)環(huán)境搭建

Scrapy是Python開發(fā)的一個快速、高層次的屏幕抓取和Web抓取框架。支持多種類型的爬蟲基類。

sudo apt-get install python-pip
pip install --upgrade pip
pip install scrapy

數(shù)據(jù)采集與預(yù)處理01：項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

數(shù)據(jù)采集與預(yù)處理01：項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

日志系統(tǒng)環(huán)境的搭建

安裝Flume

Flume是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸系統(tǒng)，支持在日志系統(tǒng)中定制各種數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)。同時，F(xiàn)lume具有對數(shù)據(jù)進(jìn)行簡單處理，并寫到各種數(shù)據(jù)接收方的能力。

Flume需要JDK環(huán)境，使用 java -version 命令查看系統(tǒng)是否配置了JDK環(huán)境

數(shù)據(jù)采集與預(yù)處理01：項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

沒有的話則需要下載安裝。

接著下載flume。

https://flume.apache.org/

在官網(wǎng)下載。

數(shù)據(jù)采集與預(yù)處理01：項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

然后執(zhí)行解壓與安裝

cd 下載
sudo tar -zxvf apache-flume-1.11.0-bin.tar.gz -C /usr/local

數(shù)據(jù)采集與預(yù)處理01：項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

cd usr/local
sudo chown 777 apache-flume-1.11.0-bin
sudo mv apache-flume-1.11.0-bin flume

配置環(huán)境變量

執(zhí)行sudo gedit /etc/profile 命令

export FLUME_HOME=/usr/local/flume
export FLUME_CONF_DIR=$FLUME_HOME/conf
export PATH=$java_home/bin:$PATH:$FLUME_HOME/bin

使用source /etc/profile使其生效。

另外還要修改配置文件什么的，非常繁瑣。

https://blog.csdn.net/qq_43452181/article/details/109187373

給個參考。

檢測成果。

cd /usr/local/flume
./bin/flume-ng version

數(shù)據(jù)采集與預(yù)處理01：項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備,機(jī)器學(xué)習(xí)與數(shù)學(xué),大數(shù)據(jù)分析

這樣就行。

任務(wù)2 認(rèn)識數(shù)據(jù)預(yù)處理技術(shù)

數(shù)據(jù)預(yù)處理是指在對數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的主要處理以前，先對原始數(shù)據(jù)進(jìn)行必要的清理、集成、轉(zhuǎn)換、離散、歸約、特征選擇和提取等一系列處理工作，達(dá)到挖掘算法進(jìn)行知識獲取、研究所要求的最低規(guī)范和標(biāo)準(zhǔn)。

數(shù)據(jù)預(yù)處理的常見問題：

數(shù)據(jù)采樣分為加權(quán)采樣、隨機(jī)采樣和分層采樣3類，其目的是從數(shù)據(jù)集中采集部分樣本進(jìn)行處理。
數(shù)據(jù)清理，清理技術(shù)通常包括填補(bǔ)遺漏的數(shù)據(jù)值、平滑有噪聲數(shù)據(jù)、識別或者除去異常值。

? 2.1 數(shù)據(jù)填充：包括人工填寫、特殊值填充、平均值填充、熱卡填充（就近填充）、k近鄰填充。

? 2.2 平滑噪聲；分箱、回歸、聚類

? 2.3 數(shù)據(jù)集成：實(shí)體識別、冗余和相關(guān)分析、元組重復(fù)、數(shù)據(jù)值沖突的檢測與處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約、特征選擇和特征提取。

任務(wù)實(shí)施

搭建pig系統(tǒng)。

https://blog.csdn.net/m0_52595361/article/details/127930651

搭建kettle系統(tǒng)。

https://blog.csdn.net/lcy1619260/article/details/132540385文章來源地址http://www.zghlxwxcb.cn/news/detail-822254.html

到了這里，關(guān)于數(shù)據(jù)采集與預(yù)處理01：項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【數(shù)據(jù)采集與預(yù)處理】數(shù)據(jù)傳輸工具Sqoop
目錄一、Sqoop簡介二、Sqoop原理三、Sqoop安裝配置（一）下載Sqoop安裝包并解壓（二）修改配置文件（三）拷貝JDBC驅(qū)動（四）驗(yàn)證Sqoop （五）測試Sqoop是否能夠成功連接數(shù)據(jù)庫四、導(dǎo)入數(shù)據(jù) （一）RDBMS到HDFS （二）RDBMS到HBase （三）RDBMS到Hive 五、導(dǎo)出數(shù)據(jù) HDFS/Hive到RDBMS 六、
2024年01月21日
瀏覽(24)
YOLOv5訓(xùn)練自己的數(shù)據(jù)集（含數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)預(yù)處理、借助colab訓(xùn)練）
YOLOv5 github：GitHub - ultralytics/yolov5: YOLOv5 ?? in PyTorch ONNX CoreML TFLite 先從github下載源碼到本地，用pycharm打開工程 ? 本次采集數(shù)據(jù)采用的方式是錄取視頻，然后用python截取視頻幀當(dāng)做圖片，這是處理代碼： ? 可以使用labelimg工具、make sense（Make Sense）在線標(biāo)注，注意數(shù)據(jù)集需要與
2024年02月05日
瀏覽(97)
yolov2檢測網(wǎng)數(shù)據(jù)集獲取與預(yù)處理_采集健康和非健康貓狗數(shù)據(jù)
阿里云天池?cái)?shù)據(jù)集-cat-dog 因?yàn)殚_源數(shù)據(jù)庫中沒有非健康貓狗相關(guān)的，所以需要自己下載非健康貓狗數(shù)據(jù)，并制作數(shù)據(jù)集。下面是用于爬取非健康貓狗數(shù)據(jù)的爬蟲代碼：使用圖片去重／相似圖片清理利器軟件清除重復(fù)的圖片數(shù)據(jù)。使用ffmpeg將救助視頻文件按照一秒截取一張
2024年02月14日
瀏覽(23)
基于爬蟲和Kettle的書籍信息采集與預(yù)處理
將讀書網(wǎng)上的書籍的基本信息，比如：封面、書名、作者、出版社、價格、出版時間、內(nèi)容簡介、作者簡介、書籍目錄、ISBN和標(biāo)簽爬取出來，并將爬取的結(jié)果放入數(shù)據(jù)庫中，方便存儲。 ??? 圖1讀書網(wǎng)書籍類別詳情此次實(shí)驗(yàn)爬取讀書網(wǎng)頁面中文學(xué)、小說、傳記、青春文學(xué)、
2024年01月21日
瀏覽(24)
基于爬蟲和Kettle的豆瓣電影的采集與預(yù)處理
將豆瓣電影網(wǎng)上的電影的基本信息，比如：電影名稱、導(dǎo)演、電影類型、國家、上映年份、評分、評論人數(shù)爬取出來，并將爬取的結(jié)果放入csv文件中，方便存儲。 ??? 圖1豆瓣網(wǎng)網(wǎng)站結(jié)構(gòu)詳情此次實(shí)驗(yàn)爬取豆瓣網(wǎng)中電影頁面中的電影的基本信息。每一個電影包括電影名稱、
2024年02月02日
瀏覽(22)
基于Python的海量豆瓣電影、數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、可視化、大屏設(shè)計(jì)項(xiàng)目（含數(shù)據(jù)庫）
項(xiàng)目介紹有需要本項(xiàng)目的代碼或文檔以及全部資源，或者部署調(diào)試可以私信博主！！?。。。。。。?！本文基于Python的網(wǎng)絡(luò)爬蟲手段對豆瓣電影網(wǎng)站進(jìn)行數(shù)據(jù)的抓取，通過合理的分析豆瓣網(wǎng)站的網(wǎng)頁結(jié)構(gòu)，并設(shè)計(jì)出規(guī)則來獲取電影數(shù)據(jù)的JSON數(shù)據(jù)包，采用正態(tài)分布的延時措施
2024年02月12日
瀏覽(50)
數(shù)據(jù)預(yù)處理matlab matlab數(shù)據(jù)的獲取、預(yù)處理、統(tǒng)計(jì)、可視化、降維
1.1 從Excel中獲取使用readtable() 例1：使用 spreadsheetImportOptions（Name,Value）初步確定導(dǎo)入信息，再用 opts.Name=Value 的格式添加。例2：先初始化 spreadsheetImportOptions 對象，再用 opts.Name=Value 的格式逐個添加。例3：將導(dǎo)入信息存到變量里，再使用 spreadsheetImportOptions（Name,Value）
2024年02月15日
瀏覽(55)
數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)規(guī)約
目錄一、前言二、PCA的主要參數(shù)：三、數(shù)據(jù)歸約任務(wù)1 四、數(shù)據(jù)規(guī)約任務(wù)2 PCA(Principal Component Analysis)，即主成分分析方法，是一種使用最廣泛的數(shù)據(jù)降維算法。PCA的主要思想是將n維特征映射到k維上，這k維是全新的正交特征也被稱為主成分，是在原有n維特征的基礎(chǔ)上重新構(gòu)
2024年02月12日
瀏覽(29)
數(shù)據(jù)分析--數(shù)據(jù)預(yù)處理
本文主要是個人的學(xué)習(xí)筆記總結(jié)，數(shù)據(jù)預(yù)處理的基本思路和方法，包括一些方法的使用示例和參數(shù)解釋，具體的數(shù)據(jù)預(yù)處理案例case詳見其他文章。如有錯誤之處還請指正！目錄數(shù)據(jù)的質(zhì)量評定數(shù)據(jù)處理步驟缺失值的處理標(biāo)記缺失值刪除缺失值填充缺失值重復(fù)值處理異
2024年02月04日
瀏覽(28)
數(shù)據(jù)清洗和預(yù)處理
預(yù)計(jì)更新一、爬蟲技術(shù)概述 1.1 什么是爬蟲技術(shù) 1.2 爬蟲技術(shù)的應(yīng)用領(lǐng)域 1.3 爬蟲技術(shù)的工作原理二、網(wǎng)絡(luò)協(xié)議和HTTP協(xié)議 2.1 網(wǎng)絡(luò)協(xié)議概述 2.2 HTTP協(xié)議介紹 2.3 HTTP請求和響應(yīng) 三、 Python基礎(chǔ) 3.1 Python語言概述 3.2 Python的基本數(shù)據(jù)類型 3.3 Python的流程控制語句 3.4 Python的函數(shù)和模
2024年02月07日
瀏覽(24)