數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備
任務(wù)1 認(rèn)識數(shù)據(jù)采集技術(shù),熟悉數(shù)據(jù)采集平臺
數(shù)據(jù)采集:足夠的數(shù)據(jù)量是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)的基礎(chǔ),因此數(shù)據(jù)采集成為大數(shù)據(jù)分析的前站。數(shù)據(jù)采集是大數(shù)據(jù)價值挖掘中重要的一環(huán),其后的分析挖掘都建立在數(shù)據(jù)采集的基礎(chǔ)上。大數(shù)據(jù)技術(shù)的意義確實(shí)不在于掌握規(guī)模龐大的數(shù)據(jù)信息,而在于對這些數(shù)據(jù)進(jìn)行智能處理,從而分析和挖掘出有價值的信息,但前提是擁有大量的數(shù)據(jù)。
數(shù)據(jù)采集過程中涉及3個過程:數(shù)據(jù)的抽取Extract,數(shù)據(jù)的清洗轉(zhuǎn)換Transform和數(shù)據(jù)的加載Load。英文縮寫為ETL。
數(shù)據(jù)采集的來源:管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)。
數(shù)據(jù)采集的方法:
? 數(shù)據(jù)采集的新方法有系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法等
? 另外有網(wǎng)頁數(shù)據(jù)采集的方法。
數(shù)據(jù)采集的過程基本步驟如下:
- 將需要抓取的數(shù)據(jù)網(wǎng)站的URL信息寫入U(xiǎn)RL隊(duì)列。
- 爬蟲從URL隊(duì)列中獲取需要抓取數(shù)據(jù)網(wǎng)站的URL信息。
- 獲取某個具體網(wǎng)站的網(wǎng)頁內(nèi)容。
- 從網(wǎng)頁內(nèi)容中抽取出該該網(wǎng)站正文頁內(nèi)容的鏈接地址。
- 從數(shù)據(jù)庫中讀取已經(jīng)抓取國內(nèi)容的網(wǎng)頁地址。
- 過濾URL。對當(dāng)前的URL和已經(jīng)抓去過的URL進(jìn)行比較。
- 如果該網(wǎng)頁地址沒被抓去過,則將該地址寫入數(shù)據(jù)庫。如果該地址已經(jīng)被抓取過,則放棄對這個地址的抓取操作。
- 獲取該地址的網(wǎng)頁內(nèi)容,并抽取出所需屬性的內(nèi)容值。
- 將抽取的網(wǎng)頁內(nèi)容寫入數(shù)據(jù)庫。
任務(wù)實(shí)施
- Scrapy系統(tǒng)環(huán)境搭建
Scrapy是Python開發(fā)的一個快速、高層次的屏幕抓取和Web抓取框架。支持多種類型的爬蟲基類。
sudo apt-get install python-pip
pip install --upgrade pip
pip install scrapy
日志系統(tǒng)環(huán)境的搭建
- 安裝Flume
Flume是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸系統(tǒng),支持在日志系統(tǒng)中定制各種數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。同時,F(xiàn)lume具有對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接收方的能力。
Flume需要JDK環(huán)境,使用 java -version 命令查看系統(tǒng)是否配置了JDK環(huán)境
沒有的話則需要下載安裝。
接著下載flume。
https://flume.apache.org/
在官網(wǎng)下載。
然后執(zhí)行解壓與安裝
cd 下載
sudo tar -zxvf apache-flume-1.11.0-bin.tar.gz -C /usr/local
cd usr/local
sudo chown 777 apache-flume-1.11.0-bin
sudo mv apache-flume-1.11.0-bin flume
- 配置環(huán)境變量
執(zhí)行sudo gedit /etc/profile 命令
export FLUME_HOME=/usr/local/flume
export FLUME_CONF_DIR=$FLUME_HOME/conf
export PATH=$java_home/bin:$PATH:$FLUME_HOME/bin
使用source /etc/profile使其生效。
另外還要修改配置文件什么的,非常繁瑣。
https://blog.csdn.net/qq_43452181/article/details/109187373
給個參考。
檢測成果。
cd /usr/local/flume
./bin/flume-ng version
這樣就行。
任務(wù)2 認(rèn)識數(shù)據(jù)預(yù)處理技術(shù)
數(shù)據(jù)預(yù)處理是指在對數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的主要處理以前,先對原始數(shù)據(jù)進(jìn)行必要的清理、集成、轉(zhuǎn)換、離散、歸約、特征選擇和提取等一系列處理工作,達(dá)到挖掘算法進(jìn)行知識獲取、研究所要求的最低規(guī)范和標(biāo)準(zhǔn)。
數(shù)據(jù)預(yù)處理的常見問題:
- 數(shù)據(jù)采樣 分為加權(quán)采樣、隨機(jī)采樣和分層采樣3類,其目的是從數(shù)據(jù)集中采集部分樣本進(jìn)行處理。
- 數(shù)據(jù)清理 ,清理技術(shù)通常包括填補(bǔ)遺漏的數(shù)據(jù)值、平滑有噪聲數(shù)據(jù)、識別或者除去異常值。
? 2.1 數(shù)據(jù)填充:包括人工填寫、特殊值填充、平均值填充、熱卡填充(就近填充)、k近鄰填充。
? 2.2 平滑噪聲;分箱、回歸、聚類
? 2.3 數(shù)據(jù)集成: 實(shí)體識別、冗余和相關(guān)分析、元組重復(fù)、數(shù)據(jù)值沖突的檢測與處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約、特征選擇和特征提取。
任務(wù)實(shí)施
搭建pig系統(tǒng)。
https://blog.csdn.net/m0_52595361/article/details/127930651
搭建kettle系統(tǒng)。文章來源:http://www.zghlxwxcb.cn/news/detail-822254.html
https://blog.csdn.net/lcy1619260/article/details/132540385文章來源地址http://www.zghlxwxcb.cn/news/detail-822254.html
到了這里,關(guān)于數(shù)據(jù)采集與預(yù)處理01: 項(xiàng)目1 數(shù)據(jù)采集與預(yù)處理準(zhǔn)備的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!