第8章 大數(shù)據(jù)采集習(xí)題
8.1 選擇題
1、數(shù)據(jù)采集的數(shù)據(jù)對象類型包括(? D? )。
A. 結(jié)構(gòu)化數(shù)據(jù)????? B. 半結(jié)構(gòu)化數(shù)據(jù)???? C. 非結(jié)構(gòu)化數(shù)據(jù)????? D. 以上都是
2、數(shù)據(jù)采集的主要性能要求不包括以下的(? B? )。
A. 全面性????????? B. 安全性?????????? C. 多維性??????????? D. 高效性
3、大數(shù)據(jù)采集相對于傳統(tǒng)數(shù)據(jù)采集的優(yōu)勢不包括(? C? )。
A. 數(shù)據(jù)源廣泛????? B. 安全性?????????? C. 速度有限??? ????D. 數(shù)據(jù)類型豐富
4、大數(shù)據(jù)采集和傳統(tǒng)數(shù)據(jù)采集的區(qū)別可以從下面的(? B? )看出。
1數(shù)據(jù)源???? 2數(shù)據(jù)量???? 3數(shù)據(jù)類型?? 4數(shù)據(jù)產(chǎn)生速度 ???5數(shù)據(jù)存儲
A. 123 ???? ???????B. 12345?????? C. 234??????????? D. 2345
5、下面不屬于Scrapy的組件的是(? A? )。
A. 傳感器?????? ???B. 引擎??????????? ?C. 下載器??????????? D. Spider
6、下面選項屬于典型的網(wǎng)絡(luò)數(shù)據(jù)采集工具的是(? A? )。
A. Scrapy????? ??????B. Fluentd?????????? C. Logstash?????????? D. Flume
7、目前傳感器的主要組件不包括(? D? )。
A. 敏感元件?????? ??B. 轉(zhuǎn)換元件??? ??C. 信號調(diào)理轉(zhuǎn)換電路???? D. 二極管
8、下面不屬于典型日志系統(tǒng)的是(? D? )。
A. Fluentd????? ??? ???B. Logstash??????? C. Scribe? ????????????????? ????D. Nutch
9、Nutch的主要特點(diǎn)不包括(? C? )。
A. 伸縮性強(qiáng)?????? B. 可靠性高????????? C. 安全性強(qiáng)??????????? D. 速度快
10、定向數(shù)據(jù)采集特別重視(? A? )。
A. 頁面與主題的相關(guān)度? B. 鏈接的安全性? C. 系統(tǒng)的運(yùn)行時間? D. 數(shù)據(jù)量的大小
8.2 填空題
1、數(shù)據(jù)采集的對象類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、( 非結(jié)構(gòu)化數(shù)據(jù) )。
2、數(shù)據(jù)采集三個基本的性能要求:全面性、 ( ??多維性??? )、高效性。
3、傳感器一般由敏感元件、( ??轉(zhuǎn)換原件??? )、信號調(diào)理轉(zhuǎn)換電路組成,有時還需外加輔助電源來提供轉(zhuǎn)換能量。
4、分布式采集系統(tǒng)的主要特點(diǎn)包括( ??伸縮性強(qiáng)??? )、可靠性高、速度快。
5、分布式數(shù)據(jù)采集系統(tǒng)常常采用 ( ????主從式??? )和對等式這兩種架構(gòu)。
8.3 簡答題
1、請簡述網(wǎng)絡(luò)爬蟲的基本原理。
答:
網(wǎng)絡(luò)爬蟲又稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則自動地抓取Web數(shù)據(jù)的程序或者腳本。網(wǎng)絡(luò)爬蟲會從一個或若干初始頁面的統(tǒng)一資源定位器開始,獲得初始頁面上的數(shù)據(jù),并且在抓取頁面數(shù)據(jù)的過程中,不斷從當(dāng)前頁面中抽取新的URL并放入URL隊列,直到滿足設(shè)置的停止條件為止。
2、請簡述系統(tǒng)日志的概念及作用。
答:
系統(tǒng)日志用于在時間上連續(xù)地記錄由系統(tǒng)指定的對象的動作及動作結(jié)果。系統(tǒng)日志可以記錄系統(tǒng)進(jìn)程和設(shè)備驅(qū)動程序的活動,包括系統(tǒng)服務(wù)的開啟、關(guān)閉、暫停等狀態(tài),以及設(shè)備驅(qū)動程序啟動、自檢、故障等情況。操作系統(tǒng)、數(shù)據(jù)庫、網(wǎng)絡(luò)系統(tǒng)等平臺每天都會產(chǎn)生大量的系統(tǒng)日志,收集、存儲、處理和管理這些系統(tǒng)日志需要特定的日志系統(tǒng)。
3、請描述分布式數(shù)據(jù)采集系統(tǒng)的兩種典型架構(gòu)。
答:
- 對于主從式架構(gòu)而言,由一臺專門的主服務(wù)器來維護(hù)待抓取的URL隊列,該服務(wù)器負(fù)責(zé)將URL分發(fā)到不同的工作服務(wù)器,而工作服務(wù)器則負(fù)責(zé)頁面下載的工作。主服務(wù)器除了維護(hù)待抓取的URL隊列以及分發(fā)URL,還要負(fù)責(zé)調(diào)節(jié)各個工作服務(wù)器的負(fù)載情況?;谥鲝氖郊軜?gòu)的分布式數(shù)據(jù)采集系統(tǒng)的優(yōu)點(diǎn)是結(jié)構(gòu)簡單,容易管理和配置;其缺點(diǎn)是主服務(wù)器容易成為系統(tǒng)性能的瓶頸,特別是當(dāng)工作服務(wù)器數(shù)量過于龐大時。
- 基于對等式架構(gòu)的分布式數(shù)據(jù)采集系統(tǒng)沒有主服務(wù)器,所有的抓取服務(wù)器在分工上沒有區(qū)別,分別負(fù)責(zé)不同部分的網(wǎng)絡(luò)數(shù)據(jù)的抓取。每一臺抓取服務(wù)器都可以從待抓取的URL隊列中利用Hash等方式獲取需要負(fù)責(zé)抓取的部分URL,然后并行抓取。
8.4 解答題
1、在大數(shù)據(jù)時代,數(shù)據(jù)采集的工具多種多樣。網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則自動地抓取Web數(shù)據(jù)的程序或者腳本。請描述網(wǎng)絡(luò)爬蟲的工作流程。
答:
- 選取一部分種子URL。
- 將這些URL放入待抓取URL隊列。
- 從待抓取URL隊列取出待抓取URL,通過域名解析,得到主機(jī)的IP地址,將URL對應(yīng)的頁面下載下來,并存儲到已下載的頁面庫中。
- 將這些URL放入已抓取URL隊列。
- 分析已抓取URL隊列中的URL,分析其中的其他URL,并且將這些URL放入待抓取URL隊列,進(jìn)入下一輪循環(huán)。
2、Fluentd是Apache 2.0協(xié)議許可的開源日志數(shù)據(jù)收集器,支持用戶實(shí)時地從數(shù)千臺機(jī)器收集數(shù)據(jù),主要特色包括哪些?
答:
- 使用JSON格式統(tǒng)一日志記錄。Fluentd將數(shù)據(jù)結(jié)構(gòu)化為JSON格式,不僅可以更容易地統(tǒng)一處理日志數(shù)據(jù)的收集、過濾、緩沖和輸出,還可以保留靈活的模式。
- 可插拔架構(gòu)。Fluentd擁有靈活的插件系統(tǒng),用戶可以通過插件更好地使用日志。可插拔架構(gòu),F(xiàn)luentd的眾多插件使其可以兼容數(shù)十種數(shù)據(jù)源和數(shù)據(jù)輸出,插件也很容易編寫和部署。
- 節(jié)省資源開銷。Fluentd是采用C語言和Ruby語言編寫的,需要較少系統(tǒng)資源,實(shí)例可以運(yùn)行在數(shù)十MB的內(nèi)存上,每個引擎每秒可以處理數(shù)以萬計的事件。
- 基于內(nèi)存和文件的緩存。Fluentd支持基于內(nèi)存和文件的緩存,可防止數(shù)據(jù)丟失。
- 數(shù)據(jù)源與后端系統(tǒng)分離。Fluentd通過在數(shù)據(jù)源與后端系統(tǒng)之間提供統(tǒng)一的日志層來將二者分離。日志層允許開發(fā)人員和數(shù)據(jù)分析師使用多種類型的日志,可以更好地利用日志數(shù)據(jù)。
3、基于Hadoop平臺的Nutch能夠?qū)崿F(xiàn)分布式數(shù)據(jù)的采集。請具體描述Nutch的運(yùn)行流程。
答:
Nutch的工作主要可以分為兩個環(huán)節(jié):首先采集相關(guān)的頁面,然后將采集的頁面數(shù)據(jù)存放在本地,并建立索引。
- 建立初始種子鏈接的URL集合,將URL集合存放在文本,然后上傳至HDFS。
- 執(zhí)行Inject的操作,將種子URL集合注入URL隊列。
- 執(zhí)行Generate的操作,通過URL隊列生成采集所需的鏈接列表。
- 執(zhí)行Fetch的操作,根據(jù)鏈接列表的種子鏈接采集相關(guān)的頁面內(nèi)容。
- 執(zhí)行Parse的操作,解析采集到的頁面數(shù)據(jù),然后生成parsedata和parsetex兩個文件目錄,分別存放頁面文本內(nèi)容和頁面中的超鏈接等信息。
- 執(zhí)行Update的操作,將抽取的新鏈接更新到始種子鏈接隊列。
- 循環(huán)執(zhí)行步驟3到步驟6,當(dāng)滿足設(shè)定的條件時,結(jié)束數(shù)據(jù)采集工作。
4、請分析何謂通用數(shù)據(jù)采集,何謂定向數(shù)據(jù)采集;請描述定向數(shù)據(jù)采集算法的典型步驟。
答:
通用數(shù)據(jù)采集的對象是從特定的種子鏈接開始的,采用廣度搜索的方式,其目標(biāo)是采集互聯(lián)網(wǎng)上的全部頁面。與通用數(shù)據(jù)采集相對的是以聚焦網(wǎng)絡(luò)爬蟲為核心的定向數(shù)據(jù)采集。定向數(shù)據(jù)采集服務(wù)于特定的專業(yè)群體,采集的數(shù)據(jù)只局限于某個主題或者與其相關(guān)的領(lǐng)域。文章來源:http://www.zghlxwxcb.cn/news/detail-784377.html
定向數(shù)據(jù)采集算法的步驟包括:文章來源地址http://www.zghlxwxcb.cn/news/detail-784377.html
- 將初始的種子URL全部放入鏈接隊列,根據(jù)初始的種子URL進(jìn)行頁面數(shù)據(jù)的采集,提取錨文本的內(nèi)容、頁面的標(biāo)題及正文。
- 對正文進(jìn)行分詞的操作,計算關(guān)鍵字的權(quán)重和文本的相關(guān)度。
- 利用文本聚類算法將相關(guān)度高文本聚集在一起。
- 根據(jù)聚類好的文本,利用樸素貝葉斯算法計算待抓取的頁面屬于該主題的概率。
- 通過歸類完成的與主題相關(guān)的頁面生成頁面主題評價器,假設(shè)所采集頁面的數(shù)量小于預(yù)先設(shè)定的最大頁面數(shù)量,則循環(huán)執(zhí)行以下步驟。
- 從鏈接集合中選出得分最高的鏈接,采集該鏈接對應(yīng)頁面的數(shù)據(jù),抽取對應(yīng)頁面中的鏈接并插入鏈接隊列。
- 計算頁面的主題相關(guān)度,若大于閾值,則保存所對應(yīng)的頁面,否則進(jìn)行交叉和變異操作。
- 及時調(diào)整當(dāng)前頁面得分,重新計算從當(dāng)前頁面抽取的鏈接對應(yīng)頁面的得分。
- 根據(jù)最新的頁面得分重排鏈接隊列中的所有鏈接,把與主題相關(guān)的頁面放入訓(xùn)練集合中,獲取最新的頁面主題評價器。
- 比較計算出的相關(guān)度與閾值,大于閾值的鏈接則重新返回步驟1;小于閾值的鏈接則直接舍棄。
- 按照上述的步驟,對頁面進(jìn)行定向數(shù)據(jù)采集,直到采集的頁面數(shù)量大于或等于預(yù)先設(shè)定的最大頁面數(shù)量為止。
到了這里,關(guān)于云計算與大數(shù)據(jù)第8章 大數(shù)據(jù)采集習(xí)題及答案的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!