50個(gè)最受歡迎的大數(shù)據(jù)面試問(wèn)題
大數(shù)據(jù)時(shí)代才剛剛開(kāi)始。隨著越來(lái)越多的公司傾向于大數(shù)據(jù)來(lái)運(yùn)營(yíng)他們的業(yè)務(wù),對(duì)人才的需求空前高漲。這對(duì)您意味著什么?如果您想在任何大數(shù)據(jù)崗位上工作,它只會(huì)轉(zhuǎn)化為更好的機(jī)會(huì)。您可以選擇成為數(shù)據(jù)分析師,數(shù)據(jù)科學(xué)家,數(shù)據(jù)庫(kù)管理員,大數(shù)據(jù)工程師,Hadoop大數(shù)據(jù)工程師等。
50個(gè)最受歡迎的大數(shù)據(jù)面試問(wèn)題
為了使您的事業(yè)有優(yōu)勢(shì),您應(yīng)該為大數(shù)據(jù)面試做好充分的準(zhǔn)備。在開(kāi)始之前,重要的是要了解面試是一個(gè)您和面試官互動(dòng)的地方,彼此之間只能了解對(duì)方,而不能互相了解。因此,您不必隱藏任何東西,只需誠(chéng)實(shí)即可誠(chéng)實(shí)地回答問(wèn)題。如果您感到困惑或需要更多信息,請(qǐng)隨時(shí)向面試官提問(wèn)。始終對(duì)您的回答誠(chéng)實(shí),并在需要時(shí)提出問(wèn)題。
以下是大數(shù)據(jù)面試的主要問(wèn)題,以及針對(duì)特定問(wèn)題的詳細(xì)答案。對(duì)于更廣泛的問(wèn)題,答案取決于您的經(jīng)驗(yàn),我們將分享一些有關(guān)如何回答這些問(wèn)題的提示。
基本的大數(shù)據(jù)面試問(wèn)題
每當(dāng)您去進(jìn)行大數(shù)據(jù)面試時(shí),面試官都會(huì)問(wèn)一些基本的問(wèn)題。無(wú)論您是大數(shù)據(jù)領(lǐng)域的新手還是經(jīng)驗(yàn)豐富的人,都需要具備基本知識(shí)。因此,讓我們涵蓋一些常見(jiàn)的基本大數(shù)據(jù)采訪問(wèn)題和破解大數(shù)據(jù)采訪的答案。
1.您對(duì)“大數(shù)據(jù)”一詞有什么了解?
答: 大數(shù)據(jù)是與復(fù)雜和大型數(shù)據(jù)集相關(guān)的術(shù)語(yǔ)。關(guān)系數(shù)據(jù)庫(kù)無(wú)法處理大數(shù)據(jù),這就是為什么使用特殊的工具和方法對(duì)大量數(shù)據(jù)執(zhí)行操作的原因。大數(shù)據(jù)使公司能夠更好地了解其業(yè)務(wù),并幫助他們從定期收集的非結(jié)構(gòu)化和原始數(shù)據(jù)中獲取有意義的信息。大數(shù)據(jù)還使公司能夠根據(jù)數(shù)據(jù)做出更好的業(yè)務(wù)決策。
2.大數(shù)據(jù)的五個(gè)V是什么?
答:大數(shù)據(jù)的五個(gè)V如下:
卷(Volume)-卷表示卷,即以高速率增長(zhǎng)的數(shù)據(jù)量,即以PB為單位的數(shù)據(jù)量
速度(Velocity)–速度是數(shù)據(jù)增長(zhǎng)的速度。社交媒體在增長(zhǎng)數(shù)據(jù)的速度中起著重要作用。
多樣性(Variety)–多樣性是指不同的數(shù)據(jù)類型,即各種數(shù)據(jù)格式,例如文本,音頻,視頻等。
準(zhǔn)確性(Veracity)–準(zhǔn)確性是指可用數(shù)據(jù)的不確定性。由于大量數(shù)據(jù)帶來(lái)不完整和不一致,因此會(huì)出現(xiàn)準(zhǔn)確性。
價(jià)值(Value)–價(jià)值是指將數(shù)據(jù)轉(zhuǎn)化為價(jià)值。通過(guò)將訪問(wèn)的大數(shù)據(jù)轉(zhuǎn)化為價(jià)值,企業(yè)可以產(chǎn)生收入。
注意: 這是大數(shù)據(jù)采訪中提出的基本且重要的問(wèn)題之一。如果您看到面試官有興趣了解更多信息,則可以選擇詳細(xì)解釋五個(gè)V。但是,如果有人詢問(wèn)“大數(shù)據(jù)”一詞,甚至可以提及這些名稱。
3.告訴我們大數(shù)據(jù)和Hadoop之間的關(guān)系。
答: 大數(shù)據(jù)和Hadoop幾乎是同義詞。隨著大數(shù)據(jù)的興起,專門(mén)用于大數(shù)據(jù)操作的Hadoop框架也開(kāi)始流行。專業(yè)人士可以使用該框架來(lái)分析大數(shù)據(jù)并幫助企業(yè)做出決策。
注意: 在大數(shù)據(jù)采訪中通常會(huì)問(wèn)這個(gè)問(wèn)題。 可以進(jìn)一步去回答這個(gè)問(wèn)題,并試圖解釋的Hadoop的主要組成部分。
4.大數(shù)據(jù)分析如何有助于增加業(yè)務(wù)收入?
答:大數(shù)據(jù)分析對(duì)于企業(yè)來(lái)說(shuō)已經(jīng)變得非常重要。它可以幫助企業(yè)與眾不同,并增加收入。通過(guò)預(yù)測(cè)分析,大數(shù)據(jù)分析為企業(yè)提供了定制的建議。此外,大數(shù)據(jù)分析使企業(yè)能夠根據(jù)客戶的需求和偏好推出新產(chǎn)品。這些因素使企業(yè)獲得更多收入,因此公司正在使用大數(shù)據(jù)分析。通過(guò)實(shí)施大數(shù)據(jù)分析,公司的收入可能會(huì)大幅增長(zhǎng)5-20%。一些使用大數(shù)據(jù)分析來(lái)增加收入的受歡迎的公司是-沃爾瑪,LinkedIn,F(xiàn)acebook,Twitter,美國(guó)銀行等。
5.解釋部署大數(shù)據(jù)解決方案應(yīng)遵循的步驟。
答:以下是部署大數(shù)據(jù)解決方案的三個(gè)步驟–
(1)資料擷取
部署大數(shù)據(jù)解決方案的第一步是數(shù)據(jù)攝取,即從各種來(lái)源提取數(shù)據(jù)。數(shù)據(jù)源可以是Salesforce之類的CRM,SAP之類的企業(yè)資源計(jì)劃系統(tǒng),MySQL之類的RDBMS或任何其他日志文件,文檔,社交媒體源等。可以通過(guò)批處理作業(yè)或?qū)崟r(shí)流來(lái)攝取數(shù)據(jù)。然后將提取的數(shù)據(jù)存儲(chǔ)在HDFS中。
(2)數(shù)據(jù)存儲(chǔ)
提取數(shù)據(jù)后,下一步是存儲(chǔ)提取的數(shù)據(jù)。數(shù)據(jù)可以存儲(chǔ)在HDFS或NoSQL數(shù)據(jù)庫(kù)(即HBase)中。HDFS存儲(chǔ)適用于順序訪問(wèn),而HBase適合隨機(jī)讀取/寫(xiě)入訪問(wèn)。
(3)數(shù)據(jù)處理
部署大數(shù)據(jù)解決方案的最后一步是數(shù)據(jù)處理。數(shù)據(jù)通過(guò)Spark,MapReduce,Pig等處理框架之一進(jìn)行處理。
6.定義HDFS和YARN的各個(gè)組件
答: HDFS的兩個(gè)主要組成部分是-
NameNode –這是主節(jié)點(diǎn),用于處理HDFS中數(shù)據(jù)塊的元數(shù)據(jù)信息
DataNode / Slave節(jié)點(diǎn)–這是一個(gè)充當(dāng)從節(jié)點(diǎn)存儲(chǔ)數(shù)據(jù),供NameNode處理和使用的節(jié)點(diǎn)
除了滿足客戶端請(qǐng)求之外,NameNode還執(zhí)行以下兩個(gè)角色之一:
CheckpointNode –它在與NameNode不同的主機(jī)上運(yùn)行
BackupNode-這是一個(gè)只讀的NameNode,其中包含文件系統(tǒng)元數(shù)據(jù)信息(不包括塊位置)
YARN的兩個(gè)主要組成部分是–
ResourceManager –此組件接收處理請(qǐng)求,并根據(jù)處理需要相應(yīng)地分配給相應(yīng)的NodeManager。
NodeManager –在每個(gè)數(shù)據(jù)節(jié)點(diǎn)上執(zhí)行任務(wù)
7.為什么將Hadoop用于大數(shù)據(jù)分析?
答: 由于數(shù)據(jù)分析已成為業(yè)務(wù)的關(guān)鍵參數(shù)之一,因此,企業(yè)正在處理大量的結(jié)構(gòu)化,非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。在Hadoop以其以下功能為主要角色的情況下,分析非結(jié)構(gòu)化數(shù)據(jù)非常困難
存儲(chǔ)
處理中
數(shù)據(jù)采集
此外,Hadoop是開(kāi)源的,并在商品硬件上運(yùn)行。因此,它是企業(yè)的成本效益解決方案。
8.什么是fsck?
答: fsck代表文件系統(tǒng)檢查。這是HDFS使用的命令。此命令用于檢查不一致以及文件中是否存在任何問(wèn)題。例如,如果文件缺少任何塊,則HDFS將通過(guò)此命令得到通知。
- NAS(網(wǎng)絡(luò)附加存儲(chǔ))和HDFS之間的主要區(qū)別是什么?
答: NAS(網(wǎng)絡(luò)附加存儲(chǔ))和HDFS之間的主要區(qū)別–
HDFS在計(jì)算機(jī)集群上運(yùn)行,而NAS在單臺(tái)計(jì)算機(jī)上運(yùn)行。因此,數(shù)據(jù)冗余是HDFS中的常見(jiàn)問(wèn)題。相反,對(duì)于NAS,復(fù)制協(xié)議是不同的。因此,數(shù)據(jù)冗余的機(jī)會(huì)要少得多。
對(duì)于HDFS,數(shù)據(jù)將作為數(shù)據(jù)塊存儲(chǔ)在本地驅(qū)動(dòng)器中。對(duì)于NAS,它存儲(chǔ)在專用硬件中。
10.格式化NameNode的命令是什么?
答案: $ hdfs namenode -format
基于經(jīng)驗(yàn)的大數(shù)據(jù)面試問(wèn)題
如果您在大數(shù)據(jù)世界中有相當(dāng)豐富的工作經(jīng)驗(yàn),那么根據(jù)您以前的經(jīng)驗(yàn),您將在大數(shù)據(jù)采訪中被問(wèn)到許多問(wèn)題。這些問(wèn)題可能只是與您的經(jīng)驗(yàn)或場(chǎng)景有關(guān)。因此,請(qǐng)準(zhǔn)備好這些最佳的大數(shù)據(jù)面試問(wèn)題和答案
11.您有大數(shù)據(jù)經(jīng)驗(yàn)嗎?如果是這樣,請(qǐng)與我們分享。
處理方法: 由于該問(wèn)題是主觀問(wèn)題,因此沒(méi)有具體答案,并且答案取決于您以前的經(jīng)驗(yàn)。在大數(shù)據(jù)采訪中問(wèn)這個(gè)問(wèn)題時(shí),采訪者想了解您以前的經(jīng)驗(yàn),并且還試圖評(píng)估您是否適合項(xiàng)目要求。
那么,您將如何處理這個(gè)問(wèn)題?如果您以前有經(jīng)驗(yàn),請(qǐng)從以前的職務(wù)開(kāi)始,然后慢慢地在對(duì)話中添加細(xì)節(jié)。告訴他們您使項(xiàng)目成功的貢獻(xiàn)。這個(gè)問(wèn)題通常 是面試中問(wèn)到的第二個(gè) 或第三個(gè)問(wèn)題。后面的問(wèn)題基于此問(wèn)題,因此請(qǐng)仔細(xì)回答。您還應(yīng)注意不要過(guò)度處理以前的工作。保持簡(jiǎn)單明了。
12.您喜歡好的數(shù)據(jù)還是好的模型?為什么?
如何處理: 這是一個(gè)棘手的問(wèn)題,但通常在大數(shù)據(jù)采訪中會(huì)問(wèn)到。它要求您在良好的數(shù)據(jù)或良好的模型之間進(jìn)行選擇。作為候選人,您應(yīng)該嘗試根據(jù)自己的經(jīng)驗(yàn)來(lái)回答。許多公司希望遵循嚴(yán)格的數(shù)據(jù)評(píng)估流程,這意味著他們已經(jīng)選擇了數(shù)據(jù)模型。在這種情況下,擁有良好的數(shù)據(jù)可能會(huì)改變游戲規(guī)則。另一種方法是根據(jù)良好的數(shù)據(jù)選擇模型。
如前所述,請(qǐng)根據(jù)您的經(jīng)驗(yàn)進(jìn)行回答。但是,不要說(shuō)擁有良好的數(shù)據(jù)和良好的模型很重要,因?yàn)樵诂F(xiàn)實(shí)生活中很難同時(shí)擁有兩者。
13.您是否會(huì)優(yōu)化算法或代碼以使其運(yùn)行更快?
如何處理: 這個(gè)問(wèn)題的答案應(yīng)該始終是“是”?,F(xiàn)實(shí)世界中的性能很重要,它并不取決于您在項(xiàng)目中使用的數(shù)據(jù)或模型。
面試官也可能想知道您以前是否有代碼或算法優(yōu)化方面的經(jīng)驗(yàn)。對(duì)于初學(xué)者而言,這顯然取決于他過(guò)去從事的項(xiàng)目。經(jīng)驗(yàn)豐富的候選人也可以相應(yīng)地分享他們的經(jīng)驗(yàn)。但是,請(qǐng)誠(chéng)實(shí)對(duì)待您的工作,如果您過(guò)去沒(méi)有優(yōu)化代碼,那也很好。只要讓面試官知道您的實(shí)際經(jīng)驗(yàn),您就可以破解大數(shù)據(jù)面試。
14.您如何進(jìn)行數(shù)據(jù)準(zhǔn)備?
如何進(jìn)行: 數(shù)據(jù)準(zhǔn)備是大數(shù)據(jù)項(xiàng)目中的關(guān)鍵步驟之一。大數(shù)據(jù)采訪可能涉及基于數(shù)據(jù)準(zhǔn)備的至少一個(gè)問(wèn)題。當(dāng)面試官問(wèn)您這個(gè)問(wèn)題時(shí),他想知道您在數(shù)據(jù)準(zhǔn)備過(guò)程中采取了哪些步驟或預(yù)防措施。
如您所知,需要進(jìn)行數(shù)據(jù)準(zhǔn)備才能獲得必要的數(shù)據(jù),然后可以將這些數(shù)據(jù)進(jìn)一步用于建模目的。您應(yīng)該將此信息傳達(dá)給面試官。您還應(yīng)該強(qiáng)調(diào)將要使用的模型的類型以及選擇該特定模型的原因。最后但并非最不重要的一點(diǎn),您還應(yīng)該討論重要的數(shù)據(jù)準(zhǔn)備術(shù)語(yǔ),例如轉(zhuǎn)換變量,離群值,非結(jié)構(gòu)化數(shù)據(jù),識(shí)別差距等。
15.如何將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)?
如何處理: 非結(jié)構(gòu)化數(shù)據(jù)在大數(shù)據(jù)中非常常見(jiàn)。應(yīng)將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),以確保進(jìn)行正確的數(shù)據(jù)分析。您可以通過(guò)簡(jiǎn)要區(qū)分兩者來(lái)開(kāi)始回答問(wèn)題。完成后,您現(xiàn)在可以討論將一種形式轉(zhuǎn)換為另一種形式的方法。您也可能會(huì)分享實(shí)際情況。如果您剛畢業(yè),則可以共享與您的學(xué)術(shù)項(xiàng)目有關(guān)的信息。
通過(guò)正確回答此問(wèn)題,您表示您已了解結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的類型,并且具有處理這些數(shù)據(jù)的實(shí)踐經(jīng)驗(yàn)。如果您具體回答該問(wèn)題,那么您肯定可以破解大數(shù)據(jù)采訪。
16.哪種硬件配置最適合Hadoop作業(yè)?
配置4/8 GB RAM和ECC內(nèi)存的雙處理器或核心計(jì)算機(jī)是運(yùn)行Hadoop操作的理想選擇。但是,硬件配置會(huì)根據(jù)特定于項(xiàng)目的工作流和處理流程而有所不同,因此需要進(jìn)行相應(yīng)的自定義。
17.當(dāng)兩個(gè)用戶嘗試訪問(wèn)HDFS中的同一文件時(shí)會(huì)發(fā)生什么?
HDFS NameNode僅支持獨(dú)占寫(xiě)入。因此,只有第一個(gè)用戶將獲得文件訪問(wèn)許可,而第二個(gè)用戶將被拒絕。
18.NameNode出現(xiàn)故障時(shí)如何恢復(fù)?
需要執(zhí)行以下步驟以使Hadoop集群正常運(yùn)行:
使用文件系統(tǒng)元數(shù)據(jù)副本FsImage來(lái)啟動(dòng)新的NameNode。
配置數(shù)據(jù)節(jié)點(diǎn)以及客戶端,使它們確認(rèn)新啟動(dòng)的名稱節(jié)點(diǎn)。
一旦新的NameNode完成加載最后一個(gè)從DataNode接收到足夠阻止報(bào)告的檢查點(diǎn)FsImage,它將開(kāi)始為客戶端提供服務(wù)。
對(duì)于大型Hadoop集群,NameNode恢復(fù)過(guò)程會(huì)耗費(fèi)大量時(shí)間,這對(duì)于例行維護(hù)來(lái)說(shuō)是一個(gè)更大的挑戰(zhàn)。
19.您對(duì)Hadoop中的Rack Awareness了解什么?
這是應(yīng)用于NameNode的算法,用于確定如何放置塊及其副本。根據(jù)機(jī)架定義,在同一機(jī)架內(nèi)的DataNode之間將網(wǎng)絡(luò)流量最小化。例如,如果我們將復(fù)制因子設(shè)為3,則將兩個(gè)副本放在一個(gè)機(jī)架中,而將第三副本放在一個(gè)單獨(dú)的機(jī)架中。
20.“ HDFS塊”和“輸入分割”之間有什么區(qū)別?
HDFS將輸入數(shù)據(jù)物理上劃分為塊進(jìn)行處理,這稱為HDFS塊。
輸入拆分是映射器對(duì)數(shù)據(jù)的邏輯劃分,用于映射操作。
基本大數(shù)據(jù)Hadoop面試問(wèn)題
Hadoop是最受歡迎的大數(shù)據(jù)框架之一,如果您要進(jìn)行Hadoop面試,請(qǐng)準(zhǔn)備好有關(guān)Big Data Hadoop的這些基本級(jí)別的面試問(wèn)題。無(wú)論您打算進(jìn)行Hadoop開(kāi)發(fā)人員還是Hadoop管理員面試,這些問(wèn)題都將對(duì)您有所幫助。
21.解釋Hadoop和RDBMS之間的區(qū)別。
答: Hadoop和RDBMS之間的區(qū)別如下
22.Hadoop中常見(jiàn)的輸入格式是什么?
答:以下是Hadoop中常見(jiàn)的輸入格式–
文本輸入格式– Hadoop中定義的默認(rèn)輸入格式是文本輸入格式。
序列文件輸入格式–要讀取序列中的文件,請(qǐng)使用序列文件輸入格式。
鍵值輸入格式–用于純文本文件(分成幾行的文件)的輸入格式是鍵值輸入格式。
23.解釋Hadoop的一些重要功能。
答: Hadoop支持大數(shù)據(jù)的存儲(chǔ)和處理。它是應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的最佳解決方案。Hadoop的一些重要功能是–
開(kāi)源– Hadoop是一個(gè)開(kāi)源框架,這意味著它是免費(fèi)提供的。同樣,允許用戶根據(jù)他們的要求更改源代碼。
分布式處理– Hadoop支持?jǐn)?shù)據(jù)的分布式處理,即更快的處理。Hadoop HDFS中的數(shù)據(jù)以分布式方式存儲(chǔ),而MapReduce負(fù)責(zé)數(shù)據(jù)的并行處理。
容錯(cuò)– Hadoop具有高度的容錯(cuò)能力。默認(rèn)情況下,它將為每個(gè)塊在不同節(jié)點(diǎn)上創(chuàng)建三個(gè)副本。該編號(hào)可以根據(jù)需要進(jìn)行更改。因此,如果一個(gè)節(jié)點(diǎn)發(fā)生故障,我們可以從另一節(jié)點(diǎn)恢復(fù)數(shù)據(jù)。節(jié)點(diǎn)故障的檢測(cè)和數(shù)據(jù)恢復(fù)是自動(dòng)完成的。
可靠性– Hadoop以可靠的方式將數(shù)據(jù)存儲(chǔ)在群集上,而與計(jì)算機(jī)無(wú)關(guān)。因此,存儲(chǔ)在Hadoop環(huán)境中的數(shù)據(jù)不受計(jì)算機(jī)故障的影響。
可伸縮性– Hadoop的另一個(gè)重要功能是可伸縮性。它與其他硬件兼容,我們可以輕松地將新硬件裝配到節(jié)點(diǎn)上。
高可用性–即使在硬件出現(xiàn)故障之后,也可以訪問(wèn)存儲(chǔ)在Hadoop中的數(shù)據(jù)。如果發(fā)生硬件故障,可以從其他路徑訪問(wèn)數(shù)據(jù)。
24.解釋Hadoop運(yùn)行的不同模式。
答: Apache Hadoop在以下三種模式下運(yùn)行–
獨(dú)立(本地)模式–默認(rèn)情況下,Hadoop以本地模式運(yùn)行,即在非分布式單節(jié)點(diǎn)上運(yùn)行。此模式使用本地文件系統(tǒng)執(zhí)行輸入和輸出操作。此模式不支持使用HDFS,因此用于調(diào)試。在此模式下,配置文件不需要自定義配置。
偽分布式模式–在偽分布式模式下,Hadoop與獨(dú)立模式一樣在單個(gè)節(jié)點(diǎn)上運(yùn)行。在這種模式下,每個(gè)守護(hù)程序都在單獨(dú)的Java進(jìn)程中運(yùn)行。由于所有守護(hù)程序都在單個(gè)節(jié)點(diǎn)上運(yùn)行,因此主節(jié)點(diǎn)和從節(jié)點(diǎn)都存在相同的節(jié)點(diǎn)。
完全分布式模式–在完全分布式模式下,所有守護(hù)程序都在單獨(dú)的單個(gè)節(jié)點(diǎn)上運(yùn)行,因此形成了多節(jié)點(diǎn)集群。主節(jié)點(diǎn)和從節(jié)點(diǎn)有不同的節(jié)點(diǎn)。
25.解釋Hadoop的核心組件。
答: Hadoop是一個(gè)開(kāi)源框架,旨在以分布式方式存儲(chǔ)和處理大數(shù)據(jù)。Hadoop的核心組件是–
HDFS(Hadoop分布式文件系統(tǒng))– HDFS是Hadoop的基本存儲(chǔ)系統(tǒng)。在商用硬件群集上運(yùn)行的大型數(shù)據(jù)文件存儲(chǔ)在HDFS中。即使硬件出現(xiàn)故障,它也可以以可靠的方式存儲(chǔ)數(shù)據(jù)。
Hadoop MapReduce – MapReduce是負(fù)責(zé)數(shù)據(jù)處理的Hadoop層。它編寫(xiě)一個(gè)應(yīng)用程序來(lái)處理存儲(chǔ)在HDFS中的非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)。通過(guò)將數(shù)據(jù)劃分為獨(dú)立的任務(wù),它負(fù)責(zé)并行處理大量數(shù)據(jù)。該處理過(guò)程分為Map和Reduce兩個(gè)階段。映射是指定復(fù)雜邏輯代碼的處理的第一階段,而精簡(jiǎn)是指定輕量級(jí)操作的處理的第二階段。
YARN – Hadoop中的處理框架是YARN。它用于資源管理,并提供多個(gè)數(shù)據(jù)處理引擎,即數(shù)據(jù)科學(xué),實(shí)時(shí)流和批處理。
26.“ MapReduce”程序中的配置參數(shù)是什么?
“ MapReduce”框架中的主要配置參數(shù)為:
作業(yè)在分布式文件系統(tǒng)中的輸入位置
作業(yè)在分布式文件系統(tǒng)中的輸出位置
數(shù)據(jù)輸入格式
數(shù)據(jù)輸出格式
包含map函數(shù)的類
包含reduce函數(shù)的類
JAR文件,其中包含映射器,reducer和驅(qū)動(dòng)程序類
27. HDFS中的塊是什么,在Hadoop 1和Hadoop 2中其默認(rèn)大小是多少?我們可以更改塊大小嗎?
塊是硬盤(pán)中最小的連續(xù)數(shù)據(jù)存儲(chǔ)。對(duì)于HDFS,塊跨Hadoop群集存儲(chǔ)。
Hadoop 1中的默認(rèn)塊大小為:64 MB
Hadoop 2中的默認(rèn)塊大小為:128 MB
是的,我們可以使用hdfs-site.xml文件中的參數(shù)dfs.block.size 更改塊大小。
28.什么是MapReduce框架中的分布式緩存
分布式緩存是Hadoop MapReduce框架的一項(xiàng)功能,用于緩存應(yīng)用程序的文件。Hadoop框架使緩存文件可用于數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的每個(gè)映射/減少任務(wù)。因此,數(shù)據(jù)文件可以在指定作業(yè)中作為本地文件訪問(wèn)緩存文件。
29.Hadoop的三種運(yùn)行模式是什么?
Hadoop的三種運(yùn)行模式如下:
(1)獨(dú)立或本地:這是默認(rèn)模式,不需要任何配置。在這種模式下,Hadoop的以下所有組件均使用本地文件系統(tǒng),并在單個(gè)JVM上運(yùn)行–
名稱節(jié)點(diǎn)
數(shù)據(jù)節(jié)點(diǎn)
資源管理器
節(jié)點(diǎn)管理器
(2)偽分布式:在這種模式下,所有主和從Hadoop服務(wù)都在單個(gè)節(jié)點(diǎn)上部署和執(zhí)行。
(3)完全分布式:在這種模式下,Hadoop主服務(wù)和從服務(wù)在單獨(dú)的節(jié)點(diǎn)上部署和執(zhí)行。
30.在Hadoop中解釋JobTracker
JobTracker是Hadoop中的JVM流程,用于提交和跟蹤MapReduce作業(yè)。
JobTracker按順序在Hadoop中執(zhí)行以下活動(dòng)–
JobTracker接收客戶端應(yīng)用程序提交給作業(yè)跟蹤器的作業(yè)
JobTracker通知NameNode確定數(shù)據(jù)節(jié)點(diǎn)
JobTracker根據(jù)可用的插槽分配TaskTracker節(jié)點(diǎn)。
它在分配的TaskTracker節(jié)點(diǎn)上提交工作,
JobTracker監(jiān)視TaskTracker節(jié)點(diǎn)。
任務(wù)失敗時(shí),將通知JobTracker并決定如何重新分配任務(wù)。
Hadoop開(kāi)發(fā)人員面試問(wèn)題復(fù)習(xí)
破解Hadoop開(kāi)發(fā)人員面試并不容易,但是準(zhǔn)備工作可以完成所有工作。如果您是新手,請(qǐng)學(xué)習(xí)Hadoop概念并進(jìn)行適當(dāng)?shù)臏?zhǔn)備。對(duì)不同的文件系統(tǒng),Hadoop版本,命令,系統(tǒng)安全性等有充分的了解。以下幾個(gè)問(wèn)題可以幫助您通過(guò)Hadoop開(kāi)發(fā)人員面試。
31.Hadoop中有哪些不同的配置文件?
答: Hadoop中的不同配置文件是–
core-site.xml –此配置文件包含Hadoop核心配置設(shè)置,例如I / O設(shè)置,這對(duì)于MapReduce和HDFS非常常見(jiàn)。它使用主機(jī)名端口。
mapred-site.xml –此配置文件通過(guò)設(shè)置mapreduce.framework.name為MapReduce指定框架名稱
hdfs-site.xml –此配置文件包含HDFS守護(hù)程序配置設(shè)置。它還在HDFS上指定默認(rèn)阻止權(quán)限和復(fù)制檢查。
yarn-site.xml –此配置文件指定ResourceManager和NodeManager的配置設(shè)置。
32.Hadoop 2和Hadoop 3有什么區(qū)別?
答:以下是Hadoop 2和Hadoop 3之間的區(qū)別–
33.如何在Hadoop中實(shí)現(xiàn)安全性?
答: Kerberos用于在Hadoop中實(shí)現(xiàn)安全性。使用Kerberos時(shí),共有3個(gè)步驟可以高層訪問(wèn)服務(wù)。每個(gè)步驟都涉及與服務(wù)器的消息交換。
身份驗(yàn)證–第一步涉及到客戶端對(duì)身份驗(yàn)證服務(wù)器的身份驗(yàn)證,然后向客戶端提供帶時(shí)間戳的TGT(票證授予票證)。
授權(quán)–在此步驟中,客戶端使用收到的TGT向TGS(票證授予服務(wù)器)請(qǐng)求服務(wù)票證。
服務(wù)請(qǐng)求–這是在Hadoop中實(shí)現(xiàn)安全性的最后一步。然后,客戶端使用服務(wù)票證向服務(wù)器進(jìn)行身份驗(yàn)證。
34.什么是商品硬件?
答:商品硬件是一種可用性較低,質(zhì)量較低的低成本系統(tǒng)。商品硬件由RAM組成,因?yàn)樗鼒?zhí)行許多需要RAM才能執(zhí)行的服務(wù)。一個(gè)不需要高端硬件配置或超級(jí)計(jì)算機(jī)即可運(yùn)行Hadoop,它可以在任何商用硬件上運(yùn)行。
35.NFS與HDFS有何不同?
答:有許多分布式文件系統(tǒng)以它們自己的方式工作。NFS(網(wǎng)絡(luò)文件系統(tǒng))是最古老和流行的分布式文件存儲(chǔ)系統(tǒng)之一,而HDFS(Hadoop分布式文件系統(tǒng))是最近使用和流行的處理大數(shù)據(jù)的系統(tǒng)。 NFS和HDFS之間的主要區(qū)別如下:
36.Hadoop MapReduce如何工作?
MapReduce操作分為兩個(gè)階段。
映射階段–在此階段,輸入數(shù)據(jù)由映射任務(wù)拆分。地圖任務(wù)并行運(yùn)行。這些拆分?jǐn)?shù)據(jù)用于分析目的。
減少階段-在此階段,從整個(gè)集合中匯總相似的拆分?jǐn)?shù)據(jù)并顯示結(jié)果。
37.什么是MapReduce?您運(yùn)行MapReduce程序使用的語(yǔ)法是什么?
MapReduce是Hadoop中的一種編程模型,用于在計(jì)算機(jī)集群(通常稱為HDFS)上處理大型數(shù)據(jù)集。它是一個(gè)并行編程模型。
運(yùn)行MapReduce程序的語(yǔ)法為– hadoop_jar_file.jar / input_path / output_path 。
38.NameNode,Task Tracker和Job Tracker的端口號(hào)是什么?
NameNode –端口50070
任務(wù)跟蹤器–端口50060
作業(yè)跟蹤器–端口50030
39.HDFS中文件或目錄級(jí)別的文件權(quán)限有哪些不同?
Hadoop分布式文件系統(tǒng)(HDFS)對(duì)文件和目錄使用特定的權(quán)限模型。HDFS中使用了以下用戶級(jí)別–
所有者
組
其他。
對(duì)于上述每個(gè)用戶,以下權(quán)限均適用–
讀(r)
寫(xiě)(w)
執(zhí)行(x)。
上面提到的權(quán)限對(duì)文件和目錄的作用不同。
對(duì)于文件–
在[R 權(quán)限是用于讀取文件
該Wˉˉ 許可是寫(xiě)一個(gè)文件。
對(duì)于目錄–
在[R 權(quán)限列出內(nèi)容的特定目錄。
該Wˉˉ 權(quán)限創(chuàng)建或刪除一個(gè)目錄。
該X 許可是用于訪問(wèn)子目錄。
40. Mapper的基本參數(shù)是什么?
映射器的基本參數(shù)是
長(zhǎng)寫(xiě)和文本
文字和可寫(xiě)
經(jīng)驗(yàn)豐富的Hadoop開(kāi)發(fā)人員面試問(wèn)題
面試官對(duì)經(jīng)驗(yàn)豐富的Hadoop開(kāi)發(fā)人員抱有更高的期望,因此他的問(wèn)題是單一層次的。因此,如果您已獲得一些經(jīng)驗(yàn),請(qǐng)不要忘記涵蓋基于命令,基于場(chǎng)景,基于真實(shí)經(jīng)驗(yàn)的問(wèn)題。在這里,我們?yōu)榻?jīng)驗(yàn)豐富的Hadoop開(kāi)發(fā)人員帶來(lái)了一些樣本面試問(wèn)題。
41.如何重新啟動(dòng)Hadoop中的所有守護(hù)程序?
答:要重新啟動(dòng)所有守護(hù)程序,需要首先停止所有守護(hù)程序。Hadoop目錄包含sbin目錄,該目錄存儲(chǔ)腳本文件以在Hadoop中停止和啟動(dòng)守護(hù)程序。
使用stop daemons命令/sbin/stop-all.sh停止所有守護(hù)程序,然后使用/sin/start-all.sh命令再次啟動(dòng)所有守護(hù)程序。
42.Hadoop中jps命令的用途是什么?
答: jps命令用于檢查Hadoop守護(hù)程序是否正常運(yùn)行。此命令顯示在計(jì)算機(jī)上運(yùn)行的所有守護(hù)程序,即Datanode,Namenode,NodeManager,ResourceManager等。
43.說(shuō)明覆蓋HDFS中復(fù)制因子的過(guò)程。
答:有兩種方法可以覆蓋HDFS中的復(fù)制因子–
方法1:基于文件
在此方法中,使用Hadoop FS Shell根據(jù)文件更改復(fù)制因子。用于此的命令是:
$ hadoop fs – setrep –w2 / my / test_file
在這里,test_file是復(fù)制因子將設(shè)置為2的文件名。
方法2:基于目錄
在這種方法中,復(fù)制因子將基于目錄進(jìn)行更改,即,修改給定目錄下所有文件的復(fù)制因子。
$ hadoop fs –setrep –w5 / my / test_dir
在這里,test_dir是目錄的名稱,該目錄及其中所有文件的復(fù)制因子將設(shè)置為5。
44.沒(méi)有任何數(shù)據(jù)的NameNode會(huì)發(fā)生什么?
答:沒(méi)有任何數(shù)據(jù)的NameNode在Hadoop中不存在。如果存在NameNode,它將包含一些數(shù)據(jù),否則將不存在。
45.說(shuō)明NameNode恢復(fù)過(guò)程。
答: NameNode恢復(fù)過(guò)程涉及以下使Hadoop集群運(yùn)行的步驟:
在恢復(fù)過(guò)程的第一步中,文件系統(tǒng)元數(shù)據(jù)副本(FsImage)啟動(dòng)一個(gè)新的NameNode。
下一步是配置數(shù)據(jù)節(jié)點(diǎn)和客戶端。然后,這些DataNode和客戶端將確認(rèn)新的NameNode。
在最后一步中,新的NameNode在最后一個(gè)檢查點(diǎn)FsImage加載完成并從DataNode接收塊報(bào)告后開(kāi)始為客戶端提供服務(wù)。
注意:別忘了,在大型Hadoop集群上,此NameNode恢復(fù)過(guò)程會(huì)消耗大量時(shí)間。因此,這使得日常維護(hù)變得困難。因此,建議使用HDFS高可用性體系結(jié)構(gòu)。
46.Hadoop CLASSPATH對(duì)啟動(dòng)或停止Hadoop守護(hù)程序有何必要?
CLASSPATH包含必要的目錄,其中包含用于啟動(dòng)或停止Hadoop守護(hù)程序的jar文件。因此,設(shè)置CLASSPATH對(duì)于啟動(dòng)或停止Hadoop守護(hù)程序至關(guān)重要。
但是,每次設(shè)置CLASSPATH都不是我們遵循的標(biāo)準(zhǔn)。通常,CLASSPATH是寫(xiě)在/etc/hadoop/hadoop-env.sh文件中的。因此,一旦我們運(yùn)行Hadoop,它將自動(dòng)加載CLASSPATH。
47.為什么HDFS僅適用于大型數(shù)據(jù)集,而不適用于許多小型文件的正確工具?
這是由于NameNode的性能問(wèn)題。通常,為NameNode分配了巨大的空間來(lái)存儲(chǔ)大型文件的元數(shù)據(jù)。為了獲得最佳的空間利用和成本效益,元數(shù)據(jù)應(yīng)該來(lái)自單個(gè)文件。對(duì)于小文件,NameNode不會(huì)利用整個(gè)空間,這是性能優(yōu)化的問(wèn)題。
48.為什么我們需要Hadoop中的數(shù)據(jù)局部性?說(shuō)明。
HDFS中的數(shù)據(jù)集在Hadoop集群的DataNodes中存儲(chǔ)為塊。在執(zhí)行MapReduce作業(yè)期間,各個(gè)Mapper會(huì)處理塊(輸入拆分)。如果數(shù)據(jù)不在映射器執(zhí)行作業(yè)的同一節(jié)點(diǎn)中,則需要通過(guò)網(wǎng)絡(luò)將數(shù)據(jù)從DataNode復(fù)制到映射器DataNode。
現(xiàn)在,如果一個(gè)MapReduce作業(yè)具有100個(gè)以上的Mapper,并且每個(gè)Mapper嘗試同時(shí)復(fù)制集群中其他DataNode的數(shù)據(jù),則將導(dǎo)致嚴(yán)重的網(wǎng)絡(luò)擁塞,這是整個(gè)系統(tǒng)的一個(gè)大性能問(wèn)題。因此,數(shù)據(jù)接近計(jì)算是一種有效且具有成本效益的解決方案,在技術(shù)上被稱為Hadoop中的數(shù)據(jù)本地性。它有助于提高系統(tǒng)的整體吞吐量。
數(shù)據(jù)局部性可以分為三種類型:
本地?cái)?shù)據(jù)– 這種類型的數(shù)據(jù)和映射器位于同一節(jié)點(diǎn)上。這是最接近的數(shù)據(jù),也是最優(yōu)選的方案。
本地機(jī)架– 在這種情況下,映射器和數(shù)據(jù)位于同一機(jī)架上,但位于不同的數(shù)據(jù)節(jié)點(diǎn)上。
不同的機(jī)架– 在這種情況下,映射器和數(shù)據(jù)位于不同的機(jī)架上。
49. DFS可以處理大量數(shù)據(jù),那么為什么我們需要Hadoop框架?
Hadoop不僅用于存儲(chǔ)大數(shù)據(jù),而且還用于處理這些大數(shù)據(jù)。雖然DFS(分布式文件系統(tǒng))也可以存儲(chǔ)數(shù)據(jù),但是它缺乏以下功能-文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-413440.html
它不是容錯(cuò)的
網(wǎng)絡(luò)上的數(shù)據(jù)移動(dòng)取決于帶寬。
50.什么是Sequencefileinputformat?
Hadoop使用一種特定的文件格式,即序列文件。序列文件將數(shù)據(jù)存儲(chǔ)在序列化的鍵值對(duì)中。Sequencefileinputformat是用于讀取序列文件的輸入格式。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-413440.html
到了這里,關(guān)于50個(gè)最受歡迎的大數(shù)據(jù)面試問(wèn)題的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!