1950年圖靈發(fā)表論文《計算機(jī)器與智能》( Computing Machinery and Intelligence),提出了“機(jī)器智能”(Machine Intelligent)的概念,并且提出了著名的“圖靈測試”的方法來判斷機(jī)器是否有智能。
1956年,達(dá)特茅斯會議,“人工智能”(Artificial Intelligent)概念被首次提出,人工智能作為一個學(xué)科開始被研究。科學(xué)家夢想著未來可以用復(fù)雜物理結(jié)構(gòu)的計算機(jī)來構(gòu)造復(fù)雜的擁有與人類同樣智慧的機(jī)器。
計算機(jī)才剛出現(xiàn),科學(xué)家就夢想到未來的樣子。可見,科學(xué)不僅需要嚴(yán)謹(jǐn)?shù)膶嶒?,也需要大膽的夢想?/p>
人工智能學(xué)科發(fā)展至今,機(jī)器已經(jīng)具備基本的觀察和感知能力,能做到一定程度的理解和推理;但大部分時候,機(jī)器的認(rèn)知能力不足,自適應(yīng)能力不強(qiáng),不能理解面臨的新問題新情況,還遠(yuǎn)遠(yuǎn)達(dá)不到人類的認(rèn)知能力。機(jī)器的“感知智能”從何而來?“認(rèn)知”智能又如何取得突破?要從一種實現(xiàn)人工智能的方法——機(jī)器學(xué)習(xí)說起。
大白話:機(jī)器在某些方面已經(jīng)具備人的一些能力,比如人臉識別安檢(代替安保人員)來判斷是否讓某人進(jìn)入,再比如在下棋領(lǐng)域,已經(jīng)達(dá)到和超過人類棋手的能力;但不幸的是,那些落地的人工智能應(yīng)用已經(jīng)出現(xiàn)了各種弊端和不足,比如臉上掛個照片就能騙過安檢系統(tǒng),再比如剪個頭發(fā)、帶個眼鏡,安檢系統(tǒng)就不認(rèn)識了。目前來看,好消息就是我們不用擔(dān)心人工智能會把人類打趴在地,而是需要研究如何才能讓機(jī)器更理解人類。
什么是機(jī)器學(xué)習(xí)?
與傳統(tǒng)的為解決特定任務(wù)、硬編碼的軟件程序不同,機(jī)器學(xué)習(xí)是用大量的數(shù)據(jù)來“訓(xùn)練”,通過各種算法從數(shù)據(jù)中學(xué)習(xí)如何完成任務(wù)。
?傳統(tǒng)程序識別貓:輸入信息(比如圖片),讓計算機(jī)判斷是否有毛茸茸的毛?是,然后再判斷是否有一堆三角形的耳朵?是,然后再判斷......直到判斷了具備貓所有的特征,結(jié)論才是貓。如果有一項不符合,那就不是貓。當(dāng)然,也可以通過判斷“不具備什么特征”來進(jìn)行判斷,比如“身上有黑白花紋嗎?”沒有。傳統(tǒng)方式要制定判斷某一類別或概念的全部所需規(guī)則,梳理全部的所需規(guī)則就很難,而單個規(guī)則也可能會涉及到一些困難的概念,比如對毛茸茸的定義。
機(jī)器自學(xué)程序識別貓:計算機(jī)提供大量貓的照片,隨著各種貓的照片的增加,系統(tǒng)會不斷學(xué)習(xí)更新,最終能準(zhǔn)確地判斷出哪些是貓,哪些不是。這里有三個基礎(chǔ)概念:
- “機(jī)器學(xué)習(xí)”是“模擬、延伸和擴(kuò)展人的智能”的一條路徑,是人工智能程序的一個子集;
- “機(jī)器學(xué)習(xí)”要基于大量數(shù)據(jù),也就是說它的“智能”是用大量數(shù)據(jù)訓(xùn)練出來的(“喂數(shù)據(jù)”),就像教小孩要一遍遍的看書學(xué)知識,教機(jī)器也是如此,要喂數(shù)據(jù);(敲黑板?。?!這個后面會用到)
- 正是因為要處理海量數(shù)據(jù),所以大數(shù)據(jù)技術(shù)尤為重要,而“機(jī)器學(xué)習(xí)”只是大數(shù)據(jù)技術(shù)上的一個應(yīng)用。
?大白話:
傳統(tǒng)程序是人來梳理規(guī)則,程序只是把規(guī)則變成機(jī)器可理解和計算的實現(xiàn),相當(dāng)于師父制定出來一些規(guī)則,徒弟就照規(guī)則辦事,徒弟很年輕,動手比較快,但是結(jié)果好不好全靠師父制定的規(guī)則合理不合理,是否容易執(zhí)行。有些中式菜肴之所以難學(xué),就是因為師父說的規(guī)則不明確很難量化,比如“少許”之類的,到底是多少才算少許。
而機(jī)器學(xué)習(xí)程序是機(jī)器來學(xué)習(xí)數(shù)據(jù),從數(shù)據(jù)中總結(jié)經(jīng)驗,機(jī)器想學(xué)習(xí)“少許”這個規(guī)則,此時師父會手把手的教,這樣是“少許”,這樣是“少許”,經(jīng)過千百次的手把手的實驗,徒弟雖然說不出來啥叫“少許”,但是手頭已經(jīng)很有手感,動手拿出來的就是“少許”了。
雖然傳統(tǒng)的機(jī)器學(xué)習(xí)算法在指紋識別、人臉檢測等領(lǐng)域的應(yīng)用基本達(dá)到了商業(yè)化要求,但“再進(jìn)一步”卻很艱難,直到深度學(xué)習(xí)算法的出現(xiàn)。
很多人分不清:模型、算法、程序這三個詞的區(qū)別?
模型:將現(xiàn)實問題進(jìn)行抽象化,抽象成數(shù)學(xué)公式。比如,人的收入和年齡、性別和學(xué)歷的關(guān)系,最后抽象成一個數(shù)學(xué)公式:Y = F(A,S,E),可以先不用管這個公式具體表達(dá)是什么。
算法:算法,通俗的說就是“算”的方法,比如小學(xué)就開始學(xué)二元一次方程的解法,初中就開始學(xué)一元二次方程的解法。如何把“數(shù)學(xué)公式”表示的模型算出來,就是算法。
程序:算法可以人來算,也可以借助計算機(jī)來算,如果借助計算機(jī)來算,用計算機(jī)可理解的語言寫出來“算法”,那就是程序。
什么是深度學(xué)習(xí)?
深度學(xué)習(xí)(Deep Learning)屬于機(jī)器學(xué)習(xí)的子類,也是通過喂機(jī)器數(shù)據(jù)來學(xué)習(xí),自2012年以來,是目前最熱的機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)算法最初的來源是來自于神經(jīng)網(wǎng)絡(luò)算法,而神經(jīng)網(wǎng)絡(luò)的靈感來源于人類大腦的工作方式,“深度”淺顯的意思就是更深了,相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)有更多的隱含層,當(dāng)然,網(wǎng)絡(luò)結(jié)構(gòu)上與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)有所不同,但是此時你可以不用去關(guān)注這些細(xì)節(jié)。
?以人臉識別為例子,感受一下機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的不同。
機(jī)器學(xué)習(xí)程序: 首先確定想學(xué)習(xí)人臉的“面部特征”(眼睛、鼻子等等),然后根據(jù)輸入的數(shù)據(jù)學(xué)習(xí)這些“面部特征”,最后依據(jù)這些“面部特征”來識別是不是人臉。
而深度學(xué)習(xí)程序是直接學(xué)習(xí)識別判斷“是不是人臉”,并不需要我們告訴機(jī)器去學(xué)習(xí)哪些“面部特征”,是機(jī)器自動學(xué)習(xí)的。只需要將“數(shù)據(jù)”喂給機(jī)器,深度學(xué)習(xí)程序就自動學(xué)會了識別判斷是不是人臉。對于“使用”來說,深度學(xué)習(xí)程序就是個黑箱,我們并不確定它學(xué)習(xí)到了什么,是“面部特征”還是“輪廓特點”,只是給它一張照片輸入,它就實現(xiàn)了識別判斷。深度學(xué)習(xí)算法專家深入研究算法的各層,分析出來機(jī)器是通過先學(xué)習(xí)細(xì)節(jié)特征、再組合成更宏觀的特征,最后形成“人臉”的總體感知能力?;臼欠譃槿剑?/p>
- 根據(jù)原始輸入數(shù)據(jù),確定出哪些邊和角跟識別出人臉關(guān)系最大(細(xì)節(jié)特征);
- 根據(jù)上一步找出的很多小元素(邊、角等)構(gòu)建層級網(wǎng)絡(luò),找出它們之間的各種組合(局部特征),這時可以看到鼻子、眼睛、耳朵等;
- 在構(gòu)建層級網(wǎng)絡(luò)之后,對鼻子、眼睛等局部特征進(jìn)行組合就可以組成各種各樣的頭像,就可以確定哪些組合可以識別人臉(整體特征)。
?大白話:機(jī)器學(xué)習(xí)相當(dāng)于本科生學(xué)習(xí),需要老師指出學(xué)什么,然后學(xué)生帶著目的去學(xué);而深度學(xué)習(xí)相當(dāng)于研究生學(xué)習(xí),老師只指出要解決的問題是什么,學(xué)生就會根據(jù)問題一步步拆解去學(xué)了,不同的學(xué)生拆解的步驟有所不同(深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不同),不深入研究的話并不知道每個學(xué)生到底怎么學(xué)的、學(xué)到了哪些知識,但最終學(xué)生把問題解決了。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)有哪些維度的不同?
機(jī)器學(xué)習(xí)是一種實現(xiàn)人工智能的方法,深度學(xué)習(xí)是一種實現(xiàn)機(jī)器學(xué)習(xí)的技術(shù)。下圖就可以展現(xiàn)出它們的關(guān)系。
?具體不同大致有以下幾點。
1. 數(shù)據(jù)依賴程度不同。隨著數(shù)據(jù)量的增加,二者的表現(xiàn)有很大區(qū)別。深度學(xué)習(xí)適合處理大數(shù)據(jù),而數(shù)據(jù)量比較小的時候,用傳統(tǒng)機(jī)器學(xué)習(xí)方法也許更合適。
2. 硬件依賴程度不同。深度學(xué)習(xí)十分地依賴于硬件設(shè)施(提供計算的設(shè)施),因為計算量實在太大。它會涉及很多矩陣運(yùn)算,因此很多深度學(xué)習(xí)都要求有GPU(專門為矩陣運(yùn)算而設(shè)計的)參與運(yùn)算。?
3. 特征工程。在訓(xùn)練一個機(jī)器學(xué)習(xí)模型的時候,需要首先確定學(xué)習(xí)哪些特征,比如識別人臉可能并不需要[人的身高]特征。在機(jī)器學(xué)習(xí)方法中,幾乎所有特征都需要人為確認(rèn)后,再進(jìn)行手工特征編碼。而深度學(xué)習(xí)試圖自己從數(shù)據(jù)中自動學(xué)習(xí)特征。
4. 解決問題的方式。(敲黑板,重點!)解決問題時,機(jī)器學(xué)習(xí)通常先把問題分成幾塊,一個個地解決好之后,再重新組合。深度學(xué)習(xí)是一次性地解決好問題。比如,任務(wù)是識別出圖片上有哪些物體,并找出它們的位置。
?機(jī)器學(xué)習(xí)的做法:第一步,發(fā)現(xiàn)是不是有物體(可動的),有三個;第二步,識別物體,分別是狗、自動車、汽車;第三步:識別物體對應(yīng)位置,狗在哪里,自行車在哪里,小汽車在哪里。
深度學(xué)習(xí)的做法:直接一次完成任務(wù),直接識別出來對應(yīng)物體,同時還能標(biāo)明對應(yīng)物體名字、位置。
5. 訓(xùn)練和推理運(yùn)行時間。深度學(xué)習(xí)需要花大量時間來訓(xùn)練,因為有太多參數(shù)要去學(xué)習(xí)。但深度學(xué)習(xí)訓(xùn)練出的模型優(yōu)勢就在于,在推理服務(wù)上運(yùn)行非???。也是剛剛提到的實時物體檢測。機(jī)器學(xué)習(xí)一般幾秒鐘最多幾小時就可以訓(xùn)練好,推理運(yùn)行也比較快。?
深度學(xué)習(xí)前加個“分布式”,又是怎么回事?
正如前面所說,面對越來越復(fù)雜的任務(wù),數(shù)據(jù)和深度學(xué)習(xí)模型的參數(shù)規(guī)模都變得日益龐大,當(dāng)訓(xùn)練數(shù)據(jù)詞表增大到成百上千萬時,如果不做任何剪枝處理,深度學(xué)習(xí)模型可能會擁有上百億、甚至是幾千億個參數(shù),所以深度學(xué)習(xí)“訓(xùn)練時間”非常久。(學(xué)太久了,相當(dāng)于8年了博士研究生還沒畢業(yè)。)
?為了提高深度學(xué)習(xí)模型的訓(xùn)練效率,分布式訓(xùn)練出現(xiàn)了——即同時利用多個工作節(jié)點(計算設(shè)備),分布式地、高效地訓(xùn)練出性能優(yōu)良的深度神經(jīng)網(wǎng)絡(luò)模型。目前主要有兩種并行化/分布式訓(xùn)練方法:數(shù)據(jù)并行化和算法并行化,歸根結(jié)底都是用“空間”(算力)換“時間”(效率)。
數(shù)據(jù)并行化,不同的機(jī)器有同一個算法的多個副本,每個機(jī)器分配到數(shù)據(jù)的一部分,然后將所有機(jī)器的計算結(jié)果按照某種方式進(jìn)行合并;舉個例子,高考考試在即,A要在一天內(nèi)學(xué)完40000本書,要學(xué)的書實在是太多了,為了更高效完成這個學(xué)習(xí)任務(wù),A變身成了A1,A2,A3,A4,每個變身負(fù)責(zé)學(xué)習(xí)10000本書(分成了語文、英語、數(shù)理化、史地生幾部分),它們可以同時只學(xué)自己負(fù)責(zé)的那部分,等每部門學(xué)完自己的任務(wù),A1~A4再合體成A,就相當(dāng)于A完成了本次任務(wù)。是不是特像孫悟空吹一口仙氣,吹來了很多的小猴子一樣~
?算法并行化,分布式系統(tǒng)中的不同機(jī)器負(fù)責(zé)單個網(wǎng)絡(luò)模型的不同部分。比如,神經(jīng)網(wǎng)絡(luò)模型的不同網(wǎng)絡(luò)層被分配到不同機(jī)器。繼續(xù)上個例子,考試在即,A要在一天內(nèi)學(xué)完40000本書,以便能夠進(jìn)行高考考試,那么考試可以分為記憶,理解,推理,計算,然后每臺機(jī)器只學(xué)其中的一部分能力,這幾部分能力可以同步學(xué),等都學(xué)完了,合體起來就是厲害的高考生A了。
?大白話:“并行化”就是一起并肩工作,能同步做的同步做,用空間來換時間。當(dāng)然實際情況,比我們上面舉的例子會更復(fù)雜,但基本原理是類似的。
基于深度學(xué)習(xí)的“大模型”是通往機(jī)器認(rèn)知智能的橋梁嗎?
前面講到了“模型”是現(xiàn)實化的一種抽象,抽象成數(shù)學(xué)公式。即使深度學(xué)習(xí)的出發(fā)點是更深層次的神經(jīng)網(wǎng)絡(luò),但細(xì)分起來也會有非常多的不同的模型(也就是不同的抽象問題的方式),對應(yīng)不同的數(shù)學(xué)公式,比如常見的CNN、DNN等。
“大”模型,就是模型中比較“大”的那一類,大的具體含義也就是數(shù)學(xué)公式更復(fù)雜,它的參數(shù)更多。
?2021年8月份,李飛飛和100多位學(xué)者聯(lián)名發(fā)表一份200多頁的研究報告《On the Opportunities and Risk of Foundation Models》,詳細(xì)描述了當(dāng)前大規(guī)模預(yù)訓(xùn)練模型面臨的機(jī)遇和挑戰(zhàn)。在文章中,大模型被統(tǒng)一命名為Foundation Models,可以翻譯為基礎(chǔ)模型或者是基石模型,論文肯定了Foundation Models對智能體基本認(rèn)知能力的推動作用。2017年Transformer結(jié)構(gòu)的提出,使得深度學(xué)習(xí)模型參數(shù)突破了1億。到了BERT網(wǎng)絡(luò)模型的提出,使得參數(shù)量首次超過3億規(guī)模,GPT-3模型超過百億,近兩年國內(nèi)的大模型也蓬勃發(fā)展,已經(jīng)出來多個參數(shù)超過千億的大模型。
參數(shù)量更多,學(xué)習(xí)的數(shù)據(jù)量更多,模型的泛化能力更強(qiáng),泛化能力更強(qiáng)通俗來講就是一專多能,可以完成多個不同的任務(wù)。比如目前開源開放的浪潮源1.0模型,其參數(shù)規(guī)模高達(dá)2457億,訓(xùn)練采用的中文數(shù)據(jù)集達(dá)5000GB,相比GPT-3模型1750億參數(shù)量和570GB訓(xùn)練數(shù)據(jù)集,“源1.0”參數(shù)規(guī)模領(lǐng)先40%,訓(xùn)練數(shù)據(jù)集規(guī)模領(lǐng)先近10倍。“源1.0”在語言智能方面表現(xiàn)優(yōu)異,獲得中文語言理解評測基準(zhǔn)CLUE榜單的零樣本學(xué)習(xí)和小樣本學(xué)習(xí)兩類總榜冠軍,測試結(jié)果顯示,人群能夠準(zhǔn)確分辨人與“源1.0”作品差別的成功率已低于50%。
目前開發(fā)者可以在源1.0”官網(wǎng)https://air.inspur.com提出申請,經(jīng)審核授權(quán)后即可免費使用“源1.0”大模型API,基于“源1.0”模型探索算法創(chuàng)新以及開發(fā)各類智能化應(yīng)用。文章來源:http://www.zghlxwxcb.cn/news/detail-431199.html
大模型真的是通往機(jī)器學(xué)習(xí)認(rèn)知智能的橋梁嗎?目前還無法做出準(zhǔn)確的回答,作為NLP的從業(yè)者,你可以真實的去體驗,開發(fā)一些有意思的AI應(yīng)用,真正的解決行業(yè)和生活中的問題,讓AI使我們的生活工作更美好。文章來源地址http://www.zghlxwxcb.cn/news/detail-431199.html
到了這里,關(guān)于大白話聊聊“深度學(xué)習(xí)”和“大模型”的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!