目錄
人工智能
深度學(xué)習(xí)
機器學(xué)習(xí)
神經(jīng)網(wǎng)絡(luò)
機器學(xué)習(xí)的范圍
模式識別
數(shù)據(jù)挖掘
統(tǒng)計學(xué)習(xí)
計算機視覺
語音識別
自然語言處理
機器學(xué)習(xí)的方法
回歸算法
神經(jīng)網(wǎng)絡(luò)
SVM(支持向量機)
聚類算法
降維算法
推薦算法
其他
機器學(xué)習(xí)的分類
機器學(xué)習(xí)模型的評估
機器學(xué)習(xí)的應(yīng)用
機器學(xué)習(xí)的子類--深度學(xué)習(xí)
機器學(xué)習(xí)的父類--人工智能
人工智能
人類通過直覺可以解決的問題,如:自然語言理解,圖像識別,語音識別等,計算機很難解決,而人工智能就是要解決這類問題
深度學(xué)習(xí)
其核心就是自動將簡單的特征組合成更加復(fù)雜的特征,并用這些特征解決問題
機器學(xué)習(xí)
機器學(xué)習(xí)是一種能夠賦予機器學(xué)習(xí)的能力以此讓它完成直接編程無法完成的功能的方法。但從實踐的意義上來說,
機器學(xué)習(xí)是一種通過利用數(shù)據(jù),訓(xùn)練出模型,然后使用模型預(yù)測的一種方法
神經(jīng)網(wǎng)絡(luò)
最初是一個生物學(xué)的概念,一般是指大腦神經(jīng)元,觸點,細胞等組成的網(wǎng)絡(luò),用于產(chǎn)生意識,幫助生物思考和行動,后來人工智能受神經(jīng)網(wǎng)絡(luò)的啟發(fā),發(fā)展出了人工神經(jīng)網(wǎng)絡(luò)
機器學(xué)習(xí)的范圍
機器學(xué)習(xí)跟模式識別,統(tǒng)計學(xué)習(xí),數(shù)據(jù)挖掘,計算機視覺,語音識別,自然語言處理等領(lǐng)域有著很深的聯(lián)系。
模式識別
模式識別=機器學(xué)習(xí)。兩者的主要區(qū)別在于前者是從工業(yè)界發(fā)展起來的概念,后者則主要源自計算機學(xué)科。在著名的《Pattern Recognition And Machine Learning》這本書中,Christopher M. Bishop在開頭是這樣說的“模式識別源自工業(yè)界,而機器學(xué)習(xí)來自于計算機學(xué)科。不過,它們中的活動可以被視為同一個領(lǐng)域的兩個方面,同時在過去的10年間,它們都有了長足的發(fā)展”。
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘=機器學(xué)習(xí)+數(shù)據(jù)庫。這幾年數(shù)據(jù)挖掘的概念實在是太耳熟能詳。幾乎等同于炒作。但凡說數(shù)據(jù)挖掘都會吹噓數(shù)據(jù)挖掘如何如何,例如從數(shù)據(jù)中挖出金子,以及將廢棄的數(shù)據(jù)轉(zhuǎn)化為價值等等。但是,我盡管可能會挖出金子,但我也可能挖的是“石頭”啊。這個說法的意思是,數(shù)據(jù)挖掘僅僅是一種思考方式,告訴我們應(yīng)該嘗試從數(shù)據(jù)中挖掘出知識,但不是每個數(shù)據(jù)都能挖掘出金子的,所以不要神話它。一個系統(tǒng)絕對不會因為上了一個數(shù)據(jù)挖掘模塊就變得無所不能(這是IBM最喜歡吹噓的),恰恰相反,一個擁有數(shù)據(jù)挖掘思維的人員才是關(guān)鍵,而且他還必須對數(shù)據(jù)有深刻的認識,這樣才可能從數(shù)據(jù)中導(dǎo)出模式指引業(yè)務(wù)的改善。大部分數(shù)據(jù)挖掘中的算法是機器學(xué)習(xí)的算法在數(shù)據(jù)庫中的優(yōu)化。
統(tǒng)計學(xué)習(xí)
統(tǒng)計學(xué)習(xí)近似等于機器學(xué)習(xí)。統(tǒng)計學(xué)習(xí)是個與機器學(xué)習(xí)高度重疊的學(xué)科。因為機器學(xué)習(xí)中的大多數(shù)方法來自統(tǒng)計學(xué),甚至可以認為,統(tǒng)計學(xué)的發(fā)展促進機器學(xué)習(xí)的繁榮昌盛。例如著名的支持向量機算法,就是源自統(tǒng)計學(xué)科。但是在某種程度上兩者是有分別的,這個分別在于:統(tǒng)計學(xué)習(xí)者重點關(guān)注的是統(tǒng)計模型的發(fā)展與優(yōu)化,偏數(shù)學(xué),而機器學(xué)習(xí)者更關(guān)注的是能夠解決問題,偏實踐,因此機器學(xué)習(xí)研究者會重點研究學(xué)習(xí)算法在計算機上執(zhí)行的效率與準確性的提升。
計算機視覺
計算機視覺=圖像處理+機器學(xué)習(xí)。圖像處理技術(shù)用于將圖像處理為適合進入機器學(xué)習(xí)模型中的輸入,機器學(xué)習(xí)則負責(zé)從圖像中識別出相關(guān)的模式。計算機視覺相關(guān)的應(yīng)用非常的多,例如百度識圖、手寫字符識別、車牌識別等等應(yīng)用。這個領(lǐng)域是應(yīng)用前景非?;馃岬模瑫r也是研究的熱門方向。隨著機器學(xué)習(xí)的新領(lǐng)域深度學(xué)習(xí)的發(fā)展,大大促進了計算機圖像識別的效果,因此未來計算機視覺界的發(fā)展前景不可估量。
語音識別
語音識別=語音處理+機器學(xué)習(xí)。語音識別就是音頻處理技術(shù)與機器學(xué)習(xí)的結(jié)合。語音識別技術(shù)一般不會單獨使用,一般會結(jié)合自然語言處理的相關(guān)技術(shù)。目前的相關(guān)應(yīng)用有蘋果的語音助手siri等。
自然語言處理
自然語言處理=文本處理+機器學(xué)習(xí)。自然語言處理技術(shù)主要是讓機器理解人類的語言的一門領(lǐng)域。在自然語言處理技術(shù)中,大量使用了編譯原理相關(guān)的技術(shù),例如詞法分析,語法分析等等,除此之外,在理解這個層面,則使用了語義理解,機器學(xué)習(xí)等技術(shù)。作為唯一由人類自身創(chuàng)造的符號,自然語言處理一直是機器學(xué)習(xí)界不斷研究的方向。按照百度機器學(xué)習(xí)專家余凱的說法“聽與看,說白了就是阿貓和阿狗都會的,而只有語言才是人類獨有的”。如何利用機器學(xué)習(xí)技術(shù)進行自然語言的的深度理解,一直是工業(yè)和學(xué)術(shù)界關(guān)注的焦點。
機器學(xué)習(xí)的方法
回歸算法
在大部分機器學(xué)習(xí)課程中,回歸算法都是介紹的第一個算法。原因有兩個:一.回歸算法比較簡單,介紹它可以讓人平滑地從統(tǒng)計學(xué)遷移到機器學(xué)習(xí)中。二.回歸算法是后面若干強大算法的基石,如果不理解回歸算法,無法學(xué)習(xí)那些強大的算法。回歸算法有兩個重要的子類:即線性回歸和邏輯回歸。
實現(xiàn)方面的話,邏輯回歸只是對對線性回歸的計算結(jié)果加上了一個Sigmoid函數(shù),將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率(Sigmoid函數(shù)的圖像一般來說并不直觀,你只需要理解對數(shù)值越大,函數(shù)越逼近1,數(shù)值越小,函數(shù)越逼近0),接著我們根據(jù)這個概率可以做預(yù)測,例如概率大于0.5,則這封郵件就是垃圾郵件,或者腫瘤是否是惡性的等等。從直觀上來說,邏輯回歸是畫出了一條分類線,見下圖。
邏輯回歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯回歸,不過那樣的模型在處理數(shù)據(jù)量較大的時候效率會很低),這意味著當兩類之間的界線不是線性時,邏輯回歸的表達能力就不足。
神經(jīng)網(wǎng)絡(luò)
讓我們看一個簡單的神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)。在這個網(wǎng)絡(luò)中,分成輸入層,隱藏層,和輸出層。輸入層負責(zé)接收信號,隱藏層負責(zé)對數(shù)據(jù)的分解與處理,最后的結(jié)果被整合到輸出層。每層中的一個圓代表一個處理單元,可以認為是模擬了一個神經(jīng)元,若干個處理單元組成了一個層,若干個層再組成了一個網(wǎng)絡(luò),也就是"神經(jīng)網(wǎng)絡(luò)"。
在神經(jīng)網(wǎng)絡(luò)中,每個處理單元事實上就是一個邏輯回歸模型,邏輯回歸模型接收上層的輸入,把模型的預(yù)測結(jié)果作為輸出傳輸?shù)较乱粋€層次。通過這樣的過程,神經(jīng)網(wǎng)絡(luò)可以完成非常復(fù)雜的非線性分類。
SVM(支持向量機)
支持向量機算法從某種意義上來說是邏輯回歸算法的強化:通過給予邏輯回歸算法更嚴格的優(yōu)化條件,支持向量機算法可以獲得比邏輯回歸更好的分類界線。但是如果沒有某類函數(shù)技術(shù),則支持向量機算法最多算是一種更好的線性分類技術(shù)。
但是,通過跟高斯“核”的結(jié)合,支持向量機可以表達出非常復(fù)雜的分類界線,從而達成很好的的分類效果?!昂恕笔聦嵣暇褪且环N特殊的函數(shù),最典型的特征就是可以將低維的空間映射到高維的空間。
我們?nèi)绾卧诙S平面劃分出一個圓形的分類界線?在二維平面可能會很困難,但是通過“核”可以將二維空間映射到三維空間,然后使用一個線性平面就可以達成類似效果。也就是說,二維平面劃分出的非線性分類界線可以等價于三維平面的線性分類界線。于是,我們可以通過在三維空間中進行簡單的線性劃分就可以達到在二維平面中的非線性劃分效果。
支持向量機是一種數(shù)學(xué)成分很濃的機器學(xué)習(xí)算法(相對的,神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分)。在算法的核心步驟中,有一步證明,即將數(shù)據(jù)從低維映射到高維不會帶來最后計算復(fù)雜性的提升。于是,通過支持向量機算法,既可以保持計算效率,又可以獲得非常好的分類效果。因此支持向量機在90年代后期一直占據(jù)著機器學(xué)習(xí)中最核心的地位,基本取代了神經(jīng)網(wǎng)絡(luò)算法。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起,兩者之間才又發(fā)生了微妙的平衡轉(zhuǎn)變。
聚類算法
無監(jiān)督算法中最典型的代表就是聚類算法。
讓我們還是拿一個二維的數(shù)據(jù)來說,某一個數(shù)據(jù)包含兩個特征。我希望通過聚類算法,給他們中不同的種類打上標簽,我該怎么做呢?簡單來說,聚類算法就是計算種群中的距離,根據(jù)距離的遠近將數(shù)據(jù)劃分為多個族群。
聚類算法中最典型的代表就是K-Means算法。
降維算法
降維算法也是一種無監(jiān)督學(xué)習(xí)算法,其主要特征是將數(shù)據(jù)從高維降低到低維層次。
降維算法的主要作用是壓縮數(shù)據(jù)與提升機器學(xué)習(xí)其他算法的效率。通過降維算法,可以將具有幾千個特征的數(shù)據(jù)壓縮至若干個特征。另外,降維算法的另一個好處是數(shù)據(jù)的可視化,例如將5維的數(shù)據(jù)壓縮至2維,然后可以用二維平面來可視。降維算法的主要代表是PCA算法(即主成分分析算法)。
推薦算法
推薦算法是目前業(yè)界非?;鸬囊环N算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運用。推薦算法的主要特征就是可以自動向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益。推薦算法有兩個主要的類別:
一類是基于物品內(nèi)容的推薦,是將與用戶購買的內(nèi)容近似的物品推薦給用戶,這樣的前提是每個物品都得有若干個標簽,因此才可以找出與用戶購買物品類似的物品,這樣推薦的好處是關(guān)聯(lián)程度較大,但是由于每個物品都需要貼標簽,因此工作量較大。
另一類是基于用戶相似度的推薦,則是將與目標用戶興趣相同的其他用戶購買的東西推薦給目標用戶,例如小A歷史上買了物品B和C,經(jīng)過算法分析,發(fā)現(xiàn)另一個與小A近似的用戶小D購買了物品E,于是將物品E推薦給小A。
兩類推薦都有各自的優(yōu)缺點,在一般的電商應(yīng)用中,一般是兩類混合使用。推薦算法中最有名的算法就是協(xié)同過濾算法。
其他
除了以上算法之外,機器學(xué)習(xí)界還有其他的如高斯判別,樸素貝葉斯,決策樹等等算法。但是上面列的六個算法是使用最多,影響最廣,種類最全的典型。機器學(xué)習(xí)界的一個特色就是算法眾多,發(fā)展百花齊放。
下面做一個總結(jié),按照訓(xùn)練的數(shù)據(jù)有無標簽,可以將上面算法分為監(jiān)督學(xué)習(xí)算法和無監(jiān)督學(xué)習(xí)算法,但推薦算法較為特殊,既不屬于監(jiān)督學(xué)習(xí),也不屬于非監(jiān)督學(xué)習(xí),是單獨的一類。
機器學(xué)習(xí)的分類
目前機器學(xué)習(xí)主流分為:監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),強化學(xué)習(xí)。
a) 監(jiān)督學(xué)習(xí)是最常見的一種機器學(xué)習(xí),它的訓(xùn)練數(shù)據(jù)是有標簽的,訓(xùn)練目標是能夠給新數(shù)據(jù)(測試數(shù)據(jù))以正確的標簽。例如,將郵件進行是否垃圾郵件的分類,一開始我們先將一些郵件及其標簽(垃圾郵件或非垃圾郵件)一起進行訓(xùn)練,學(xué)習(xí)模型不斷捕捉這些郵件與標簽間的聯(lián)系進行自我調(diào)整和完善,然后我們給一些不帶標簽的新郵件,讓該模型對新郵件進行是否是垃圾郵件的分類。
b) 無監(jiān)督學(xué)習(xí)常常被用于數(shù)據(jù)挖掘,用于在大量無標簽數(shù)據(jù)中發(fā)現(xiàn)些什么。無監(jiān)督主要有三種:聚類、離散點檢測和降維。
它的訓(xùn)練數(shù)據(jù)是無標簽的,訓(xùn)練目標是能對觀察值進行分類或者區(qū)分等。例如無監(jiān)督學(xué)習(xí)應(yīng)該能在不給任何額外提示的情況下,僅依據(jù)所有“貓”的圖片的特征,將“貓”的圖片從大量的各種各樣的圖片中將區(qū)分出來。
c) 強化學(xué)習(xí)通常被用在機器人技術(shù)上(例如機械狗),它接收機器人當前狀態(tài),算法的目標是訓(xùn)練機器來做出各種特定行為。工作流程多是:機器被放置在一個特定環(huán)境中,在這個環(huán)境里機器可以持續(xù)性地進行自我訓(xùn)練,而環(huán)境會給出或正或負的反饋。機器會從以往的行動經(jīng)驗中得到提升并最終找到最好的知識內(nèi)容來幫助它做出最有效的行為決策。
機器學(xué)習(xí)模型的評估
拿貓的識別來舉例,假設(shè)機器通過學(xué)習(xí),已經(jīng)具備了一定的識別能力。那么,我們輸入4張圖片,機器的判斷如下:
常用的評價指標有三種:準確率(precision)、召回率(recall)和精準率(accuracy),其中:
Precision = TP/(TP+FP),表示我們抓到的人中,抓對了的比例;
Recall = TP/ (TP+FN),表示我們抓到的壞人占所有壞人的比例;
Accuracy = (TP + TN)/ All ,表示識別對了(好人被識別成好人,壞人被識別成壞人)的比例。
三個指標越高,表示算法的適應(yīng)性越好。
機器學(xué)習(xí)的應(yīng)用
機器學(xué)習(xí)與大數(shù)據(jù)的結(jié)合產(chǎn)生了巨大的價值。基于機器學(xué)習(xí)技術(shù)的發(fā)展,數(shù)據(jù)能夠“預(yù)測”。對人類而言,積累的經(jīng)驗越豐富,閱歷也廣泛,對未來的判斷越準確。例如常說的“經(jīng)驗豐富”的人比“初出茅廬”的小伙子更有工作上的優(yōu)勢,就在于經(jīng)驗豐富的人獲得的規(guī)律比他人更準確。而在機器學(xué)習(xí)領(lǐng)域,根據(jù)著名的一個實驗,有效的證實了機器學(xué)習(xí)界一個理論:即機器學(xué)習(xí)模型的數(shù)據(jù)越多,機器學(xué)習(xí)的預(yù)測的效率就越好。
機器學(xué)習(xí)界的名言:成功的機器學(xué)習(xí)應(yīng)用不是擁有最好的算法,而是擁有最多的數(shù)據(jù)!
在大數(shù)據(jù)的時代,有好多優(yōu)勢促使機器學(xué)習(xí)能夠應(yīng)用更廣泛。例如隨著物聯(lián)網(wǎng)和移動設(shè)備的發(fā)展,我們擁有的數(shù)據(jù)越來越多,種類也包括圖片、文本、視頻等非結(jié)構(gòu)化數(shù)據(jù),這使得機器學(xué)習(xí)模型可以獲得越來越多的數(shù)據(jù)。同時大數(shù)據(jù)技術(shù)中的分布式計算Map-Reduce使得機器學(xué)習(xí)的速度越來越快,可以更方便的使用。種種優(yōu)勢使得在大數(shù)據(jù)時代,機器學(xué)習(xí)的優(yōu)勢可以得到最佳的發(fā)揮。
機器學(xué)習(xí)的子類--深度學(xué)習(xí)
2006年,Geoffrey Hinton在科學(xué)雜志《Science》上發(fā)表了一篇文章,論證了兩個觀點:
1.多隱層的神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;
2.深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過“逐層初始化” 來有效克服。
通過這樣的發(fā)現(xiàn),不僅解決了神經(jīng)網(wǎng)絡(luò)在計算上的難度,同時也說明了深層神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)上的優(yōu)異性。從此,神經(jīng)網(wǎng)絡(luò)重新成為了機器學(xué)習(xí)界中的主流強大學(xué)習(xí)技術(shù)。同時,具有多個隱藏層的神經(jīng)網(wǎng)絡(luò)被稱為深度神經(jīng)網(wǎng)絡(luò),基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)研究稱之為深度學(xué)習(xí)。
目前業(yè)界許多的圖像識別技術(shù)與語音識別技術(shù)的進步都源于深度學(xué)習(xí)的發(fā)展,除了本文開頭所提的Cortana等語音助手,還包括一些圖像識別應(yīng)用,其中典型的代表就是下圖的百度識圖功能。?
深度學(xué)習(xí)屬于機器學(xué)習(xí)的子類?;谏疃葘W(xué)習(xí)的發(fā)展極大的促進了機器學(xué)習(xí)的地位提高,更進一步地,推動了業(yè)界對機器學(xué)習(xí)父類人工智能夢想的再次重視。
機器學(xué)習(xí)的父類--人工智能
人工智能是機器學(xué)習(xí)的父類。深度學(xué)習(xí)則是機器學(xué)習(xí)的子類。如果把三者的關(guān)系用圖來表明的話,則是下圖:
?
總結(jié)起來,人工智能的發(fā)展經(jīng)歷了如下若干階段,從早期的邏輯推理,到中期的專家系統(tǒng),這些科研進步確實使我們離機器的智能有點接近了,但還有一大段距離。直到機器學(xué)習(xí)誕生以后,人工智能界感覺終于找對了方向?;跈C器學(xué)習(xí)的圖像識別和語音識別在某些垂直領(lǐng)域達到了跟人相媲美的程度。機器學(xué)習(xí)使人類第一次如此接近人工智能的夢想。
?讓我們再看一下機器人的制造,在我們具有了強大的計算,海量的存儲,快速的檢索,迅速的反應(yīng),優(yōu)秀的邏輯推理后我們?nèi)绻倥浜仙弦粋€強大的智慧大腦,一個真正意義上的人工智能也許就會誕生,這也是為什么說在機器學(xué)習(xí)快速發(fā)展的現(xiàn)在,人工智能可能不再是夢想的原因。
人工智能的發(fā)展可能不僅取決于機器學(xué)習(xí),更取決于前面所介紹的深度學(xué)習(xí),深度學(xué)習(xí)技術(shù)由于深度模擬了人類大腦的構(gòu)成,在視覺識別與語音識別上顯著性的突破了原有機器學(xué)習(xí)技術(shù)的界限,因此極有可能是真正實現(xiàn)人工智能夢想的關(guān)鍵技術(shù)。無論是谷歌大腦還是百度大腦,都是通過海量層次的深度學(xué)習(xí)網(wǎng)絡(luò)所構(gòu)成的。也許借助于深度學(xué)習(xí)技術(shù),在不遠的將來,一個具有人類智能的計算機真的有可能實現(xiàn)。文章來源:http://www.zghlxwxcb.cn/news/detail-836036.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-836036.html
到了這里,關(guān)于人工智能深度學(xué)習(xí)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!