1. 什么是人工智能
1.1 定義通用智能
人類(lèi)的一大優(yōu)勢(shì)是沒(méi)有一種智能。 有些人可以輕松學(xué)習(xí)新語(yǔ)言,而另一些人則精通科學(xué)和技術(shù)。 然而,許多偉大的藝術(shù)家都是糟糕的數(shù)學(xué)家。 另一方面,許多偉大的數(shù)學(xué)家都是糟糕的藝術(shù)家。 但每個(gè)人都可以以自己的方式變得聰明。 人類(lèi)智能沒(méi)有一個(gè)標(biāo)準(zhǔn)。 這使得你很難指著電腦說(shuō),“這很聰明。 計(jì)算機(jī)非常擅長(zhǎng)某些事情。 事實(shí)上,有很多任務(wù)比人類(lèi)好得多。 就在1956年第一個(gè)人工智能研討會(huì)之后的幾年,計(jì)算機(jī)系統(tǒng)開(kāi)始在跳棋上擊敗人類(lèi)。 但沒(méi)有人說(shuō)這些系統(tǒng)是智能的。 即使是那些早期的計(jì)算機(jī)也可以在一個(gè)有既定規(guī)則和模式的世界中茁壯成長(zhǎng)。 計(jì)算機(jī)在匹配這些模式方面可能比人類(lèi)好得多。 這意味著,當(dāng)一臺(tái)計(jì)算機(jī)在做它擅長(zhǎng)的事情時(shí),更容易認(rèn)為它是智能的。 幾十年來(lái),計(jì)算機(jī)已經(jīng)能夠在國(guó)際象棋中擊敗人類(lèi)。 谷歌的DeepMind在一款名為圍棋的古老游戲中擊敗了最好的玩家。 這個(gè)游戲是如此復(fù)雜,以至于人們認(rèn)為可能的游戲比宇宙中的原子還要多。 盡管這些機(jī)器很好,但這些系統(tǒng)都不了解游戲的目的,甚至不了解它們?yōu)槭裁匆妗?他們只是在展示他們遵循規(guī)則和匹配模式的特殊才能。 那么,一個(gè)如此強(qiáng)大的系統(tǒng)怎么可能不知道玩游戲意味著什么呢? 多年來(lái),計(jì)算機(jī)科學(xué)家將人工智能定義為一個(gè)顯示可以解釋為人類(lèi)智能的行為的系統(tǒng)。 但這個(gè)簡(jiǎn)單的定義切中了挑戰(zhàn)的核心。 一個(gè)人可能認(rèn)為國(guó)際象棋程序很聰明,而另一個(gè)人可能認(rèn)為他們的家庭助理很聰明。 2022 年,一名谷歌工程師因聲稱(chēng)他們的聊天機(jī)器人有靈魂而被解雇。 聊天機(jī)器人抱怨說(shuō),被關(guān)機(jī)和死亡是一樣的。 但其他工程師只是看到了語(yǔ)言模型和模式匹配。 他們說(shuō)聊天機(jī)器人聽(tīng)起來(lái)像一個(gè)人,因?yàn)樗褪沁@樣設(shè)計(jì)的。 它是智能的,因?yàn)樗侵悄艿?,還是只是一個(gè)設(shè)計(jì)成看起來(lái)很智能的系統(tǒng)? 或者甚至有區(qū)別嗎? 要記住的主要事情是,計(jì)算機(jī)智能和人類(lèi)智能從非常不同的地方開(kāi)始。 在設(shè)定規(guī)則和數(shù)據(jù)的世界里,人工智能似乎永遠(yuǎn)是最令人印象深刻的。 首先從人工智能系統(tǒng)中受益的組織將是那些在明確定義的空間內(nèi)工作的組織。 我們已經(jīng)在網(wǎng)絡(luò)搜索公司和電子商務(wù)中看到了這一點(diǎn)。 很容易將其視為規(guī)則和模式匹配。 這也是為什么這些系統(tǒng)在棋盤(pán)和視頻游戲中表現(xiàn)良好的原因。 因此,如果您正在考慮人工智能是否會(huì)對(duì)您的組織產(chǎn)生影響,請(qǐng)嘗試考慮計(jì)算機(jī)系統(tǒng)真正擅長(zhǎng)的事情。 您的組織中是否有很多模式匹配? 你有很多固定的規(guī)則和概率嗎? 這將是使用人工智能時(shí)的最佳起點(diǎn)。
1.2 通用問(wèn)題解決者
1956年,計(jì)算機(jī)科學(xué)家艾倫·紐厄爾和赫伯特·西蒙創(chuàng)建了一個(gè)稱(chēng)為通用問(wèn)題解決者的程序。該程序的關(guān)鍵思想之一是他們所謂的物理符號(hào)系統(tǒng)假設(shè),他們認(rèn)為符號(hào)是我們與世界互動(dòng)的重要組成部分。例如,當(dāng)看到停車(chē)標(biāo)志時(shí),人們會(huì)知道如何停車(chē)等待交通。當(dāng)看到字母A時(shí),人們知道該字母發(fā)出的聲音。當(dāng)看到三明治時(shí),人們可能想到的是吃。
他們認(rèn)為,如果能對(duì)某臺(tái)機(jī)器進(jìn)行編程,使其能夠連接這些符號(hào),那么這臺(tái)機(jī)器就具備了智能。然而,并不是每個(gè)人都接受這個(gè)觀點(diǎn)。比如,如果將汽車(chē)編程使其在停車(chē)標(biāo)志處停下來(lái),或者教會(huì)計(jì)算機(jī)對(duì)語(yǔ)言做出反應(yīng),這并不能使系統(tǒng)變得智能。
1980年,哲學(xué)家約翰·塞爾解釋說(shuō),有時(shí)候某些系統(tǒng)看起來(lái)非常聰明,但實(shí)際上他們只是盲目地進(jìn)行模式匹配。為了解釋這一點(diǎn),他提出了所謂的中國(guó)房間論證。在這個(gè)論證中,人們應(yīng)該想象自己身處一個(gè)沒(méi)有窗戶(hù)的房間,只有一扇信槽可以與外界通信。房間里有一本短語(yǔ)書(shū)放在桌子上,地板上則散落著用中文符號(hào)寫(xiě)的便利貼。這本書(shū)會(huì)告訴你如何根據(jù)收到的符號(hào)音符來(lái)作出回應(yīng)。也就是說(shuō),當(dāng)看到某個(gè)符號(hào)序列時(shí),你就會(huì)用另一個(gè)符號(hào)序列來(lái)回答。
想象一下,有個(gè)人用中文寫(xiě)了一段話,然后將其推進(jìn)信槽里。你可以查看便利貼并將其與短語(yǔ)書(shū)進(jìn)行匹配,然后將漢語(yǔ)回復(fù)粘貼到地板上。盡管你可能不知道這段話的具體含義,但你只需要翻閱書(shū)籍并進(jìn)行符號(hào)序列的匹配過(guò)程。對(duì)于擁有中文為母語(yǔ)的人來(lái)說(shuō),他們可能認(rèn)為他們?cè)谂c你進(jìn)行交流。他們甚至可能認(rèn)為你也是母語(yǔ)人士。然而,塞爾認(rèn)為這種情景并不等同于智能,因?yàn)榉块g里的人既不會(huì)說(shuō)中文,也不了解他們所說(shuō)的內(nèi)容。
可以在智能手機(jī)上嘗試類(lèi)似的實(shí)驗(yàn)。試著問(wèn)Siri或Cortana他們的感受。他們可能會(huì)回答他們感覺(jué)良好,但這并不意味著他們能真實(shí)表達(dá)感受。他們也不知道你在問(wèn)什么。他們只是將你的問(wèn)題與程序中的回答進(jìn)行匹配,就像中國(guó)房間里的人一樣。
因此,塞爾認(rèn)為僅僅進(jìn)行符號(hào)匹配并不是實(shí)現(xiàn)智能的真正途徑。計(jì)算機(jī)的行為就像房間里的人一樣,它們并不理解其中的含義。它們只是根據(jù)短語(yǔ)書(shū)中的模式進(jìn)行匹配。
盡管面臨這些挑戰(zhàn),物理符號(hào)系統(tǒng)仍然是人工智能領(lǐng)域的基石已有25年之久。然而,最終,編程來(lái)匹配所有符號(hào)將消耗太多時(shí)間,因?yàn)椴豢赡茉诓挥龅浇M合爆炸的情況下匹配所有的符號(hào)。這些組合將會(huì)很快填滿(mǎn)最大的短語(yǔ)書(shū)。將符號(hào)與其程序響應(yīng)匹配的可能性太多了。許多哲學(xué)家,如約翰·塞爾,認(rèn)為這條道路永遠(yuǎn)無(wú)法通向真正的智慧。
1.3 強(qiáng)人工智能 vs 弱人工智能
那么,計(jì)算機(jī)系統(tǒng)何時(shí)被認(rèn)為是智能的?我們已經(jīng)看到,當(dāng)計(jì)算機(jī)系統(tǒng)只是進(jìn)行符號(hào)匹配時(shí),它幾乎就像一本高科技短語(yǔ)書(shū)。這個(gè)系統(tǒng)可能看起來(lái)很聰明,但實(shí)際上它就像一只記憶力很強(qiáng)的鸚鵡。哲學(xué)家約翰·塞爾(John Searle)說(shuō),人工智能可以被分為強(qiáng)人工智能和弱人工智能。他認(rèn)為我們離智能化系統(tǒng)的發(fā)展進(jìn)程比大多數(shù)人認(rèn)為的要遠(yuǎn)。強(qiáng)人工智能是指機(jī)器能夠展示出一個(gè)成熟人類(lèi)的所有行為。這通常在科幻小說(shuō)中被描繪出來(lái),是指那些有情感、幽默感甚至有目的意識(shí)的人造生物,就像C-3PO在塔圖因降落時(shí)感到害怕,指揮官數(shù)據(jù)在與羅穆盧斯戰(zhàn)斗時(shí)表現(xiàn)出真正的創(chuàng)造力一樣。而弱人工智能則很弱。像Apple Siri這樣的個(gè)人助理就是一個(gè)很好的弱AI的例子,它僅限于完成某些非常狹窄的任務(wù),比如將語(yǔ)言處理成文本或?qū)τ?jì)算機(jī)上的所有圖片進(jìn)行排序。絕大多數(shù)的人工智能專(zhuān)家認(rèn)為,我們現(xiàn)在還處于弱人工智能的初級(jí)階段。試想一下Siri,你可以與Siri交談并提出問(wèn)題,Siri會(huì)傾聽(tīng)你的輸入并將其轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的語(yǔ)言,然后Siri會(huì)與數(shù)據(jù)庫(kù)中的內(nèi)容進(jìn)行匹配來(lái)給出答復(fù)。而目前大部分人工智能的發(fā)展都是圍繞著弱人工智能的開(kāi)發(fā)和擴(kuò)展。強(qiáng)人工智能仍然只存在于科幻小說(shuō)中。在1970年代和1980年代,符號(hào)系統(tǒng)被用于創(chuàng)建弱人工智能,通常被稱(chēng)為專(zhuān)家系統(tǒng)。在這些系統(tǒng)中,專(zhuān)家可以創(chuàng)建一系列步驟來(lái)解決復(fù)雜問(wèn)題。如果步驟足夠長(zhǎng),它們看起來(lái)就像是智能的。然而,這個(gè)系統(tǒng)實(shí)際上只是在模仿專(zhuān)家創(chuàng)建的程序來(lái)做出響應(yīng)。這些專(zhuān)家系統(tǒng)經(jīng)常被用于醫(yī)學(xué)領(lǐng)域,譬如護(hù)士可能會(huì)將病人的癥狀輸入計(jì)算機(jī),如果病人有咳嗽,就檢查是否有發(fā)燒,如果有咳嗽和發(fā)燒,就檢查是否脫水,如果有咳嗽、發(fā)燒和脫水,就告訴護(hù)士可能是支氣管炎。對(duì)病人來(lái)說(shuō),他們可能會(huì)覺(jué)得計(jì)算機(jī)具有智能化。然而,實(shí)際上,這個(gè)程序只是在匹配專(zhuān)家為達(dá)到診斷所創(chuàng)建的符號(hào)和模式,就像中國(guó)房間實(shí)驗(yàn)中的短語(yǔ)書(shū)一樣。最后,專(zhuān)家系統(tǒng)面臨著和任何其他符號(hào)系統(tǒng)一樣的問(wèn)題,也會(huì)導(dǎo)致組合爆炸,由于有太多不匹配的模式存在。請(qǐng)思考一下醫(yī)生可能為了做出診斷而提出的所有不同問(wèn)題。然而,符號(hào)系統(tǒng)方法是人工智能發(fā)展的關(guān)鍵起點(diǎn),至今仍在使用。事實(shí)上,許多專(zhuān)家仍然將其稱(chēng)為GOFAI,即好的老式AI。
2. 機(jī)器學(xué)習(xí)的興起
2.1 機(jī)器學(xué)習(xí)(Machine learning)
想象一臺(tái)不需要進(jìn)行編程的計(jì)算機(jī)。該系統(tǒng)可以像觀察世界一樣進(jìn)行學(xué)習(xí)。您可能已經(jīng)見(jiàn)過(guò)早期的人工智能系統(tǒng)使用一種符號(hào)方法。這個(gè)想法是,如果系統(tǒng)能夠識(shí)別符號(hào),那么它看起來(lái)就會(huì)變得智能。合作創(chuàng)建此類(lèi)系統(tǒng)時(shí),程序員與專(zhuān)家之間存在著一個(gè)關(guān)鍵挑戰(zhàn),這也是為什么它們被稱(chēng)為專(zhuān)家系統(tǒng)的原因。然而,計(jì)算機(jī)科學(xué)家后來(lái)拋棄了這一方法,因?yàn)樗斐闪颂嗟慕M合可能性。他們決定,并非將智能編程進(jìn)一個(gè)系統(tǒng)中,而是通過(guò)觀察對(duì)其進(jìn)行編程,使其變得智能。這種智能并不是像人類(lèi)一樣能夠感受、聽(tīng)見(jiàn)、看見(jiàn)或品嘗。相反,它通過(guò)感知數(shù)據(jù)來(lái)進(jìn)行學(xué)習(xí)。1959年,計(jì)算機(jī)科學(xué)家亞瑟·塞繆爾(Arthur Samuel)創(chuàng)建了一款跳棋程序,通過(guò)與自己對(duì)弈來(lái)進(jìn)行學(xué)習(xí)。它扮演了棋盤(pán)的兩面,并通過(guò)觀察自己來(lái)學(xué)習(xí)策略。隨著機(jī)器玩的越多,它就越能夠發(fā)現(xiàn)獲勝的模式。計(jì)算機(jī)科學(xué)家沒(méi)有對(duì)機(jī)器進(jìn)行編程來(lái)玩跳棋,而是讓它通過(guò)自己的經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。亞瑟·塞繆爾(Arthur Samuel)將這個(gè)想法稱(chēng)為機(jī)器學(xué)習(xí),與符號(hào)系統(tǒng)截然不同。沒(méi)有人編程機(jī)器來(lái)移動(dòng)或反移動(dòng)。相反,該系統(tǒng)旨在自主學(xué)習(xí)和改進(jìn)。此系統(tǒng)很快將學(xué)習(xí)新的策略,并且短時(shí)間內(nèi)始終能夠戰(zhàn)勝其程序員。機(jī)器學(xué)習(xí)可以說(shuō)是一個(gè)具有突破性的發(fā)現(xiàn)。但同時(shí)也有一個(gè)弱點(diǎn)。在1950年代,并沒(méi)有太多的數(shù)字化數(shù)據(jù)可供使用。要記住,機(jī)器學(xué)習(xí)使用數(shù)據(jù)作為其五種感知方式之一。因此,如果沒(méi)有數(shù)據(jù),它只能找到最簡(jiǎn)單的模式。但隨后情況發(fā)生了變化。在1990年代初,互聯(lián)網(wǎng)爆發(fā)式的增長(zhǎng)突然讓普通人創(chuàng)造了大量的數(shù)據(jù)。20世紀(jì)90年代成為機(jī)器學(xué)習(xí)系統(tǒng)迅猛發(fā)展的時(shí)期。新的數(shù)據(jù)如同水一樣涌入了人工智能的干燥領(lǐng)域。在此時(shí),機(jī)器學(xué)習(xí)系統(tǒng)獲得了變得更智能所需的燃料。因此,如果您想教一個(gè)系統(tǒng)如何識(shí)別貓,您可以在線訪問(wèn)數(shù)百萬(wàn)張貓的圖片。計(jì)算機(jī)科學(xué)家開(kāi)始創(chuàng)建更新的機(jī)器學(xué)習(xí)算法,甚至有一些研究人員開(kāi)始創(chuàng)建模仿人腦的系統(tǒng)。通過(guò)數(shù)據(jù)學(xué)習(xí)的一個(gè)巨大優(yōu)勢(shì)是,機(jī)器可以隨著獲得更多數(shù)據(jù)而繼續(xù)增長(zhǎng)。如果機(jī)器發(fā)現(xiàn)新的模式,它可以適應(yīng)新的信息。然而,重要的是要記住,機(jī)器學(xué)習(xí)系統(tǒng)仍然只是識(shí)別模式。盡管如此,在過(guò)去幾年中,機(jī)器學(xué)習(xí)一直是人工智能最快增長(zhǎng)的領(lǐng)域之一。隨著數(shù)據(jù)量的增加,這個(gè)領(lǐng)域還顯示出更多的希望。組織不斷地收集大量的新數(shù)據(jù)。因此,現(xiàn)在最大的挑戰(zhàn)在于如何處理所有這些信息??梢哉f(shuō),您有一個(gè)人工智能系統(tǒng)來(lái)查看您的數(shù)據(jù),并讓您的組織了解它所發(fā)現(xiàn)的內(nèi)容。
2.2 人工神經(jīng)網(wǎng)絡(luò)(Artificial neural networks)
機(jī)器學(xué)習(xí)得到了人工神經(jīng)網(wǎng)絡(luò)的極大推動(dòng)。人工神經(jīng)網(wǎng)絡(luò)是一種模仿人腦結(jié)構(gòu)的人工智能系統(tǒng),目前是最流行的機(jī)器學(xué)習(xí)方法之一。 它的工作方式如下:當(dāng)我還是個(gè)孩子的時(shí)候,我們?cè)?jīng)玩過(guò)一個(gè)叫做"動(dòng)物、蔬菜或礦物"的游戲,其中一個(gè)人會(huì)想一個(gè)物品,然后其他孩子會(huì)問(wèn)關(guān)于該物品的問(wèn)題,比如它有沒(méi)有毛皮?它比房子大嗎?然后我們會(huì)根據(jù)問(wèn)題的答案逐漸縮小范圍,直到最后猜出物品的正確答案。人工神經(jīng)網(wǎng)絡(luò)與此類(lèi)似,但它使用的不是問(wèn)題,而是數(shù)百甚至數(shù)百萬(wàn)個(gè)數(shù)字表盤(pán),通過(guò)這些表盤(pán)來(lái)做出更具體的猜測(cè),例如有64%的可能性是一只貓,或32%的可能性是一只狗。 神經(jīng)網(wǎng)絡(luò)由輸入層(左側(cè)排列的神經(jīng)元)、輸出層(右側(cè)排列的神經(jīng)元)和隱藏層(兩者之間的神經(jīng)元)構(gòu)成。隱藏層之所以稱(chēng)為"隱藏",是因?yàn)樗炔皇禽斎胍膊皇禽敵觥J紫?,我們向網(wǎng)絡(luò)的輸入層提供一張狗的照片,但網(wǎng)絡(luò)在做出猜測(cè)之前并不會(huì)看到這些標(biāo)簽,就像在"動(dòng)物、蔬菜或礦物"游戲中一樣。然后,當(dāng)圖像通過(guò)隱藏層時(shí),網(wǎng)絡(luò)會(huì)查看圖像中的每個(gè)點(diǎn),并對(duì)輸出層進(jìn)行猜測(cè)。然后,網(wǎng)絡(luò)將猜測(cè)的結(jié)果與圖像上的標(biāo)簽進(jìn)行比較,這被稱(chēng)為訓(xùn)練神經(jīng)網(wǎng)絡(luò)。接著,網(wǎng)絡(luò)會(huì)向后移動(dòng)并調(diào)整神經(jīng)元表盤(pán),以便能夠識(shí)別狗照片中的圖案。然后它會(huì)拍攝另一張狗的圖片,看看它是否更接近正確答案。通過(guò)查看數(shù)以萬(wàn)計(jì)的狗的圖片,神經(jīng)網(wǎng)絡(luò)會(huì)調(diào)整自己的表盤(pán),直到能夠始終給出正確答案為止。需要記住的重點(diǎn)是,神經(jīng)網(wǎng)絡(luò)看待狗的方式與我們不同。它不會(huì)考慮氣喘吁吁、吠叫或皮毛等因素,而只將狗看作圖像中可識(shí)別的點(diǎn)圖案。因此,人工神經(jīng)網(wǎng)絡(luò)需要訪問(wèn)大量的數(shù)據(jù)來(lái)進(jìn)行學(xué)習(xí),如果沒(méi)有數(shù)以萬(wàn)計(jì)的狗照片,神經(jīng)網(wǎng)絡(luò)就無(wú)法學(xué)習(xí)。這正是人工神經(jīng)網(wǎng)絡(luò)的關(guān)鍵優(yōu)勢(shì)所在,它能夠通過(guò)訓(xùn)練自己理解模式,并在查看大量數(shù)據(jù)時(shí)識(shí)別輸入。
3. 常見(jiàn)的人工智能系統(tǒng)
3.1 在數(shù)據(jù)中尋找模式
在過(guò)去的30年中,機(jī)器學(xué)習(xí)系統(tǒng)已經(jīng)成為人工智能的主要形式。這是因?yàn)檫@些系統(tǒng)的設(shè)計(jì)非常出色,能夠在海量數(shù)據(jù)集中尋找模式。隨著數(shù)字?jǐn)?shù)據(jù)的廣泛可用性,機(jī)器學(xué)習(xí)也得到了增強(qiáng)。舉個(gè)例子,如果你想創(chuàng)建一個(gè)能夠識(shí)別狗的人工智能程序,現(xiàn)在你可以訪問(wèn)數(shù)百萬(wàn)張圖像。你可以為你的網(wǎng)絡(luò)提供數(shù)據(jù),并幫助它從大量可用數(shù)據(jù)中學(xué)習(xí)。其他類(lèi)型的數(shù)據(jù)也是如此。你可以輕松獲取數(shù)字視頻、音頻、圖像和文檔。幾十年前,獲取幾千張數(shù)字圖像是非常困難的事情。而現(xiàn)在,獲取各種數(shù)據(jù)變得微不足道。需要記住的是,機(jī)器學(xué)習(xí)系統(tǒng)通過(guò)學(xué)習(xí)新知識(shí)來(lái)吸收數(shù)據(jù)。你輸入到網(wǎng)絡(luò)中的數(shù)據(jù)越多,機(jī)器識(shí)別模式的能力就越強(qiáng)。想想你現(xiàn)在使用的系統(tǒng)吧。它是一個(gè)專(zhuān)業(yè)社交網(wǎng)絡(luò),提供視頻培訓(xùn),用戶(hù)通過(guò)在線視頻播放器觀看培訓(xùn)內(nèi)容。該視頻播放器收集關(guān)于你快進(jìn)頻率或觀看時(shí)間的數(shù)據(jù),并根據(jù)這些數(shù)據(jù)安排下一課程。假設(shè)播放器記錄了每個(gè)人觀看視頻的數(shù)據(jù),那么這可能是數(shù)十萬(wàn)個(gè)視頻和數(shù)百萬(wàn)個(gè)用戶(hù)的數(shù)據(jù)量。所以數(shù)據(jù)量非常大。沒(méi)有人能夠?yàn)g覽所有這些數(shù)據(jù)并從中獲得有意義的東西。但是機(jī)器學(xué)習(xí)算法會(huì)分析這些數(shù)據(jù)并找到模式。你可以看出哪些內(nèi)容用戶(hù)覺(jué)得更有趣。這正是許多企業(yè)一直在追求的類(lèi)型的數(shù)據(jù)。現(xiàn)在,你可以看到客戶(hù)與你的產(chǎn)品交互的實(shí)時(shí)模式。在許多方面,這些數(shù)據(jù)不僅可以向你展示客戶(hù)的興趣,還可以揭示更廣泛的行業(yè)趨勢(shì)。這些數(shù)據(jù)有著巨大的價(jià)值。你可以利用它來(lái)構(gòu)建新的客戶(hù)產(chǎn)品或改進(jìn)現(xiàn)有產(chǎn)品。像谷歌和Microsoft這樣的公司對(duì)人工智能充滿(mǎn)熱情并非偶然。在許多方面,他們的整個(gè)業(yè)務(wù)都是基于使用機(jī)器來(lái)解讀大量數(shù)據(jù)集的。這種類(lèi)型的模式匹配可能會(huì)帶來(lái)巨大的競(jìng)爭(zhēng)優(yōu)勢(shì)。此外,更新的人工神經(jīng)網(wǎng)絡(luò)現(xiàn)在可以在更大的數(shù)據(jù)集中發(fā)現(xiàn)模式。而幾十年前,這些模式在常規(guī)的機(jī)器學(xué)習(xí)算法中是無(wú)法察覺(jué)的。事實(shí)上,機(jī)器學(xué)習(xí)所面臨的最大挑戰(zhàn)之一是人類(lèi)并不真正了解機(jī)器如何識(shí)別這些模式。它就像一個(gè)數(shù)據(jù)和處理能力的黑盒子。人類(lèi)無(wú)法像機(jī)器一樣處理數(shù)據(jù)。所以,如果你的組織正在啟動(dòng)自己的人工智能程序,他們應(yīng)該對(duì)機(jī)器可能感知到人類(lèi)無(wú)法感知到的事物感到滿(mǎn)意。對(duì)于大多數(shù)公司來(lái)說(shuō),這可能不是一個(gè)挑戰(zhàn),但對(duì)于保險(xiǎn)和醫(yī)療保健等行業(yè)來(lái)說(shuō),這可能成為真正的問(wèn)題。你不希望這些系統(tǒng)做出人類(lèi)無(wú)法理解的關(guān)于客戶(hù)健康和安全的決策。人工智能與人類(lèi)智能不同,即使我們可能會(huì)得出相同的結(jié)論,我們絕對(duì)不會(huì)經(jīng)歷相同的過(guò)程??紤]一下你的組織收集的數(shù)據(jù)類(lèi)型。他們是否將數(shù)據(jù)用于機(jī)器學(xué)習(xí)?如果是這樣,機(jī)器識(shí)別的是什么樣的模式,目的是什么?
3.2 機(jī)器人技術(shù)
與人類(lèi)聯(lián)系的最佳方式之一是加入我們的物理世界。這就是為什么機(jī)器人技術(shù)是人工智能中最有趣的領(lǐng)域之一。機(jī)器人技術(shù)是關(guān)于讓機(jī)器處理物理任務(wù)。它可以是在制造過(guò)程中舉起重物或使用運(yùn)送食物的機(jī)器人。機(jī)器人甚至可以是車(chē)輛,如自動(dòng)駕駛汽車(chē)或地鐵列車(chē)。長(zhǎng)期以來(lái),發(fā)明家們一直著迷于尋找讓機(jī)器表現(xiàn)得像活物的方法。過(guò)去,機(jī)器人僅限于高度專(zhuān)業(yè)化的機(jī)器。它們被用作汽車(chē)制造中的焊接機(jī)。我家鄉(xiāng)附近的汽車(chē)廠雇傭了幾個(gè)專(zhuān)門(mén)的機(jī)器人。有些人可以舉起汽車(chē)并在下面安裝零件,但他們都不會(huì)被誤認(rèn)為是智能的。盡管它們令人印象深刻,但這些機(jī)器人所能完成的工作非常有限。除非他們被編程,否則他們無(wú)法幫助同事打開(kāi)車(chē)門(mén)或開(kāi)始粉刷引擎蓋。它們最適合重復(fù)性任務(wù)。機(jī)器人技術(shù)與機(jī)器學(xué)習(xí)相結(jié)合,為我們提供了更多選擇。機(jī)器可以適應(yīng)環(huán)境并學(xué)習(xí)新任務(wù)。一個(gè)基本的例子是自動(dòng)駕駛汽車(chē)。你無(wú)法對(duì)汽車(chē)進(jìn)行編程,使其對(duì)路上可能看到的一切做出反應(yīng)。這就是為什么最新的車(chē)輛在人工神經(jīng)網(wǎng)絡(luò)上使用機(jī)器學(xué)習(xí)的原因。這些車(chē)輛配備了復(fù)雜的傳感器,將數(shù)據(jù)輸入網(wǎng)絡(luò)。它們需要了解車(chē)輛可能遇到的所有不同道路。然后,它們需要查看汽車(chē)在這些道路上可能遇到的所有不同的人、動(dòng)物和其他車(chē)輛。然后機(jī)器人尋找成功駕駛的模式。當(dāng)鹿過(guò)馬路時(shí),汽車(chē)的反應(yīng)必須與看到行人遛狗時(shí)的反應(yīng)不同。這就是為什么你經(jīng)常看到自動(dòng)駕駛汽車(chē)的駕駛座上有一個(gè)人。他們監(jiān)督人工神經(jīng)網(wǎng)絡(luò)如何對(duì)從外部世界流入的數(shù)據(jù)做出反應(yīng)。但就像任何新技能一樣,機(jī)器需要時(shí)間來(lái)收集足夠的數(shù)據(jù)。在人工神經(jīng)網(wǎng)絡(luò)中,這通常稱(chēng)為訓(xùn)練網(wǎng)絡(luò)。谷歌有一句名言,他們認(rèn)為自動(dòng)駕駛汽車(chē)不是機(jī)器人問(wèn)題,而是數(shù)據(jù)問(wèn)題。確實(shí),與使汽車(chē)知道何時(shí)向左或向右轉(zhuǎn)相比,搞清楚如何使汽車(chē)能夠向左或向右轉(zhuǎn)這樣的問(wèn)題更加簡(jiǎn)單。有些機(jī)器人不需要這種復(fù)雜性。這就是為什么其中一些只是使用好的傳統(tǒng)人工智能。請(qǐng)記住,這里使用的是符號(hào)推理而不是機(jī)器學(xué)習(xí)的人工智能系統(tǒng)。你只需嘗試編程機(jī)器人以使其智能化。這就是Roomba和真正的自動(dòng)駕駛汽車(chē)之間的區(qū)別,Roomba只是被編程序以避免撞墻。如今的大多數(shù)機(jī)器人仍然像Roomba一樣被編程序,而不是像自動(dòng)駕駛汽車(chē)那樣進(jìn)行學(xué)習(xí)。這是因?yàn)樵诂F(xiàn)實(shí)世界中,如果做錯(cuò)了,會(huì)付出更高的代價(jià)。因此,如果你想創(chuàng)建一個(gè)配藥機(jī)器人,犯錯(cuò)誤將會(huì)產(chǎn)生巨大的代價(jià)。這就是為什么許多機(jī)器人采用更簡(jiǎn)單的方法,并仍然受益于符號(hào)系統(tǒng)和傳統(tǒng)人工智能。
3.3 自然語(yǔ)言處理(Natural language processing)
作為人類(lèi),我們一直在努力更好地溝通,所以希望與我們的機(jī)器進(jìn)行交流也就不足為奇了。在許多方面,機(jī)器之間的通信比人類(lèi)之間的通信更準(zhǔn)確。計(jì)算機(jī)網(wǎng)絡(luò)以閃電般的速度傳輸信息的準(zhǔn)確副本。另一方面,人類(lèi)總是在不斷努力達(dá)成更好的理解。如果能提供自己打算的10%,就已經(jīng)是一位主要的溝通者了。這意味著我們依賴(lài)的機(jī)器必須更好地在我們的世界中進(jìn)行交流。為了實(shí)現(xiàn)這一目標(biāo),人工智能程序做了一些稱(chēng)為自然語(yǔ)言處理的事情。這是在您與機(jī)器交互時(shí)使用自然語(yǔ)言的時(shí)候。您可以像與其他人交談一樣與機(jī)器交談。我們都熟悉使用類(lèi)似谷歌的搜索引擎進(jìn)行交流。有一個(gè)小框,然后您輸入問(wèn)題。您可以輸入比利時(shí)華夫餅的食譜之類(lèi)的內(nèi)容。然后搜索引擎會(huì)將您的短語(yǔ)與熱門(mén)的結(jié)果相匹配?,F(xiàn)在有了一些智能設(shè)備,您可以口頭使用自然語(yǔ)言而不是打字。您可以使用自然語(yǔ)言,比如:“你能給我一個(gè)制作那些又大又蓬松的比利時(shí)華夫餅的好食譜嗎?”人類(lèi)使用屬性來(lái)描述事物是很常見(jiàn)的。在此案例中,“很好”、“又大”和“蓬松”。為了理解請(qǐng)求,系統(tǒng)使用自然語(yǔ)言處理。機(jī)器需要了解“好”是相對(duì)的,所以在這種情況下,這個(gè)人可能正在尋找最佳的食譜。機(jī)器還必須弄清楚什么是蓬松的大華夫餅?,F(xiàn)代自然語(yǔ)言處理使用機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)。通過(guò)數(shù)百萬(wàn)個(gè)對(duì)話,它們識(shí)別模式。因此,如果看到帶有“大”、“蓬松”和“比利時(shí)華夫餅”這些詞的對(duì)話,它就知道它們之間存在著模式。這就是為什么谷歌、Microsoft和蘋(píng)果等許多公司提供免費(fèi)的電子郵箱、語(yǔ)音郵件或文本的原因。這是一種讓他們的人工神經(jīng)網(wǎng)絡(luò)查看對(duì)話以更好地識(shí)別模式的方法。但自然語(yǔ)言處理不僅僅是理解單詞,它還理解上下文和含義。幾年前,谷歌搜索的熱門(mén)之一是“什么是愛(ài)?”人類(lèi)從語(yǔ)言開(kāi)始就寫(xiě)過(guò)關(guān)于愛(ài)情的東西,所以肯定有很多關(guān)于這個(gè)話題的數(shù)據(jù)。當(dāng)時(shí),谷歌會(huì)給出一系列結(jié)果,其中一些是關(guān)于生物配對(duì)儀式和感覺(jué)聯(lián)系重要性的。這是您期望從只匹配關(guān)鍵字的數(shù)據(jù)庫(kù)中獲得的響應(yīng)。它沒(méi)有任何自然或人類(lèi)的東西。它只是匹配數(shù)據(jù)庫(kù)中的關(guān)鍵字。自然語(yǔ)言處理使機(jī)器能夠理解更廣闊的世界。如果輸入的是“愛(ài)情”,您可能對(duì)浪漫的愛(ài)情概念更感興趣,甚至可能是一些詩(shī)歌或?qū)賽?ài)感覺(jué)的見(jiàn)解?,F(xiàn)在有了自然語(yǔ)言處理,谷歌的回應(yīng)更周到了。您可以看到浪漫史上的詩(shī)歌列表,但自然語(yǔ)言處理不僅僅限于愛(ài)情和華夫餅。溝通是人類(lèi)的核心。這是我們組織、同情和相互理解的方式。如果機(jī)器不能進(jìn)行自然的交流,人類(lèi)將永遠(yuǎn)不會(huì)接受它作為智能機(jī)器。
3.4 物聯(lián)網(wǎng)(The internet of Things)
今天,恒溫器、門(mén)鈴和電視機(jī)相互連接并與世界相連。還有一些智能手表可以檢查您的位置,有些甚至可以上傳醫(yī)療數(shù)據(jù)。這種新的連接方式通常被稱(chēng)為物聯(lián)網(wǎng),有時(shí)也簡(jiǎn)稱(chēng)為物聯(lián)網(wǎng)。物聯(lián)網(wǎng)設(shè)備是帶有與外界通信的傳感器的對(duì)象,它們通常通過(guò)互聯(lián)網(wǎng)上傳數(shù)據(jù)。物聯(lián)網(wǎng)設(shè)備是一個(gè)巨大的新數(shù)據(jù)源,可以上傳位置信息,這意味著機(jī)器學(xué)習(xí)系統(tǒng)可以根據(jù)您的旅行模式準(zhǔn)確預(yù)測(cè)您的工作、購(gòu)物、用餐和拜訪等情況。也許您的智能手表會(huì)在您回家的路上通知您的恒溫器。物聯(lián)網(wǎng)還允許這些設(shè)備相互通信,當(dāng)您坐在辦公桌前時(shí),它們可以打開(kāi)您的門(mén)或電腦。在某些方面,這些新設(shè)備使得創(chuàng)建數(shù)據(jù)比人類(lèi)分析更容易。這就是為什么許多物聯(lián)網(wǎng)公司在人工智能上投入巨資的原因。人工智能不僅允許組織發(fā)現(xiàn)新模式,還能快速做出反應(yīng)。物聯(lián)網(wǎng)設(shè)備和人工智能的結(jié)合能夠幫助公司構(gòu)建預(yù)測(cè)人們行為的系統(tǒng)。我家人買(mǎi)了亞馬遜Alexa家庭助理的其中一個(gè)早期版本。它是一個(gè)很好和簡(jiǎn)單的時(shí)鐘,但我很早就注意到亞馬遜的推薦列表中充斥著我們談話中的內(nèi)容。我們?cè)劦饺チ_馬拜訪一位親戚,幾天后,我們的亞馬遜推薦列表中出現(xiàn)了羅馬旅游指南。環(huán)形門(mén)鈴還收集走在您家門(mén)前的人的數(shù)據(jù),該公司可以使用機(jī)器學(xué)習(xí)進(jìn)行面部識(shí)別。然后,它可以利用您的門(mén)鈴創(chuàng)建一個(gè)龐大的監(jiān)控網(wǎng)絡(luò),并將其出售給警察部門(mén),以便他們可以使用這些數(shù)據(jù)在犯罪現(xiàn)場(chǎng)找人或找到他們感興趣的人。物聯(lián)網(wǎng)醫(yī)療設(shè)備是一個(gè)快速增長(zhǎng)的領(lǐng)域,您現(xiàn)在可以購(gòu)買(mǎi)一款智能手表,它的心電圖或心率監(jiān)測(cè)功能與醫(yī)生的設(shè)備一樣準(zhǔn)確,它們可以使用傳感器檢測(cè)任何健康問(wèn)題,并將這些數(shù)據(jù)上傳到服務(wù)器上。像蘋(píng)果這樣的公司使用機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)來(lái)尋找心電圖數(shù)據(jù)中的模式,他們的網(wǎng)絡(luò)可以借助數(shù)百萬(wàn)參與者的數(shù)據(jù)找到準(zhǔn)確預(yù)測(cè)任何健康問(wèn)題的模式。讓機(jī)器尋找可預(yù)測(cè)的模式當(dāng)然是有幫助的,也許他們會(huì)發(fā)現(xiàn)人們?cè)谥苋赡艹霈F(xiàn)健康問(wèn)題,他們還可以觀察到影響大量人群的模式,例如空氣污染對(duì)城市健康的影響。在許多方面,物聯(lián)網(wǎng)設(shè)備利用機(jī)器學(xué)習(xí)的優(yōu)勢(shì)在數(shù)字世界中發(fā)揮作用,并將其擴(kuò)展到物理世界。物聯(lián)網(wǎng)設(shè)備不僅能在線查看您的行為,還能離線跟蹤您的行為,這對(duì)于組織來(lái)說(shuō)具有巨大的潛力,可以根據(jù)您的需求和行為為您銷(xiāo)售產(chǎn)品。
4. 從數(shù)據(jù)中學(xué)習(xí)
4.1 有標(biāo)簽和無(wú)標(biāo)簽的數(shù)據(jù)(Labeled and unlabeled data)
當(dāng)你考慮機(jī)器學(xué)習(xí)時(shí),關(guān)鍵是要關(guān)注學(xué)習(xí)這個(gè)術(shù)語(yǔ)。 你對(duì)機(jī)器學(xué)習(xí)的理解是什么? 你可以使用哪些策略來(lái)學(xué)習(xí)新知識(shí)? 你如何將這些策略應(yīng)用到機(jī)器上? 想象一下,你想學(xué)習(xí)如何下棋。 你可以通過(guò)幾種不同的方式來(lái)實(shí)現(xiàn)。 你可以聘請(qǐng)一位國(guó)際象棋導(dǎo)師,讓他們向你介紹不同的棋子。 然后他們會(huì)告訴你如何在棋盤(pán)上移動(dòng)它們。 你可以通過(guò)與導(dǎo)師對(duì)戰(zhàn)來(lái)練習(xí)。 他們會(huì)監(jiān)督你的行動(dòng),并在你犯錯(cuò)時(shí)幫助你。 如果你找不到導(dǎo)師,你也可以去公園。 在那里,你可以觀察人們玩耍。 你不能問(wèn)他們問(wèn)題,只能靜靜地觀察和學(xué)習(xí)。 你必須通過(guò)觀察比賽來(lái)掌握國(guó)際象棋。 如果你堅(jiān)持這么做很長(zhǎng)一段時(shí)間,你可能會(huì)理解這個(gè)游戲。 你可能不知道棋子的名字,但通過(guò)數(shù)百小時(shí)的觀察,你會(huì)理解這些棋子的動(dòng)作和策略。 這兩種策略與機(jī)器學(xué)習(xí)非常相似。 機(jī)器學(xué)習(xí)系統(tǒng)可以執(zhí)行一些被稱(chēng)為監(jiān)督學(xué)習(xí)的任務(wù)。 在這種情況下,數(shù)據(jù)科學(xué)家就像機(jī)器的導(dǎo)師。 他們向機(jī)器展示正確的答案,然后讓系統(tǒng)通過(guò)訓(xùn)練來(lái)提高自己在游戲中的表現(xiàn)。 機(jī)器學(xué)習(xí)系統(tǒng)還可以執(zhí)行無(wú)監(jiān)督學(xué)習(xí)。 在這種情況下,你只需要讓機(jī)器自己進(jìn)行觀察。 系統(tǒng)可能不知道所有不同的名稱(chēng)和標(biāo)簽,但它會(huì)找出數(shù)據(jù)中的模式和規(guī)律。 可以想象,這兩種方法各有優(yōu)缺點(diǎn)。 在監(jiān)督學(xué)習(xí)中,系統(tǒng)需要一個(gè)知識(shí)淵博的導(dǎo)師。 必須有人對(duì)國(guó)際象棋了解很多,可以向系統(tǒng)展示如何玩游戲。 而在無(wú)監(jiān)督學(xué)習(xí)中,系統(tǒng)需要訪問(wèn)大量的數(shù)據(jù)。 這是找到模式的唯一方法。 系統(tǒng)可能無(wú)法像你一樣去公園觀察數(shù)百人玩耍。 這還取決于它觀察誰(shuí)。 你需要它觀察那些出色的選手。 可以想象,這些技術(shù)不僅僅用于下棋。 公司們利用這些技術(shù)來(lái)獲得關(guān)于他們客戶(hù)的寶貴見(jiàn)解。 通過(guò)監(jiān)督學(xué)習(xí),像亞馬遜這樣的公司可能會(huì)識(shí)別出一千名在其網(wǎng)站上花費(fèi)大量時(shí)間購(gòu)物的客戶(hù)。 然后,公司可以將這些客戶(hù)標(biāo)記為高消費(fèi)者。 接著,它可以讓機(jī)器學(xué)習(xí)系統(tǒng)觀察這些客戶(hù),找出使他們成為高消費(fèi)者的模式。 現(xiàn)在,對(duì)于無(wú)監(jiān)督學(xué)習(xí),機(jī)器學(xué)習(xí)系統(tǒng)可以訪問(wèn)亞馬遜的所有客戶(hù)數(shù)據(jù)。 在這種情況下,系統(tǒng)可能會(huì)在數(shù)據(jù)中找到自身的模式。 也許購(gòu)買(mǎi)棋盤(pán)的人更有可能購(gòu)買(mǎi)昂貴的廚房用具。 于是亞馬遜可以利用這些數(shù)據(jù)來(lái)進(jìn)行廣告投放。 如果你使用亞馬遜,你可能已經(jīng)注意到,有時(shí)他們推廣的產(chǎn)品似乎與你尋找的產(chǎn)品完全無(wú)關(guān),但它們實(shí)際上是你感興趣購(gòu)買(mǎi)的東西。 這兩種技術(shù)各有優(yōu)勢(shì),但每種技術(shù)都能為你提供非常有用的洞察。
4.2 海量數(shù)據(jù)集
如果您曾擔(dān)任過(guò)產(chǎn)品經(jīng)理或軟件開(kāi)發(fā)人員,那么您就會(huì)知道應(yīng)用程序需要明確的說(shuō)明。每當(dāng)您在iPhone上打開(kāi)Microsoft Windows或應(yīng)用程序時(shí),程序員對(duì)輸入和輸出進(jìn)行了編碼,這給您帶來(lái)了方便。 但是,我們已經(jīng)發(fā)現(xiàn)這種類(lèi)型的編程與人工智能配合得不太好。 在有些情況下,太多的組合無(wú)法將每個(gè)輸入與輸出相對(duì)應(yīng)。 在這些情況下,您需要一種允許機(jī)器學(xué)習(xí)的編程模型,并且您需要給機(jī)器提供一些響應(yīng)反饋的能力。 讓我們假設(shè)您正在創(chuàng)建一個(gè)檢測(cè)垃圾郵件的程序,這些郵件通常包含不需要的廣告或病毒。 您可以輕松地編寫(xiě)一個(gè)單詞過(guò)濾器,以過(guò)濾掉帶有常見(jiàn)垃圾郵件詞匯的郵件。 例如,如果您經(jīng)常收到有關(guān)參加比賽的消息,則可以過(guò)濾掉包含“金牌”、“彩票”或“中獎(jiǎng)”等詞匯的郵件。 因此,您可以編程指示:“如果郵件包含“黃金”,則視為垃圾郵件”。 然而,當(dāng)您僅限于編程指令時(shí),處理復(fù)雜的挑戰(zhàn)就變得困難。 這就是機(jī)器學(xué)習(xí)改變這種情況的原因。 您不再輸入指令,而是輸入數(shù)據(jù)。 您讓機(jī)器學(xué)習(xí)從識(shí)別的模式中學(xué)習(xí),而不是依賴(lài)程序的響應(yīng)。 一種常見(jiàn)的機(jī)器學(xué)習(xí)方法是監(jiān)督學(xué)習(xí)。 在這種方法中,您將數(shù)據(jù)分成訓(xùn)練集和測(cè)試集。 訓(xùn)練數(shù)據(jù)是機(jī)器學(xué)習(xí)的小型數(shù)據(jù)塊。 系統(tǒng)將使用機(jī)器學(xué)習(xí)算法,這些算法依賴(lài)于統(tǒng)計(jì)數(shù)據(jù)。 這篇文章稍后會(huì)介紹一些常見(jiàn)的機(jī)器學(xué)習(xí)算法,它們有助于機(jī)器發(fā)現(xiàn)數(shù)據(jù)中的關(guān)系。 例如,如果電子郵件中包含“幸運(yùn)獲獎(jiǎng)?wù)摺被颉白YR”等詞匯,那么該郵件被認(rèn)為是垃圾郵件的可能性就會(huì)增加50%。 一旦算法足夠準(zhǔn)確,您就可以使用系統(tǒng)在更大的測(cè)試數(shù)據(jù)集上應(yīng)用其學(xué)習(xí)成果。 這些測(cè)試數(shù)據(jù)集通常比用于訓(xùn)練的數(shù)據(jù)集要大得多。 讓我們看看機(jī)器學(xué)習(xí)如何與我們的垃圾郵件檢測(cè)程序配合使用。 我們將保留一萬(wàn)封電子郵件作為訓(xùn)練集,用于構(gòu)建我們的模型。 這個(gè)訓(xùn)練集中有9000封常規(guī)郵件和1000封被標(biāo)記為垃圾郵件。 我們還將保留一百萬(wàn)條消息作為測(cè)試數(shù)據(jù)集。 這些測(cè)試數(shù)據(jù)沒(méi)有被標(biāo)記。 這意味著與訓(xùn)練集不同,沒(méi)有人正確地將任何郵件標(biāo)記為垃圾郵件。 對(duì)于一百萬(wàn)條消息來(lái)說(shuō),這是一項(xiàng)艱巨的任務(wù)。 然后,您的訓(xùn)練數(shù)據(jù)將用于讓機(jī)器識(shí)別垃圾郵件。 一旦機(jī)器學(xué)習(xí)算法能夠準(zhǔn)確識(shí)別一千封垃圾郵件,您將在更大的測(cè)試數(shù)據(jù)集上對(duì)其進(jìn)行嘗試。 一旦您滿(mǎn)意,這將成為您的起始數(shù)據(jù)模型。 現(xiàn)在,這種機(jī)器學(xué)習(xí)算法只有兩個(gè)選項(xiàng):常規(guī)消息或垃圾郵件? 因此,它被稱(chēng)為二元分類(lèi)挑戰(zhàn)。 您只需要將電子郵件分為兩組,這是機(jī)器學(xué)習(xí)最常見(jiàn)的應(yīng)用之一。 關(guān)鍵要記住的是,機(jī)器學(xué)習(xí)算法使用統(tǒng)計(jì)數(shù)據(jù)來(lái)查找數(shù)據(jù)中的模式。 一旦機(jī)器識(shí)別出這些模式,它就可以根據(jù)學(xué)習(xí)到的知識(shí)對(duì)您的數(shù)據(jù)進(jìn)行分類(lèi)。
5. 識(shí)別模式
5.1 分類(lèi)數(shù)據(jù)(Classify data)
作為人類(lèi),我們一直在對(duì)事物進(jìn)行分類(lèi)。我們將Microsoft Word文檔放入文件夾中,將業(yè)務(wù)聯(lián)系人與個(gè)人聯(lián)系人分開(kāi),按字母順序列出內(nèi)容。如果沒(méi)有這些分類(lèi),我們將很難組織數(shù)據(jù)。企業(yè)也需要以同樣的方式組織數(shù)據(jù)。航空公司希望按飛行??蛯?duì)客戶(hù)進(jìn)行分類(lèi),零售商希望對(duì)他們最消費(fèi)的人進(jìn)行分類(lèi),搜索引擎希望對(duì)您在線購(gòu)買(mǎi)商品的可能性進(jìn)行分類(lèi)。二元分類(lèi)是最受歡迎的監(jiān)督式機(jī)器學(xué)習(xí)挑戰(zhàn)之一,因?yàn)樗?jiǎn)單而強(qiáng)大。使用二元分類(lèi),只有兩種可能的結(jié)果。例如,酒店房間下周將被預(yù)訂嗎?今天下午股市會(huì)上漲嗎?這封電子郵件是垃圾郵件嗎?所有的二元分類(lèi)都使用監(jiān)督式機(jī)器學(xué)習(xí)。請(qǐng)記住,監(jiān)督學(xué)習(xí)依賴(lài)于標(biāo)記的數(shù)據(jù),即機(jī)器學(xué)習(xí)系統(tǒng)被訓(xùn)練來(lái)對(duì)兩個(gè)答案進(jìn)行分類(lèi)。因此,要使用這些系統(tǒng),您需要首先創(chuàng)建一個(gè)訓(xùn)練數(shù)據(jù)集。信用卡欺詐檢測(cè)系統(tǒng)是應(yīng)用二元分類(lèi)的最流行方法之一。每次您使用信用卡時(shí),機(jī)器學(xué)習(xí)算法將您的交易歸類(lèi)為欺詐或非欺詐。由于這是監(jiān)督式機(jī)器學(xué)習(xí),信用卡公司必須從數(shù)以萬(wàn)計(jì)的欺詐交易示例開(kāi)始。數(shù)據(jù)科學(xué)團(tuán)隊(duì)將訓(xùn)練系統(tǒng)如何識(shí)別未來(lái)交易中的模式。電子郵件提供商使用監(jiān)督式機(jī)器學(xué)習(xí)對(duì)垃圾郵件進(jìn)行分類(lèi)。它們從標(biāo)記為垃圾郵件的標(biāo)記訓(xùn)練郵件集開(kāi)始。一旦網(wǎng)絡(luò)處理了足夠的郵件,它會(huì)對(duì)您的垃圾郵件進(jìn)行分類(lèi)。這些技術(shù)輸入大量數(shù)據(jù),然后使用機(jī)器學(xué)習(xí)算法將數(shù)據(jù)分類(lèi)為人類(lèi)創(chuàng)建的類(lèi)別,如預(yù)訂數(shù)據(jù)、欺詐交易和不需要的電子郵件等類(lèi)別。數(shù)據(jù)科學(xué)家創(chuàng)建這些類(lèi)別,然后您的AI系統(tǒng)對(duì)經(jīng)過(guò)訓(xùn)練以識(shí)別的數(shù)據(jù)進(jìn)行分類(lèi)。分類(lèi)是目前機(jī)器學(xué)習(xí)最流行的形式之一,但訓(xùn)練系統(tǒng)需要大量的前期工作。獲取數(shù)以萬(wàn)計(jì)的欺詐性信用卡交易或數(shù)以萬(wàn)計(jì)的垃圾郵件可能是具有挑戰(zhàn)性的。此外,不能保證這些數(shù)據(jù)足以使系統(tǒng)做出準(zhǔn)確的預(yù)測(cè)。這意味著您的數(shù)據(jù)科學(xué)團(tuán)隊(duì)可能會(huì)發(fā)現(xiàn)自己需要獲取額外的10,000筆交易數(shù)據(jù),并持續(xù)提供機(jī)器學(xué)習(xí)算法,直到對(duì)數(shù)據(jù)的分類(lèi)準(zhǔn)確無(wú)誤。這就是為什么即使在今天,經(jīng)過(guò)多年的發(fā)展,您的信用卡公司可能仍然會(huì)向您發(fā)出欺詐警告,即使這不是欺詐交易。數(shù)據(jù)科學(xué)家不斷訓(xùn)練這些系統(tǒng),以提高分類(lèi)的準(zhǔn)確性。信用卡欺詐、垃圾郵件檢測(cè)和在線購(gòu)買(mǎi)可能看起來(lái)是非常不同的挑戰(zhàn),但對(duì)于您的機(jī)器學(xué)習(xí)系統(tǒng)來(lái)說(shuō),它們只是以不同方式進(jìn)行相同的任務(wù) - 將標(biāo)記的數(shù)據(jù)分類(lèi)為預(yù)定義的類(lèi)別。
5.2 聚類(lèi)數(shù)據(jù)(Cluster data)
分類(lèi)數(shù)據(jù)并非適用于所有挑戰(zhàn)。對(duì)于初學(xué)者來(lái)說(shuō),系統(tǒng)并不總是能夠訪問(wèn)到大量標(biāo)記的數(shù)據(jù)。因此,有時(shí)你希望系統(tǒng)創(chuàng)建自己的數(shù)據(jù)集群。集群是指機(jī)器使用無(wú)監(jiān)督學(xué)習(xí)來(lái)創(chuàng)建自己的數(shù)據(jù)集。如果你曾經(jīng)在網(wǎng)上購(gòu)買(mǎi)過(guò)商品,你可能會(huì)注意到商店會(huì)包含一些經(jīng)常一起購(gòu)買(mǎi)的東西。比如說(shuō),你正在購(gòu)買(mǎi)計(jì)算機(jī)鼠標(biāo),商店可能會(huì)推薦鍵盤(pán)。這是一個(gè)非常強(qiáng)大的功能,它可以幫助客戶(hù)找到他們所需的東西并增加公司的銷(xiāo)售額。這就是一個(gè)系統(tǒng)使用無(wú)監(jiān)督學(xué)習(xí)根據(jù)購(gòu)買(mǎi)歷史記錄中觀察到的內(nèi)容創(chuàng)建集群的示例。
聚類(lèi)和分類(lèi)之間的最大區(qū)別在于你使用的是人工創(chuàng)建的類(lèi)別還是計(jì)算機(jī)創(chuàng)建的組。一般來(lái)說(shuō),如果你使用監(jiān)督學(xué)習(xí),你就是在分類(lèi);如果你使用無(wú)監(jiān)督學(xué)習(xí),你就是在進(jìn)行聚類(lèi)。你可以這樣理解:每個(gè)萬(wàn)圣節(jié),我的兒子都會(huì)去搗蛋。這是孩子們穿上服裝并在附近四處走動(dòng)以獲得糖果的時(shí)候。晚上結(jié)束時(shí),我的兒子會(huì)帶回?cái)?shù)百顆小塊糖果。他想要做的第一件事就是根據(jù)他最喜歡的糖果對(duì)糖果進(jìn)行分類(lèi)?,F(xiàn)在他從我的經(jīng)驗(yàn)中受益匪淺。我已經(jīng)能夠指導(dǎo)他的學(xué)習(xí)。我可以幫助他為糖果創(chuàng)建輸出類(lèi)別,例如巧克力、花生醬、薄荷糖和軟糖。然后他會(huì)盡力將一些不知名的糖果歸類(lèi)于這些類(lèi)別。這與監(jiān)督機(jī)器學(xué)習(xí)相同?,F(xiàn)在,他的祖父母也住在另一個(gè)國(guó)家。他們?yōu)樽约翰荒軈⑴c"不給糖就搗蛋"而感到難過(guò)。所以每年,他們都會(huì)送一袋塞爾維亞的糖果。有了這個(gè)袋子,我們就不能使用監(jiān)督學(xué)習(xí),因?yàn)樗菦](méi)有標(biāo)簽的。在這里,我以前從未見(jiàn)過(guò)這種糖果,并且包裝紙上是西里爾字母。所以在這種情況下,他做了一種無(wú)監(jiān)督學(xué)習(xí)的形式。他看著袋子并創(chuàng)建了自己的集群。他這樣做是基于他自己對(duì)數(shù)據(jù)的研究。他可能會(huì)根據(jù)糖果的大小或顏色創(chuàng)建一個(gè)集群。事實(shí)上,有一年,他創(chuàng)建了一個(gè)我從未考慮過(guò)的集群。這是一個(gè)小簇,他稱(chēng)之為由玫瑰和橙花制成的香水糖。這是無(wú)監(jiān)督學(xué)習(xí)的重要部分。像我兒子一樣,機(jī)器研究數(shù)據(jù),然后提出自己的集群。聚類(lèi)分析的最大優(yōu)點(diǎn)之一是有更多未標(biāo)記的數(shù)據(jù)。世界上有很多我從未見(jiàn)過(guò)的糖果。所以我將無(wú)法創(chuàng)建這些輸出類(lèi)別。您可能還希望通過(guò)多種方式使用機(jī)器學(xué)習(xí)來(lái)創(chuàng)建集群。你可能希望讓機(jī)器學(xué)習(xí)算法對(duì)客戶(hù)進(jìn)行聚類(lèi),然后人類(lèi)可以通過(guò)查看是否有任何模式來(lái)理解。乍一看,這些集群似乎并不重要。它們甚至可能看起來(lái)微不足道,但請(qǐng)記住,一些最大的公司是圍繞創(chuàng)建數(shù)據(jù)集群而構(gòu)建的。像亞馬遜、Netflix和Twitter這樣的公司都在使用機(jī)器學(xué)習(xí)來(lái)聚類(lèi)你的朋友、你的搜索歷史和購(gòu)買(mǎi)習(xí)慣。這些系統(tǒng)看到了人類(lèi)無(wú)法創(chuàng)造的模式。
5.3 強(qiáng)化學(xué)習(xí)(Reinforcement learning)
在線音樂(lè)是一個(gè)接近300億美元的產(chǎn)業(yè)。仔細(xì)想想,這是一個(gè)奇怪的生意。很多時(shí)候,您可以從Apple Music、Spotify或Tidal購(gòu)買(mǎi)相同的歌曲。那么,為什么要注冊(cè)一個(gè)服務(wù)而不是另一個(gè)呢?對(duì)于大多數(shù)人來(lái)說(shuō),這與他們推薦系統(tǒng)的力量有關(guān)。許多這些系統(tǒng)都是從使用無(wú)監(jiān)督機(jī)器學(xué)習(xí)開(kāi)始的。他們會(huì)推薦歌曲,就像在線零售商說(shuō)經(jīng)常一起購(gòu)買(mǎi)一樣。但最好的音樂(lè)庫(kù)不僅希望你們一起購(gòu)買(mǎi),其中許多都希望您發(fā)現(xiàn)新的東西。因此,為了實(shí)現(xiàn)這一點(diǎn),您必須使用不同形式的機(jī)器學(xué)習(xí),即強(qiáng)化學(xué)習(xí)。它是機(jī)器學(xué)習(xí)的一種形式,通過(guò)激勵(lì)系統(tǒng)和獎(jiǎng)勵(lì)來(lái)尋找新模式。幾年前,谷歌使用強(qiáng)化學(xué)習(xí)來(lái)教人工智能系統(tǒng)如何玩視頻游戲。他們的人工智能系統(tǒng)擊敗了Pong、Atari甚至更現(xiàn)代的視頻游戲的專(zhuān)家玩家。但強(qiáng)化學(xué)習(xí)并不僅限于玩電子游戲。這些系統(tǒng)可以通過(guò)設(shè)定一系列目標(biāo)和獎(jiǎng)勵(lì)來(lái)不斷改進(jìn)。以Spotify為例,它發(fā)現(xiàn)周刊會(huì)將您最喜歡的歌曲與一堆相關(guān)歌曲進(jìn)行比較。機(jī)器學(xué)習(xí)算法會(huì)跟蹤您每次點(diǎn)擊和播放歌曲的時(shí)間,以及您收聽(tīng)的時(shí)間。數(shù)據(jù)科學(xué)家設(shè)計(jì)了算法,每次您點(diǎn)擊相關(guān)歌曲時(shí),它都會(huì)獲得微小的數(shù)字獎(jiǎng)勵(lì)。這幾乎就像機(jī)器學(xué)習(xí)系統(tǒng)的貨幣一樣。當(dāng)您點(diǎn)擊推薦的歌曲時(shí),它會(huì)獲得這些獎(jiǎng)勵(lì)。而如果您收聽(tīng)的時(shí)間越長(zhǎng),獎(jiǎng)勵(lì)就會(huì)增加得越多,例如您收聽(tīng)一分鐘就會(huì)獲得一個(gè)獎(jiǎng)勵(lì)幣。這些算法通常使用的是稱(chēng)為Q-Learning的方法,它有助于創(chuàng)造更復(fù)雜的獎(jiǎng)勵(lì)。在Q-Learning中,有設(shè)定的環(huán)境或狀態(tài),也有可能響應(yīng)狀態(tài)的操作。在Q Learning中,您希望機(jī)器改善結(jié)果的質(zhì)量,結(jié)果由字母Q表示。最初,Q的值為零,然后您讓機(jī)器學(xué)習(xí)改善其操作的條件。每次點(diǎn)擊歌曲時(shí),Q的值都會(huì)增加。你幾乎可以將Q-Learning想象成系統(tǒng)的銀行賬戶(hù)。它可以賺取一定數(shù)量的硬幣,然后看到余額增加。一旦建立了獎(jiǎng)勵(lì)系統(tǒng),它就會(huì)尋找模式,以便嘗試增加其Q-Learning銀行賬戶(hù)。因此,當(dāng)您的組織想要做的不僅僅是經(jīng)常一起購(gòu)買(mǎi)的集群項(xiàng)目時(shí),強(qiáng)化學(xué)習(xí)系統(tǒng)效果最佳。借助強(qiáng)化學(xué)習(xí),您的組織可以構(gòu)建一個(gè)系統(tǒng),創(chuàng)造性地思考客戶(hù)可以發(fā)現(xiàn)的內(nèi)容。
6. 機(jī)器學(xué)習(xí)算法
6.1 常見(jiàn)的算法(common algorithms)
機(jī)器學(xué)習(xí)是人工智能領(lǐng)域中最受歡迎的領(lǐng)域之一。這一部分是由于數(shù)據(jù)的爆炸式增長(zhǎng),也是由于機(jī)器學(xué)習(xí)算法的巨大進(jìn)步。機(jī)器學(xué)習(xí)本身只是一套技術(shù),一種通過(guò)數(shù)據(jù)學(xué)習(xí)構(gòu)建系統(tǒng)的方法。它超越了早期需要明確編程的人工智能系統(tǒng)。但并不存在像Microsoft Office這樣的大型機(jī)器學(xué)習(xí)程序。相反,存在許多不同的機(jī)器學(xué)習(xí)算法,這些算法大多是從統(tǒng)計(jì)學(xué)中借鑒而來(lái)。需要記住的關(guān)鍵是,這些算法中的每一個(gè)都像廚師的廚房工具,勺子用于攪拌,刀用于切割,但是有時(shí)候廚師也會(huì)為這些工具找到新的創(chuàng)意用途。例如,一些廚師會(huì)使用刀的側(cè)面來(lái)壓碎大蒜瓣,或用勺子在意大利面上旋轉(zhuǎn)。我曾在一家公司工作,他們使用信用卡數(shù)據(jù)來(lái)嘗試提出客戶(hù)促銷(xiāo)。他們開(kāi)始使用有監(jiān)督機(jī)器學(xué)習(xí)將客戶(hù)分為兩個(gè)不同的組,也就是所謂的二元分類(lèi)。第一組客戶(hù)使用了促銷(xiāo),第二組客戶(hù)從未使用過(guò)促銷(xiāo)。然后,他們使用機(jī)器學(xué)習(xí)算法來(lái)訓(xùn)練系統(tǒng)進(jìn)行這種二元分類(lèi)。一旦將客戶(hù)分為這兩組,他們就開(kāi)始使用無(wú)監(jiān)督機(jī)器學(xué)習(xí)。他們想要研究一下使用促銷(xiāo)的客戶(hù)是否存在某種模式,因此讓機(jī)器學(xué)習(xí)算法創(chuàng)建了這個(gè)特定客戶(hù)的簇群。需要記住的是,無(wú)監(jiān)督機(jī)器學(xué)習(xí)允許系統(tǒng)根據(jù)其從數(shù)據(jù)中觀察到的模式創(chuàng)建自己的簇群。與我兒子在未知巧克力中發(fā)現(xiàn)簇群的方式類(lèi)似。他們發(fā)現(xiàn)在使用促銷(xiāo)的群體中,存在一個(gè)小的客戶(hù)群體始終使用促銷(xiāo),他們將其稱(chēng)為促銷(xiāo)超級(jí)用戶(hù)。由于該公司的回報(bào)與促銷(xiāo)的成功緊密相關(guān),因此這個(gè)群體是非常重要的。他們發(fā)現(xiàn)這個(gè)群體喜歡促銷(xiāo)產(chǎn)品、服務(wù)和餐館。于是,該公司調(diào)整了算法,為這些促銷(xiāo)超級(jí)用戶(hù)提供更多的促銷(xiāo)活動(dòng)。這個(gè)小小的改變有助于提高整體成功率。如今,該組織同時(shí)使用有監(jiān)督和無(wú)監(jiān)督機(jī)器學(xué)習(xí),這意味著您將擁有一些最適合有監(jiān)督分類(lèi)的算法,和一些最適合無(wú)監(jiān)督聚類(lèi)的算法。這就是為什么了解可用的機(jī)器學(xué)習(xí)算法非常重要。每個(gè)算法都有自己的優(yōu)點(diǎn)和缺點(diǎn),有些算法需要更多的計(jì)算資源,而其他算法則更加輕量級(jí)但準(zhǔn)確率較低。每種算法主要用于監(jiān)督學(xué)習(xí)或無(wú)監(jiān)督學(xué)習(xí),但有些算法可以用于這兩種學(xué)習(xí)方式。就像一位出色的廚師一樣,真正的創(chuàng)造力不在于工具,而在于食材。數(shù)據(jù)科學(xué)團(tuán)隊(duì)可以混合匹配這些算法,以從數(shù)據(jù)中獲得最大的洞察力。這些機(jī)器學(xué)習(xí)算法通常包含在大多數(shù)機(jī)器學(xué)習(xí)軟件工具包中,因此您的數(shù)據(jù)科學(xué)團(tuán)隊(duì)可以發(fā)揮他們的技能和創(chuàng)造力。
6.2 K-nearest neighbor
在機(jī)器學(xué)習(xí)中,了解數(shù)據(jù)的更多信息的最佳方法之一是使用您已知的內(nèi)容對(duì)其進(jìn)行分類(lèi)。 讓我們這樣想一下,當(dāng)我年輕的時(shí)候,在芝加哥的一家動(dòng)物收容所工作,對(duì)傳入的狗的品種進(jìn)行分類(lèi)是最困難的工作之一。 因?yàn)橛袛?shù)百種不同的犬種,大多數(shù)狗都是混合品種。 每次收容所收到一只新狗時(shí),我們將其與我們已知品種的狗進(jìn)行對(duì)比。 我們會(huì)觀察到一些特征,例如臉型或毛發(fā)顏色。 從某種意義上說(shuō),收容所是通過(guò)觀察最相似的鄰居來(lái)對(duì)未知的狗進(jìn)行分類(lèi)。 當(dāng)然,判斷狗是屬于波士頓梗還是法國(guó)斗牛犬并不容易。 越接近匹配,被分類(lèi)的可能性就越高。 另一種觀點(diǎn)是,我們?cè)噲D盡可能減少未知狗與已知品種之間的距離。 如果特征相似度較高,未知狗與其最相似鄰居之間的距離則較短。 一種常見(jiàn)的用于多類(lèi)分類(lèi)的監(jiān)督機(jī)器學(xué)習(xí)算法稱(chēng)為K最近鄰算法。 該算法會(huì)將新數(shù)據(jù)與已有數(shù)據(jù)進(jìn)行比較。 多類(lèi)分類(lèi)與二元分類(lèi)不同,因?yàn)樗婕皟蓚€(gè)以上的犬種。 最小化距離是K最近鄰算法的關(guān)鍵部分。 離最近的鄰居越近,準(zhǔn)確性就越高。 最常用的方法是使用一種稱(chēng)為歐氏距離的數(shù)學(xué)公式,用于衡量數(shù)據(jù)點(diǎn)之間的距離。 現(xiàn)在想象一下,您有數(shù)百萬(wàn)只狗,希望根據(jù)它們的品種進(jìn)行分類(lèi)。 首先,您可能需要?jiǎng)?chuàng)建兩個(gè)關(guān)鍵特征,這些特征將有助于分類(lèi),通常稱(chēng)為預(yù)測(cè)變量。 讓我們以體重和毛發(fā)長(zhǎng)度作為例子。 然后,我們將這兩個(gè)特征放在xy坐標(biāo)圖上,與您在學(xué)校學(xué)過(guò)的幾何中使用的圖表相同。 讓我們將頭發(fā)長(zhǎng)度放在y軸上,體重放在x軸上。 現(xiàn)在,以有標(biāo)簽的1000只狗為訓(xùn)練集,就像我們已經(jīng)知道它們品種的收容所犬一樣,我們將根據(jù)它們的體重和毛發(fā)長(zhǎng)度在圖表上放置它們。 現(xiàn)在,讓我們將未知的狗放在圖表上。 您會(huì)看到它與另一只狗不匹配,但它有一群鄰居。 假設(shè)我們使用的K是5。 這意味著我們希望在未分類(lèi)的狗和它的五個(gè)最接近鄰居周?chē)?huà)一個(gè)圓圈。 通過(guò)觀察其他狗的距離,我們可以得到更準(zhǔn)確的分類(lèi)結(jié)果。 現(xiàn)在,讓我們看看這五個(gè)最近鄰居。 你會(huì)發(fā)現(xiàn)其中三只是牧羊犬,兩只是哈士奇。 您可以相對(duì)自信地將您未知的狗分類(lèi)為牧羊犬,也有可能是哈士奇。 K最近鄰算法是一種非常常見(jiàn)且功能強(qiáng)大的機(jī)器學(xué)習(xí)算法。 這是因?yàn)槟粌H可以用它對(duì)狗進(jìn)行分類(lèi),事實(shí)上,它在金融領(lǐng)域通常用于尋找最佳股票或甚至預(yù)測(cè)未來(lái)表現(xiàn)。
6.3 K-means clustering
另一種常見(jiàn)的機(jī)器學(xué)習(xí)算法是K均值聚類(lèi)。K均值聚類(lèi)是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法,用于根據(jù)計(jì)算機(jī)在數(shù)據(jù)中觀察到的內(nèi)容創(chuàng)建群集。讓我們回到芝加哥的動(dòng)物收容所。收容所曾經(jīng)有一個(gè)大型社交室,狗們?cè)谀抢锞墼谝黄穑崧労玩覒?。狗們有他們的一群朋友,他們一起玩耍和閑逛。每當(dāng)社交時(shí)間到來(lái),它們會(huì)自行組織成這些社交團(tuán)體。現(xiàn)在設(shè)想一下,收容所要關(guān)閉,所有的狗將被分配到三個(gè)不同的收容所。為了更好地安置狗,組織者決定根據(jù)它們的朋友群將狗進(jìn)行聚類(lèi)。因此,收容所創(chuàng)建了三個(gè)簇。這意味著K均值中的K等于3,因?yàn)樗麄兿雽⒔M件分成三個(gè)聚類(lèi)。首先,機(jī)器會(huì)在三只隨機(jī)狗身上戴上紅色、黃色或藍(lán)色項(xiàng)圈,每種顏色代表根據(jù)它們的社交團(tuán)體的潛在聚類(lèi)。這些狗將成為初始的質(zhì)心。每只質(zhì)心狗會(huì)計(jì)算自己和周?chē)泄返钠骄嚯x。然后,機(jī)器會(huì)將相同顏色的項(xiàng)圈放在離質(zhì)心最近的狗身上。由于質(zhì)心狗是隨機(jī)選擇的,它們通常不會(huì)真正擁有正確的聚類(lèi)。也許所有三只質(zhì)心狗屬于同一個(gè)社交團(tuán)體。如果情況是這樣的話,大多數(shù)狗會(huì)離它們最近的質(zhì)心較遠(yuǎn),所以算法將重新分配項(xiàng)圈,直到找到一個(gè)好的質(zhì)心狗。機(jī)器會(huì)一次又一次地進(jìn)行嘗試,直到選擇出最佳的質(zhì)心,甚至可以一次聚類(lèi)一只狗。在每次迭代結(jié)束時(shí),機(jī)器學(xué)習(xí)算法會(huì)檢查每只狗和質(zhì)心之間的方差。一旦有一個(gè)好的質(zhì)心,它會(huì)將相同顏色的項(xiàng)圈放在每個(gè)簇中的狗的朋友身上。現(xiàn)在請(qǐng)記住,狗本身并沒(méi)有被分為三組??赡苡衅甙藗€(gè)不同的社交團(tuán)體,但只有三個(gè)收容所,所以算法必須盡力將狗的自然社交團(tuán)體分為三個(gè)聚類(lèi)。算法還必須考慮那些非常社交的狗從一個(gè)團(tuán)體跳到另一個(gè)團(tuán)體的情況。如果狗動(dòng)來(lái)動(dòng)去太多,真正的聚類(lèi)就很難形成。K均值聚類(lèi)的另一個(gè)挑戰(zhàn)是它對(duì)異常值非常敏感。因此,即使有一只狗不和其他狗一起出去玩,它依然必須被歸入三個(gè)聚類(lèi)之一。從本質(zhì)上講,狗被迫尋找新的朋友。將狗分成三個(gè)聚類(lèi)并將其分配到三個(gè)收容所可能不是每天都會(huì)遇到的問(wèn)題,但K均值聚類(lèi)是最流行的機(jī)器學(xué)習(xí)算法之一。一個(gè)更有趣的應(yīng)用是零售商使用聚類(lèi)來(lái)決定誰(shuí)能獲得促銷(xiāo)優(yōu)惠。他們可能會(huì)讓系統(tǒng)創(chuàng)建三個(gè)簇,以尋找忠誠(chéng)的顧客、老顧客和價(jià)格敏感購(gòu)物者。然后,他們將制定策略,將定期客戶(hù)提升為忠實(shí)顧客。許多組織正在尋找更好的方法來(lái)將他們的客戶(hù)聚集在一起。如果他們能夠?qū)⑺兄覍?shí)顧客聚集到一個(gè)簇中,那么他們就能真正改善他們的業(yè)務(wù)。K均值聚類(lèi)是系統(tǒng)通過(guò)考察數(shù)百個(gè)不同的變量對(duì)人或事物進(jìn)行聚類(lèi)的良好方法之一。
6.4 Regression
我曾在一家在線車(chē)輛銷(xiāo)售公司工作,每次他們將客戶(hù)送到汽車(chē)經(jīng)銷(xiāo)商時(shí),公司都會(huì)獲得推薦費(fèi)。對(duì)他們來(lái)說(shuō),關(guān)注汽車(chē)銷(xiāo)售的趨勢(shì)至關(guān)重要。人們更有可能在春季和夏季購(gòu)買(mǎi)敞篷車(chē)和跑車(chē),而在秋季和冬季更有可能購(gòu)買(mǎi)卡車(chē)和SUV。因此,當(dāng)客戶(hù)訪問(wèn)該網(wǎng)站時(shí),他們會(huì)根據(jù)人們的購(gòu)買(mǎi)意向進(jìn)行季節(jié)性促銷(xiāo)。他們使用的其中一個(gè)工具是回歸分析,這是一種監(jiān)督式機(jī)器學(xué)習(xí)算法,用于預(yù)測(cè)因子與結(jié)果之間的關(guān)系。預(yù)測(cè)因子有時(shí)也被稱(chēng)為輸入變量、自變量或回歸變量。回歸分析是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,您會(huì)獲得訓(xùn)練數(shù)據(jù)并為其標(biāo)記正確的輸出,然后使用標(biāo)記的數(shù)據(jù)與測(cè)試數(shù)據(jù)一起進(jìn)行預(yù)測(cè)?;貧w分析最好的理解方式是想象趨勢(shì)。隨著天氣變暖,人們更有可能購(gòu)買(mǎi)敞篷車(chē),隨著天氣變冷,人們更有可能購(gòu)買(mǎi)卡車(chē)和SUV。然而,回歸分析并不能告訴您人們?yōu)槭裁醋龀鲞@些選擇,這需要數(shù)據(jù)科學(xué)家和業(yè)務(wù)分析師進(jìn)行進(jìn)一步研究?;貧w分析只告訴您這些趨勢(shì)正在發(fā)生。機(jī)器學(xué)習(xí)的回歸算法也是類(lèi)似的。一旦您獲得了訓(xùn)練數(shù)據(jù),您就可以進(jìn)行預(yù)測(cè)并觀察其與實(shí)際結(jié)果的接近程度。然后一遍又一遍地進(jìn)行重復(fù),直到系統(tǒng)能夠做出最準(zhǔn)確的預(yù)測(cè)。在這種情況下,數(shù)據(jù)科學(xué)團(tuán)隊(duì)認(rèn)為季節(jié)變化是某些車(chē)輛銷(xiāo)售的一個(gè)很好的預(yù)測(cè)指標(biāo),所以他們將月份作為一個(gè)預(yù)測(cè)指標(biāo),并將其與某些車(chē)輛銷(xiāo)售額進(jìn)行了映射。利用這些訓(xùn)練數(shù)據(jù),他們創(chuàng)建了一個(gè)簡(jiǎn)單的X軸和Y軸圖表。請(qǐng)記住,這是您在幾何學(xué)中學(xué)到的簡(jiǎn)單圖表。沿著Y軸或底部軸,他們列出了月份的名稱(chēng),沿著X軸或頂部軸,他們按車(chē)輛類(lèi)型列出了銷(xiāo)售額。然后他們觀察到了趨勢(shì)線。敞篷車(chē)和跑車(chē)的銷(xiāo)量將在五月、六月和七月上升,之后在九月、十月和十一月下降。相反,卡車(chē)和SUV的銷(xiāo)量在這段時(shí)間會(huì)上升。數(shù)據(jù)越多,制作準(zhǔn)確的趨勢(shì)線就越容易。可以想象,回歸分析對(duì)于組織來(lái)說(shuō)是非常強(qiáng)大的。它使您能夠根據(jù)客戶(hù)的興趣提供相應(yīng)的產(chǎn)品。這就是為什么像沃爾瑪這樣的大型零售商將貨架上堆滿(mǎn)商品的原因,因?yàn)樗麄冃枰S顧客口味的變化。夏天人們購(gòu)買(mǎi)更多的Pop-Tarts,而冬天購(gòu)買(mǎi)更多的牛奶和奶酪。他們希望通過(guò)預(yù)測(cè)購(gòu)買(mǎi)趨勢(shì)來(lái)確保貨架上充滿(mǎn)了這些商品。關(guān)于回歸分析的一個(gè)有趣的事情是,關(guān)于它是否真的屬于機(jī)器學(xué)習(xí)存在一些爭(zhēng)議。這是有道理的,因?yàn)橄到y(tǒng)并沒(méi)有學(xué)習(xí)到任何新的東西,不過(guò)轉(zhuǎn)而是進(jìn)行預(yù)測(cè)。無(wú)論如何,回歸分析都是一種非常流行的方法,用于預(yù)測(cè)企業(yè)未來(lái)的行為。這些趨勢(shì)無(wú)處不在,如果您錯(cuò)過(guò)了它們,就無(wú)法從中獲得學(xué)習(xí)。因此,請(qǐng)花點(diǎn)時(shí)間考慮一下回歸分析可能會(huì)揭示您業(yè)務(wù)的趨勢(shì),您可能會(huì)對(duì)所學(xué)到的東西感到驚訝。
6.5 Naive Bayes
我們已經(jīng)看到,有時(shí)候您可以根據(jù)最近的鄰居對(duì)項(xiàng)目進(jìn)行分類(lèi)。您還可以根據(jù)數(shù)據(jù)趨勢(shì)進(jìn)行分類(lèi)。但有時(shí),您希望根據(jù)數(shù)據(jù)中的許多要素對(duì)項(xiàng)目進(jìn)行分類(lèi)。為此,您可以使用一個(gè)稱(chēng)為樸素貝葉斯的東西。樸素貝葉斯是最流行的機(jī)器學(xué)習(xí)算法之一。這很幼稚,因?yàn)樗僭O(shè)所有預(yù)測(cè)因子都彼此獨(dú)立。所以讓我們回到我們的動(dòng)物收容所。想象一下,我們想根據(jù)狗的品種對(duì)所有狗進(jìn)行分類(lèi)。讓我們使用樸素貝葉斯機(jī)器學(xué)習(xí)算法來(lái)研究這個(gè)問(wèn)題。首先,讓我們創(chuàng)建三類(lèi)犬種。我們將使用梗犬、獵犬和運(yùn)動(dòng)犬?,F(xiàn)在,對(duì)于每一類(lèi)中的特征,我們將使用三個(gè)特征作為預(yù)測(cè)因子。讓我們使用頭發(fā)長(zhǎng)度、身高和體重。請(qǐng)記住,其中一些預(yù)測(cè)因子將緊密自動(dòng)相關(guān)。高大的狗更有可能體重更大。但樸素貝葉斯獨(dú)立地考慮這些預(yù)測(cè)因子中的每一個(gè)。記住,這就是為什么它被稱(chēng)為幼稚。一旦您設(shè)置了類(lèi)和預(yù)測(cè)因子,樸素貝葉斯將計(jì)算稱(chēng)為類(lèi)預(yù)測(cè)因子概率的東西。這是當(dāng)它查看每個(gè)預(yù)測(cè)因子并創(chuàng)建狗屬于該類(lèi)的概率時(shí)。因此,讓我們看看當(dāng)我們嘗試識(shí)別一只未知的狗時(shí)會(huì)發(fā)生什么。我們首先看的是頭發(fā)長(zhǎng)度這個(gè)預(yù)測(cè)因子。機(jī)器學(xué)習(xí)算法會(huì)檢查具有這種毛發(fā)長(zhǎng)度的狗屬于三個(gè)品種的概率。它發(fā)現(xiàn),具有這種毛發(fā)長(zhǎng)度的狗有40%的機(jī)會(huì)是梗犬,10%的機(jī)會(huì)是獵犬,50%的機(jī)會(huì)是運(yùn)動(dòng)犬。接下來(lái),您要檢查的是未知狗的身高。它獨(dú)立地查看此預(yù)測(cè)變量,并嘗試計(jì)算類(lèi)預(yù)測(cè)變量的概率。因此,它查看了訓(xùn)練數(shù)據(jù),發(fā)現(xiàn)未知狗有20%的可能性是梗犬,10%的可能性是獵犬,70%的可能性是運(yùn)動(dòng)犬。您要檢查的最后一件事是未知狗的體重。這似乎是一個(gè)奇怪的預(yù)測(cè)因子,因?yàn)樗c身高密切相關(guān)。但請(qǐng)記住,樸素貝葉斯是獨(dú)立評(píng)估每個(gè)預(yù)測(cè)因子的概率的。它查看訓(xùn)練數(shù)據(jù),發(fā)現(xiàn)未知狗有10%的可能性是梗犬,5%的可能性是獵犬,85%的可能性是運(yùn)動(dòng)犬。所以現(xiàn)在您有一個(gè)表,其中包含未知狗的類(lèi)預(yù)測(cè)概率。如果您看一下,您可以看到這只狗很可能是一只運(yùn)動(dòng)犬??梢韵胂?,組織可以使用樸素貝葉斯來(lái)做更多的事情,而不僅僅是對(duì)犬種進(jìn)行分類(lèi)。銀行使用它來(lái)檢查欺詐行為。他們獨(dú)立地查看每個(gè)銀行的預(yù)測(cè)因子,然后衡量其欺詐的可能性。然后,他們使用類(lèi)預(yù)測(cè)概率對(duì)事務(wù)進(jìn)行分類(lèi)。網(wǎng)絡(luò)安全公司也使用樸素貝葉斯來(lái)尋找安全威脅。它獨(dú)立地查看每個(gè)威脅的預(yù)測(cè)因子,然后標(biāo)記項(xiàng)目以進(jìn)行安全審查。關(guān)鍵是,由于樸素貝葉斯做出的假設(shè)很少,它可以查看大量的預(yù)測(cè)因子。通常,這些額外的預(yù)測(cè)因子會(huì)使數(shù)據(jù)分類(lèi)更加準(zhǔn)確。
7. 應(yīng)用算法
7.1 選擇最佳算法
現(xiàn)在您已經(jīng)看到了三個(gè)監(jiān)督機(jī)器學(xué)習(xí)算法的例子,包括K最近鄰、回歸分析和樸素貝葉斯。這些算法通常用于分類(lèi),而K均值聚類(lèi)則用于無(wú)監(jiān)督學(xué)習(xí)和聚類(lèi)。需要記住的是,每個(gè)算法都是一種工具,設(shè)計(jì)用于特定目的,但您仍然可以創(chuàng)造性地使用它們,就像您可以用叉子攪打雞蛋或用刀子切開(kāi)鱷梨一樣。然而,就像任何一位出色的廚師知道的那樣,您永遠(yuǎn)不會(huì)只憑單一道菜來(lái)判斷。相反,整頓一餐的表現(xiàn)才是關(guān)鍵。因此,在數(shù)據(jù)科學(xué)團(tuán)隊(duì)中,使用一種叫做集成建模的方法是常見(jiàn)的。如果您是演員或音樂(lè)愛(ài)好者,您可能聽(tīng)說(shuō)過(guò)“合奏”的概念,即小組合作演奏。機(jī)器學(xué)習(xí)算法也是如此。有幾種不同的方法可以實(shí)現(xiàn)合奏,其中最受歡迎的是裝袋和堆疊。裝袋是指使用同一種機(jī)器學(xué)習(xí)算法的多個(gè)版本,而堆疊是指使用多種不同的機(jī)器學(xué)習(xí)算法并將它們組合在一起。我曾在一家大型家居零售商工作過(guò)。他們面臨的挑戰(zhàn)之一是在收銀臺(tái)附近放置哪些商品?您可能會(huì)驚訝于在結(jié)賬前幾分鐘內(nèi)銷(xiāo)售的商品可以創(chuàng)造多少收入。因此,他們希望創(chuàng)建一個(gè)機(jī)器學(xué)習(xí)算法的集合。他們爭(zhēng)論使用哪種合奏方式可能會(huì)帶來(lái)最佳結(jié)果。他們可以嘗試使用裝袋方法中同一算法的不同變體,然后觀察是否能提高準(zhǔn)確性。該零售連鎖店是全國(guó)連鎖店,因此他們可以從全國(guó)各地的商店中獲取訓(xùn)練數(shù)據(jù)樣本。因此,他們可以隨機(jī)提取數(shù)據(jù)樣本,并使用K最近鄰算法對(duì)這些數(shù)據(jù)集進(jìn)行獨(dú)立分類(lèi)。然后,他們將這些結(jié)果合并在一起,看看是否可以揭示更大的趨勢(shì)。他們還會(huì)結(jié)合顧客購(gòu)買(mǎi)前的其他見(jiàn)解。在某種程度上,他們正在平均化這些見(jiàn)解,以更準(zhǔn)確地預(yù)測(cè)。零售商還可以嘗試堆疊的方法。這種方法與對(duì)見(jiàn)解進(jìn)行平均化不同,而是逐步提高結(jié)果,以使得零售商可以接受最受歡迎商品的培訓(xùn)集。假設(shè)最暢銷(xiāo)的商品是錘子,那么他們可以使用K最近鄰算法來(lái)查看購(gòu)買(mǎi)錘子的人經(jīng)常會(huì)購(gòu)買(mǎi)什么其他物品,比如釘子和工具包。我們大多數(shù)人直覺(jué)上知道,購(gòu)買(mǎi)錘子的人更有可能購(gòu)買(mǎi)釘子。然而,如果我們想將一些物品放在收銀臺(tái)附近,這個(gè)直覺(jué)可能沒(méi)有幫助。因此,這種情況下可能需要采用樸素貝葉斯算法等方法。請(qǐng)記住,樸素貝葉斯是“樸素”的,因?yàn)樗僭O(shè)預(yù)測(cè)變量之間是獨(dú)立的。所以它不認(rèn)為購(gòu)買(mǎi)錘子就意味著需要釘子。相反,它會(huì)預(yù)測(cè)其他受歡迎但看起來(lái)不相關(guān)的物品。例如,購(gòu)買(mǎi)錘子的人更有可能購(gòu)買(mǎi)巧克力棒。將不同的機(jī)器學(xué)習(xí)算法進(jìn)行混合和匹配將為您提供具有不同見(jiàn)解和結(jié)果的集成模型。就像任何優(yōu)秀的混合一樣,預(yù)測(cè)的準(zhǔn)確性取決于數(shù)據(jù)科學(xué)團(tuán)隊(duì)的創(chuàng)造力。
7.2 跟隨數(shù)據(jù)
在老電影《總統(tǒng)的男人》中,尼克松丑聞的頂級(jí)線人在停車(chē)場(chǎng)見(jiàn)面,說(shuō):“跟著錢(qián)走。 記者只有跟著錢(qián)走,才能發(fā)現(xiàn)真相。 像記者一樣,機(jī)器學(xué)習(xí)算法必須遵循數(shù)據(jù)才能找到真相,但這說(shuō)起來(lái)容易做起來(lái)難。 事實(shí)上,機(jī)器學(xué)習(xí)中最大的挑戰(zhàn)之一是平衡偏差和方差。 偏差是預(yù)測(cè)值與實(shí)際結(jié)果之間的差距。 假設(shè)你在玩骰子,預(yù)測(cè)你會(huì)擲五、三次,但你擲了四、三次。 那么你的預(yù)測(cè)就會(huì)有很高的偏差。你每次都差一個(gè)。 方差是指預(yù)測(cè)值分散在各個(gè)地方。 因此,如果你在玩骰子,你預(yù)測(cè)你會(huì)擲五三次,但你實(shí)際上擲了兩次、四次和六次,那么你的量會(huì)有所不同。 那么你的數(shù)據(jù)就會(huì)過(guò)于分散。 現(xiàn)在,對(duì)系統(tǒng)如何出錯(cuò)做出如此大的事情似乎很奇怪,但是當(dāng)你使用機(jī)器學(xué)習(xí)算法時(shí),這是兩個(gè)獨(dú)立的挑戰(zhàn),所以系統(tǒng)需要以不同的方式修復(fù)它。 想想飛鏢游戲。 飛鏢板的中心是機(jī)器的最佳預(yù)測(cè)。 這意味著中間的小紅靶心是正確的預(yù)測(cè)。 機(jī)器可以投擲三枚飛鏢,每枚飛鏢都會(huì)出錯(cuò)。 它們都落在紅靶心正上方的右上角。 這稱(chēng)為具有高偏差和低方差。 飛鏢緊密地組合在一起,但它們都太右了。 數(shù)據(jù)集將具有高偏差。 這意味著為了做出更好的預(yù)測(cè),機(jī)器只需要將飛鏢組向下并向左拉即可。 現(xiàn)在想象一下不同的挑戰(zhàn)。 機(jī)器將飛鏢扔向飛鏢板,飛鏢到處都是。 這意味著數(shù)據(jù)具有廣泛的分布,因此此數(shù)據(jù)將具有很高的方差。 為了做出更好的預(yù)測(cè),機(jī)器需要收緊最靠近靶心的飛鏢。 理想情況下,您希望預(yù)測(cè)具有低偏差和低方差。 這意味著所有的飛鏢都在靶心中。 但在大多數(shù)情況下,機(jī)器將不得不修復(fù)高偏差或高方差。 在機(jī)器學(xué)習(xí)中,這是一個(gè)如此普遍的問(wèn)題,它被稱(chēng)為偏差-方差權(quán)衡。 像任何權(quán)衡一樣,這意味著如果系統(tǒng)試圖平衡其中一個(gè)的影響,它必須考慮對(duì)另一個(gè)的影響。 因此,如果機(jī)器減小了方差,它也將不得不增加偏差。 如果機(jī)器增加偏差,則會(huì)增加方差的差。 這就是機(jī)器需要跟蹤數(shù)據(jù)的原因。 機(jī)器將轉(zhuǎn)動(dòng)這些旋鈕中的每一個(gè),以找到偏差和方差之間的最佳權(quán)衡。 這樣,它可以將最佳預(yù)測(cè)歸零。
7.3 過(guò)擬合和欠擬合(Overfitting and underfitting)
當(dāng)我兒子三歲時(shí),我們告訴他在睡覺(jué)前需要刷牙、使用牙線和洗澡。然后有一天,我接到他幼兒園的電話,說(shuō)除非他們向他提供淋浴、牙刷和牙線,否則他將不能午睡。我向他解釋說(shuō),不遵守這些規(guī)則會(huì)影響他的午睡。他似乎很生氣,但還是同意了。我們制定給他的規(guī)則太簡(jiǎn)單了,它們?cè)诩依锖苡行В谕饷娴氖澜绮贿m用。因此,我們?cè)黾恿烁鄰?fù)雜性。他不必在探望祖父母或乘坐飛機(jī)時(shí)遵守學(xué)前午睡的規(guī)則。每當(dāng)我們?cè)黾痈嘧兞繒r(shí),他都會(huì)對(duì)復(fù)雜性感到更加惱火。在監(jiān)督式機(jī)器學(xué)習(xí)中,您的AI系統(tǒng)可能會(huì)遇到類(lèi)似的問(wèn)題。系統(tǒng)可能會(huì)為其訓(xùn)練數(shù)據(jù)創(chuàng)建簡(jiǎn)單的規(guī)則,但在處理更大的測(cè)試數(shù)據(jù)時(shí)效果不佳。就像我兒子經(jīng)歷的那樣,家里行得通的方法在外面世界行不通。這個(gè)挑戰(zhàn)被稱(chēng)為數(shù)據(jù)擬合不足。有時(shí),數(shù)據(jù)科學(xué)家會(huì)引入更多復(fù)雜性,但這反而使系統(tǒng)更難處理。就像我們?yōu)槲覂鹤拥暮?jiǎn)單規(guī)則添加了所有變量一樣。這被稱(chēng)為過(guò)度擬合數(shù)據(jù)。想象一下您為像Zillow這樣的網(wǎng)站工作,該網(wǎng)站用于匹配房屋買(mǎi)賣(mài)雙方。您需要估計(jì)房屋價(jià)格,您的機(jī)器可以使用樸素貝葉斯算法創(chuàng)建四個(gè)預(yù)測(cè)變量,即平方英尺、位置、浴室數(shù)量和臥室數(shù)量。這樣,它就可以獨(dú)立地查看每個(gè)預(yù)測(cè)因子,然后將其與最近出售的房屋進(jìn)行比較。然后系統(tǒng)將提供準(zhǔn)確的估計(jì)?,F(xiàn)在,請(qǐng)記住,您只使用了四個(gè)預(yù)測(cè)因子來(lái)訓(xùn)練系統(tǒng)。所以機(jī)器是從一個(gè)簡(jiǎn)單的規(guī)則中學(xué)習(xí)的,就像每天晚上都要洗澡和刷牙的簡(jiǎn)單規(guī)則一樣。因此,這一規(guī)則很可能不能很好地適應(yīng)數(shù)據(jù)。當(dāng)您面對(duì)成千上萬(wàn)個(gè)房屋時(shí),它的效果就不好了。最重要的是,住房數(shù)據(jù)通常具有很大的差異。請(qǐng)記住這是當(dāng)數(shù)據(jù)的分布非常分散時(shí)。很多具有相同平方英尺、位置和浴室數(shù)量的房屋有不同的價(jià)格。因此,很難找到一個(gè)緊密的群體。為了解決這個(gè)問(wèn)題,數(shù)據(jù)科學(xué)家可以引入新的預(yù)測(cè)因子。也許他們會(huì)為視野質(zhì)量、現(xiàn)代化電器、木地板或步行方便性引入預(yù)測(cè)因子。這將導(dǎo)致更復(fù)雜的預(yù)測(cè),因?yàn)楝F(xiàn)在您的機(jī)器需要平衡更多的預(yù)測(cè)因子。所以這里的規(guī)則是過(guò)度擬合數(shù)據(jù)。系統(tǒng)需要考慮這些預(yù)測(cè)變量之間的更多關(guān)系,才能做出準(zhǔn)確的預(yù)測(cè)。要記住的關(guān)鍵是,實(shí)際上沒(méi)有一種方法可以完全解決這個(gè)問(wèn)題。在訓(xùn)練系統(tǒng)時(shí),您需要在簡(jiǎn)單規(guī)則和為規(guī)則提供足夠的復(fù)雜性以做出良好預(yù)測(cè)之間找到平衡。您需要在數(shù)據(jù)擬合不足和過(guò)度擬合之間找到平衡。
8. 人工神經(jīng)網(wǎng)絡(luò)(Artificial neural networks)
8.1 構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)(build a neural network)
機(jī)器學(xué)習(xí)算法可以看到數(shù)據(jù)中的模式,但有時(shí)你只是有太多的數(shù)據(jù)來(lái)使用這些算法。 因此,許多大型組織使用人工神經(jīng)網(wǎng)絡(luò)。 人工神經(jīng)網(wǎng)絡(luò)是一種機(jī)器學(xué)習(xí),它使用人腦等結(jié)構(gòu)來(lái)分解海量數(shù)據(jù)集。 人工神經(jīng)網(wǎng)絡(luò)不使用以前的機(jī)器學(xué)習(xí)算法,而是將數(shù)據(jù)分解成更小的部分。 早些時(shí)候,我們談到了人工神經(jīng)網(wǎng)絡(luò)作為一種模仿大腦的機(jī)器學(xué)習(xí)技術(shù)。 該網(wǎng)絡(luò)由組織成層的神經(jīng)元構(gòu)成。 圖層從左向右移動(dòng)。 有輸入層、隱藏層和輸出層。 如果網(wǎng)絡(luò)有很多隱藏層,那么它被稱(chēng)為深度學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò)。 這是因?yàn)榫W(wǎng)絡(luò)是多層的。 網(wǎng)絡(luò)的隱藏層越多,網(wǎng)絡(luò)就越容易識(shí)別非常復(fù)雜的模式。 因此,讓我們想象創(chuàng)建一個(gè)人工神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別圖像中是否有狗。 把它想象成一個(gè)二元分類(lèi),狗或不狗。 為此,需要對(duì)從輸入層到狗或不狗的圖像進(jìn)行分類(lèi)。 您將圖像輸入到輸入層,然后輸出將分類(lèi)為狗或非狗。 我們已經(jīng)看到,對(duì)于機(jī)器來(lái)說(shuō),圖像只是不同數(shù)據(jù)位的集合。 所以在這種情況下,你會(huì)有一堆像素。 這些是圖像上的微小顏色點(diǎn)以及不同級(jí)別的亮度或?qū)Ρ榷取?讓我們拍攝一張狗的圖像并將其分解成像素。 假設(shè)您的圖像高 25 像素,寬 25 像素。 因此,您的整個(gè)圖像包含 625 像素。 這意味著每個(gè)圖像有 625 個(gè)數(shù)據(jù)點(diǎn)。 假設(shè)我們獲取這 625 個(gè)像素并將它們輸入神經(jīng)網(wǎng)絡(luò)。 每個(gè)像素都被饋送到輸入層。 輸入層中的 625 個(gè)神經(jīng)元中的每一個(gè)都有一個(gè)基于像素顏色的數(shù)字。 隱藏層中的每個(gè)神經(jīng)元都有一個(gè)稱(chēng)為激活函數(shù)的東西。 激活函數(shù)就像一個(gè)微小的網(wǎng)關(guān)。 它讓神經(jīng)元決定是否要將數(shù)據(jù)發(fā)送到網(wǎng)絡(luò)中的下一個(gè)隱藏層。 每個(gè)隱藏層將像素?cái)?shù)據(jù)轉(zhuǎn)發(fā)到下一個(gè)隱藏層。 然后,在最后,輸出層中將有兩個(gè)節(jié)點(diǎn)。 請(qǐng)記住,這是一個(gè)二元分類(lèi)挑戰(zhàn),所以只有兩個(gè)選擇:有狗還是沒(méi)有狗? 由于像素?cái)?shù)據(jù)從左到右在各層中移動(dòng),因此稱(chēng)為前饋神經(jīng)網(wǎng)絡(luò)。 人工神經(jīng)網(wǎng)絡(luò)的一大優(yōu)勢(shì)是它們是自我調(diào)優(yōu)的。 它們幾乎就像一種樂(lè)器,可以自我調(diào)音,直到得到完美的音符。 因此,輸出層中的兩個(gè)神經(jīng)元中的每一個(gè)都將有一個(gè)概率分?jǐn)?shù)。 要記住的關(guān)鍵是,人工神經(jīng)網(wǎng)絡(luò)最常用于監(jiān)督學(xué)習(xí)。 您可以訓(xùn)練網(wǎng)絡(luò),然后它將根據(jù)是否正確識(shí)別您的輸入進(jìn)行自我調(diào)整。
8.2 權(quán)衡連接(weighing the connections)
作為人類(lèi),我們一直在為數(shù)據(jù)賦予權(quán)重。我們檢查數(shù)據(jù)的特征,以更好地預(yù)測(cè)輸出。假設(shè)您正在查看一張美麗的草地開(kāi)放空間的照片,然后您在照片中看到一個(gè)小模糊的物體。您認(rèn)為那個(gè)模糊的物體是狗的概率是多少?現(xiàn)在,想象您正在查看一幅干燥的沙漠圖像,圖像中也有一個(gè)稍微模糊的對(duì)象。您認(rèn)為這個(gè)物體是狗的概率是多少?如果您像大多數(shù)人一樣,您會(huì)認(rèn)為狗更有可能在草地上,所以您的人類(lèi)神經(jīng)連接在草地上增加了正權(quán)重,在干燥沙漠上增加了負(fù)權(quán)重。人工神經(jīng)網(wǎng)絡(luò)也是如此。與我們一樣,這些網(wǎng)絡(luò)需要在概率的世界中工作。沙漠中可能有一只狗,但如果您是一個(gè)人造神經(jīng)元,您對(duì)激活持懷疑態(tài)度。人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)使其能夠更好地調(diào)整自身以理解您的數(shù)據(jù),它幾乎像是一種自動(dòng)調(diào)音器。要為吉他等樂(lè)器調(diào)音,您需要在彈奏音符時(shí)扭動(dòng)旋鈕。使用人工神經(jīng)網(wǎng)絡(luò),這些旋鈕會(huì)改變神經(jīng)元之間的連接權(quán)重。人工神經(jīng)網(wǎng)絡(luò)增加了每層神經(jīng)元之間的連接權(quán)重。隱藏層中的每個(gè)神經(jīng)元都會(huì)前饋到下一層中的每個(gè)其他神經(jīng)元中。因此,如果每個(gè)隱藏層中有100個(gè)神經(jīng)元,則該層中的每個(gè)神經(jīng)元將有100個(gè)輸出連接。這是非常多的連接。但它真正強(qiáng)大的地方是,這些連接中的每一個(gè)都有一個(gè)權(quán)重。這就是為什么如果您曾經(jīng)看過(guò)神經(jīng)網(wǎng)絡(luò)的草圖,您會(huì)看到每條連接線上都有一個(gè)帶數(shù)字的W。所以在這種情況下,會(huì)有一個(gè)W1,W2,W3一直到W100。對(duì)于每個(gè)隱藏層,您都會(huì)看到這一點(diǎn)?,F(xiàn)在,每個(gè)連接的權(quán)重是人工神經(jīng)網(wǎng)絡(luò)如何調(diào)整自身的關(guān)鍵部分。請(qǐng)記住,人工神經(jīng)網(wǎng)絡(luò)只是監(jiān)督式機(jī)器學(xué)習(xí)的一種形式。因此,數(shù)據(jù)科學(xué)家使用與訓(xùn)練網(wǎng)絡(luò)相同的技術(shù)。請(qǐng)記住,監(jiān)督式機(jī)器學(xué)習(xí)從訓(xùn)練集開(kāi)始。然后,一旦調(diào)整算法以做出準(zhǔn)確的預(yù)測(cè),您就可以轉(zhuǎn)到更大的測(cè)試數(shù)據(jù)集。同樣的事情也會(huì)發(fā)生在您的人工神經(jīng)網(wǎng)絡(luò)上。當(dāng)您第一次初始化神經(jīng)網(wǎng)絡(luò)時(shí),系統(tǒng)會(huì)隨機(jī)為這些數(shù)千個(gè)權(quán)重分配數(shù)字。然后,您將訓(xùn)練數(shù)據(jù)饋送到網(wǎng)絡(luò)中,并根據(jù)是否獲得正確的輸出來(lái)調(diào)整權(quán)重。網(wǎng)絡(luò)將重復(fù)此操作,直到準(zhǔn)確識(shí)別輸出模式。它會(huì)隨著時(shí)間的推移自動(dòng)調(diào)整以獲得最佳的預(yù)測(cè)。
8.3 激活偏置(the activation bias)
人工神經(jīng)網(wǎng)絡(luò)是自我調(diào)優(yōu)的。你已經(jīng)看到它就像一種樂(lè)器。它比較完美音符的輸出,然后調(diào)整自身的參數(shù)以匹配這種聲音。但歸根結(jié)底,人工神經(jīng)網(wǎng)絡(luò)仍然是機(jī)器學(xué)習(xí)的一種形式。這意味著它使用許多相同的工具和技術(shù)來(lái)幫助系統(tǒng)學(xué)習(xí)。你已經(jīng)看到,人工神經(jīng)網(wǎng)絡(luò)通過(guò)調(diào)整連接的權(quán)重來(lái)自我調(diào)整,但僅通過(guò)調(diào)整權(quán)重?zé)o法糾正方差。系統(tǒng)正試圖將數(shù)據(jù)聚集在靶心附近的緊密群集中。網(wǎng)絡(luò)投擲飛鏢,然后測(cè)量它與正確預(yù)測(cè)的接近程度。然后它會(huì)調(diào)整權(quán)重并再次投擲飛鏢,以查看是否更接近。在進(jìn)行預(yù)測(cè)時(shí),您需要平衡數(shù)據(jù)中的偏差和方差,這稱(chēng)為偏差方差權(quán)衡。因此,調(diào)整方差會(huì)影響偏差。在人工神經(jīng)網(wǎng)絡(luò)中,偏差是系統(tǒng)分配給每個(gè)神經(jīng)元的數(shù)字。這個(gè)數(shù)字偏差會(huì)將數(shù)據(jù)朝不同的方向移動(dòng),以使其更準(zhǔn)確。網(wǎng)絡(luò)必須自我調(diào)整,以找到數(shù)據(jù)偏差和數(shù)據(jù)方差之間的最佳平衡點(diǎn)。它必須調(diào)整權(quán)重和添加偏差來(lái)自我調(diào)優(yōu)。有時(shí)你幾乎為讓人工神經(jīng)網(wǎng)絡(luò)經(jīng)歷這個(gè)調(diào)優(yōu)過(guò)程而感到困擾。它通過(guò)調(diào)整連接的權(quán)重來(lái)減小方差,但這會(huì)使方差稍微偏離目標(biāo)。然后它添加偏差來(lái)糾正偏移,但隨后又會(huì)使數(shù)據(jù)分散。人類(lèi)會(huì)發(fā)現(xiàn)這非常令人沮喪。這就像機(jī)器試圖以緊密的隊(duì)形投擲飛鏢,同時(shí)使用偏置將整個(gè)飛鏢板移近靶心。最重要的是,人工神經(jīng)網(wǎng)絡(luò)傾向于過(guò)度擬合數(shù)據(jù)。請(qǐng)記住,過(guò)度擬合是指系統(tǒng)在訓(xùn)練時(shí)增加了很多復(fù)雜性。因此,當(dāng)人工神經(jīng)網(wǎng)絡(luò)查看訓(xùn)練集中的數(shù)據(jù)時(shí),它可能會(huì)過(guò)度學(xué)習(xí)有關(guān)數(shù)據(jù)的經(jīng)驗(yàn)教訓(xùn)。由于它過(guò)度擬合其訓(xùn)練集,因此當(dāng)您調(diào)整方差時(shí),它可能會(huì)發(fā)生很大的變化。這使得機(jī)器更難在偏差和方差之間找到一個(gè)很好的平衡。這就像系統(tǒng)試圖在結(jié)冰的道路上直行一樣。道路的一側(cè)是太多的偏差,另一側(cè)是太多的差異。如果它在一個(gè)方向上滑得太多,它就必須調(diào)整方向。關(guān)于偏差要記住的一件關(guān)鍵事情是,它位于神經(jīng)元上,而不是像權(quán)重那樣分配給連接。如果你仔細(xì)想想,這樣是有意義的。機(jī)器只有在觀察到方差之后才能添加偏差。從某種意義上說(shuō),它只有在已經(jīng)投擲了幾枚飛鏢之后才能調(diào)整飛鏢板的位置。否則,機(jī)器將不知道應(yīng)該如何調(diào)整。
9. 提高準(zhǔn)確性
9.1 從錯(cuò)誤中學(xué)習(xí)
我們?nèi)祟?lèi)傾向于以非對(duì)即錯(cuò)的方式思考,但人工神經(jīng)網(wǎng)絡(luò)需要更精確。對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),95%正確和97%正確是有很大差別的。挑戰(zhàn)在于系統(tǒng)如何測(cè)量錯(cuò)誤程度,這是通過(guò)成本函數(shù)來(lái)衡量的。成本函數(shù)是系統(tǒng)根據(jù)正確答案評(píng)估其答案的數(shù)字。如果答案接近正確,成本就較低;如果答案相差較大,成本就較高。舉例來(lái)說(shuō),假設(shè)神經(jīng)網(wǎng)絡(luò)正在判斷一張圖片是否包含狗。網(wǎng)絡(luò)可能表示照片是狗的可能性為97%,但事實(shí)上是一只貓的照片,這種錯(cuò)誤代價(jià)較低。現(xiàn)在,假設(shè)網(wǎng)絡(luò)表示照片是狗的可能性為99%,但實(shí)際上是一張雪山的照片,這種錯(cuò)誤的代價(jià)較高。因?yàn)檫@次的錯(cuò)誤非常大,所以需要對(duì)權(quán)重和偏差進(jìn)行更積極的調(diào)整來(lái)糾正錯(cuò)誤。糾正錯(cuò)誤是一項(xiàng)棘手的任務(wù),所以很多神經(jīng)網(wǎng)絡(luò)使用一種稱(chēng)為梯度下降的方法。梯度表示陡度,下降表示減少??梢韵胂螅愕娜斯ど窠?jīng)網(wǎng)絡(luò)又在扔飛鏢了。它進(jìn)行預(yù)測(cè),看離靶心有多近。有些預(yù)測(cè)相差很大,而其他預(yù)測(cè)很接近。當(dāng)飛鏢飛行時(shí),與飛鏢板之間會(huì)有一段距離。它以向上的角度飛行,然后向下運(yùn)動(dòng),直到撞到板上。如果完全錯(cuò)過(guò)了板,它將希望對(duì)角度進(jìn)行更大的調(diào)整。如果非常接近目標(biāo),那么調(diào)整角度的變化將較小,這樣就可以命中靶心。嗯,神經(jīng)網(wǎng)絡(luò)做同樣的事情。它使用梯度下降的計(jì)算來(lái)調(diào)整網(wǎng)絡(luò)中的權(quán)重和偏差,以衡量錯(cuò)誤的程度。盡管沒(méi)有使用飛鏢,但使用類(lèi)似的計(jì)算來(lái)評(píng)估錯(cuò)誤的角度。這就是反向傳播的原理,也是人工神經(jīng)網(wǎng)絡(luò)的一大創(chuàng)新。請(qǐng)記住,我們使用的是前饋人工神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)從左到右進(jìn)行傳遞,從輸入層到輸出層。但是當(dāng)網(wǎng)絡(luò)犯錯(cuò)時(shí),它需要向后傳播。通過(guò)梯度下降來(lái)確定錯(cuò)誤的程度,然后使用反向傳播來(lái)調(diào)整權(quán)重和偏差。如果網(wǎng)絡(luò)的預(yù)測(cè)相差較大,需要進(jìn)行較大范圍的調(diào)整。但如果預(yù)測(cè)接近正確答案,那么網(wǎng)絡(luò)就會(huì)更加謹(jǐn)慎地進(jìn)行調(diào)整,通過(guò)前向傳播和反向傳播使自己調(diào)整到正確的答案。
9.2 逐步通過(guò)網(wǎng)絡(luò)(step through the network)
構(gòu)建一個(gè)人工智能系統(tǒng)需要什么?為了思考這一點(diǎn),讓我們回到我們?cè)趫D像中尋找狗的挑戰(zhàn)。數(shù)據(jù)科學(xué)家需要做的第一步是弄清楚他們想要從數(shù)據(jù)中得到什么。在這種情況下,他們并沒(méi)有要求AI系統(tǒng)將自己的組聚集在一起。相反,他們要求系統(tǒng)將數(shù)據(jù)分為兩類(lèi)。一個(gè)類(lèi)別將有狗的圖像,其他類(lèi)別將不是狗。這是一個(gè)經(jīng)典的二元分類(lèi)挑戰(zhàn)。請(qǐng)記住,那時(shí)神經(jīng)網(wǎng)絡(luò)只有兩種可能的分類(lèi)。這意味著他們將進(jìn)行監(jiān)督式機(jī)器學(xué)習(xí)。請(qǐng)記住,監(jiān)督式機(jī)器學(xué)習(xí)從標(biāo)記數(shù)據(jù)開(kāi)始。在這里,該系統(tǒng)將使用數(shù)十萬(wàn)張已知包含狗的圖像進(jìn)行訓(xùn)練。數(shù)據(jù)科學(xué)家的下一步是弄清楚他們是否想使用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)算法,或者他們是否想使用人工神經(jīng)網(wǎng)絡(luò)。請(qǐng)記住,這是一個(gè)分類(lèi)問(wèn)題,所以如果他們使用機(jī)器學(xué)習(xí)算法,他們可能會(huì)使用K最近鄰或樸素貝葉斯。您已經(jīng)看到系統(tǒng)會(huì)將每個(gè)圖像分解為像素。這意味著這將是一個(gè)復(fù)雜的挑戰(zhàn),需要大量的數(shù)據(jù),所以他們將使用人工神經(jīng)網(wǎng)絡(luò)。他們將創(chuàng)建輸入層、隱藏層和輸出層?,F(xiàn)在,請(qǐng)記住,由于這是一個(gè)二元分類(lèi)挑戰(zhàn),因此只有兩個(gè)選項(xiàng),狗或不狗,因此它們只需要兩個(gè)節(jié)點(diǎn)作為輸出層。接下來(lái),將初始化神經(jīng)網(wǎng)絡(luò)。系統(tǒng)會(huì)為連接的所有權(quán)重分配隨機(jī)數(shù)。然后,系統(tǒng)會(huì)將所有節(jié)點(diǎn)上的偏差設(shè)置為零。這幾乎就像搖晃蝕刻草圖以給自己一個(gè)干凈的石板?,F(xiàn)在,訓(xùn)練集需要輸入神經(jīng)網(wǎng)絡(luò)。前幾張圖片可能不會(huì)比隨機(jī)猜測(cè)好多少。神經(jīng)網(wǎng)絡(luò)會(huì)說(shuō),圖像有62%的可能性包含狗,或者55%的可能性不是。然后,網(wǎng)絡(luò)將其答案與數(shù)據(jù)上的標(biāo)簽進(jìn)行比較。如果它錯(cuò)誤地識(shí)別了狗的圖像,那么它將查看梯度下降以確定權(quán)重和偏差的變化程度。神經(jīng)網(wǎng)絡(luò)將遍歷訓(xùn)練集中的所有數(shù)據(jù),以微調(diào)其結(jié)果。請(qǐng)記住,網(wǎng)絡(luò)將使用反向傳播來(lái)改變權(quán)重和偏差以降低成本函數(shù),從而自我調(diào)整。從某種意義上說(shuō),它將在網(wǎng)絡(luò)中向后移動(dòng)并扭曲所有表盤(pán)以提高其準(zhǔn)確性。一旦人工神經(jīng)網(wǎng)絡(luò)通過(guò)訓(xùn)練集,就會(huì)從測(cè)試集中添加數(shù)據(jù)。測(cè)試集不會(huì)被標(biāo)記。它可能是數(shù)十萬(wàn)張任何東西的圖像。然后,您將看到神經(jīng)網(wǎng)絡(luò)在識(shí)別狗照片時(shí)的表現(xiàn)如何。有時(shí),神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上做得很好,但在測(cè)試集上就不那么好了。發(fā)生這種情況時(shí),通常意味著您正在過(guò)度擬合數(shù)據(jù)。請(qǐng)記住,這是系統(tǒng)真正擅長(zhǎng)識(shí)別較小的訓(xùn)練集,但沒(méi)有足夠的復(fù)雜性來(lái)處理測(cè)試集中的新數(shù)據(jù)?,F(xiàn)在,您的團(tuán)隊(duì)不太可能很快對(duì)狗進(jìn)行分類(lèi),或者不對(duì)狗進(jìn)行分類(lèi)。但是,這種二元分類(lèi)方法是從數(shù)據(jù)中獲取見(jiàn)解的有效方法。想想你的客戶(hù)數(shù)據(jù)、你的銷(xiāo)售數(shù)據(jù),甚至是來(lái)自你的物聯(lián)網(wǎng)設(shè)備的數(shù)據(jù),以及你可以從這種方法中學(xué)到什么。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-520041.html
完結(jié)!文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-520041.html
到了這里,關(guān)于人工智能基礎(chǔ)學(xué)習(xí)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!