在討論智能化 Agent 之前,我們首先來了解一下,什么是 Agent?
Agent 是一個(gè)通過傳感器感知所處環(huán)境、通過執(zhí)行器對(duì)環(huán)境產(chǎn)生作用的東西。
如果將人類看成一個(gè) Agent,那么傳感器就是眼睛、耳朵等器官,執(zhí)行器就是手、腿等身體的其他部位。
接下來,我們就來介紹一下五種基本的 Agent,包括:
- 簡(jiǎn)單反射型 Agent
- 基于模型的反射型 Agent
- 基于目標(biāo)的 Agent
- 基于效用的 Agent
- 學(xué)習(xí) Agent
簡(jiǎn)單反射型 Agent
簡(jiǎn)單反射型 Agent 基于當(dāng)前的感知選擇行動(dòng),忽略其余的感知?dú)v史。
簡(jiǎn)單反射型 Agent 的結(jié)構(gòu)如下:
- 傳感器:感知當(dāng)前所處的環(huán)境
- 條件 - 行動(dòng)準(zhǔn)則:根據(jù)感知信息匹配相應(yīng)的行動(dòng)規(guī)則。
- 執(zhí)行器:執(zhí)行相應(yīng)的動(dòng)作,對(duì)環(huán)境產(chǎn)生作用。
簡(jiǎn)單反射型 Agent 可以通過建立一個(gè)通用的條件 - 行動(dòng)規(guī)則解釋器,然后對(duì)特定任務(wù)環(huán)境創(chuàng)建規(guī)則集合來實(shí)現(xiàn)。例如,在駕駛系統(tǒng)中創(chuàng)建一個(gè)規(guī)則,即如果前方的車輛在減速剎車,那么系統(tǒng)也開始控制車輛減速剎車。
實(shí)現(xiàn)的偽代碼如下:
基于模型的反射型 Agent
基于模型的反射型 Agent 在簡(jiǎn)單反射型 Agent 的基礎(chǔ)上,維持了一個(gè)取決于歷史的內(nèi)部狀態(tài),從而反映當(dāng)前狀態(tài)的某些不可觀察的方面。為了隨時(shí)更新內(nèi)部狀態(tài),需要加入兩種類型的知識(shí):
- 關(guān)于世界如何獨(dú)立于 Agent 而發(fā)展的信息。 例如:超車的汽車在下一時(shí)刻會(huì)從后方趕上來,更靠近本車。
- 關(guān)于 Agent 自身的動(dòng)作如何影響世界的信息。例如:當(dāng) Agent 順時(shí)針轉(zhuǎn)動(dòng)方向盤時(shí),汽車向右轉(zhuǎn)。
這種關(guān)于世界如何運(yùn)轉(zhuǎn)的知識(shí),稱為世界模型。使用這樣模型的 Agent 稱為基于模型的 Agent。
【深度學(xué)習(xí)中的 LSTM(長短時(shí)記憶)、和注意力機(jī)制等屬于基于模型的反射型 Agent】
基于模型的反射型 Agent 結(jié)構(gòu)如下:
實(shí)現(xiàn)的偽代碼如下:
- rules 代表世界如何演變。
- 初始的 action 代表我做過什么,更新后的 action 表示現(xiàn)在應(yīng)該采取什么行動(dòng)。
基于目標(biāo)的 Agent
基于目標(biāo)的 Agent 不僅需要當(dāng)前狀態(tài)的描述,而且需要某種目標(biāo)信息來描述想要達(dá)到的狀況。例如:乘客的目的地。Agent 程序會(huì)把目標(biāo)信息和可能動(dòng)作的結(jié)果結(jié)合起來,評(píng)估不同動(dòng)作的優(yōu)劣,從而選擇最有利于實(shí)現(xiàn)目標(biāo)的動(dòng)作?!?strong>路徑規(guī)劃、8 數(shù)碼問題等屬于基于目標(biāo)的 Agent】
基于目標(biāo)的 Agent 結(jié)構(gòu)如下:
基于模型和目標(biāo)的 Agent,既要追蹤記錄世界的狀態(tài)(前方車輛是否減速、后方車輛是否準(zhǔn)備超車),又要記錄要達(dá)到的目標(biāo)集(車輛行駛的目的地),并選擇能最終到達(dá)目標(biāo)的動(dòng)作(方向盤不同還是左打右打)
基于效用的 Agent
在很多環(huán)境下,單靠目標(biāo)很難產(chǎn)生好的行為。例如:有很多路線可以令出租車到達(dá)目的地。但是有的路線更快、更安全、更可靠、或者更便宜。如果一個(gè)世界狀態(tài)比另一個(gè)更受偏好,則對(duì) Agent 來說有更高的效用。
基于效用的 Agent 在目基于目標(biāo)的 Agent 的基礎(chǔ)上,增加了一個(gè)效用模塊,用于存儲(chǔ) Agent 對(duì)不同狀態(tài)或結(jié)果的偏好或滿意度。這樣,Agent 就可以根據(jù)世界狀態(tài)、要達(dá)到的目標(biāo)集以及效用函數(shù),選擇導(dǎo)致最佳期望效用的動(dòng)作。【機(jī)場(chǎng)選址、雄安新區(qū)選址、高鐵路線設(shè)計(jì)、人生目標(biāo)的選擇等決策,屬于基于效用 Agent】
基于效用的 Agent 結(jié)構(gòu)如下:
學(xué)習(xí) Agent
學(xué)習(xí) Agent 可以劃分為四個(gè)概念上的組件,根據(jù)外部的反饋和內(nèi)部的評(píng)價(jià)來改進(jìn) Agent 的行為。
學(xué)習(xí) Agent 結(jié)構(gòu)如下:文章來源:http://www.zghlxwxcb.cn/news/detail-849025.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-849025.html
- 評(píng)價(jià)元件:根據(jù)固定的性能標(biāo)準(zhǔn)來評(píng)估 Agent 在環(huán)境中的行為表現(xiàn),給 Agent 提供正向或反向的反饋信號(hào),以指導(dǎo) Agent 的學(xué)習(xí)過程。例如,根據(jù)棋局的優(yōu)劣來給Agent一個(gè)分?jǐn)?shù);根據(jù) Agent 是否贏得比賽來給 Agent 一個(gè)獎(jiǎng)勵(lì)或懲罰。
- 學(xué)習(xí)元件:利用來自評(píng)價(jià)元件的反饋,評(píng)價(jià)Agent做得如何,并決定應(yīng)該如何修改執(zhí)行元件以在未來做得更好。
- 執(zhí)行元件:執(zhí)行外部動(dòng)作,同時(shí)為學(xué)習(xí)元件提供知識(shí)。
- 問題產(chǎn)生器:負(fù)責(zé)提議可以產(chǎn)生新的、有啟發(fā)式價(jià)值的經(jīng)驗(yàn)的動(dòng)作。
到了這里,關(guān)于人工智能 | 一文介紹五種基本 Agent的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!