當學習GPT技術(shù)時,我們會思考GPT發(fā)展的最終目標是什么?答案是“具身智能”,它是一種通用人工智能,可以像人一樣能夠和環(huán)境交互感知、自主規(guī)劃、決策、行動。
GPT的誕生要歸功于NLP技術(shù)的快速發(fā)展,從2018年到2021年,是第一代大語言模型的“技術(shù)爆炸”期,人們逐漸適應(yīng)了通過海量的無標簽數(shù)據(jù)來訓練這些“涌現(xiàn)”智能的大模型,之后OpenAI采用強化學習技術(shù),點亮了LLM的只能,由此產(chǎn)生了ChatGPT。
智能體的自治
我們可以想一下,當我們面臨一個任務(wù)時,一般的處理步驟是怎樣的?通常會有以下幾步:
- 思考任務(wù)的主要步驟有哪些
- 調(diào)取相關(guān)資料,形成可行方案
- 通過分工去執(zhí)行具體的事項
- 匯總完成任務(wù)
上面的過程是不是很熟悉,對于智能體來說,我們要做的就是將上面的步驟交給大語言模型(LLM)來完成。
我們?nèi)绻胱屩悄荏w具有“自治”的能力,需要把以下三部分結(jié)合起來:
- 計劃
- 記憶
- 工具
計劃
教LLM思考的過程,一個最佳實踐是通過提問來引導LLM思考,經(jīng)典的方法是ReAct,它包含三部分:
- Thought:讓大語言思考,目前需要做哪些行為,行為的對象是誰,它要采取的行為是不是合理的。
- Act:針對目標對象,執(zhí)行具體的操作,比如調(diào)用API,然后收集環(huán)境反饋的信息。
- Obs:把外界觀察的反饋信息,同步給LLM,協(xié)助它做出進一步的分析或者決策。
在這個過程中,思維鏈技術(shù)變得非常重要,它可以讓LLM將任務(wù)分解為可解釋的步驟。
記憶喚醒
無論在定制計劃、使用工具或執(zhí)行任務(wù)的過程中,LLM都需要外部信息的幫助來輔助進行思考。
我們可以將人和LLM進行對比,將記憶分為三類:
- 感覺記憶,人體接收到外部信號以后,瞬間保留的視覺、聽覺、觸覺的記憶片段,在LLM中就是Embedding。
- 短期記憶,當前意識中的信息,在LLM中類似于提示詞。
- 長期記憶,人能回憶的所有信息,在LLM中類似于外部向量存儲。
LLM能消化的只有提示詞中的短時記憶,所以我們需要在長期記憶中選擇最重要的內(nèi)容放入提示詞。這個過程描述如下:
- LLM在得到任務(wù)后,會幫忙制定記憶喚醒方案
- AI系統(tǒng)執(zhí)行該方案,生成相關(guān)的查詢指令,從外部數(shù)據(jù)中查詢數(shù)據(jù)
- 我們將這些數(shù)據(jù)交給LLM來判斷是否已經(jīng)獲得足夠完成任務(wù)的數(shù)據(jù),如果沒有,LLM會生成新的喚醒方案,并循環(huán)這個過程
使用工具
要想LLM學會使用工具,首先需要它認識工具。文章來源:http://www.zghlxwxcb.cn/news/detail-693369.html
我們以Gorilla為例,來描述它教會LLM使用API的全過程:文章來源地址http://www.zghlxwxcb.cn/news/detail-693369.html
- 我們使用大量API調(diào)用代碼和文檔作為語料,訓練一個可以理解API的LLM
- AI系統(tǒng)還將對這些API進行向量化操作,將它們存儲在向量數(shù)據(jù)庫中作為外部記憶
- 當用戶發(fā)起請求時,AI系統(tǒng)會從外部記憶中,獲取跟請求相關(guān)的API交給LLM
- LLM組合串聯(lián)這些API形成代碼,并執(zhí)行代碼,完成API調(diào)用,生成執(zhí)行結(jié)果
到了這里,關(guān)于聊聊具身智能怎么實現(xiàn)?的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!