當(dāng)一項(xiàng)變革性技術(shù)出現(xiàn)后,以此為基礎(chǔ)的技術(shù)就會(huì)像雨后春筍般蔓延。
就像Transformer出現(xiàn)后,以此為基礎(chǔ)的大語(yǔ)言模型ChatGPT,視覺(jué)基礎(chǔ)模型Segment Anything相繼橫空出世,并展現(xiàn)出強(qiáng)大的涌現(xiàn)能力。生成式AI可謂百花齊鳴,爭(zhēng)相綻放。
繼純語(yǔ)言,純視覺(jué)大模型后,多模態(tài)大模型也粉墨登場(chǎng),最近Google DeepMind重磅推出Robotic Transformer 2(RT2),也被稱為視覺(jué)-語(yǔ)言-行動(dòng)模型(Vision-Language-Action)。用一句話概括:RT2可以將機(jī)器人對(duì)世界的觀察(圖片)以及用戶的指令(文本)轉(zhuǎn)換成機(jī)器人的控制指令(文本)。
論文地址:
https://robotics-transformer2.github.io/assets/rt2.pdf
官方文檔:
https://robotics-transformer2.github.io
https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action
整體流程圖
整體流程如上圖所示,機(jī)器人接受人類的語(yǔ)音指令,將其轉(zhuǎn)換為文本,同時(shí)利用自身的攝像頭對(duì)現(xiàn)實(shí)場(chǎng)景進(jìn)行拍照,將文本和圖片同時(shí)輸入到RT2中,模型輸出機(jī)器人控制指令文本,最后將指令文本解碼成機(jī)器人能識(shí)別的指令格式下達(dá)給機(jī)器人控制器。
機(jī)器人指令文本格式
機(jī)器人對(duì)人類下達(dá)的文本指令(pick robot)原本一無(wú)所知,但通過(guò)RT2將人類指令文本(pick robot)和機(jī)器人指令文本(A:=132 114 128 5 25 156)映射到了同一個(gè)向量空間,通過(guò)大量數(shù)據(jù)訓(xùn)練后,那么兩者就具有相同的語(yǔ)義了。
純語(yǔ)言模型和純視覺(jué)模型的輸入大多是單模態(tài)的,也就是只有文本或者圖片,而RT2的輸入既有文本也有圖片,這種能夠處理多模態(tài)信息的模型被稱為視覺(jué)語(yǔ)言模型,目前有兩種主流方法。
一種方法是CLIP,它的思路很簡(jiǎn)單,就是將圖片和文本分別編碼到同一個(gè)共享空間,在這個(gè)空間中,“a cat”和一只貓的圖片余弦相似度最大。
另一種方法是具有{vision, text} → {text} 映射形式的模型,類似于視覺(jué)問(wèn)答,這種方法也是本文RT2所采用的方法。
采用這種方法的另一個(gè)好處是不需要從零開(kāi)始訓(xùn)練模型,目前已經(jīng)有在大量網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行訓(xùn)練的視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型,例如,PaLI-X PaLM-E,但只有網(wǎng)絡(luò)通用數(shù)據(jù)無(wú)法直接應(yīng)用于機(jī)器人領(lǐng)域,所以需要在預(yù)訓(xùn)練模型的基礎(chǔ)上繼續(xù)用專門(mén)的機(jī)器人訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào),其整體訓(xùn)練過(guò)程如下。
訓(xùn)練過(guò)程
為了適應(yīng)機(jī)器人場(chǎng)景,需要將用戶文本指令進(jìn)行簡(jiǎn)單的裝飾后再送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,例如,用戶的指令是:pick the football,裝飾后的文本就是What robot should do to pick the football? 最后與圖片一起送入網(wǎng)絡(luò)。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-732570.html
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-732570.html
到了這里,關(guān)于【深度學(xué)習(xí)】大模型卷到機(jī)器人上了的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!