【論文筆記】基于深度學(xué)習(xí)的視覺檢測及抓取方法

這篇具有很好參考價(jià)值的文章主要介紹了【論文筆記】基于深度學(xué)習(xí)的視覺檢測及抓取方法。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

摘要

工作	內(nèi)容	效果
提升復(fù)雜環(huán)境中目標(biāo)檢測的效果	采用通道注意力機(jī)制對(duì) YOLO-V3 進(jìn)行改進(jìn)，增強(qiáng)網(wǎng)絡(luò)對(duì)圖像特征提取的能力	平均識(shí)別率較改進(jìn)前增加 0.32%
針對(duì)目前姿態(tài)估計(jì)角度存在離散性的問題	提出一種基于 VGG-16 主干網(wǎng)絡(luò)嵌入最小面積外接矩形(MABR)算法，進(jìn)行抓取位姿估計(jì)和角度優(yōu)化	改進(jìn)后的抓取角度與目標(biāo)實(shí)際角度平均誤差小于 2.47°
搭建了一套視覺抓取系統(tǒng)	利用 UR5 機(jī)械臂、氣動(dòng)兩指機(jī)械手、Realsense D435 相機(jī)及 ATI-Mini45 六維力傳感器等設(shè)備	對(duì)不同物體進(jìn)行抓取分類操作、對(duì)硬件的要求較低、并且將有害扭矩降低約 75%

關(guān)鍵詞

深度學(xué)習(xí)；
神經(jīng)網(wǎng)絡(luò)；
目標(biāo)檢測；
姿態(tài)估計(jì)；
機(jī)器人抓?。?/li>

學(xué)者	工作
Mallick 等	通過深層卷積網(wǎng)絡(luò)語義分割法實(shí)現(xiàn)物體的檢測和定位，利用機(jī)械臂完成物體的分揀工作。
白成超	通過改進(jìn)的 YOLO(You Only Look Once)算法實(shí)現(xiàn)目標(biāo)檢測，實(shí)現(xiàn)機(jī)械臂的抓取動(dòng)作。
黃怡蒙	對(duì) Tiny-YOLOV3 目標(biāo)檢測的結(jié)果進(jìn)行三角函數(shù)轉(zhuǎn)換，并控制機(jī)械臂完成物體抓取。

缺點(diǎn)：沒有獲取物體有效抓取點(diǎn)的位姿，抓取具有一定的局限性

學(xué)者	工作
Jiang	通過兩步走模型框架，使用支持向量機(jī)排序算法預(yù)測物體的抓取點(diǎn)和角度
Chu	通過 ResNet-50 主干網(wǎng)絡(luò)結(jié)合抓取建議框圖實(shí)現(xiàn)物體抓取位姿預(yù)測。
夏浩宇	基于 Keypoit RCNN 改進(jìn)模型的抓取檢測算法，實(shí)現(xiàn)對(duì)管紗的有效抓取
	提高了抓取成功率，但是存在預(yù)測抓取角度離散的問題，導(dǎo)致機(jī)械手容易與物體產(chǎn)生偏角，在抓取過程中容易改變物體當(dāng)前狀態(tài)甚至造成物體損壞，具有一定的干擾性

缺點(diǎn)：提高了抓取成功率，但是存在預(yù)測抓取角度離散的問題，導(dǎo)致機(jī)械手容易與物體產(chǎn)生偏角，在抓取過程中容易改變物體當(dāng)前狀態(tài)甚至造成物體損壞，具有一定的干擾性
【論文筆記】基于深度學(xué)習(xí)的視覺檢測及抓取方法

準(zhǔn)備階段，首先利用張正友標(biāo)定法獲取相機(jī)的內(nèi)部參數(shù)，接著通過探針法設(shè)置兩指機(jī)械手末端中心，然后通過手眼標(biāo)定獲取機(jī)械臂和相機(jī)的坐標(biāo)轉(zhuǎn)換關(guān)系矩陣；
圖像處理階段，計(jì)算機(jī)首先對(duì)目標(biāo)圖像進(jìn)行預(yù)處理，接著將處理后的數(shù)據(jù)傳入到兩個(gè)通道中：通道一采用通道注意力模塊改進(jìn)的 YOLO-V3 對(duì)物體進(jìn)行目標(biāo)檢測；通道二采用 VGG-16 主干網(wǎng)絡(luò)和最小面積外接矩形MABR算法對(duì)物體的抓取位姿進(jìn)行預(yù)測和抓取角度連續(xù)化矯正；
控制階段，PC 端與控制柜建立通信，并發(fā)送抓取點(diǎn)坐標(biāo)和機(jī)械手偏轉(zhuǎn)角度信息，進(jìn)行抓取分類動(dòng)作；

1 目標(biāo)檢測

自 2014 年 Girshick 等提出基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Region proposals Convolutional Neural Networks, R-CNN)以來，該方向的目標(biāo)檢測算法不斷地被改進(jìn)，出現(xiàn)了以Fast R-CNN和Faster R-CNN為代表的先通過區(qū)域推薦再進(jìn)行目標(biāo)分類的兩步走目標(biāo)檢測算法、以及以YOLO為代表的采用一個(gè)網(wǎng)絡(luò)直接進(jìn)行預(yù)測輸出的目標(biāo)檢測算法等。

1.1 YOLO-V3 模型

YOLO 模型：

結(jié)合了候選區(qū)域調(diào)整和網(wǎng)絡(luò)預(yù)測結(jié)果優(yōu)化兩個(gè)步驟
有端到端的網(wǎng)絡(luò)結(jié)構(gòu)特性
具有輸入一張圖像直接輸出預(yù)測結(jié)果的功能
最大特點(diǎn)是整個(gè)網(wǎng)絡(luò)的運(yùn)行速度很快

YOLO-V3 模型：

多尺度預(yù)測模塊，對(duì)象分類器由以前 softmax 函數(shù)改為 logistic 函數(shù)
借鑒特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)的思想來對(duì)小、中、大物體預(yù)測
Draknet-53 使用殘差網(wǎng)絡(luò)對(duì)圖像特征進(jìn)行更深層地提取

【論文筆記】基于深度學(xué)習(xí)的視覺檢測及抓取方法

1.2 算法優(yōu)化

通過對(duì) YOLO-V3 檢測模型加入通道注意力機(jī)制模塊來增強(qiáng)網(wǎng)絡(luò)提取特征
的效果，改善相機(jī)拍攝目標(biāo)多尺度和圖像場景復(fù)雜情況下的目標(biāo)檢測識(shí)別度和準(zhǔn)確率，通道注意力機(jī)制模塊如圖。
【論文筆記】基于深度學(xué)習(xí)的視覺檢測及抓取方法
利用權(quán)重矩陣對(duì)原網(wǎng)絡(luò)結(jié)構(gòu)中提取的目標(biāo)特征進(jìn)行重構(gòu)，對(duì)有利特征信息進(jìn)行加分無關(guān)特征進(jìn)行減分處理，從而提升目標(biāo)檢測的效果。

2 抓取位姿估計(jì)

2.1 五維抓取框

種類	特點(diǎn)
3DOF	目標(biāo)抓取點(diǎn)的平面坐標(biāo) $(x, y)$ 和偏轉(zhuǎn)角度 $θ$
6DOF	目標(biāo)抓取點(diǎn)的空間坐標(biāo) $(x, y, z)$ 和旋轉(zhuǎn)向量 $(r x, ry, rz)$ 組成
區(qū)別	多以工作臺(tái)上的物體抓取為主，與空間位姿相比，平面的位姿估計(jì)方法更加高效、實(shí)用

2.2 抓取位姿估計(jì)模型

目前基于深度學(xué)習(xí)的抓取位姿估計(jì)算法，本質(zhì)是對(duì) RGB 或 RGD 圖像進(jìn)行回歸預(yù)測和分類預(yù)測。
【論文筆記】基于深度學(xué)習(xí)的視覺檢測及抓取方法

對(duì)單個(gè)目標(biāo)進(jìn)行位姿估計(jì)的單層網(wǎng)絡(luò)
使用 VGG-16 網(wǎng)絡(luò)替換 ResNet-50 進(jìn)行特征提取
相比于由 49 個(gè)卷積層和 1 個(gè)全連接層組成 ResNet-50 網(wǎng)絡(luò)，VGG-16 由 13 個(gè)卷積層和 3 個(gè)全連接層組成，網(wǎng)絡(luò)結(jié)構(gòu)深度不足 ResNet-50 的 1/3
單層的 VGG-16 網(wǎng)絡(luò)結(jié)構(gòu)滿足對(duì)單個(gè)不同目標(biāo)的準(zhǔn)確預(yù)測且估計(jì)速度得到提升

網(wǎng)絡(luò)總損失函數(shù) $L_{gcr}$ 由抓取角度分類預(yù)測損失和四維邊框預(yù)測損失組成
$L_{gcr}(\{ (p_{l},\beta_{l}) \}^{C}_{c=0})=\sum\limits_{c}L_{gcr-cls(p_{t})}+\lambda\sum\limits_{c}l_{c \neq 0}L_{gcr-reg(\beta_{c},\beta_{c}^{\ast})}$

參數(shù)	意義
$C$	$R$ +1，取值19
$p_{l}$	經(jīng)過 Softmax 歸一化指數(shù)函數(shù)層輸出第 $l$ 個(gè)角度的分類概率
$β_{l}/β_{c},β_{\ast}$	預(yù)測的抓取框和真實(shí)的抓取框
L_{gcr-cls}	抓取角度分類的交叉熵?fù)p失
L_{gcr-reg}	邊界框預(yù)測的回歸損失

2.3 角度優(yōu)化

機(jī)械手與物體存在較大角度偏差
對(duì)工作臺(tái)上容易移動(dòng)的物體抓取影響較小，因?yàn)槲矬w滑動(dòng)會(huì)消除角度誤差；
對(duì)工作臺(tái)上通過夾具固定而不易移動(dòng)物體的抓取影響較大，角度偏差會(huì)導(dǎo)致機(jī)械手在抓取物體過程中產(chǎn)生一個(gè)有害扭矩，導(dǎo)致抓取失敗，也容易改變物體當(dāng)前狀態(tài)造成再裝配困難；

位姿估計(jì)中還引入 MABR 算法。

對(duì)圖像進(jìn)行閾值分割；然后，進(jìn)行腐蝕、膨脹、開運(yùn)算和閉運(yùn)算等操作對(duì)二值圖像進(jìn)
行去干擾處理；最后，利用最小面積外接矩形包圍物體，輸出矩形四個(gè)頂點(diǎn)坐標(biāo)。
求出矩形任意相鄰兩條邊的長度 $a$ 和 $b$
對(duì)邊長 $a$ 和 $b$ 值進(jìn)行大小判斷，確定矩形框的長 $h$ 和寬 $w$
根據(jù)公式求出角度
$\alpha = \mathbf{arctan}|\frac{y_{3}-y_{0}}{x_{3}-x_{0}}|\times\frac{180\degree}{\pi} \\ \beta = \mathbf{arctan}|\frac{y_{3}-y_{0}}{x_{3}-x_{0}}|\times\frac{180\degree}{\pi}+90\degree$

3 實(shí)驗(yàn)結(jié)果與分析

系統(tǒng)采用 linux 下基于 Visual Studio Code 編譯軟件進(jìn)行開發(fā)，確保系統(tǒng)和編譯環(huán)境的統(tǒng)一性，便于圖像處理與機(jī)械臂運(yùn)動(dòng)控制間的數(shù)據(jù)傳輸。

3.1 目標(biāo)檢測

由于主干特征提取網(wǎng)絡(luò)具有特征通用性，因此也采用凍結(jié)訓(xùn)練方法二次加快模型訓(xùn)練的速度。

	解凍前	解凍后
學(xué)習(xí)率 $l r$	0.001	0.0001
批量大小 $bartch\_size$	8	4
初始迭代 $Init\_epoch$	0	50
凍結(jié)/解凍迭代 $Freeze/Unfreeze_epoch$	50	100

相比于改進(jìn)前，加入注意力機(jī)制模型的檢測網(wǎng)絡(luò)平均識(shí)別準(zhǔn)確率 $m A P$ 由 92.33%增加到 92.65%，提升 0.32%。
在網(wǎng)絡(luò)置信度不變的情況下，降低模型在雜亂環(huán)境下了漏檢的可能，檢測效果更加突出，證明了改進(jìn)模型的實(shí)際意義。

3.2 抓取位姿估計(jì)

抓取位姿估計(jì)采用 cornell 數(shù)據(jù)集制作模型訓(xùn)練所需的數(shù)據(jù)樣本

從對(duì)比結(jié)果能夠得出，對(duì)于單個(gè)物體的抓取位姿估計(jì)，雙層結(jié)構(gòu)和更深層 ResNet-50 網(wǎng)絡(luò)在估計(jì)準(zhǔn)確率上并沒有突出的表現(xiàn)，反而單層結(jié)構(gòu) VGG-16 的方法在運(yùn)行時(shí)間上有明顯的優(yōu)勢。

相比于改進(jìn)前，改進(jìn)后位姿估計(jì)的抓取角度連續(xù)化，更加趨于物體的偏轉(zhuǎn)角度。
通過實(shí)驗(yàn)測量，計(jì)算出改進(jìn)后的預(yù)測抓取角度與目標(biāo)的實(shí)際偏轉(zhuǎn)角度平均誤差小于2.47°。

3.3 機(jī)械臂抓取實(shí)驗(yàn)

抓取對(duì)象通過膠水固定在亞克力板上，硅膠起傳導(dǎo)作用力和避免較大扭矩?fù)p壞設(shè)備的作用。

抓取系統(tǒng)的坐標(biāo)轉(zhuǎn)換流程如下。

相機(jī)首先獲取圖像的二維像素坐標(biāo)，通過相機(jī)的深度信息和內(nèi)參數(shù)據(jù)將圖像像素坐標(biāo)轉(zhuǎn)換到基于相機(jī)坐標(biāo)系下三維坐標(biāo)；
利用手眼標(biāo)定的關(guān)系矩陣，將相機(jī)坐標(biāo)系下的坐標(biāo)轉(zhuǎn)換成機(jī)械臂基座坐標(biāo)系下的三維坐標(biāo)，最終實(shí)現(xiàn)了抓取目標(biāo)到機(jī)械臂基座坐標(biāo)系下的坐標(biāo)轉(zhuǎn)換。

【論文筆記】基于深度學(xué)習(xí)的視覺檢測及抓取方法
文章來源地址http://www.zghlxwxcb.cn/news/detail-419954.html

設(shè)置 UR5 機(jī)械臂抓取拍照等待位姿，坐標(biāo)為 $x_{0}, y_{0}, z_{0})$ ，兩指機(jī)械手偏轉(zhuǎn)角度為 0°；
相機(jī)獲取目標(biāo)圖像，計(jì)算機(jī)處理數(shù)據(jù)，輸出目標(biāo)抓取點(diǎn)的坐標(biāo) $(x, y, z)$ 和偏轉(zhuǎn)角度 $θ$ 信息；
控制兩指機(jī)械手偏轉(zhuǎn) θ 角度，機(jī)械臂由等待位 $x_{0}, y_{0}, z_{0})$ 移到抓取位 $(x, y, z)$ ，準(zhǔn)備抓??；
氣動(dòng)控制兩指機(jī)械手閉合，完成物體抓取，然后機(jī)械臂根據(jù)目標(biāo)檢測結(jié)果進(jìn)行相應(yīng)分類
放置；
完成放置操作后，機(jī)械臂回到初始拍照等待位置；
如果繼續(xù)抓取，則返回步驟 1；否則，抓取任務(wù)結(jié)束。

4 結(jié)論

到了這里，關(guān)于【論文筆記】基于深度學(xué)習(xí)的視覺檢測及抓取方法的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！