MLP-mixer是最近很流行的一種網(wǎng)絡(luò)結(jié)構(gòu),比起Transformer和CNN的節(jié)構(gòu)笨重,MLP-mixer不僅節(jié)構(gòu)簡(jiǎn)單,而且在圖像識(shí)別方面表現(xiàn)優(yōu)異。但是MLP-mixer在點(diǎn)云識(shí)別方面表現(xiàn)欠佳,PointMixer就是在保留了MLP-mixer優(yōu)點(diǎn)的同時(shí),還可以很好的處理點(diǎn)云問題。PointMixer可以很好的處理intra-set, inter-set, hierarchical-set的點(diǎn)云。PointMixer這偏論文還很好的證明了chanel-mixing MLP是比token-mixing MLP效果更好,對(duì)稱encoder和decoder結(jié)構(gòu)能夠更好的處理點(diǎn)云問題。
為了方便論文闡述,做以下規(guī)定:
P是點(diǎn)云的總和
X是點(diǎn)云特性的總和
Y是output特性的總和
pi是i點(diǎn)云的位置
xi是i點(diǎn)云相關(guān)的特性
yi是i點(diǎn)云output的特性
Mi是pi點(diǎn)周圍鄰居點(diǎn)的集合,常表示為Mi = kNN(P, pi)
PointNet++: 使用kNN和最遠(yuǎn)點(diǎn)sampling算法,使用不對(duì)稱的encoder和decoder。PointNet++網(wǎng)絡(luò)不對(duì)整個(gè)點(diǎn)云直接分析,而是locally的處理然后再整合在一起。
yi = maxpooling(MLP(concat(xi, pi - pj)));j是Mi的成員
PointTransformer: 也是使用了kNN的方法
yi = sum(softmax(MLP(W1(xi) - W2(xj) + δ(pi - pj)))(W3(xj) + δ(pi - pj)))
W為linear transformer metric,δ為positional encoding vector。
MLP-Mixer: MLP-mixer分為token-mix MLP和channel-mix MLP, MLP-Mixer使用K個(gè)tokens有C維features, tokens是將圖片分割成小塊。 第一步是token-mixing MLPs, 第二步時(shí)channel-mixing MLP, token mixing是混合空間軸和維度軸到空間軸,channel-mixing是將空間信息轉(zhuǎn)為維度和空間信息。
MLP-Mixer將CNN的兩個(gè)任務(wù)切割開來,不同位置的mix叫token-mixing,同一位置不同channel的mix叫做channel-mixing。
X’ = X + (W2ρ(W1(Layernorm(X))T))T
Y = X’ + W4ρ(W3Layernorm(X’))
W是MLP,ρ是GELU
token-mix MLPs具有轉(zhuǎn)置同變性,所以點(diǎn)云的輸入順序特別重要。需要在token-mix前再加一層轉(zhuǎn)置不變的網(wǎng)絡(luò)。
并且MLP-mixer只能處理inter-set的點(diǎn)云,還有很大的提升空間。
https://zhuanlan.zhihu.com/p/372692759
PointMixer:
sj = g2(concat(g1(xj); δ(pi - pj))); j屬于Mi, g是channel-mix MLP, δ是positional encoding vector
yi = sum(softmax(sj) * g(xj)); 這里的乘法的element-wise
PointMixer的主要?jiǎng)?chuàng)新點(diǎn)是使用了positional embedding, 使用了softmax,不使用token-mix MLP
為什么不使用token-mix? token-mix MLP具有轉(zhuǎn)置同變性的缺點(diǎn),而且token-mix只能使用固定數(shù)量的輸入,但是對(duì)于點(diǎn)云來說,neighbor不是固定的,要用聚類算法。
intra-set mixing 使用最傳統(tǒng)的kNN
inter-set mixing 使用變種的query-kNN
hierarchical-set mixing 使用變種的hierarchical-kNN文章來源:http://www.zghlxwxcb.cn/news/detail-826046.html
對(duì)稱性也表現(xiàn)在kNN的集合里面,encoder和decoder的M集是完全顛倒的。文章來源地址http://www.zghlxwxcb.cn/news/detail-826046.html
到了這里,關(guān)于PointMixer論文閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!