綜述參考:https://zhuanlan.zhihu.com/p/598785102
2020 VIT
代碼庫 https://github.com/lucidrains/vit-pytorch 只有分類任務(wù),有訓(xùn)練的測試。有各種各樣的vit模型結(jié)構(gòu)。
原文 https://arxiv.org/abs/2010.11929
2021 Swim Transformer
https://arxiv.org/abs/2103.14030
v2 https://arxiv.org/pdf/2111.09883.pdf
code and pretrain_model https://github.com/microsoft/Swin-Transformer
2021 Video Swin Transformer
zhihu https://zhuanlan.zhihu.com/p/411797103 https://zhuanlan.zhihu.com/p/401341051
paper https://arxiv.org/abs/2106.13230
code & pretrain model https://github.com/SwinTransformer/Video-Swin-Transformer
2021 CLIP
論文 https://arxiv.org/abs/2103.00020
代碼 https://github.com/openai/CLIP
Blog https://openai.com/blog/clip/
討論 https://www.zhihu.com/question/438649654
2021 MAE
IMAGE_MAE
介紹 https://zhuanlan.zhihu.com/p/497637669
論文 https://arxiv.org/abs/2111.06377
代碼 https://github.com/facebookresearch/mae/blob/main/models_mae.py
BEiT系列
https://zhuanlan.zhihu.com/p/558427525
2021 BEiT
論文 https://arxiv.org/pdf/2106.08254.pdf
代碼及開源模型 https://github.com/microsoft/unilm/tree/master/beit
博客 https://www.zhihu.com/question/478187326
2022 BEiTv2
論文 https://arxiv.org/abs/2208.06366
代碼 https://github.com/microsoft/unilm/tree/master/beit2
討論 https://www.zhihu.com/question/548722860 https://zhuanlan.zhihu.com/p/567855526
參考:https://zhuanlan.zhihu.com/p/581220139
我們來講Moco v3的代碼。
論文的主要內(nèi)容,參考系列首篇:自監(jiān)督學(xué)習(xí)Visual Transformers(ViT)的訓(xùn)練經(jīng)驗(Moco v3) – 論文解析
官方代碼鏈接:
https://github.com/facebookresearch/moco-v3
但現(xiàn)在最佳的模型是微軟的EsViT(Swin-B),然后才是Moco v3,下面是來自https://paperswithcode.com/的統(tǒng)計:
這張圖最后邊的點是EsViT(Swin-B),圖中文字沒顯示出來。
這個模型也公開了源代碼:文章來源:http://www.zghlxwxcb.cn/news/detail-409955.html
https://github.com/microsoft/esvit文章來源地址http://www.zghlxwxcb.cn/news/detail-409955.html
到了這里,關(guān)于Vision Transformer(VIT)調(diào)研的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!