VIT

#transformer
李沐: https://www.bilibili.com/video/BV15P4y137jb/?spm_id_from=333.788&vd_source=27c6f8b829f0dd33f5100074447c107e
后续:vit-FRCNN(detection) SETR(segmentation) swin-Transformer
VIT-G
iGPT,MAE(生成式网络)

内容

学习BERT,增加一个cls(extra learnable class embedding),在attention后可以获取到其他token的信息。
VIT-4.png
如果直接用GAP(Global Average Pooling(在过encoder之后,用GAP处理一下token,即可得到输出特征),也是work的,但是lr要低一些
VIT-5.png

postion embedding

1D

向量 1 2 3 4 5 --- 9 (196×768),本文

2D

矩阵,(14×14×768) 和1D

relative positional embedding

不使用绝对距离,使用相对距离(offset)

conclude

performence差不多,可能是网络感知patch之间位置很简单,so哪种方案都可以

一些分析

vit是比较纯粹的transformer,大部分不包含vision的特征与trick。
比如inductive bias(归纳偏置):locality局部性,还有!translation equivariance
而ViT只有MLP存在这个,在中小dataset差一些,但在大dataset就work了

VIT-6.png