VIT

#transformer
李沐： https://www.bilibili.com/video/BV15P4y137jb/?spm_id_from=333.788&vd_source=27c6f8b829f0dd33f5100074447c107e
后续：vit-FRCNN(detection) SETR(segmentation) swin-Transformer
VIT-G
iGPT，MAE（生成式网络）

内容

学习BERT，增加一个cls（extra learnable class embedding），在attention后可以获取到其他token的信息。

如果直接用GAP(Global Average Pooling（在过encoder之后，用GAP处理一下token，即可得到输出特征），也是work的，但是lr要低一些

postion embedding

1D

向量 1 2 3 4 5 --- 9 ( $196 \times 768$ )，本文

2D

矩阵，( $14 \times 14 \times 768$ ) 和1D

relative positional embedding

不使用绝对距离，使用相对距离（offset）

conclude

performence差不多，可能是网络感知patch之间位置很简单，so哪种方案都可以

一些分析

vit是比较纯粹的transformer，大部分不包含vision的特征与trick。
比如inductive bias(归纳偏置)：locality局部性，还有!translation equivariance
而ViT只有MLP存在这个，在中小dataset差一些，但在大dataset就work了