本篇主要总结一下当前视觉模型的发展,算是一个论文汇总,主要包含: EVA,PAINTER,VIT22B,MAE,SWIN-T等模型
默认对Vit已经有所了解了。
EVA
- 论文地址:https://arxiv.org/abs/2211.07636
- 关键词:简单,高效,无需图文对数据
- 想干什么:训练一个视觉大模型
- 怎么干:结合了视觉模型的两个路子,Beit的MIM任务和模型蒸馏
- MIM:可以看做最强的视觉低纬度特征学习,可以在具有弱语义和运动任务重表现出色
- 模型蒸馏
- https://arxiv.org/pdf/2205.14141v3.pdf https://zhuanlan.zhihu.com/p/563288232
- 可以使student模型在不经过teacher模型复杂任务的前提下获得优异的性能。
- teacher一般选择clip模型
- EVA怎么训练
- 模型结构:一个足够深的VIT模型,VIT-G,参数量 1B
- 任务设计:MIM
- 拟合目标:CLIP模型视觉编码器的对应patch的特征
- Loss设计:cosine
- 数据量:29.6M 无标签数据,只需要图片即可
- 表现如何:sota
MAE
- 目的:获取视觉编码器
- MAE怎么训练
- 图片切分patch,使用75%比例进行mask
- encoder只接受未mask的视觉patch
- decoder的输入为encoder输出和mask位置的MASK_EMB
- encoder负责进行图片编码,decoder负责mask patch的pixel 复原
- 任务设计:mask位置的像素复原,各patch归一化之后的mse