视觉编码器的发展

本篇主要总结一下当前视觉模型的发展,算是一个论文汇总,主要包含: EVA,PAINTER,VIT22B,MAE,SWIN-T等模型

默认对Vit已经有所了解了。

EVA

  • 论文地址:https://arxiv.org/abs/2211.07636
  • 关键词:简单,高效,无需图文对数据
  • 想干什么:训练一个视觉大模型
  • 怎么干:结合了视觉模型的两个路子,Beit的MIM任务和模型蒸馏
  • EVA怎么训练
    • 模型结构:一个足够深的VIT模型,VIT-G,参数量 1B
    • 任务设计:MIM
    • 拟合目标:CLIP模型视觉编码器的对应patch的特征
    • Loss设计:cosine
    • 数据量:29.6M 无标签数据,只需要图片即可
    • 表现如何:sota

MAE

  • 目的:获取视觉编码器
  • MAE怎么训练
    • 图片切分patch,使用75%比例进行mask
    • encoder只接受未mask的视觉patch
    • decoder的输入为encoder输出和mask位置的MASK_EMB
    • encoder负责进行图片编码,decoder负责mask patch的pixel 复原
    • 任务设计:mask位置的像素复原,各patch归一化之后的mse
赏杯咖啡!