ALTCLIP
目的:多语言版本多模态文本模型,主要想得到 text encoder,image encoder固定
做法:
- 两阶段训练
- 阶段1:
- 目的:XLMR在保持多语言能力的同时,从CLIP中获取两种语言的文本-图像对齐能力
- teacher:权重固定的 clip text encoder
- student:Facebook的多语言NLP模型XLMR
- 数据:语言平行语料
- 任务设计:xlmr和clip_text_encoder的mse
- 阶段2:
- 目的:对比学习,微调模型,进一步提升图文对齐能力
- teacher:权重固定的clip image encoder
- student:一阶段训练之后的XLMR
- 数据:图文对数据
- 任务设计:图文对比学习
- 阶段1:
- 两阶段训练