AIGB | 做一个有用的人

AIGB

发表于 2023-03-30 更新于 2024-01-31 分类于 AIGC 阅读次数： Valine：

ALTCLIP

目的：多语言版本多模态文本模型，主要想得到 text encoder，image encoder固定
论文：https://arxiv.org/abs/2211.06679
做法：

![image-20230330140536968](/Users/baai/Library/Mobile Documents/com~~apple~~CloudDocs/Blog/source/_posts/AIGC/ALTCLIP.png)
- 两阶段训练
  - 阶段1：
    - 目的：XLMR在保持多语言能力的同时，从CLIP中获取两种语言的文本-图像对齐能力
    - teacher：权重固定的 clip text encoder
    - student：Facebook的多语言NLP模型XLMR
    - 数据：语言平行语料
    - 任务设计：xlmr和clip_text_encoder的mse
  - 阶段2：
    - 目的：对比学习，微调模型，进一步提升图文对齐能力
    - teacher：权重固定的clip image encoder
    - student：一阶段训练之后的XLMR
    - 数据：图文对数据
    - 任务设计：图文对比学习

latent diffusion

论文地址：https://arxiv.org/abs/2112.10752
代码地址：https://github.com/CompVis/latent-diffusion
博客文章：
- https://zhuanlan.zhihu.com/p/563543020
- https://zhuanlan.zhihu.com/p/582693939
训练方式：两阶段
- 阶段1：训练autoencoder
- 阶段2：训练LMD
stable diffusion

赏杯咖啡！

本文作者： ShiXiaofeng
本文链接： http://xiaofengshi.com/2023/03/30/AIGC/
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！