2022年多模态领域的一篇很棒的工作,由ALBEF原班人马打造,结合了ALBEF和VLMO的共同优点,提出了统一结构的多阶段多模态模型,此外提出了一套可行的基于caption-filter的数据筛选self-training策略,值得一读。

论文链接:https://arxiv.org/abs/2201.12086

主要参考b站:多模态论文串讲·下【论文精读·49】

BLIP的贡献值主要有两个

  1. 模型层面,提出了encoder-decder的多模态结构,弥补了encoder-based的结构,例如CLIP这种做不了生成任务,Fusion-encoder模型结构例如ALBEF、VLMo没办法直接用来做retrieval的问题;
  2. 数据层面,提出了基于image-caption和image-text-filter策略的数据过滤方法,该操作显著提升了模型的性能,这种方式可以当做一个通用的数据筛选策略。
阅读全文 »

从2020年8月左右开始接触多模态,当时也是业界多模态刚起步的阶段,到现在为止,经过了两年半左右的时间,多模态也经历了一系列的发展和工业界应用,这里进行一下总结回顾。

阅读全文 »

NLP和多模态不分家,并且目前NLP走在多模态的前面,在另一篇文章中大概说了下截止2022年的一些代表性的工作,在本篇主要归纳总结一下NLP的发展。

nlp2022_overview

阅读全文 »

最近和同学@liguoqing.sant有聊到图像检索相关方面的工作,主要是这么一篇论文 Learning Non-Metric Visual Similarity for Image Retrieval,本篇文章主要结合个人理解来记录一下这篇论文。

如图,左侧是我们常用的度量学习方法,右侧是本论文提出来的使用一个similarity-network来代替常用的线性度量方程。

阅读全文 »

在目标检测领域,为了判断预测框和gt之间的重叠程度 ,一般情况下使用iou来表示,本篇主要分析IoU以及相关改进,主要涉及iou,giou,diou,ciou。

阅读全文 »

本篇主要记录 一下softmax-loss以及相关变体,该loss的发展主要有人脸识别领域推进,本篇中主要借鉴人脸是识别中的相关Loss。

阅读全文 »