做一个有用的人

[论文精读]BLIP-多任务结构统一与数据筛选策略

发表于 2023-02-13 更新于 2023-02-17 分类于多模态阅读次数： Valine：

2022年多模态领域的一篇很棒的工作，由ALBEF原班人马打造，结合了ALBEF和VLMO的共同优点，提出了统一结构的多阶段多模态模型，此外提出了一套可行的基于caption-filter的数据筛选self-training策略，值得一读。

论文链接：https://arxiv.org/abs/2201.12086

主要参考b站：多模态论文串讲·下【论文精读·49】

BLIP的贡献值主要有两个

模型层面，提出了encoder-decder的多模态结构，弥补了encoder-based的结构，例如CLIP这种做不了生成任务，Fusion-encoder模型结构例如ALBEF、VLMo没办法直接用来做retrieval的问题；
数据层面，提出了基于image-caption和image-text-filter策略的数据过滤方法，该操作显著提升了模型的性能，这种方式可以当做一个通用的数据筛选策略。

阅读全文 »

炼丹技巧-对比学习的应用

发表于 2023-02-10 阅读次数： Valine：

[论文精读]ALBEF-跨模态交互前对齐

发表于 2023-02-10 阅读次数： Valine：

截止2022多模态进展

发表于 2023-02-10 更新于 2023-02-15 分类于深度学习，多模态阅读次数： Valine：

从2020年8月左右开始接触多模态，当时也是业界多模态刚起步的阶段，到现在为止，经过了两年半左右的时间，多模态也经历了一系列的发展和工业界应用，这里进行一下总结回顾。

mm-overview2022

阅读全文 »

截止2022NLP进展

发表于 2023-02-10 更新于 2023-02-15 分类于深度学习， NLP 阅读次数： Valine：

NLP和多模态不分家，并且目前NLP走在多模态的前面，在另一篇文章中大概说了下截止2022年的一些代表性的工作，在本篇主要归纳总结一下NLP的发展。

阅读全文 »

深度学习-None_Metric

发表于 2020-06-03 更新于 2020-06-05 分类于图像检索阅读次数： Valine：

最近和同学@liguoqing.sant有聊到图像检索相关方面的工作，主要是这么一篇论文 Learning Non-Metric Visual Similarity for Image Retrieval，本篇文章主要结合个人理解来记录一下这篇论文。

如图，左侧是我们常用的度量学习方法，右侧是本论文提出来的使用一个similarity-network来代替常用的线性度量方程。

阅读全文 »

Loss-IOUs

发表于 2020-03-21 更新于 2020-06-03 分类于深度学习， Loss 阅读次数： Valine：

在目标检测领域，为了判断预测框和gt之间的重叠程度，一般情况下使用iou来表示，本篇主要分析IoU以及相关改进，主要涉及iou，giou，diou，ciou。

阅读全文 »

轮子合集

发表于 2020-03-21 更新于 2024-01-31 阅读次数： Valine：

GPU&&Speed

apex: https://github.com/NVIDIA/apex
Deepspeed: https://github.com/microsoft/DeepSpeed

图像

图像增强: https://albumentations.ai/

服务搭建

https://thriftpy.readthedocs.io/en/latest/

conda

修改conda安装路径： https://zhuanlan.zhihu.com/p/265660902

conda环境迁移打包：https://zhuanlan.zhihu.com/p/87344422

Loss-softmax-based

发表于 2020-03-17 分类于深度学习， Loss 阅读次数： Valine：

本篇主要记录一下softmax-loss以及相关变体，该loss的发展主要有人脸识别领域推进，本篇中主要借鉴人脸是识别中的相关Loss。

阅读全文 »

AwesomesErrors

发表于 2020-02-25 分类于 Awesomes 阅读次数： Valine：

本篇主要记录深度学习过程中遇到的各种bug，error以及对应的解决方法。

阅读全文 »