论文阅读Vision-Language Models for Vision Tasks A Survey思维导图
Vision-Language Models for Vision Tasks: A Survey Vision-Language Models (VLMs)是一种深入学习技术,它可以将图像和文本信息融合在一起,以便更好地理解和处理图像信息。本survey对VLMs的发展进行了系统的总结和分析。 VLMs的发展历程 从传统机器学习到深度学习的转变带来了两个新挑战:经典的深度学习从头开始,DNN训练收敛缓慢,在DNN训练中收集数据耗时耗力。为了解决这些挑战,VLMs wurden entwickelt,which can learn to represent images and text in a joint embedded space. VLMs的五个阶段 1. Traditional Machine Learning and Prediction: 是、是、是 2. Deep Learning from Scratch and Prediction: 否、是、是 3. Supervised Pre-training, Fine-tuning and Prediction: 否、是、是 4. Unsupervised Pre-training, Fine-tuning and Prediction: 否、否、是 5. VLM Pre-training and Zero-shot Prediction: 否、否、否 VLMs的预训练 VLMs的预训练是学习图像-文本相关性。它包括三个模块:图像编码器、文本编码器和特征融合。图像编码器使用基于CNN的架构或基于Transformer的架构来提取图像特征。文本编码器使用Transformer及其变体来提取文本特征。特征融合则是将图像和文本特征融合在一起。 VLMs的预训练目标 VLMs的预训练目标包括对比式目标、masked image modeling、masked language modeling和masked cross-modal modeling等。这些目标都是为了学习图像和文本之间的关系。 VLMs的下游任务 VLMs可以应用于各种下游任务,如图像分类、语义分割、对象检测、图像-文本检索等。这些任务都可以使用VLMs来提高性能。 VLMs的迁移学习 VLMs的迁移学习是指将预训练的VLM模型应用于下游任务。这种方法可以提高下游任务的性能,因为预训练的VLM模型已经学习到了通用的图像和文本特征。常见的迁移学习方法包括supervised transfer、few-shot supervised transfer、unsupervised transfer等。 VLMs的知识蒸馏 VLMs的知识蒸馏是指将通用且鲁棒的VLM知识转移到特定任务模型中,以提高任务性能。这种方法可以处理各种复杂的密集预测任务,并充分利用最先进的任务特定架构的优势。

























- 粉丝: 168
- 资源: 1
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 基于Lua语言的U3D宫格与面板设计源码学习案例
- KEY_S0015 51单片机信号发生器.zip666
- 基于Vue的勤工俭学后端项目设计源码
- 基于腾讯云TRTC平台的实时音视频终端组件设计源码
- 基于Netty的MobileIMSDK移动端IM通信层框架设计源码
- 基于Python的案例库管理系统设计与实现源码
- 基于C语言的电子墨水屏代码设计源码
- 基于Vue框架的综合性法律项目设计源码
- 基于Java和Lua语言的O2O****项目设计源码
- 基于Python的ChineseNMT机器翻译设计源码
- 基于Jupyter Notebook的Python编程技巧分享设计源码
- 基于Jupyter Notebook的互联网三班测试设计源码
- Golang入门到实践:构建你的第一个项目基础教程
- 春节主题Python编程基础教程
- JavaEE框架项目实战:搭建企业级电商系统基础教程
- CC++源码解析与实战应用基础教程


