无监督场景图对齐的图像字幕生成方法

PDF格式 | 2.85MB | 更新于2025-01-16 | 29 浏览量 | 举报

"基于场景图的图像字幕生成方法通过无监督特征对齐技术，实现了在没有成对图像字幕数据集的情况下生成图像字幕。该方法由图像场景图生成器、句子场景图生成器、场景图编码器GS ENC和句子解码器组成，旨在解决获取大规模图像-字幕配对数据的难题。" 基于场景图的图像字幕生成方法是一种创新的技术，它主要针对当前图像字幕模型过度依赖大量图像与对应文字描述的配对数据的问题。这种依赖性使得在其他语言或大规模数据集上的应用变得困难和昂贵。文章中提到的模型采用了无监督学习的方式，减少了对人工标注数据的依赖。模型结构主要包括四个关键部分： 1. 图像场景图生成器：利用计算机视觉技术，如深度学习的卷积神经网络（CNN），从图像中提取场景图信息，识别图像中的对象和它们之间的关系。 2. 句子场景图生成器：在文本模态上工作，能够从句子中生成场景图，这通常涉及自然语言处理技术，如递归神经网络（RNN）或者现代的Transformer架构。 3. 场景图编码器GS ENC：这是一个重要的组件，它负责将图像和文本模态的场景图特征进行编码，并通过无监督的特征对齐方法，将图像的场景图形特征映射到句子模态。这一过程有助于跨模态的理解和信息传递。 4. 句子解码器：接收经过编码的场景图信息，然后生成与输入图像相匹配的字幕。通常采用RNN或Transformer等序列生成模型，将编码后的信息解码为连贯的文字描述。提出的无监督特征对齐方法是该模型的核心创新，它允许模型在没有直接的图像-字幕配对情况下学习到有效的表示。实验结果显示，即使不使用任何图像字幕配对作为训练数据，这种方法也能产生高质量的字幕，且性能优于传统方法。在当前的图像字幕生成研究中，大多数工作集中在英语上，这主要是因为大规模的多语言图像-字幕数据集的获取成本高。通过无监督学习，这种方法可以扩展到其他语言，从而克服了语言和数据集的限制，为多语言图像字幕生成提供了可能。此外，该方法受到无监督神经机器翻译的启发，其中编码器-解码器模型被用来在源语言和目标语言之间共享潜在表示，通过训练去噪自动编码器进行语言建模。尽管这种方法在无监督神经机器翻译中取得了初步的成功，但在图像字幕生成领域，它展示出更大的潜力和应用价值。基于场景图的图像字幕生成方法提供了一个新的视角来处理跨模态理解和生成问题，通过无监督学习和特征对齐技术，为多语言环境下的图像字幕生成开辟了新的道路。

10325

我

Dec

它的地面实况说明用于图像字幕的流行的编码器-解码

器框架可以公式化为：

其中

（f

）是图形编码器，

（

）是基于

RNN

的句子解码器，并且

（

）是未配对设置中

的跨模态特征映射器。在我们的实施方案中

（

）

（

）

（

（五

）

` ˛¸ X `

联

系我们

（一）

在此基础上，我们学习了场景图编码器和基于RNN的

编码器

解码器

解码器的文本模态第一，然后我们试图映射

其中编码器P（V|I）利用CNN模型将图像I编码为图像

特征

[16]，并且解码器

（

S|V

）从图像特征V预测图

像描述S。最常见的训练目标

是最大化地面实况字幕的

概率

给定图像的单词：

log

I→S

（

：

t-1

，

），其中

将图像场景图形化到公共特征空间（

即

，文本空

间），使得可以使用相同的句子解码器从映射的图像

特征解码句子。

句子编码和解码过程可以用公式表示为以下两个步

骤：

→ G

（

）

→

（

：

−

，

）对应于

Softmax

输出，

时间步长t 在推理过程中，S

这个词是从

根据Softmax分布的字典

3.2.

不成对图像字幕

在未配对的图像字幕设置中，我们具有图像

{

，

. . .

，

}

，以及句子

{

，

. . .

，

}

，

其中

和

分别

是图像和句子的

总数。在这种情

况

下，

和

之间没有对齐。事实上，

和

可能来自

两个不同的域完全不相关。我们的目标是训练一个

图像字幕模型，在一个完全无监督的方式。在我们

的设置中，我们假设我们可以访问现成的图像场景

图

检测器和句子（或文本）场景图解析器。

如图1所示，我们提出的图像字幕模型由一个图像

场景图生成器、一个句子场景图生成器、一个场景图

编码器

、一个用于句子生成的基于注意力的解码器

GS和一个循环一致的特征对齐模块组成给定图像I作

为输入，我们的方法首先使用场景图生成器提取图像

场景图

然后，它将

映射到句子场景图

，基于

RNN的解码器从句子场景图G S生成句子

。更正式地

说，IM-

年龄字幕

（

S|I

）可以分解成以下子模型，

→ G

（

）

（

）

（

）

（

）

其中

是

重构

的句子。我们训练该模型，以使

接近原始

句子

。

在下文中，我们在第二节中描述场景图生成器。

3.2.1、第二节场景图形编码器3.2.2节中的3.2.3，和我

们的不成对的特征映射过程在第二节。3.2.4.

3.2.1

场景图形生成器

形式上，场景图是包含一组节点

和一组边

的图

（

，

）。如图1所示，节点可以是三种类型：对象

节点、属性节点和关系节点。我们将

表示为第

个

对

象，将

，

表示为对象

和

之间的关系，将

表示为

对象

的第l个属性。

图像场景图生成器包含对象检测器、属性分类器和

关系分类器。我们使用Faster-RCNN [27]作为对象检测

器，MOTIFS

[39]作为关系检测器，以及用于属性识别的附加分类

器[35]。

为了生成句子的句子场景图

，我们首先使用[2]提

供的解析器将句子解析成句法树，该解析器使用[21]

构建的句法依赖树。然后，我们使用基于规则的方法

将树转换为场景图[29]。

（

）=

（G

）

` ˛¸

不成对映射

（

）

` 联系

我们

解码器

（三）

3.2.2

场景图编码器

其中

和

分别是图像场景图和句子场景图。Eq.中最

关键的组件。（3）是图像和文本场景图的不成对映

射。在我们的方法中，这种映射是在特征空间中完成

的。特别是，我们将图像和句子场景图编码为特征向

量，并学习在两种模态之间映射我们重新定义方程。

（3）如下：

（

）

（

| G

）

（

| G

）

≈

（

）

| G

）

（

）

（

）

（

）

剩余13页未读，继续阅读

cpongm

粉丝: 5

无监督场景图对齐的图像字幕生成方法

场景图字幕：基于结构视觉表示的图像字幕

卫星图像字幕生成数据集.zip

使用基于场景图的语义概念对图像进行字幕

在生成风格化图像字幕时，如何结合自适应学习方法和LSTM变体来平衡事实知识与风格元素的表达？

如何在深度学习模型中应用CMPM和CMPC损失函数以提高图像与文本的匹配性能？请结合实际应用场景给出示例。

marscode图像判断

2d字幕转3d字幕软件

深度自然语言处理课程设计图片转文字

生成式视觉语言大模型训练原理

yolov8 ptb

最新资源