近年来,神经网络的发展已经为各种机器学习任务带来了显著的效果,基于
卷积神经网络(convolu-tional neural networks,CNN)的特征表示已经被证明
在视觉识别任务上是十分有效的
[1-2]
。尤其是 CNN 在 ImageNet 数据集中测试
达到了非常高的准确率,深度神经网络便成为了机器学习领域的一个重要的分
支。深度神经网络已经被证明具有强大的特征表示能力,传统的深度网络模型
只建立在单个域上,难以获得可迁移的深度表示。深度神经网络的较高准确率
依赖于大量的带有人工标签的数据集来进行训练,对原始数据集进行人工标注
的成本是十分昂贵的,这成为阻碍深度神经网络进一步发展的关键因素。另外,
由于计算机视觉中的各种因素(例如分辨率、视点、天气状况等),有些应用
数据的分布会随着时间的推移而发生变化,会造成训练集和测试集的数据分布
不匹配,而传统的深度神经网络是基于数据同分布假设的,这样训练出来的网络
会在训练集上表现出良好的效果,但是在测试集上表现出的分类性能会大大降
低。一个很好的应用场景的例子是用于车牌号识别的分类器对于在雨天场景下
的车牌号识别效果会很差。对于如何解决标签不足,训练数据与测试数据分布
不同的问题是深度神经网络所面临的一个重要挑战。
域适应算法通过使用未标记的测试数据有效地解决了上述问题,未标记的
测试数据为分类器的训练提供了辅助信息,与仅使用训练数据来学习的分类器
相比精度有了明显的提高,从而避免了对测试数据重新进行标记的工作。常用
的领域自适应方法主要有三种,分别是基于样本选择的方法
[3⇓ -5]
、基于模型参数
关系的方法
[6-7]
和基于特征变换的方法
[8⇓ -10]
。本文关注的是基于模型参数关系的
方法,基于模型参数关系的深度域适应的主要任务是将源域和目标域的数据从
原始特征空间映射到一个新的特征空间。在该特征空间中,源域数据和目标域
数据的数据分布是相同的。通过利用机器学习算法对带有标签的源域数据进行
分类,从而实现对未被标注的目标域数据进行分类。
国内外学者已提出很多域适应方法
[11⇓ -13]
。迁移的概念最初是由 Pratt 等人
在 1991 年首次提出的,并且进一步介绍了神经网络之间的迁移
[14]
。近年来,域
适应问题引起了广泛的关注,在计算机视觉领域也被叫作数据集偏差问题,主要
应用于对象识别,很多迁移学习或域适应方法
[15-16]
通过将源域风险、领域之间的
差异和联合误差的凸组合最小化来预测目标域数据集的误差上限。具体而言,
给定一个带标签的源域数据 DS 和一个不带标签的目标域数据 DT,根据 Ben-
David 定理
[15]
,目标域的风险 ET(h)能够结合源域风险 ES(h)和领域之间的差异
评论0
最新资源