自适应样式和内容用于参与文本序列识别

avatar
阿里巴巴 前端委员会智能化小组 @阿里巴巴

译/阿里淘系 阿里拍卖-  烨安

原作者:Steven Schwarcz、 Alex Gorban、Dar-Shyang Lee、Xavier Gibert,发表于 IEEE Winter Conference on Applications of Computer Vision (WACV)(2020)

原文链接:research.google/pubs/pub488…

摘要

在本文中,我们实现了训练学习没有标签的语言数据,对路名标志照片的完成序列OCR的目标。我们的方法是,通过结合基于梯度反转的领域自适应技术和多任务学习方案,利用易于生成的合成数据和另一种有标签语言的数据,在未标记图像上实现合理的表现。为了实现此目的,我们采用并发布了两个新的数据集-希伯来街道名称标志(HSNS)和合成希伯来街道名称标志(SynHSNS)-同时还利用了现有的法国街道名称标志(FSNS)数据集。我们证明了通过使用希伯来语字符的合成数据集和自然图像中法国街道名称标志的标记数据集,可以改进对真实的希伯来语街道名称转录的效果,其中合成的希伯来语数据和真实的法语数据与我们希望转录的希伯来语数据有不同特征的重叠。

1.引言

目前使用字母表的语言有8组:阿拉伯语,亚拉姆语,亚美尼亚语,梵语,西里尔字母,格鲁吉亚语,希腊语和拉丁语-每个语言被广泛使用于各种语言的总多方言之中。这些语言中大部分都很难以合理的代价找到熟练的操作人员为大型数据集标上标签。如果没有更好的方法来为新语言训练一个系统,那么构建真实文字图像的文本识别系统就不现实,比如支持非拉丁语言的谷歌街景。

目前,大多数的序列OCR系统都是使用真实数据和合成数据混合的方式去训练[18,43],对于印刷文件和书籍,合成数据和真实数据是没有什么差别的,有许多方法可以构建一个泛化的OCR模型。但对于野外图像的文本识别问题,如路牌,合成的文本渲染与真实图像之间的差距太大。因此,大多数现有的OCR方法不能推广并且需要大量的标签。

我们提出的算法解决了这个问题,不需要新的人工标签。相反,我们只需要使用一些合成数据集和另一种不相关语言的现有数据集就可以实现对新语言的识别。

我们的实验表明,在训练中加入另一种语言实际上可以减少对更真实的合成数据的需求。神经网络从合成数据中学习第一种语言的“内容”,同时学习来自第二种语言的真实图像的“风格”。我们使用希伯来语作为我们的目标语言,使用法语作为我们现有的数据集来说明这种方法的有效性。我们有意保持合成数据相对简约,以强调系统不会使用合成数据来学习任何风格上的东西,而且因为我们相信,合成数据越不复杂,我们的算法就越实用。

有趣的是,尽管希伯来语(一种亚拉姆语)与法语(一种拉丁语言)没有相同的字形或字符,重要的学习还是发生了。因此,在我们的算法中没有任何固有的语言特性:理论上,法语数据集应该足以训练任何一门语言的系统,而不需要任何手动标记。

最后,为了确保我们的数据是可重复的,我们引入并发布了希伯来语街道标识(HSNS)和合成希伯来语街道标识(SynHSNS)数据集,我们在这些数据集上执行所有的实验。

image.png

图1:我们试图在不使用任何标记的训练数据的情况,只使用同一语言(希伯来语)的合成数据和使用完全不同的语言(例如法语)的有标记的真实数据的组合的情况下,用真实的影像转换成某种语言(希伯来语)。合成的希伯来数据集和真实的希伯来数据在内容上有重叠,法语数据集在风格上有重叠但在内容上没有。因此,来源是互补的;尽管它们彼此之间的重叠很少,但它们明显地覆盖了目标。

2.相关工作

2.1 领域自适应

在计算机视觉领域,大量的无监督和半监督领域自适应技术被发明和探索,特别是在图像分类领域[29,26,25,24,23,14],它也同样适用于语义分割等其他领域[47,27,16],以及对象构成识别[2]和对象检测[4,17],在所有的情况下,这些技术的目标都是使某个来源的域的分布和目标域的分布相匹配(编者:就是把分布不同的源域和目标域的数据,映射到一个特征空间中,使其在该空间中的距离尽可能近)。

在某些情况下,这是通过显式地匹配两个分布的矩来实现的。例如最大平均差异(Maximum Mean Discrepancy ,MMD)就是一种计算最小化两种分布平均值之间差异的范数的损失函数,在[37,20,3]有很好的效果。另外,[31]、[32]的工作在对其源域和目标域的二阶矩取得了很好的效果。

除了显式矩匹配技术,另一种技术称为梯度反转(Gradient Reversa,),已经成为深度领域自适应的一个强有力的范式,在许多深度领域适应系统中起着基础性的作用[3,4,16]。甚至被有效地用于完全超出计算机视觉范围的问题,如机器翻译[8]。在设置中,深层网络附加了一个判别器分支,该分支利用深层特征对来自源域或目标域的样本进行分类。该网络同时训练一个特征提取器,通过翻转判别器相对于特征提取器的梯度损失符号来欺骗判别器。

另一种与之密切相关的深度领域自适应的范例是使用对抗性学习的方法来最小化领域转换[36,15,2,26,27]。这些技术和GAN很相似,还可以使用判别器将两个特征分布推到一起。

领域自适应也被用于计算机视觉的各种文本相关的任务。例如,领域自适应技术已经被用于识别图像中的字体[42,41]。领域自适应也被应用于自然语言处理的问题[6,11,5],这是一个与OCR在语言建模和顺序处理相关的领域。

也有一些针对语言或者计算机视觉的风格自适应问题,虽然还没有一个应用于野外序列OCR的问题,最后,已经有各种技术可以利用不完整的数据训练系统。例如[7],通过增强现有数据以提高性能,从而使用来自其他语言的数据进行机器翻译[48]。

2.2 光学字符识别

光学字符识别(OCR)是识别图像中的一串字符的任务,现代的基于深度学习的OCR方法通常使用这样一个系统:首先使用卷积神经网络[18]提取特征,然后在随后的解码层提取文本[30,43]。特别地,[43]使用InceptionV3结构[34]的前几层来提取特征,然后把特征输入到LSTM来产生转录。

领域自适应在顺序OCR领域也得到了应用。当目标域包含大型语料库(如书籍)时,可以利用风格和语言一致性使用最大似然或期望最大化的MAP标准来实现高斯分布模型的微调[28,39]。这也类似于使用与说话者无关的HMM模型[10]的说话者自适应。在最近的研究中[46,40],风格和内容分离已经有效地将数字识别从MNIST提升到SVHN数据集。

最后,我们注意到,虽然许多上述图像分类任务展示它们在MNIST[19]和SVHN[22]数据集上的有效性,重要的是要强调,这个任务虽然属于OCR的范畴,它是比一般的任务更简单的顺序OCR。MNIST和SVHN在分类时都是单个数字,而我们所关心的图像中必须按照正确的顺序识别和分类可变长度的字符系列。因此,将上面讨论的领域自适应技术直接应用于顺序OCR任务是很重要的。例如,我们执行领域自适应的系统包含额外的循环神经网络(RNN)和注意力机制部分,这些部分在上面讨论的任何非序列OCR架构中都不存在。

3.方法

我们试图设计一个系统,可以用从真实的图像转录一种语言,而这种语言并不存在真实的标记数据。为此,我们同时从两个不同的方面来处理这个问题,通过使用两个不同的数据集来集中处理数据图像的样式内容问题。具体来说,我们使用无监督领域自适应来迁移学习合成数据中学习的内容(语言本身)的知识,同时,使用一个简单的多任务学习方案,使系统对真实图像的风格具有鲁棒性。

我们在训练时区分三组可用的图像。第一组源图像是“内容”数据集,,是用某种语言合成的图像,,表示相关联的标签,其中,都是字母表中的整数序列,具体,我们我们通常将称为或内容源。类似的,第二个源图像,和标签表示风格数据集;其他语言的真实图像的图像和标签的文本使用不同的字母表

具体来说,我们使用表示法语,其他任何语言,甚至字形,都适用我们的方法。我们将作为——“风格来源”,我们同样使用用于领域自适应,用于多任务训练。

第三个领域,目标域T,只包含图像,与中的图像来自同一语言,是一些真实的照片而不是合成的,也一样使用字母表。这个设置中的一个关键特性是假设领域在T和的转移不是太大。之间的共同点很少,来保证他们在内容和风格都没有重叠。

3.1 基本算法

我们通过扩展[43]中引入的算法结构来进行实验。在较高的层次上,该体系结构由三个组件组成:一个CNN作为特征提取器;一个RNN,用来处理提取的视觉特征循环地输出字符;一个空间注意机制,引导RNN组件关注显著特征,为了便于讨论,我们将其引入RNN网络中。

image.png

图2:baseline的架构,见[43],一个特征提取器用于提取特征,在本例中用于用于内容,这些特征会输入一个RNN解码器,这个解码器包括了一个空间注意力组件

然后我们使用Inception V3 CNN架构的前几层,作为我们的视觉特征提取器,这个映射是完全的卷积操作,我们把输出的特征作为就是的参数,我们把RNN和空间注意力注意力部分表示为,(架构见图二)。

更准确来说,为了计算,在具体的步骤t,我们首先需要计算视觉特征f上的空间注意力遮罩,,然后计算上下文向量

image.png

(1)

然后输入到RNN中

image.png

(2)

其中表示RNN在t时刻的内部状态和输出,而是前一个字母的one-hot,要么来自训练时的实际情况,要么来自推断时的预测。

最后我们计算字母的分布为

image.png

(3)

并且指定

image.png

(4)

3.2 风格自适应

为了学习真实图像的“风格”,我们使用了一个简单的多任务学习步骤,训练了一个简单的网络,可以学习转录合成和希伯来语和真正的法语的任务,最终的结果是系统可以通过隐式地利用真实的法语和希伯来语数据之间的样式重叠,来实现更好地转录真实的希伯来语图像的目标。特别地,我们训练了一个单独的,来同时从真实的法语街道符号,以及合成的希伯来语街道符号中提取特征,见图3左。输出的特征

f

随即被输入到两个不同的注意力RNN 组件中,生成两组输出其中的参数。然后。我们就可以分别根据他们的交叉熵训练两组数据集:

image.png

(5)

在实践中,我们实际上将这些损失扩展为自回归,就像[33]中描述的那样,在执行训练时,我们将真实的标签作为历史传递。

为了学习的法语图像标签,系统必须学会忽略法语图像的真实风格,专注于内容;真实法语图像的风格与图像的风格严重重叠,我们假设系统也学会忽略目标图像的现实风格,即使他可以从合成图像学习内容

3.3 内容自适应

虽然第3.2节中描述的系统仍然从合成数据中学习希伯来语的内容,但它并没有特别加强源域和目标域T之间的相似性;事实上,它在训练中根本不使用T。为了解决这个问题,我们使用无监督域自适应技术来明确地将合成的希伯来语数据适应于真实数据。

3.3.1 梯度反转

我们试图通过直接训练我们的系统在合成和真实希伯来语数据之间的领域转换的鲁棒性,来提高我们在目标领域的性能。具体来讲,我们希望减少源分布和目标分布之间的差异。为此 Ben-David等人[1],表明目标域Y和来源域S的h-divergence,可以被计算为

image.png

(6)

其中是二分类的集合,它在源域中分配1给样本,在目标域中分配0给样本,是来源和目标领域的经验分类错误。因此我们可以使两个域之间的距离最小,最大化区分两个域的分类器的分类错误

Ganin等人[9]通过一种称为梯度反转(GR)的技术来实现这一目标。这里,训练被框定为鞍点问题,系统被分成三个部分。特征f被一个特征提取器提取,然后就被传入一个特殊任务的分类器分支,还有一个域判别分支将尝试分类所以来自于源域或者目标域的样本,使用以下损失函数:

image.png

(7)

本质上就是一个属于上述假设类H的分类器。

因此,给定一个损失函数(例如交叉熵),我们可以定义一个能量函数

image.png

(8)

其中di是一个域的标签等于1,如果,λ是超参数,目的是为了控制两个损失之间的权衡,是要最小化的鞍点:

image.png

(9)

梯度反转提出了一种利用随机梯度下降优化鞍点问题的简单方法。为了实现这一步,在之间,有一个特殊的梯度反转层(GPL)。为了继续训练,GRL做了一个身份的映射,在反向传递的时候,GRL将其梯度乘以-1。有效的将image.png,替代为-image.png,就可以实现到达鞍点的目标(8)。

3.3.2 自适应解码器

将梯度反转技术应用于3.1节中描述的架构的一种简单的方法是将与我们在3.3.1节中处理一样:作为一个简单的分类器,作用于提取的特征。通俗来讲,直觉上,我们将调整视觉特征,使其更加健壮,以适应真实和合成风格之间的变化。

image.png

图3:左边是多任务训练的网络配置。同样的特征提取器Gf,被用于从内容域和风格域中提取提取特征,然后,这些特征就会被输入到两个独立的RNN解码器中。右边,我们通过聚合RNN的值,并在区分S和目标域T的域分类器中使用梯度反转的技术的方式,在RNN解码器中使用领域自适应技术,除了网络通过多任务训练学到的内容外,我们没有对进行的调整。

然而,我们使用这种方法探索了多种架构,并且我们实验性地发现领域自适应的主要好处在于它提高对内容的理解的能力,而几乎不能提高它构建健壮性风格的能力。在此假设下,在处理语言结构的网络RNN部分进行领域自适应更有意义。

因此,我们引入了一种直接适应系统RNN组件的方法,见图3. 具体地说,我们保持的大部分不变,但是对于每个RNN步骤t,我们引入一个新值:

image.png

(10)

是RNN的内部状态,在等式(2)被介绍过。我们通过实验发现,使用最大最小化来聚合RNN输出是至关重要的,因为平均或使用softmax的基于注意力的聚合不会产生比baseline更好的系统。

然后在输出上使用域判别器,我们将其计算为:

image.png

(11)

都是网络要学习的参数。

我们可以定义为等式(7),然后我们最终的能量函数就是:

image.png

(12)

这样的修改是很有必要的,因为一旦加入,它可以为网络中没有被附加数据直接增强的部分执行适应性。当结合了多任务学习,我们最终的能量函数变成了:

·image.png

(13)

在训练的每一步,我们在每一个训练的批次都优化这三个部分的损失。包含所有组件和应用于解码器的无监督领域自适应的完整体系结构如图3所示。在训练时,λ = 0.5,一个我们通过实验确定的值。

4.实验

我们建议的设置是独特又高度具体的,所以为了正确地评估它,我们引入了两个新的数据集,包含真实和合成图像的希伯来街道名称标志。结合现有的FSNS(fa)街道名称数据集,我们展示了我们的领域自适应技术和简单的多任务学习方法的有效性。然后,我们演示了同时使用两种技术比使用单一技术的性能更好,并对我们的结果提供了详细的实证分析。

image.png

表一:本文所讨论的各种系统在各数据集的测试数据上的全序列精度。检查标记表明在每个实验的训练期间哪些数据集是可用的。最重要的精度结果是HSNS(希伯来语数据集),我们的系统的目标数据集。我们同样也报告了SynHSNS 和 FSNS 数据集,尽管优化这些数据集的性能并不是我们系统的目标。尽管如此,结果表明我们的系统不会完全破坏这些数据集的性能,这一事实对建立一个更通用的系统是很有作用的。

image.png

图4:HSNS(上),synHSNS(中)和FSNS(下)数据集的简单图像

接着,我们报道的所有技术的度量标准都是全序列准确度,只有当样本中的每个字符被正确地预测,这个样本才会被认为是正确的分类。

不幸的是,在缺乏可靠超参数优化的替代方法的情况下,我们遵循[3]直接在一小组验证数据上并执行实验。我们知道这不是最优的,可以这样说,任何训练时可用的任何标记数据都应该在训练期间使用。因此,我们希望在未来,研究界将提出一种替代性的方法来验证无监督领域自适应方案。目前,我们将这种度量的开发留给未来的工作。

4.1 数据集

4.1.1 希伯来语街道名标志

这是我们的目标数据集,我们从以色列收集了大约92000张希伯来语路标的裁剪图像。我们将其分为三部分,分别是89,936个训练图像、899个验证图像和903个测试图像,其中只有验证和测试图像有标签。在分割数据集时,我们在任何训练/验证位置和测试图像之间保持至少100米的地理距离,以确保系统在训练或执行验证时不会暴露于任何测试标志。所有的图片都是150*150的分辨率

许多希伯来语路标都有特定的前缀,可以翻译成这样的词“街”、“路”、“大道”等等。通常,这些字用的字体要比标志的其他部分小得多,使他们在150*150的分辨率下难以辨认。由于许多以色列地图服务不包括这些前缀,我们也决定从抄写中排除它们。

我们将发布这些数据作为希伯来路标名称(HSNS)数据集。来自这个数据集的样本可以见图4。尽管这些图像都是全RGB颜色的,并将以全RGB颜色发布,但在接下来的所有测试中,我们都将每张图像转换为灰度,以便与我们的合成图像保持一致,我们将在下面描述。

4.1.2 合成的希伯来语名称标志

我们选择使用一个相对简单的方案来生成合成数据。之所以做出此决定,一方面是因为很难生成更复杂、外观更自然的合成数据,另一方面是因为根据观察,合成数据只需要包含与目标数据相同的内容就可以了,因为我们可以使用其他方法来处理样式。

因此,我们的合成图像只包含简单的文本渲染、文本后面的一个框、透视变换和一些轻微的模糊。在呈现文本时,我们从19种不同的希伯来字体中随机选择一种。在某些情况下,我们随机添加英语文本或数字低于或高于希伯来语,我们不包括在地面真实情况的转录。文本的大小和位置,透视变换的参数和模糊的数量都是随机选择的。实际的文本本身是从真实的以色列街道名称列表中选择的。为了更好的匹配HSNS的文本分布,我们还随机添加了小字体前缀,可以翻译成希伯来语中的street、road、avenue等等。我们发现,这些前缀对于性能至关重要,因为它们通常包含在真实图像中,但通常太小而无法读取,我们将它们包括在合成数据信号中,向系统发送它们不需要转录的信号。我们以150×150的分辨率生成所有图像。

为了进一步简化文本生成过程,所有的合成图像都采用灰度生成。这极大地简化了生成过程,使它更容易在一个真实的颜色范围内产生图像。每个图像的颜色都是随机选择的,尽管我们在文本和后面的方框之间加强了最小的对比度。我们使用纯色作为背景,因为使用更复杂的背景(如高斯噪声)的初步测试没有产生任何性能上的差异。

我们生成大约43万张合成图像用于训练,生成1万张用于评估和测试(见图4)。我们将这些数据与HSNS一起发布,作为合成希伯来街道名称符号数据集(SynHSNS)。

4.1.3 法语街道名称信号

除了上述两个希伯莱语数据集,我们还使用现有的法国街道名称符号(FSNS)数据集[30]进行多任务学习。FSNS包含大约100万个法国街道名称标识的训练样本、20000个评估样本和16000个测试样本,每个样本包含1 - 4个相同标识的视图,分辨率为150×150的相同标识视图。为了与HSNS和SynHSNS保持一致,我们在训练期间只使用这些视图中的一个,我们取首先列出的视图。同样,我们通过将每幅图像转换为灰度来保持与同步图像的一致性。原始FSNS数据集的样本图像如图4所示。

4.2 实现细节

除4.3.2节所述的微调实验外,所有的训练都以0.0047的学习率进行,使用的是动量值为0.75的随机梯度下降。对于训练中实际使用的每个域,我们训练80万步,批处理大小为15。当使用领域自适应组件时,我们从20,000步开始启用它们,并计算公式12和13中的损失,λ = 0.5.所有输入图像的分辨率都是150*150,与三个数据集的数据分辨率保持一致。

4.3 领域自适应和联合训练

4.3.1 Baselines

为了展示我们系统的有效性,我们需要证明我们的方法比单纯的方法执行得更好。因此,我们将HSNS baseline定义为在专门针对SynHSNS数据训练的系统上的测试性能。本实验结果作为“基线”报告在表1中。

表1还包括一个系统的性能,供参考,专门训练在所有实验中使用的FSNS版本,列为“FSNS Baseline”。如上所述,我们对FSNS的使用与标准用法不同,因为我们只对每个符号使用了多达四种可能视图中的一种,而且我们已经从图像中删除了所有的颜色。因此,虽然我们在这里报道的FSNS的数量比[43]的系统中报道的数量要少,但需要注意的是,这两个实验并不是在完全相同的数据上进行的。我们还要强调的是,我们的目标不是优化FSNS上的性能,而是优化HSNS上的性能,因此这些数字仅供参考。

4.3.2 多任务学习 Baselines

我们报告了3.2节中描述的多任务学习方案的结果,其中我们同时对SynHSNS和FSNS数据集进行训练。

我们在表1中将其报告为“多任务训练(MT)”。与上述基线一样,在训练时没有看到HSNS数据,但我们在HSNS测试集上仍然达到了36.54%的准确率。因此,仅通过学习解析真实的法语图像,该模型在解析真实的希伯来语图像时就提高了18个点,这支持了我们的假设,即系统仅通过看到真实的法语数据就能更好地理解希伯来语数据的真实风格。

除了上面描述的联合训练方案,我们还在一个简单的微调方案上评估我们的方法,如表1所示为“微调”。在这个方案中,我们首先用FSNS数据集在整个系统上训练80万步。然后我们用替换,以降低的学习速率,以0.002的学习率对网络进行额外的66,000步训练(额外的训练步骤并没有提高HSNS的性能)。表1报告了两种方法的性能结果。我们看到,多任务学习优于微调,可能是因为额外的训练阶段减少了法语数据在第一阶段所获得的一些好处。

4.3.3 领域自适应

为了评估梯度反转的有效性,我们再次进行了两次实验,都是基于3.3.2节中描述的以rnn为中心的领域自适应。

image.png

图5:在视觉上很难区分的希伯来字母的例子。

标记在表一的第一个实验“领域自适应”,在RNN网络的一部分上使用领域自适应的技术,仅使用HSNS和SynHSNS作为输入显式优化公式12中的损失,算法结构见图3(右边),FSNS的输入被删除了。

我们的第二个实验,被记为“DA+MT”,使用所有三个数据集作为输入,并且是对整个系统的测试,如图3所示(右)。这个实验脱颖而出,因为它是唯一一个利用所有三个可用数据集的实验。

从这些实验中我们可以看出,仅在HSNS和SynHSNS之间使用领域自适应就足以使性能从18.49%提高到38.64%。更有趣的是,将这一点与多任务学习结合起来可以提高50.16%的表现。特别是,DA到DA+MT(大约11%)的边际增长并不微不足道。同样,从MT到DA+MT(大约14%)的增长也是相当可观的。

我们认为这支持了我们的假设,即领域自适应以内容为目标,而多任务学习以风格为目标,因为这表明每种技术所提供的改进大多是不相关的,即领域域适应与多任务学习有不同的帮助原因。如果这些技术不互补,DA和“MT”通过处理目标得相同特征来提高性能,那么,当我们同时使用它们时,我们可能就会看到较小的边际改进,因为这将表明这两种技术有很多的重叠。

4.3.4 错误分析

希伯来字母是一组具有挑战性的字符——它有多个字符,对于人类(未经训练或非希伯来语使用者)和计算机都很难区分,如图5所示。还有其他几个字符,只是这些占了所有可打印字符的验证集的22.7%(1596/7013)。有趣的是,所有的模型配置混淆这些字符,这些模型的准确率对这些混淆的字符都没有太大的变化(例如:MT模型把VAV当成YOD有40/894次,“MT+DA”是41/894次)。

另一个有趣的观察结果是网络学习如何表示空白字符的特征,特别是null字符(终止序列)和空格字符。表6展示了字符embedding用t-SNE降维的图标。我们观察到,随着网络性能的提高,NULL和SPACE字符开发的集群与其他集群更加分离。我们在查看性能数字时也看到了这种混淆:“MT”将空格分类为NULL 88/620次,而“MT+DA”只会犯这种错误45/620次。我们相信这种现象可以通过观察字符周围的区域来解释。

我们认为,在视觉外观上,合成图像和自然图像的主要区别是没有字符的区域的样式。在一个紧凑的裁剪中,真实的图像和合成的图像之间不会有太大的区别,但是我们的模型在一个大的环境中操作,在这个环境中,文本周围的区域可能会太分散模型的注意力而不能轻易忽略。没有字符的区域就会被直接当做NULL和空格所在的区域。

image.png

图6:仅使用多任务学习(左)和使用多任务和DA(右)的网络中个体特征预测的可视化。数字指的是希伯来字母中单个字符的集合。顶部红色的点对应于空格字符,而底部红色的点对应于NULL(序列结束)字符。

5. 结论

在这篇论文中,我们探索了不同的方法来实现使一个系统在没有标签的语言的街道名称标志的照片上执行顺序OCR。为此,我们引入了两个新的数据集:合成的希伯来语街道标识SynHSNS数据集和真实的未标记希伯来街道名称标识的HSNS数据集。最后,我们演示了我们的方法,它利用了其他语言中的现有数据和同一语言中容易生成的合成数据,可以通过传输关于样式和内容的信息来极大地提高目标领域的性能。

参考文献

[1] S. Ben-David, J. Blitzer, K. Crammer, A. Kulesza, F. Pereira, and J. W. Vaughan. A theory of learning from different domains. Machine Learning, 2010. 4

[2] K. Bousmalis, N. Silberman, D. Dohan, D. Erhan, and D. Krishnan. Unsupervised pixel-level domain adaptation with generative adversarial networks. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 95–104, July 2017. 2

[3] K. Bousmalis, G. Trigeorgis, N. Silberman, D. Krishnan, and D. Erhan. Domain separation networks. In D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems 29, pages 343–351. Curran Associates, Inc., 2016. 2, 6

[4] Y. Chen,W. Li, C. Sakaridis, D. Dai, and L. V. Gool. Domain adaptive faster r-cnn for object detection in the wild. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2

[5] C. Chu and R. Wang. A survey of domain adaptation for neural machine translation. In Proceedings of the

27th International Conference on Computational Linguistics, pages 1304–1319. Association for Computational Linguistics, 2018. 2

[6] H. Daume III. Frustratingly easy domain adaptation. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pages 256–263. Association for Computational Linguistics, 2007. 2

[7] M. Fadaee, A. Bisazza, and C. Monz. Data augmentation for low-resource neural machine translation. In ACL, 2017. 2

[8] Y. Ganin and V. Lempitsky. Unsupervised domain adaptation by backpropagation. In Proceedings of the 32Nd International Conference on International Conference on Machine Learning - Volume 37, ICML’15, pages 1180–1189. JMLR.org, 2015. 2

[9] Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, and V. Lempitsky. Domainadversarial training of neural networks. J. Mach. Learn. Res., 17(1):2096–2030, Jan. 2016. 2, 4

[10] J. . Gauvain and C.-H. Lee. Maximum a posteriori estimation for multivariate gaussian mixture observations of markov chains. IEEE Transactions on Speech and Audio Processing,

2(2):291–298, April 1994. 2

[11] X. Glorot, A. Bordes, and Y. Bengio. Domain adaptation for large-scale sentiment classification: A deep learning approach. In Proceedings of the 28th International Conference on International Conference on Machine Learning, ICML’11, pages 513–520, USA, 2011. Omnipress. 2

[12] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D.Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 27, pages 2672–2680. Curran Associates, Inc., 2014. 2

[13] A. Gretton, A. Smola, J. Huang, M. Schmittfull, K. Borgwardt, and B. Sch¨olkopf. Covariate shift and local learning by distribution matching, pages 131–160. MIT Press, Cambridge, MA, USA, 2009. 2

[14] P. Haeusser, T. Frerix, A. Mordvintsev, and D. Cremers. Associative domain adaptation. In 2017 IEEE International Conference on Computer Vision (ICCV), pages 2784–2792, Oct 2017. 2

[15] J. Hoffman, E. Tzeng, T. Park, J.-Y. Zhu, P. Isola, K. Saenko, A. Efros, and T. Darrell. CyCADA: Cycle-consistent adversarial domain adaptation. In J. Dy and A. Krause, editors, Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine

Learning Research, pages 1989–1998, Stockholmsm¨assan, Stockholm Sweden, 10–15 Jul 2018. PMLR. 2

[16] J. Hoffman, D. Wang, F. Yu, and T. Darrell. Fcns in the wild: Pixel-level adversarial and constraint-based adaptation. CoRR, abs/1612.02649, 2016. 2

[17] N. Inoue, R. Furuta, T. Yamasaki, and K. Aizawa. Crossdomain weakly-supervised object detection through progressive domain adaptation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2

[18] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 25, pages 1097–1105. Curran Associates, Inc., 2012. 1, 2

[19] Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner. Gradientbased learning applied to document recognition. In Proceedings of the IEEE, pages 2278–2324, 1998. 2

[20] M. Long, Y. Cao, J. Wang, and M. I. Jordan. Learning transferable features with deep adaptation networks. In Proceedings of the 32Nd International Conference on International Conference on Machine Learning - Volume 37, ICML’15, pages 97–105. JMLR.org, 2015. 2

[21] A. Mohammadian, H. Aghaeinia, F. Towhidkhah, and S. Seyyedsalehi. Subject adaptation using selective style transfer mapping for detection of facial action units. Expert Systems with Applications, 56, 03 2016. 2

[22] Y. Netzer, T.Wang, A. Coates, A. Bissacco, B.Wu, and A. Y. Ng. Reading digits in natural images with unsupervised feature learning. In NIPS Workshop on Deep Learning and Unsupervised Feature Learning 2011, 2011. 2

[23] K. Saito, Y. Ushiku, and T. Harada. Asymmetric tri-training for unsupervised domain adaptation. In D. Precup and Y. W. Teh, editors, Proceedings of the 34th International Conference on Machine Learning, volume 70 of Proceedings of Machine Learning Research, pages 2988–2997, International Convention Centre, Sydney, Australia, 06–11 Aug 2017. PMLR. 2

[24] K. Saito, K.Watanabe, Y. Ushiku, and T. Harada. Maximum Classifier Discrepancy for Unsupervised Domain Adaptation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2

[25] K. Saito, S. Yamamoto, Y. Ushiku, and T. Harada. Open set domain adaptation by backpropagation. In The European Conference on Computer Vision (ECCV), September 2018. 2

[26] S. Sankaranarayanan, Y. Balaji, C. D. Castillo, and R. Chellappa. Generate to adapt: Aligning domains using generative adversarial networks. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2

[27] S. Sankaranarayanan, Y. Balaji, A. Jain, S. Lim, and R. Chellappa. Unsupervised domain adaptation for semantic segmentation with gans. CoRR, abs/1711.06969, 2017. 2

[28] P. Sarkar and G. Nagy. Style-consistency in isogenous patterns. In Proceedings of Sixth International Conference on Document Analysis and Recognition, pages 1169–1174, Sept 2001. 2

[29] R. Shu, H. Bui, H. Narui, and S. Ermon. A DIRT-t approach to unsupervised domain adaptation. In International Conference on Learning Representations (ICLR), 2018. 2

[30] R. Smith, C. Gu, D.-S. Lee, H. Hu, R. Unnikrishnan, J. Ibarz, S. Arnoud, and S. Lin. End-to-end interpretation of the french street name signs dataset. In ECCV Workshops, 2016. 2, 7

[31] B. Sun, J. Feng, and K. Saenko. Return of frustratingly easy domain adaptation. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, AAAI’16, pages 2058–2065. AAAI Press, 2016. 2

[32] B. Sun and K. Saenko. Deep coral: Correlation alignment for deep domain adaptation. In G. Hua and H. J´egou, editors, Computer Vision – ECCV 2016 Workshops, pages 443–450, Cham, 2016. Springer International Publishing. 2

[33] I. Sutskever, O. Vinyals, and Q. V. Le. Sequence to sequence learning with neural networks. 4

[34] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2818–2826, 2016. 2, 3

[35] C. Thomas and A. Kovashka. Artistic object recognition by unsupervised style adaptation. In C. V. Jawahar, H. Li, G. Mori, and K. Schindler, editors, Computer Vision – ACCV 2018, pages 460–476, Cham, 2019. Springer International Publishing. 2

[36] E. Tzeng, J. Hoffman, K. Saenko, and T. Darrell. Adversarial discriminative domain adaptation. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2962–2971, 2017. 2

[37] E. Tzeng, J. Hoffman, N. Zhang, K. Saenko, and T. Darrell. Deep domain confusion: Maximizing for domain invariance. CoRR, abs/1412.3474, 2014. 2

[38] L. van der Maaten and G. E. Hinton. Visualizing data using t-sne. 2008. 8

[39] S. Veeramachaneni and G. Nagy. Adaptive classifiers for multisource ocr. Document Analysis and Recognition, 6(3):154–166, Mar 2003. 2

[40] R. Volpi, P. Morerio, S. Savarese, and V. Murino. Adversarial feature augmentation for unsupervised domain adaptation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2

[41] Z. Wang, J. Yang, H. Jin, E. Shechtman, A. Agarwala, J. Brandt, and T. S. Huang. Real-world font recognition using deep network and domain adaptation. CoRR, abs/1504.00028, 2015. 2

[42] Z. Wang, J. Yang, H. Jin, E. Shechtman, J. B. Aseem Agarwala, and T. S. Huang. Decomposition-based domain adaptation for real-world font recognition. 2

[43] Z.Wojna, A. N. Gorban, D.-S. Lee, K. Murphy, Q. Yu, Y. Li, and J. Ibarz. Attention-based extraction of structured information from street view imagery. 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), 01:844–850, 2017. 1, 2, 3, 6, 7

[44] Z. Yang, Z. Hu, C. Dyer, E. P. Xing, and T. Berg-Kirkpatrick. Unsupervised text style transfer using language models as discriminators. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems 31, pages 7287–7298. Curran Associates, Inc., 2018. 2

[45] X.-Y. Zhang and C.-L. Liu. Writer adaptation with style transfer mapping. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35:1773–1787, 2013. 2

[46] Y. Zhang, W. Cai, and Y. Zhang. Separating style and content for generalized style transfer. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2

[47] Y. Zhang, P. David, and B. Gong. Curriculum domain adaptation for semantic segmentation of urban scenes. In The IEEE International Conference on Computer Vision (ICCV), Oct 2017. 2

[48] B. Zoph, D. Yuret, J. May, and K. Knight. Transfer learning for low-resource neural machine translation. pages 1568–1575, 01 2016. 2