深度学习-最新论文解释

263 阅读14分钟

2019

姿势估计器将视频作为输入,并输出与视频中存在的人类个体的姿势相对应的图形。

创建可靠且实时的 3D 姿势估计器的当前困难包括这样的事实:几乎没有训练数据,以及必须考虑遮挡的事实。例如,如果特定身体部位被阻挡而不能看到,则姿势估计器仍必须能够从身体其余部分的位置推断出其位置。

该模型优于所有现有模型,因为它创建姿势的 2D 和 3D 表示。它使用初始 2D 姿态估计,然后利用将该 2D 估计转换为 3D 形式的神经网络。然后,它使用 3D 到 2D 神经网络网络将姿势转换回 2D 形式,这有助于通过自我监督校正机制改进中间 3D 姿势预测,该机制可以检测第一个 2D 到 3D 的准确度神经网络。

网络允许在大约 50 毫秒内获得姿势估计,其接近每秒 20 帧。这接近实时,适用于姿势估计的许多应用

该 AI 能够从一组可控模式生成逼真的图像。它建立在该领域以前的几篇论文的基础上 - 第一篇是从稀疏描述中生成图像的论文(比如一个判决书),第二篇是允许定制图像上的面部特征的论文(例如合并两个不同的面孔)。

这种技术允许我们编辑更具体的因素 - 例如,在某人的脸上微笑或删除个人的太阳镜。颜色也可以改变 - 例如,可以操纵一只眼睛的颜色。它非常快,使用 512 x 512 图像创建这些图像只需 50 毫秒。

它在电影制作的编辑行业中有应用,但也可以被寻求对其照片进行简单编辑的新颖消费者使用。虽然目前没有可用的网络应用程序,但它确实公开了其源代码。

谷歌的 PlaNet AI 旨在学习如何规划必须采取的一系列步骤,以执行物理目标 - 执行,杆平衡或像人一样行走。 AI 必须以与人类相同的方式学习 - 通过查看这些图像的像素(这需要对上下文的视觉理解)。

AI 使用稀疏奖励方法,这意味着它几乎无法获得有关这些任务的性能的反馈。然而,这与经典的强化学习方法之间的关键区别在于,这种 AI 使用模型进行学习。这意味着它不是从头开始学习每一项新任务,而是利用它从以前的活动中获得的基本理解(例如引力的性质),并将其应用于未来的任务。因此,它在学习游戏时有一个良好的开端,使其效率通常比从头开始学习的技术高 50 倍。

它在大多数任务中明显优于其他最先进的 AI 系统,例如猎豹跑步或人行走。该代理不需要对每项活动进行单独培训,因为它会混合其培训。此外,它可以仅使用 5 帧参考特定活动来学习它,相当于大约五分之一秒的素材。然后,它可以学习如何在更长的时间内继续此活动。

虽然最近的卷积神经网络系统在图像检测问题上已超过人类表现,但问题确实存在 - 只需修改图像中的一个或两个像素就可以使系统将图像分类为极为不同的东西。例如,重新配置一两个像素就是计算机将苹果分类为汽车所需的全部内容。这种 “愚弄” 图像识别系统的能力被批评为这种系统无法以与人类相同的方式解释图像的迹象,尽管最近的一篇论文表明情况可能并非如此。

在一篇论文中,一对认知心理学家展示了一组超过 1800 个主题的图像,这些图像已经欺骗了计算机,将其分类为错误的标签。他们问人们计算机预测对象的两种选择中的哪一种 - 一种选择是计算机的真实结论,另一种是随机答案。受试者在 75%的时间内选择与计算机相同的答案,其中 98%的人倾向于像计算机那样回答。

接下来,研究人员让受试者在系统的答案和对猜测错误的图像的下一个最佳猜测之间做出选择。再次,受试者再次验证了计算机的选择 - 91%的受试者同意系统的决定。

因此,该研究提供了一定程度的证据表明卷积神经网络架构的明显缺陷可能没有许多人想象的那么糟糕。它提供了一个新的视角,以及一个可以探索的新实验范式。

2018

为了实现超分辨率,允许将低分辨率图像转换为更高分辨率的图像,本文建议通过渐进方法改善图像分辨率。它需要几个中间步骤,其中产生的图像略好于前一个,称为 “课程学习”。

本文使用的是 GAN,而不仅仅是 CNN。与最先进的模型相比,使用本文提出的方法生成的图像精度略低,但速度是其 5 倍。

机器学习模型的最终目标是在新的,看不见的实例上准确地预测输出。因此,在训练机器学习模型时,测试数据不参与创建模型的过程至关重要,因为这会给测试集带来偏差。不幸的是,我们通常只能从同一个发行版访问新数据,导致许多研究人员使用测试集代替验证集。这允许根据所选测试集的分布来优化诸如学习速率的超参数。

该研究论文提出了一个新的测试集,其中包含大约 2000 个实例,这些实例与 CIFAR-10 数据集的测试集的分布相匹配,这是一个众所周知的数据集,许多现代图像分类器模型都经过测试。然后评估 30 种不同的现代图像分类模型的性能。它发现从原始测试集到新测试集的准确性有显着下降 - 例如,VGG 和 ResNet 架构从其完善的 93%精度下降到大约 85%。然而,分类器相对于彼此的性能保持或多或少是恒定的 - 因此,分类器的性能分布可以被认为是简单地水平移位。

结果对当前分类器的稳健性产生了怀疑。广泛使用的模型的分类准确性显着下降 - 例如,VGG 和 ResNet 的准确度损失对应于 CIFAR-10 数据集的多年进展。因此,分配转移质疑当前模型真正推广的程度

本文通过墙壁和遮挡提供准确的人体姿势估计。它利用了 WiFi 频率中的无线信号穿过墙壁并反射出人体的事实,并使用深度神经网络方法来解析这些无线电信号以估计 2D 姿势。无论光照条件如何,姿势估计都能很好地工作,并且还可以检测多个人。

在网络中,有一个教师网络,可以查看墙壁的彩色图像,并预测人体所处的姿势。还有一个学生网络将信号作为输入,并了解不同的分布意思是,它们与不同的人类姿势和姿势有何关联。教师网络向学生网络显示正确的结果,学生学习如何通过无线电信号而不是图像来制作它们。

除了用于交互式视频游戏中的动作捕捉,以及帮助为电影创建特殊效果之外,姿势估计还可用于帮助检测患者姿势的问题,跟踪动物的活动,理解手语和自己的行人活动。 - 驾驶汽车。

本文强调了一种评估图像分类器在抵抗损坏和扰动能力方面的性能的方法。它创建了两个数据集 - ImageNet-C(用于损坏)和 ImageNet-P(用于扰动) - 这有助于测试图像分类器对这种变化的稳健性,这在现实场景中很常见。

在图像的上下文中,损坏通过扭曲其细节来描述对基本图像的修改。本文在 ImageNet 图像上使用了 15 种不同的损坏函数,每种函数都有 5 个严重级别。这些损坏函数描述的方法包括高斯噪声,雪和像素化的添加。

扰动通过变换方法改变其外观来描述图像的扭曲。本文在 ImageNet 图像上使用了 8 种不同的扰动函数,包括缩放,倾斜和平移。

使用从 ImageNet-C 和 ImageNet-P 数据集中获得的图像测试分类器,通过在每种类型的所有函数和所有严重级别上平均其准确性,本文创建了关于其对损坏和扰动的鲁棒性的鲁棒性评分。

所产生的算法使基因诊断中最劳动密集的部分自动化,即将患者的基因序列和症状与科学文献中描述的疾病相匹配。如果没有计算机帮助,这个匹配过程每个患者需要 20 到 40 个小时 - 这个过程需要专家查看大约 100 名患者可疑的突变列表,做出有根据的猜测,哪一个可能导致疾病,检查科学文学,然后继续下一个。 Bejerano 团队开发的算法将所需时间缩短了 90%。

算法的名称,Phrank,一个 “表型” 和“等级”的混搭,给出了它如何工作的暗示:它将患者的症状和基因数据与医学文献知识库进行比较,然后简单地生成一个排序列表,其中罕见的遗传性疾病最容易引起症状。平均而言,Phrank 在其产生的潜在诊断列表中将真正的诊断排在第 4 位。

本文提出了一个框架,用于在单元,对象和场景级别可视化和理解 GAN。它提供了生成场景图像,识别对作为场景一部分的特定对象有贡献的 GAN 单元或神经元的能力,然后利用这些来激活或停用该特定对象的存在。因此,这使我们能够在不需要 Photoshop 等工具的情况下操作图像。

例如,如果我们有一个教堂的图像,我们可以向这个框架表明我们希望移除图像中存在的门。因此,框架将移除门,同时以合适的方式保持图像的其余部分的结构。如果需要,我们可以将门添加回去。除此之外,我们可以选择图像的特定区域,我们希望在其中添加新内容 - 例如,我可以在教堂图像的右侧添加一棵树。框架理解树木在地面上有根,因此在指定位置从地面构建。该框架还能够识别添加不适合的地方 - 例如,如果我们希望在天空中绘制一扇门,框架将不接受此请求。

该框架使用分段网络和解剖方法来识别与有意义的对象类(如树)匹配的生成器的各个单元。然后,当它们在图像中被修改时,它激活和停用对应于每个对象类的神经元 - 例如,插入树激活 GAN 中与树对应的神经元。什么被允许,这是本文的一个重要发现 - 相同的神经元控制各种环境中的特定对象类,即使对象的最终外观变化很大。相同的神经元可以打开 “门” 的概念,即使一个巨大的石墙需要一个朝向左侧的大型重型门,或者一个小小屋需要一个面向右侧的小型门帘。

这篇由处理器和显卡公司 Nvidia 的科学家撰写的研究论文展示了从样式转移文献中借鉴的生成对抗网络的替代生成器架构的潜力。它允许对人脸中的特征进行特定的定制和控制。它有可能应用于其他领域,迄今已在汽车和房间上成功测试过。

生成器可以组合图像的不同方面。例如,如果希望将一个面部的性别与另一个面部的性别重叠,则生成器可以这样做。可以转移的方面包括性别,头发长度,姿势和眼镜的存在。

还可以逐个控制发生器的参数而不修改图像的核心内容。例如,可以修改残茬的存在。

生成器也可以执行插值。这意味着如果我们有两个图像 A 和 B,则生成器可以创建将这些图像映射到另一个的中间图像。它甚至可以改变过程中的性别。所有中间图像也都是真实的。

2017

当今开发机器学习算法和系统的组织面临的一个大问题是隐私 - 消费者不愿意让他人查看他们的数据,因为这些数据被认为对他们敏感。 Google AI 对联合学习的新研究提出了一个解决方案。

联盟学习技术依赖于分布式训练 - 它允许在通用数据的子集上独立训练模型,然后将这些独立模型组装成单个主模型。

有几个用例可以更好地描述它的功能。首先,医疗患者不愿意将他们的健康记录发送给他们不能信任的其他医院和组织。 联盟学习建议每家医院使用其拥有的有限患者数据构建自己的模型,然后使用 Google 的联合平均算法将每个医院的模型组装成单个统一模型。其次,假设我们希望训练一个预测键盘,以便在我们的智能手机上独特地适合我们的个人打字模式。我们可以使用 Federated 模型,该模型已经根据许多不同用户及其数据的预测模式进行了训练和编译,然后传递我们自己的个人键盘输入数据以更新模型以更好地适应我们的个人打字习惯。

联盟学习技术自那时起就经历了许多更新和改进,并且当人工智能在其开发过程中进入以隐私为中心的时代时,它肯定会保持相关性。

假设您需要缩小您的图像而不降低主要功能的准确性,或者您希望从图像中删除 RGB 颜色,或者如果您在不支持该范围的屏幕上显示高动态范围的图像。虽然有数百个现有结构可以做到这些,但本文描述了一种方法,与现有方法相比,这些结构非常好。

本文提出了深度特征一致的深度图像变换(DFC-DIT)框架。它利用卷积神经网络(CNN)为输入图像生成三个输出 - 缩小版本,脱色版本和 HDR 色调映射版本。它还使用了另一种采用深度特征一致性原理的预训练和固定深度 CNN - 这确保了所有主要特征都保留在图像中。

原文:github.com/iOSDevLog/V…