滴滴 AI Labs 包揽 WIDER FACE 评测五项世界第一

出品 | 滴滴技术

前言：近日，世界最权威的人脸检测公开评测集 WIDER FACE 公布最新评测结果，滴滴 AI Labs 团队联合北京邮电大学PRIS团队提出的人脸检测 DFS 算法，在 WIDER FACE 的 Easy、Medium 和 Hard 三个评测子集的六项评估结果中, 超过了国内外众多科技公司和高校院所，取得了五项第一、一项第二的好成绩，充分彰显了滴滴在人脸检测领域的创新能力。

—————

WIDER FACE 是目前业界公开的数据规模最大、检测难度最高的人脸检测数据集之一，由香港中文大学于 2016 年建立，共包含 32,203 张图像和 393,703 个人脸标注。其中 40% 的数据为训练集 (Training)，10% 的数据为验证集 (Validation)，50% 的数据为测试集 (Testing)。每个集合中的数据根据人脸检测的难易程度分为 Easy、Medium、Hard。

由于汇集了人脸尺寸大小变化、拍照角度引起的人脸姿态变化、不同程度的人脸遮挡、表情变化、光照强弱差异以及化妆等多种影响因素，该数据集在全球人脸检测领域极具挑战性，每次评测均会吸引多家国内外科技巨头及高校院所（包含卡耐基梅隆大学、加州大学圣地亚哥分校、北航、浙大、京东、腾讯优图、百度、华为云、IBM沃森研究院等）在这个数据集上验证了自己的算法效果。

最新评测结果显示，DFS 算法在 WIDER FACE 人脸检测平台中，在官方验证集和测试集的六项评估结果中取得五项第一、一项第二。

其中在 Easy、Medium 和 Hard 三个测试子集中，DFS 算法性能分别达到 96.3% AP，95.4% AP，90.7% AP。

△ 图1：验证集性能曲线图（图片来源）

△ 图2：测试集性能曲线图（图片来源）

DFS 算法以卷积神经网络中的特征融合为切入点，为了防止高层特征图上的语义信息覆盖低层特征图上的细节信息，提出了特征融合金字塔（Feature Fusion Pyramid）结构，其以空间和通道注意力机制的方式融合高低层特征，在不失细节信息的同时将语义信息作为上下文线索（contextual cues）增强低层特征。

另外，DFS 算法提出了一种辅助训练单阶段检测器的语义分割分支（Semantic Segmentation branch），促使检测网络以一种自监督的方式实现注意力机制以及学到更好的特征。具体地说，DFS 算法独特的语义分割分支分层地利用更强的语义分割监督信息监督训练网络，使得用于预测人脸的各级特征图专注于各自最适宜检测到的不同尺寸的人脸。

△ 图2： DFS 算法网络框架图

目前人脸检测和识别技术已经在滴滴平台广泛使用，用于司机人不符检测、行程中车内录像时的乘客隐私保护等场景，并已形成成熟的技术解决方案，帮助外部合作伙伴进一步提高效率。

实际上，滴滴已经多次在图像视频领域相关竞赛或评测中获得世界级第一。在去年7月的 CVPR 2018 WAD 自动驾驶挑战赛中，揽获了二、三、四名的好成绩；而在去年9月 ECCV 2018 COCO & Mapillary 挑战赛中，滴滴技术团队首次参赛即获得 Mapillary 街景检测单项世界第一。

此次人脸检测技术再破世界纪录，也充分体现了滴滴在计算机视觉领域强大技术实力，滴滴将持续进行更多探索，不断优化出行交通感知理解、智能交互等技术，用先进的 AI 技术提升用户体验、助力行业转型升级，进而构建智能出行新生态。

引用：

[1] WIDER FACE

[2] DFS算法：Learning Better Features for Face Detection with Feature Fusion and Segmentation Supervision