图像分类技术在过去几年取得了显著进步,例如在 Imagenet 分类挑战赛中,错误率每年都在大幅下降。为了继续推进计算机视觉的发展,许多研究员现在将更多精力放在精细和实例级识别问题上 - 许多人都在设计能够识别埃菲尔铁塔、富士山或波斯猫的机器学习算法,而不是识别建筑物、山峰和猫等一般实体。不过,这个领域一个比较大的研究障碍是缺乏大型的标注数据集。
我们高兴地宣布 Google-Landmarks,它是全世界最大的人造和自然地标识别数据集,希望这个工具能推动实例级识别的发展。Google-Landmarks 将作为地标识别和 地标检索 Kaggle 挑战赛的一部分发布,这两个挑战赛将是 CVPR’18 Landmarks 专题讲座的重点。数据集包含超过 200 万个图像,这些图像描绘了全世界 3 万个独特的地标(它们的地理分布如下图所示),许多类别要比现在的常用数据集大 30 倍左右。此外,为了激励这个领域的研究,我们将 开源 Deep Local Features (DELF),我们认为这个专用的本地特征描述符数据库非常适合这种任务。
我们数据集中的地标的地理分布。 |
两个 Kaggle 挑战赛会提供标注数据的访问权限,以便帮助研究人员解决这些问题。识别挑战赛的任务是构建可以在一个由挑战性测试图像组成的数据集中识别正确地标的模型,而检索挑战赛的参与者需要检索包含相同地标的图像。
Google-Landmarks 数据集中的一些示例图像,包括大本钟、圣心堂、Decebalus 岩石雕塑和 迈杰里桥等地标。 |
致谢
Jack Sim、Will Cukierski、Maggie Demkin、Hartwig Adam、Bohyung Han、Shih-Fu Chang、Ondrej Chum、Torsten Sattler、Giorgos Tolias、Xu Zhang、Fernando Brucher、Marco Andreetto 和 Gursheesh Kour。