学 AR 到底学什么?我的 AR 之路反思与展望

5,575 阅读7分钟

“谁是我们的敌人?谁是我们的朋友?这个问题是革命的首要问题。”

反思

做为一个写了很多文章,一直在鼓吹 AR 的AR 神棍,我对 AR 的兴趣开始于 2015 年,那时刚入门 iOS 开发一年左右,正是 AR/VR 又一次火起来的时候,当时苹果也还没有拿出 ARKit,只好先学开发基础知识和 SceneKit。 从 ARKit 推出后,我就利用业余时间不停学习这个框架,并尝试写一些 Demo 和基础文章,学习相关数学基础,整整三年从 ARKit 1 跟着学到了 ARKit 3。
在这四五年里,看到了 AR/VR 行业经历了一个完整的泡沫周期:概念普及 --> 引人瞩目 --> 期望过高骗子横行 --> 热情下降 --> 无人问津。

到 2020 年中,虽然 AR 仍然没有火起来,但我已经在移动 AR 行业完整工作一年了,开发了 10 多个大大小小的 Demo 和几个完整的 AR 产品,对 iOS 平台的 ARKit 比较熟悉,对苹果新推出的 RealityKit 及 Unity 平台的 ARFoundation 也有一定了解。 但是,即使我在 AR 方面付出了这么多努力,有了不少经验,我却从没有认真深入思考过革命的首要问题:AR 到底需要学什么?用 AR 又该做什么?

AR 基本流程

要搞明白这些问题,就必须先来梳理一下 AR 的基本流程:

  • 即时定位与地图映射(SimultaneousLocalizationAndMapping,SLAM):依靠 VIO+IMU+CV+TOF 等技术,实现特征点提取,场景重建,平面识别,图片识别等功能;
  • 场景感知和识别:依靠 CV 、ML 等技术,识别不同场景和其中的物体,比如 ARKit 已经能够识别桌子、椅子、墙面、天花板、人体等;
  • 叠加 3D 图像和声音:依靠 3D 渲染技术,将虚拟的画面和声音,叠加在的场景中或者已识别的物体上。比如 ARKit 依赖于 SceneKit 提供渲染,而 Unity 则自己提供渲染(追踪和识别依然是对 ARKit 和 ARCore 的封装);
  • 多人协作与分享:依靠 GPS + 特征点 + 网络等技术,如苹果的MultipeerConnectivity + CollaborativeSession + WorldMap共享,2020年LocationAnchor,以及谷歌的云锚点等,实现多人共享 AR 效果。

能够同时把这些都做好,才是一个很完善的 AR 应用。至少,也要做好这四项中的两项,而不是目前很多只是将原来的 3D 内容简单改为 AR 形式。

考虑到第一项 SLAM 其实是 AR 平台或硬件提供的功能,实际上大部分 AR 应用只要做好后面三项中的两项,就是一个很棒的 AR APP 了。

AR 产品的方向

我心目中对于 AR 产品有几个经典例子:三维建模软件shapr 3D,身体解剖软件Complete Anatomy,和沙雕风格的らくがきAR(RakugakiAR)(即涂鸦 AR)

下面是shapr 3D的演示 Demo,直接用 LiDar 扫瞄房间,生成房间和家具的三维图纸,编辑后,再以 AR 方式预览:

身体解剖软件Complete Anatomy则将动作捕捉和人体解剖模型关联起来,让人更清楚看到人体的动作状态:

涂鸦 AR识别平面图形,将其变成 3D 物体,并以 AR 方式展现:

这几个 app 都做到了利用 CV+ML 来识别并提取场景中物体信息,并提供了有创意的或强大的 3D 渲染技术,来展现 AR 效果,这也是它们成功的原因。

当然,也可以类似Pokémon Go那样,依靠 GPS+3D 渲染,来制作多人 LBS 类 app。

AR 学习路线

那么,了解 AR 产品的 4 个基本流程后,作为一个 AR 开发者,到底应该学什么?怎么学?我根据自己的理解,列举一个知识矩阵:

我个人认为,应该从易到难,从具体看得见的,到抽象看不见的。也就是先学第三步,因为 3D 渲染能看得到,比较引发学习兴趣。 比如:从 3D 引擎基础知识出发,到 ARKit 相关,初中高级知识依次学习。

数学基础方面推荐3Blue1Brown的视频:线性代数的本质,B 站上有中文字幕和翻译。

图形学基础方面推荐Games101系列视频:现代计算机图形学入门-闫令琪,B 站上有中文版。

iOS 教程方面Raywenderlich家的几本教程就挺不错,适合 iOS 开发者入门。

Unity 方面也可以了解下,教程又多质量也比较高。比如 《AR 开发权威指南:ARFoundation》(该作者同时还在写作一本关于 RealityKit 的书籍,预计2021年发布),和 catlike coding 上面的教程。

还要学习的就是第二步:场景感知和识别,主要依靠 CV+ML 来实现,对于 iOS 开发者来说,苹果对 ML 进行了封装,模型训练和使用都非常简单(当然,目前功能并不强大,性能也不够优秀),依靠 CreateML + CoreML+Vision 来实现整个 ML 过程,且非常容易和 ARKit 相结合,比如识别 AR 中的特定动作,触发 AR 效果。

除了场景感知会用到 ML 相关知识外,苹果实际上在第一步的 SLAM 阶段也用到了 ML 来提升追踪稳定性,在第三阶段渲染时,也可以使用 ML 来完成风格迁移等视频效果(2020年 CreateML app 已经支持了这种模型的训练)。

其实我们可以看到,Metal 在所有这些流程和技术中,都起到了底层支撑作用。不管是 3D 渲染,还是机器学习框架,图像处理,都用到了 Metal。这也说明 Metal 在 Apple 生态中的重要作用,不可不学。

第四步位置和多人共享,则需要学习 GPS 和网络相关知识,这个更多是从工作项目中学习。iOS 开发者可以参考 ARKit-CoreLocation 这个框架。

需要避免的错误

  • 简单搬运:将原来的 2D 或 3D 内容,简单转制后变成 AR 版的,虽然工作量比较少,但效果一般都不好。主要原因是内容与现实世界没有联系,玩法没有结合新的形式,为了 AR 而 AR。
  • 左倾与右倾:左倾是激进冒险主义和机会主义,就是希望花一两个月,读一两本书,就能学会 AR 并取得成就。右倾则是保守主义和投降主义,有畏难思想害怕学不会,看见矩阵和数学公式就怂了,过早放弃。
  • 现在不成熟,等效果稳定、 AR 眼镜发布:根据目前情况,就算苹果的 AR 眼镜发布,前几代产品也会有各种限制和缺陷,手机 AR 虽然效果鸡肋,但在很长一段时间仍会是主流。正如当年 iPhone 第一代发布时,功能远不如诺基亚 S60 智能手机一样,对用户来说差别很大,但对开发者来说,其实技术是类似的,现代手机上的各种 app 都可以从当年找到技术原型和创意原型。当年有很多开发者从 S60 和 PPC 平台转到了 iOS、安卓平台,未来我们可以也要经历类似的过程:从手机 AR 转到 AR 眼镜平台。

苹果的各种态度已经很明确,AR 就是未来,是下一代的计算平台。微软、Facebook、华为也都在做 AR 研发。虽然现在并不成熟,问题也很多,但是作为开发者,提前学起来总是没有错的。

总结

总结一下:

  • 学 AR 到底学什么?学四大步骤,尤其是 ML 和 3D 渲染相关知识,以及绕不开的 Metal 知识。
  • 用 AR 做什么?做类似涂鸦 AR这样的产品,理解场景,再以 AR 方式展示出来。考虑到现在的 AR 平台能力有限,稳定性不足,依靠创意去实现一些小而美的 app 是条非常好的路。

这就是我对自己在 AR 学习过程中的思考与展望。AR 未来的路还很长,要学的知识也很多,生命不熄学习不止,才能走得更好更远。