2013-2017:中国计算机视觉公司恩仇录

1,239 阅读16分钟
原文链接: 36kr.com

编者按:本文来自KnowingAI知智(Knowing_AI),作者 虞喵喵,36氪经授权发布。

2013 年新广告法还没实行,旷视科技为 Face++ 写下文案:「最好的人脸识别云计算平台」。

2014 年是「格灵深瞳」的天下,纸媒、门户、科技媒体争相邀其登上头版。据说徐小平、冯波和沈南鹏曾就其市值激烈争论,「最后妥协在了3000亿美元这个『中间数』上」。

2015 年,偏居重庆的周曦悄悄创立云从科技,将目标定为「只做人脸,深耕金融和安防」。这一年商汤开始经历从学术到商业的激烈转型,还与几家「小巨头」深度绑定,成立了合资公司。

2016 年,旷视拿到建银国际和富士康集团的 1 亿美金融资。一向低调的依图同年将业务从车辆、安防,向医疗、城市数据拓展。

如今,云从的初心仍未改变,业务已渗透到四大国有银行;依图拿到 3.8 亿 C 轮融资,商汤则破天荒融到 4.1 亿美元,距上市更进一步。

这是属于中国 CV(计算机视觉)公司的五年,这是属于他们的时代。

一、2011-2013:开始时从四方赶来,我们都有光明的前途

2011 年 8 月 iOS 平台第一款体感游戏《Crow Coming》发布时,市面上最新款苹果还是巴掌大的 iPhone4 。开发这款游戏的团队叫「VisionHacker」,成员只有三个人:印奇、唐文斌和杨沐。

谁也没想到,正是这款游戏拉开了中国 CV 时代的序幕。两个月后,三人正式成立旷视科技——这大概是中国最早定位于计算机视觉的创业公司。再过两个月,他们便会顺利拿到联想之星的天使投资。

通过摇晃头部赶走乌鸦的《Crow Coming》,正是一份用来展示人脸技术的敲门答卷。据当时的报道称,这款游戏不仅获得清华大学第三十届「挑战杯」特等奖,还在短期累积 40 万用户,「一度冲到中国区 App Store 排行榜的前五名」。

分任 CEO、CTO 的印奇和唐文斌是 2006 届清华姚班同期,大二时又共同在微软亚研(MSRA)实习,只不过一个在人脸识别组,一个在图像搜索组。至于担任工程副总裁、曾经的国际信息学奥赛金奖得主杨沐,则是两人的学弟。

三人早早便制定了旷视的「三步战略」:第一步,搭建 Face++ 人脸识别云服务平台,目标是识别人脸;第二步,搭建 Image++,目标是识别万物;最后,则是实现「所见即所得」的机器之眼。

与之类似,赵勇也早早确定了格灵深瞳的方向。为了补上硬件短板而去哥大 CAVE 实验室进修、学成归来的印奇发现,站在计算机视觉风口浪尖的人,已经变成在美国呆了十几年、顶着 Google Glass 核心成员光环回国的赵勇。

赵勇比印奇大上十几岁,是复旦电子工程系 95 级校友。自第一次在 CSDN 与媒体见面,赵勇就被打上成熟稳重的「工程师」标签。2013 年的互联网 VC,笃信硅谷,笃信 Google,笃信未经商业社会洗礼的实验室研究员,能代表全世界最先进的科技生产力。

格灵深瞳的目标很简单:通过传感器实现三维图像,即通过激光发射器和接收器,以结构光的方式获取空间中物体的深度信息。基于此,计算机就可以对图像中人的行为进行识别和分析。

与此同时,赵勇也在谷歌内部寻找合伙人,先后曾有两名工程师承诺加入,又在最后时刻反悔。这年 6 月,赵勇等来了联合创始人何博飞。这位由徐小平介绍的合伙人简历相当耀眼,斯坦福商学院、新光天地、总裁等关键词点缀其间。所有人都相信这是一次商业与技术人才的完美结合,必将迸射出 CV 界、甚至是科技界最绚烂的火花。

站在两者之间的朱珑,说自己选择创业是「一种感觉」。2012 年,正在 MIT 实验室担任博士后研究员的朱珑,在 UCLA 视觉识别与机器学习中心主任、导师 Alan Yuille 教授的支持下毅然回国。他拉上自己的童年好友、ACM 全球大学生程序设计竞赛冠军林晨曦,共同创办了依图科技。

这种感觉叫「计算机视觉离产业化非常近、非常近了」。

二、2013-2015:共同踏上一条看上去笔直的道路

安防是朱珑定位的第一个产业化场景。

由于需要从海量视频监控数据中精准、快速找到要找的目标,安防领域有大量的视频、图像比对需求,是图像识别、特别是人脸识别技术的天然土壤。同时安防产品亟待智能化,这个市场既有需求,也有购买力。

有技术、没客户,创业之初的朱珑和林晨曦坐在办公室里,罗列团队所有人的资源人脉。

与大部分白手起家故事类似,最开始总有重重困难,奋力解决后会成为撬动未来的支点。当委托朋友的朋友、辗转找到一位公安局副局长时,朱珑只得到三分钟时间和一句话:「我们现在套牌车的识别率不到 30%,如果能将识别率提升到 70%,就考虑用。」

每天上街拍车辆、见警察、了解业务流程。两个月后接受测试时,系统的号牌识别率和车辆品牌识别率都达到 90%。这套系统的秘密是「车脸」——同时识别「车牌」和「车脸」,更容易发现套牌车辆。

甫一上线,正赶上一起入室抢劫案。通过过滤车辆品牌,警方十分钟便锁定了驾车逃离的犯罪嫌疑人。自此,依图便敲开公安系统大门。2015 年,这套名为蜻蜓眼系统还获得了「公安部科技进步奖」。

车辆识别之后,朱珑开始把精力放到人脸识别上。据称某省公安厅曾用依图的系统比对常住人口、暂住人口与通缉犯库,当天比中 17 个通缉犯,抓到 3 人。后来还传奇般的抓到一名背负 3 条人命,流亡 16 年的九华山住持。

「计算机视觉离产业化非常近了」的感觉,周曦也有。

2006-2010 年,在跟随「计算机视觉之父」黄煦涛教授学习的日子里,周曦拿了不少图像识别比赛的冠军。「拿了这么多冠军我就想,不管是检查零件还是挽救生命,总要做点儿有意义的事儿吧。」恰好中国科学院重庆研究院筹建,院长袁家虎三次专程赴美邀请,黄煦涛教授便推出这位得意门生。

2011 年,周曦以中国科学院「百人计划」专家身份被引进回国,拉上大学好友李继伟和温浩,组建了当时中科院最大的人脸识别研究团队。为了拿到中科院战略性先导科技专项,几个人重新设计产品、更新算法、换感光设备,在新疆和重庆之间来回奔波了好几个月。最终周曦小组击败其他团队,其人脸识别系统也被应用到新疆安防项目中。

四年之后,意识到「一定要有个公司、有能力做商务推广让更多人使用这项技术」的周曦,正式成立了云从科技。他反复强调专注的重要性,并明确了云从的目标:「一是研究内容要集中,虽然什么都能做,但现在还是做好人脸;第二是行业上要集中,各行各业都能做,我们只做金融和安防。」

在 2014-2015 年间针对格灵深瞳的采访中,时任 CEO 的何博飞也屡次提到「安防是比手机更大的一块市场」。对硬件和深度信息的执着,使得格灵深瞳天然适合安防场景,「拿到了天安门广场的全部订单,其它广场还是得一个一个谈」。

事实上安防是一条看上去笔直,却无比曲折的道路。

三、2015-2016:从学术空间,到商业世界

原因很简单,人脸识别对场境要求非常强。产品能否达到使用要求,核心并不在于算法本身,而是对场景的深耕。

2014 年,旷视曾拿下过FDDB评测(人脸检测)、300-W 评测(人脸关键点定位)和 LFW 评测(人脸识别)冠军;同年 7 月,商汤则以三种人脸识别算法占据了 LFW 测评前三名。随后,排行榜上「识别率」的最高数值一度被推高到 99.65%。

这诚然是算法水平的有力证明,但也仅仅是停留在训练集与测试集之间,存在于实验室的「理论数值」。

LFW 测试的图片数据多来自网络,现实生活中人脸的获取过程有大量不可控因素。光的方向、强度,是否有胡须、发型的变化,是否有表情都会影响识别效果。多种因素叠加后,真实环境下测得的准确率可能只有 75% 左右,甚至更低。

场景自身同样包含着不同需求。如「证照对比」,二代身份证照片分辨率较低,或者拍摄时间跨度较大,都会影响识别效果。嫌疑人排查、有配合的一比一识别、无配合的一比一识别,都有不同的场景特点。

这就需要针对场景的不同特点收集大量场景数据,不断调试参数、组合算法、方法,甚至使用外围硬件辅助以提升效果,不断迭代以实现产品化。除此之外,还要在工程上满足计算量、延迟、可维护性等需求。

还有价格。2010 年时便有四十多家安防企业集体上市,2014 年的安防市场正在经历大规模洗牌,龙头企业已经在使用下压价格的方式打压中小公司。这一年 720P 的 IPC(网络摄像机)价格,已从两年前的上千元跌至 200 元。

虽然正在进入智能时代,安防本质上仍是一门传统生意。在满足需求、找到应对方法的同时降低成本,抵抗市场对渠道、品牌的依赖,绝不是刚刚踏入安防领域的 CV 公司就能解决的问题。学术背景深厚的各位掌舵人顿时发现,与实验室里的算法参数相比,现实世界既复杂又不可控。

在 2015 年 9 月的一次采访中,赵勇承认安防这类软硬结合的产品复杂度超出预计,「我们低估了这种产品在品控上的难度……对于未来,我们觉得更大的挑战是在商业上,如何在商务上发挥更大的价值」。打从一开始就定位在安防的格灵深瞳,选择的解决方案是从某上市安防公司挖来一名 VP,负责销售和商务。

商汤的选择,是与安防老牌捆绑成立合资公司。这家由香港中文大学多媒体实验室带头人汤晓鸥与得意门生徐立成立的公司,是汤教授前半生学术积累面向商业世界的一次野心实践。

2015 年 7 月,商汤与东方网力共同成立「深网视界」:商汤以其人群智能分析、人体Re-ID(检索)两项自有技术作价出资,持股 49%;东方网力出资 5000 万,持股 51%。该公司主要发展智能安防产品业务,致力成为「拥有计算机视觉和深度学习原创技术的领先安防产品提供商」。次年 4 月,商汤还并购安防黑马「新舟锐视」,以弥补其抢球联动产品的短板。

与之类似,依图于 2016 年 5 月与传统身份识别解决方案商神思电子成立「深思依图」,由神思电子提供终端设备及嵌入式软件,依图提供所需软件,双方各持股 49%、51%;云从自正式成立时便绑定了智慧城市解决方案提供商、上市公司佳都科技;旷视则成立子品牌「旷视智安」,专注算法产品化。

四、2016-2017:金融、医疗、自动驾驶……明天的风啊,吹向哪儿?

2016 年,商汤与东方网力共同成立的深网视界营收为 4393 万,安防巨头海康威视则为 319 亿。

诚然这是一块广阔到不容放弃的市场,但仍需要奋力耕耘和一点运气。

与安防类似,金融领域也有大量的人脸需求。ATM 机刷脸取款、支付,活体识别,人证合一……其应用场景的丰富程度,和以技术手段代替重复人力劳动的迫切需求,使得 CV 公司早早就在该领域布局。

2015 年 3 月,在德国汉诺威消费电子、信息及通信博览会(CeBIT)上,马云对着手机摄像头微微一笑,买下一枚 1948 年的汉诺威纪念邮票。这次面向世界的人脸支付场景展示,既宣告着人脸识别技术开始走向商业场景,同时是旷视一次面向世界的技术展示:作为合作伙伴,其人脸支付认证技术已得到蚂蚁金服认可。

商汤也不甘示弱。2015 年 10 月借贷宝上线不久,商汤便与其达成深度合作,注册、大额转账、出借等环节会大几率触发人脸识别环节。二者不仅成立合资公司人商鼎诚,随后该公司又入股商汤子公司今始科技——更为人知的名字是「LinkFace」。借贷宝疯狂膨胀的超亿规模的用户,成就了当时世界最广泛的人脸识别技术应用。

云从的目光一直紧盯着银行。工商银行、农业银行、建设银行、中国银行均使用其提供的人脸识别软件,应用于柜台、直销银行、手机银行、网银等场景。大型银行之外,西安银行、重庆银行、贵阳银行,海南银行等中小银行,广电运通、信雅达等大型银行系统供应商同样选择云从作为人脸识别供应商。

依图也做了自己的尝试,通过与招商银行 VTM (Virtual Teller Machine,远程视频柜员机)合作,已经在 106 各城市近千台 ATM 机上实现「刷脸取现」。

与安防类似,金融也有传统行业的一面,同样需要时间和运气。到底该将精力放到哪儿,CV 公司各有自己的想法。

曾经为媒体追捧、如今深陷泥沼的格灵深瞳,赌对了自动驾驶。经赵勇劝说投身自动驾驶的吴甘沙,在 2015 年底与其共同成立驭势科技。2016 年 4 月,格灵深瞳作为投资方入股驭势科技,两者成为「兄弟公司」。

今年 3 月,驭势在广州白云机场完成无人驾驶场地车试运营,明年下半年将展开小批量试产。据称何博飞出走后,由赵勇带领的格灵深瞳将延续此做法,很快将会有第二家类似方式运作的公司。

依图则自 2016 年下半年开始发力医疗,其开发的胸部 CT 影响辅助诊断产品已经在浙江深人民医院、复旦大学附属肿瘤医院等数十家三甲医院部署,报告采纳率超过 90%。就在今日,依图宣布与浙江省儿童医院结成战略合作伙伴,并发布了一款基于儿童骨龄的智能辅助诊断系统。

CV 之外,依图还在 NLP (自然语言处理)领域展开尝试,开发了基于海量病例的儿科辅助诊断系统「咪姆熊」,以及病例智能搜索引擎。

继去年招募 MSRA(微软亚洲研究院)首席研究员孙剑加入后,今年 8 月旷视引入 Adobe 首席科学家王珏,负责旷视美国研究院。该研究院与孙剑带领的旷视北京研究院互补,在独立承担部分研发工作外,还要开拓新市场。在涉足过身份认证平台、智能园区、安防硬件 MegEye 等几乎所有人脸应用方向后,旷视也在做智能服务机器人等尝试。

7 月获得 4.1 亿美元巨额融资的商汤,正在加速实现技术和产品落地,原本以算法、研发为重的思路正向商务倾斜。据透露,商汤如今有 5 位销售总监,每位手下 10 人,共计五十多名销售。

说是恩仇录,计算机视觉的应用蛋糕还未做大,谈什么恩仇?

他们的时代,才刚刚开始。

据近日红杉、真格联合发布的《全球人工智能专利资源发展概况》报告中称,中国在计算机视觉方面的专利已跃居世界第一,占当前全球专利公开数量的55%。

「如果在有生之年能够看到人工智能全面影响生活,哪怕下一秒就死掉,我也值了。」

「如果我活到 70 岁,无论经历多少失败,我所做的事情一定会改变这个世界。」

虽说 CV 的现实是抛去形容词后留下的部分,但这些都是 CV 公司掌舵者们曾流露过的真实心声。正是这种理想支撑他们挨过 AlphaGo 前的 AI 寒冬,走向下一个 CV 的五年。

如今还有一个疑问,旷视和商汤,到底谁会先上市?

本文及文中图片为「KnowingAI 知智」原创,未经许可,请勿转载。