云从周翔:三年打磨,云从如何成为计算机视觉国家队

2018 年 2 月,云从科技正式在国内发布「3D 结构光人脸识别技术」,这是中国企业首次将结构光技术应用在人脸识别系统上,相较以往的 2D 人脸识别及以红外活体检测技术,在精确度、响应速度等方面取得革命性突破。

近日,云从科技又在跨镜追踪技术(Person Re-Identification,ReID)上取得重大进展,他们同时在 Market-1501,CUHK03,DukeMTMC-reID 三个数据集上刷新世界记录。ReID 是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人,无需人脸,根据穿着、体态、发型就能识人。

图:ReID 行人识别技术

云从科技近期在 AI 科技评论推出的数据库项目「AI 影响因子」上表现活跃,针对他们的这两大突破,雷锋网 AI 研习社对云从科技研究院副院长周翔进行了一次专访,了解到云从研究院的工作、云从技术上的创新及目前的研究重点。

早在云从科技成立之前,周翔就在重庆中科院跟随周曦博士(云从创始人)从事人脸识别研究。后来,周曦博士从中科院辞职成立云从,周翔也作为初创员工加入。

周翔目前担任云从科技研究院副院长,主要负责三个方向:数据的收集与处理、技术研究、POC 测试。

以下为采访原文,雷锋网 AI 研习社做了不改变原意的编辑整理。

云从研究院

问:云从科技研究院在公司里处于什么样的战略地位?目前研究院主要进行的工作有哪些?

周翔:云从所有核心技术都来自云从研究院,目前,研究院处于云从战略最高点。研究院的工作围绕三个方向展开:

  • 一是对前沿算法的深入研究、自主创新。我们会紧跟当前世界上最前沿的计算机视觉技术和人工智能技术,也会推陈出新,研究新的人工智能视觉算法。

  • 二是针对业内已有的算法进行深入研究。比如我们刚刚发布的「3D 结构光人脸识别技术」,跨镜追踪技术(ReID)。此外,还有车辆、人群密度、交通行为、拥堵、医疗影像等等,只要与计算机视觉有关,我们都会或多或少进行布局。

  • 三是将算法产品化。我们需要对这些算法进行封装,做产品级别的 SDK 和引擎。

问:云从与中科院、上海交大共建两个联合实验室,这两个联合实验室目前主要进行哪些方面的研究?

周翔: 这两个联合实验室侧重于计算机视觉领域的前沿算法研究。云从会将前沿领域的研究放到高校团队,让学生与研究人员一起,做一些预研以及算法的基础研究。

此外,云从创始人周曦是这两所高校的博士生导师,他也会对学生进行论文指导,推荐他们参加顶会。

问:云从科技于 2015 年成立,这 3 年来,你们在计算机视觉领域取得了哪些具有代表性的技术突破?

周翔:云从成立之前,我们在中科院的技术就已经比较领先。2015 年,我们在 FDDB(Face Detection Data Set and Benchmark) 和 LFW(Labeled Faces in the Wild Home) 上刷到前三之后,觉得已经很好地展示了学术实力,就开始专心打磨产品。公司成立初期,我们更多看重产品落地。

当然,我们也一直在做前沿研究,今年二月,我们发布结构光 3D 人脸识别技术,最近,我们在 ReID(跨境追踪技术)上又一次刷榜。

随着公司的发展,队伍越来越壮大,我们可能会有新的定位,也会去发表论文,宣传技术上的突破。当然,我们还需要静下心来,踏踏实实将技术落地,只有这样,客户才会认可我们。

问:接下来云从研究院主要会攻克哪些方面的难题?

周翔:首先做好计算机视觉领域的基础技术研究,比如对人脸、车辆、行人的检测。

之后,我们会投入更多时间,去从人的角度分析构建深度神经网络,让深度学习具有可解释性。对深度学习有所了解的人都知道,它是一个「黑匣子」,虽然很多时候远胜传统算法,但缺乏可解释性。我们研究人工智能,应该要让计算机能够像人类一样去思考和识别,具备自己的逻辑判断,并且我们人类可以理解他们的思考。

问:你们近日在 Market-1501 上的首位命中率(Rank-1 Accuracy)达到 96.6%,刷新 ReID 榜单,这一数字是否还存在很大提升空间?与人脸识别相比呢?

周翔:提升空间肯定存在,但是对行人识别的研究比人脸识别更难。

  • 第一,人脸的五官、脸型比较固定,不可能发生特别大的变化。行人不一样,大家在走路、打球、跑步时的姿态千变万化,伴随弯腰、后仰等各种动作,没办法很好地约束。

  • 第二,我们还要根据体态、穿着来判断行人。如果很多人穿着同样的衣服,识别难度将更大。我们主要的判断依据就是服饰、配饰、体型、发型等特点。如果两个人的服饰、发型等类似,这将很难辨识。

问:为了加深行人辨识的精准度,主要用到的核心技术有哪些?

周翔:在行人识别上,我们创新性地提出全局+局部多粒度的识别理论。我们能通过人的形态、服装等去做整体判断,然后再通过一些细节,比如衣物商标、挎包类型、服饰特征去判断,即聚合同一个人在不同情况下的照片。

云从大脑

问:你们曾提到训练人脸识别时的网络架构,包括结构化+非结构化的数据、双层异构深度神经网络、三层金字塔式的迁移学习,这与云从大脑有什么关联?

周翔:这是云从大脑其中一个最基础的识别认知模型。

问:在云从大脑构建的过程中,主要的技术难点有哪些?

周翔:最初构建云从大脑时,还是存在一定难度。开源算法有很多,但我们需要研制出支持大类别分布式训练的算法。

人的类别是无穷的,以中国人来举例,就有十几亿的类别,这需要大量数据进行训练。在算力一定的情况下,如何让效率更高;如果模型太深,如何去做加速,这些难点需要一个个突破。

问:目前一直在进行云从大脑的优化与改进吗?

周翔:是的,目前云从大脑只有人脸识别功能,后续我们会加入行人识别,之后会慢慢扩充,加入车辆、人群等,让它的应用的领域更加广泛。最后,我们还考虑将语音、文字等的识别全部构建到云从大脑上,让这个大脑就像人脑一样,既能看懂图像,还得读懂文字,还能听到声音,理解语意。这是我们的最终目标。

问:想要把行人识别等其他功能融合进云从大脑,需要解决哪些技术上的难点?

周翔:主要有以下几点:

  • 第一,将所有算法融合到一起,变成一个超级大脑进行统一分析,输出有效信息。

我们常提到谷歌的 AlphaGo,它只会下围棋,同样,我们的网络有些分析人脸,有些分析行人,有些分析车辆,如何将算法以及分析结果融合,变成一个整体,这是一个挑战。

  • 第二,海量的数据。

当数据越来越多,如何对这些海量数据进行有效分析;哪些数据是无用数据,如何高效去除这些无用数据。

  • 第三,算力。

如何通过硬件的异构处理,充分提高算力和速度,降低能耗。

问:中科院李子青教授此前在雷锋网安防峰会上提到,他们针对安防数据使用半监督自主学习,这是一个技术亮点,效果好过监督学习很多倍。你们在训练 AI 的时候,使用的是迁移学习。对比起来,半监督自主学习和迁移学习在大规模人脸识别的场景下,差异点在哪里?

周翔:迁移学习是在一定的数据基础上去做知识的迁移,我们在最底层也用到监督学习,此外,或多或少会用一些半监督或非监督的学习方法。李子青教授团队可能在半监督学习算法里做了更多的改进,把它变成一个亮点,使这一算法的效率更高,效果更好。

其实每家公司在许多环节中或多或少都会有一些创新,大家的算法都会有各自的特点,用哪种算法并不是那么重要。

另外,方法的使用也与数据有关。前面提到我们有超大规模结构化数据,利用这种数据,我们能很好地训练底层人脸识别模型。假设现在我们没有这种数据,只有互联网上的或是通过其它项目得到的非结构化数据,那就没办法很好地用监督学习,只能利用半监督或非监督学习的方法了。

走向行业

问:云从刚开始成立的时候,先在金融领域占据大量市场,后来又布局安防领域。在将产品应用于这两个行业的时候,对技术的要求会存在哪些差异?

周翔:差异非常大。

金融行业更看重的是安全,算法必须达到极致。银行对人脸识别算法的误识率要求非常高,比如说百万分之一的误识率,直观解释,即 100 万个人拿着别人的身份证去取钱,只有一个人能够骗过算法。

此外,银行场景下获取到的人脸图片质量要比安防行业好。

但公安就不一样了,他们对人脸识别准确率的要求没有银行高,更看重的是算法的综合运用,即平台能力、系统能力。

公安会看重视频处理的速度,需要能实时显示。举个简单的例子,比如嫌疑犯从某一地点经过,系统需要 30 秒才能将他识别出来,那就不行,公安会说,再不快一点确认,嫌疑犯就跑了。

另外,只有人脸识别行不通,公安更看重的是能不能跟行人识别相结合,识别出来之后,能不能去做联动,如果在其它视频里也发现这个人,是否能画出他的行动轨迹,把他的出现地点、频次等信息都反馈出来。

问:您前面也提到云从的技术很早就已经很成熟,后来主要是在做落地。你们在将算法落地的过程中,面临哪些比较大的挑战?

周翔:要将算法落地做成一款产品,需要考虑的因素非常多,也面临着很多挑战。算法好不代表产品好,产品好也不代表客户一定会用。

直观一点解释,做成产品,要考虑外观、使用体验、系统的流畅性、售后,即如何把产品包装成客户认可的解决方案。

我们是 2B 公司,客户的需求千变万化,如何快速定制、快速解决客户的不同需求,这都是需要考虑的。

另外,将产品推向市场时,还需要考虑公司是否具备资质,是否避开了其它公司的专利,是否有商务上的成功案例。

问:很多人都会将云从、依图、旷视、商汤这 4 家以 CV 为核心的公司来比较,您如何看待这三家友商?

周翔:这几家公司在算法层面做的都还不错,我也非常欣赏这几家公司。虽然我们各家也会在一些领域上进行 PK,但每家公司的算法特点会有一定区别。

商汤招募了非常多的博士在内的研究人员,研究领域涉及多个方面,比如自动驾驶、商超等领域,他们想赋能百业,把人工智能应用到各个行业。

旷视最近刚刚收购艾瑞思机器人(Ares robot),它们可能更多地想在机器人领域进行扩展。他们在互联网金融上做得非常出色,在这里比较有优势。

依图最早是做车辆识别以及安防,他们的安防算法做得很棒,得到公安的高度认可。目前他们也在做医疗,我们也希望他们在医疗上能做出非常好的成绩。

云从跟这几家公司也有一些区别,云从是国家产业队,我们拿了一些国家级别的项目,更偏重顶层设计。

我们目前接触最多的是银行、公安,我们会从四大行开始渗透,先把金融做得更好,然后在金融领域做一些其它的 AI 业务,包括风控、智慧银行等。

对于安防,我们会跟公安部合作,先去设计一些标准,然后做出一些公安高度认可的产品和系统。

雷锋网

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>