标签归档:2016

FPGA 哪家强?看 2016 年度市场大趋势

FPGA 到底有多火?

雷锋网先来带大家看一组数据:

2016 年半导体市场的整体增长率为 1.5%,相比之下,FPGA 市场增长率为 6%。

随着深度学习的崛起,FPGA 市场再次风起云涌。2015 年掀起了收购狂潮,2016 年至今的市场格局有没有随之变化?近日雷锋网获得消息,著名半导体行业观察家 Paul Dillien 对 2016 年的 FPGA 市场趋势做了总结。并评出”2016 年度最佳 FPGA“,请看下文。

Paul Dillien:不需要计算,我也知道 Xilinx 是 2016 FPGA 市场的冠军。这一点也不奇怪——Xilinx 领跑 FPGA 已经超过十年。

但这可能会发生变化。

众所周知,2016 对半导体行业的营收而言,是颇艰难的一年。现在看来,该市场只有些微增长。但 FPGA 行业在 2016 年的变动不可谓不大——2015 年掀起了一阵收购狂潮,2016 是各企业整顿业务、消化整合之年:

英特尔在 2015 年底完成了对 Altera 的收购,到现在,后者在新东家管理下一年有余,是时候看看收购之后的业务进展。与此同时,Microsemi 也加入了收购狂欢。同样在 2015 年,它达成与 PMC-Sierra 的收购协议,随后把后者的 RRH(Remote Radio Head,射频拉远头)和板级产品(board-level products)业务剥离。还有 Lattice Semiconductor 在 2015 年对 Silicon Image 的收购,如今前者正在把专利许可和 ASSP 收入加入其业绩报表,目前它还在等待政府部门对一项新收购提案的审批。

FPGA 市场格局

这一系列收购,使得单独核算 FPGA 业务的收入变得十分困难。因此,我的估算未必准确,大约是如下的情形:

和计算这些数字的时候,我对 CPLD、ASSP 和电源设备的销售收入做了剔除,但包括了软件和 IP 收入。根据我的计算,FPGA 行业的整体营收增长为 6%,大幅超过萎靡不振的整体半导体市场 (1.5%)。

Xilinx 

虽然英特尔 CEO Brian Krzanich 宣称,Altera 的市占率在收购后得到增长,但我并没有发现行业格局有的显著变动。事实上,上图最让我惊讶的是,Xilinx 并没有拉开与竞争对手们的差距。其"largest-fastest-latest technology" (最大最快最新技术)的宣传标题,同样意味着“最贵”。最近的三代制程上,Xilinx 一直领先于 Altera,比如在 16/14nm 上的技术领先就超过一年。我原本预期掌握技术高地能带来更多的设计优势,并推动营收增长。当然,这些高端设备往往是被预订作 ASIC 模拟、通讯及军事用途,但它们也是最有价值的。

FPGA 的设计时间正在变得更长。其中,我预期 ASIC 模拟的上市时间会相对早些。模拟公司需要开发复杂的软件环境,把 ASIC 设计分割为可控的部分,然后把设计分发给供应商工具。这并不简单,但他们不需要进行设计验证以及与软件整合,这是终端用户的事情。通讯应用牵扯的方方面面更多,需要更长的时间来进入产品阶段。军事应用需要的研发周期还要长。因此,或许 Xilinx 的营收增长将在下几个季度出现。

Altera

我觉得, 对于 Altera 从英特尔的收购中获益,现在还为时过早。所有人都知道英特尔需要 FPGA 加速设备来维持其在数据中心业务的霸主地位。但也许,这会导致 Altera 对其它市场的不够重视(雷锋网注:仅是作者个人猜想)。但现在还不到下结论的时候。

Microsemi、Lattice 以及其他

我怀疑我对 Microsemi 的分析低估了它的 FPGA 营收,而高估了 Lattice。两家公司都不会定期披露业绩数据。Microsemi 高度聚焦于 FPGA 的安全应用领域,比如国防和航空,这需要更长的研发周期。但这也有好处:每一代产品的生命周期也长,能卖更久。Microsemi 将从美国国防开支增长中获益最多。

Lattice 的部分 FPGA 产品可用于消费级应用。这部分产品在 2016 年看到了大幅产量增长,以及同样幅度的价格下探。Lattice 在中端产品线也有很强的竞争力。

最后,QuickLogic 的营收大幅下降。这是因为它的业务十分依赖三星的几大项目。其 CEO 希望在 2017 年底能够收支平衡,为长期的亏损划上句号。表格中的"others" 包含 Achronix,它仍然依赖于风投资金,并不公开业绩与财务报表。

2016 最佳 FPGA

对于具备哪些要素才算得上是“最佳”产品,每个技术人员都有自己的评判标准。对于我和我的钱包来说,去年推出的最发杂的产品线必须是 Virtex UltraScale+ 系列。但是,天知道多久之后才能有一个技术团队来设计、验证一个号称有 2.8M 逻辑单元、96 个收发器(transceivers)的设备,或是由 600k 逻辑单元支持、有多核处理器的 MPSoC 。

via eetimes

雷锋网

从声学模型算法总结 2016 年语音识别的重大进步丨硬创公开课

雷锋网按:在过去的一年中,语音识别再次取得非常大的突破。IBM、微软等多家机构相继推出了自己的 Deep CNN 模型,提升了语音识别的准确率;Residual/Highway 网络的提出使我们可以把神经网络训练的更加深。

而诸如 CTC、Low Frame Rate、Chain 模型等粗粒度建模单元技术使得语音识别准确率得到提升的同时,解码速度也可以大大加快。

本期雷锋网硬创公开课特邀供职于阿里巴巴 iDST 的语音专家薛少飞博士,从学术的角度回顾过去一段时间里语音识别技术的发展状况。

嘉宾介绍:



薛少飞,阿里巴巴 iDST 语音识别专家,中国科学技术大学博士。现负责阿里声学模型研究与应用:包括语音识别声学建模和深度学习在业务场景中的应用。博士期间的研究方向为语音识别说话人自适应,提出基于 Speaker Code 的模型域自适应方法,在语音相关的会议和期刊上发表论文十余篇。

本期雷锋网硬创公开课的分享主要包括三大部分:


  • 深度神经网络声学模型发展回顾:简单回顾深度神经网络技术在语音识别声学模型中的应用历史;

  • 前沿声学模型技术进展:介绍近期几个比较有意思的声学模型技术进展,包括 Deep CNN 技术、Residual/Highway 网络技术和粗粒度建模单元技术。当然这里并没有把所有的新技术进展都囊括进来,比如 Attention 技术。只是以这三条线路为例看看语
    音识别声学模型技术的进展和未来的发展趋势。

  • 介绍绍阿里巴巴的语音识别声学模型技术。 

一、深度神经网络声学模型发展回顾

回顾语音识别技术的发展历史可以看到,自从上世纪 90 年代语音识别声学模型的区分性训练准则和模型自适应方法被提出以后,在很长一段内语音识别的
发展是比较缓慢的,语音识别错误率的那条线一直没有明显的下降。直到 2006
年 Hinton 提出深度置信网络(DBN),促使了深度神经网络(DNN)研究的复苏。

2009 年,Hinton 将 DNN 应用于语音的声学建模,在 TIMIT 上获得了当时最好的结果。2011 年底,微软研究院的俞栋、邓力两位老师又把 DNN 技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此以后基于
DNN 声学模型技术的研究变得异常火热。微软去年 10 月发布的 Switchboard 语音识别测试中,更是取得了 5.9%的词错误率,第一次实现了和人类一样的识别水平,这是一个历史性突破。


那么什么是 DNN 的?其实标准的 DNN 一点也不神秘,它和传统的人工神经
(ANN)在结构上并没有本质的区别,只是 ANN 通常只包含一个隐层,而 DNN
则是通常包含至少 3 层以上的隐层,通过增加隐层数量来进行多层的非线性变换,大大的提升了模型的建模能力。 

这是基于 DNN 的语音识别系统框架,相比传统的基于 GMM-HMM 的语音识别系统,其最大的改变是采用 DNN 替换 GMM 模型对语音的观察概率进行建模。

相比传统 GMM 模型我觉得有两点是非常重要的:

  • 1.使用 DNN 不需要对语
    音数据分布进行假设。

  • 2. DNN 的输入可以是将相邻语音帧拼接形成的包含时序结构信息的矢量。

当时训练 DNN 的普遍做法是先进行无监督的预训练,而后进行有监督的调整,后来人们发现当数据量非常大的时候无监督的预训练并不是必要的,当然这是后话了。

促使 DNN 的研究在那时重新兴起还有一个非常重要,
并且我个人认为是最核心的因素,就是计算能力的提升。

以前要在 CPU 上训练
DNN 是非常慢的,做一个实验可能需要好几周甚至几个月,这是不能忍受的,随着 GPU 的出现这种情况发生了变化,GPU 非常适合对矩阵运算进行加速,而
DNN 的训练最终都可以被拆解成对矩阵的操作,两者天然和谐。

而今随着 GPU
技术的不断发展和进步,我们能够训练数据量更大、网络更深、结构更复杂的模型,这才有了深度神经网络技术的迅速发展。 

LSTM 模型相信大家都不陌生,它一种特殊的循环神经网络(RNN)。语音识别本来就是一个时序建模问题,所以非常适合用 RNN 来进行建模。

但是简单
的 RNN 受限于梯度爆炸和梯度消散问题,比较难以训练。而 LSTM 通过输入门、
输出门和遗忘门可以更好的控制信息的流动和传递,具有长短时记忆能力,并在一定程度上缓解 RNN 的梯度消散和梯度爆炸问题。当然它也有不足之处,计算复杂度相比 DNN 大幅增加,并且由于递归连接的存在难以很好的并行。

 BLSTM 进一步提升了该类模型的建模能力,相比 LSTM 还考虑了反向时序信息的影响,也即“未来”对“现在”的影响,这在语音识别中也是非常重要的。 

当然这种能力的代价就是模型计算复杂度进一步加大,并且通常需要整句进行训
练:GPU 显存消耗增大->并行度降低->模型训练更慢,另外在实际应用中还存在实时性问题。

 CTC 技术在过去的一段时间内也非常的火热,首先要说明的是 CTC 并不是模型的变化,而是优化的目标函数发生了改变,DNN、LSTM、CNN 都可以和
CTC 相结合。

传统的深度神经网络声学模型的训练过程需要先对训练数据文本序列做 Alignment 得到分类的“硬判决”,之后以这种“硬判决”的分类为目标训练
神经网络,网络优化的目标并不是最终要识别的结果。和传统的深度神经网络声
学模型相比 CTC 的优化目标是一种所见即所得的优化目标,你要训练的目标就
是你想要得到的结果。 

传统的深度神经网络声学模型建模单元通常是 state 级的,而 CTC 的建模单元则是 phone 一级甚至是 character 的,state 级反而不好,这种建模粒度的
变化带来一个好处就是语音数据的冗余度增加了,相邻的语音帧本来就会很像并
可能来自于同一个 phone,那么现在就不需要这么多帧数据来建模一个句子。

通过拼帧降采样的方法可以降低数据的总帧数,在不影响识别准确率的情况下加快网络计算的速度。CTC 的另一个非常重要的贡献是引入了“Blank”空白,空白的
引入避免了易混淆帧的“强制”对齐。并且使得训练后的网络输出呈现“尖峰”状
态,大段的 Blank 使得解码时通过 beam 的灵活调整,可以加快解码速度。 

语音识别领域有非常多的开源工具,传统的语音识别开源工具像 CMU
SPHINX 系统,是基于统计学原理开发的第一个“非特定人连续语音识别系统”;
剑桥语音识别组推出的 HTK 工具包是 GMM-HMM 时代最为流行的语音识别工具,我刚接触语音识别就是从 HTK 开始的。

几年前推出的 kaldi 严格来讲并不十
分“传统”,也是比较新并且在不断更新的开源工具,目前应该也是使用人数最多的语音识别开源工具。

近两年来许多深度学习开源框架涌现了出来,像 Theano、
CNTK、TensorFlow 等,接下来我会对传统的语音识别工具和新的深度学习开源框架做一个对比,那么我就简单从几个我比较关心的维度来抛砖引玉看看 kaldi、CNTK
和 TensorFlow 的异同。 

在拓扑基础方面,kaldi 的 nnet1 和 nnet2 是以层设计为基础的,也即当你新增加一种神经网络层时需要自己定义它的结构,都有哪些变量,正向怎么算,
反向误差怎么传播等等,并且过于复杂的连接方式很难支持。

而 kaldi 的 nnet3
和 CNTK 以及 TensorFlow 都是以图结构为基础的,通过配置文件实现对网络连接方式的定义,数据就像流水一样在你定义的网络图中游走,并自己实现误差的
反向传播,它的优点是你可以专注网络拓扑结构的设计,而不用为网络计算的细
节而费心,特别是误差的反向传播。

但这也带来一个问题,尤其是对初学者而言,
会造成只是在设计网络长成什么样子,但并不清楚其中的实现细节。初学者最好多推推公式,对打下一个坚实的基础绝对有好处。

在语音识别其它工具支持方面,kaldi 有全套的语音识别工具,包括解码器、
建立决策树、GMM 训练等等,而 CNTK 和 TensorFlow 在这方面并没有特别的支持,值得一提的是 CNTK 里提供了把 kaldi 数据处理成为 CNTK 数据格式的工具,使的用 kaldi 的人也可以很快上手 CNTK,大家不妨试一下。

最后一个我比较关心的因素就是是否支持多机多卡,因为随着数据量和模型复杂度的不断攀升,仅仅用一个 GPU 很难满足模型训练的需要,必须使用多个
GPU 来加速训练。在这方面目前 kaldi、CNTK、TensorFlow 都已经支持。

最后我的建议是对于语音识别的初学者和低年级的研究生来讲,用 kaldi 入门学习算法和实践理论知识是比较好的选择,对于高年级研究生和具有一定年限的从业人员来讲,就看自己的喜好了,大家都是殊途同归,工具不是决定性的,
数据、算法和模型才是。

二、前沿神学模型的技术进展

 

接下来介绍一下 Deep CNN 技术、Residual/Highway 网络技术和粗粒度建模
单元技术。去年有多家机构都推出了自己的 Deep CNN 模型,像 IBM、微软等,我这里以 IBM 的 Deep CNN 为例,一起探讨一下到底哪些关键因素使得 Deep CNN
能够取得这么好的效果。

其实 CNN 被用在语音识别中已经不是一天两天了,在 12、13 年的时候
Ossama Abdel-Hamid 就将 CNN 引入了语音识别中。

那时候的卷积层和 pooling
层是交替出现的,并且卷积核的规模是比较大的,CNN 的层数也不是特别的多,
主要是用来对特征进行进一步的加工和处理,使其能更好的被用于 DNN 的分类。

后来随着 CNN 技术在图像领域的发展,情况慢慢出现了变化,人们在图像领域
的研究中发现多层卷积之后再接 pooling 层,减小卷积核的尺寸可以使得我们能够训练更深的、效果更好的 CNN 模型。相应的方法被借鉴到了语音识别中,并
根据语音识别的特点进行了进一步的优化。

IBM 的研究人员在 16 年的 ICASSP 上发表文章,称使用 3×3 的小卷积核和
多层卷积之后再接 pooling 的技术可以训练出 14 层(包含全连接)Deep CNN
模型。

在 Switchboard 数据集上相比传统的 CNN 使用方法可以带来相对约
10.6%WER 下降。小尺寸的卷积核和多层卷积之后再接 pooling 的技术是使
Deep CNN 能够成功的关键点。 

接下来介绍一下 Residual/Highway 网络以及它们目前在语音识别中的应用情况。

Residual 网络会这么出名得益于 MSRA 的 152 层让人“疯狂”的深度神经网络,凭借着它 MSRA 在 2015 ImageNet 计算机识别挑战赛中以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。

在公开的论文当中,
作者详细解读了他们的“心路历程”。

研究人员发现在深度神经网训练过程中总是会出现”Degration Problem”,即当网络深度达到一定程度以后,随着网络深度的
增加 training error 将不降反增,并且这不是由于过拟合引起的。

一般来讲我们
认为一个浅层网络 A 叠加几层成为网络 B,如果叠加的几层权重都是单位矩阵,那么 B 的性能至少不会比 A 差,但现实并非如此,网络自己很难学习到这种变换。

而相比与学习目标函数而言残差更容易学习,于是提出了一种 residual
learning 的结构,增加了一个越层的短连接。我的理解是这种短连接一方面避免了前向计算中非线性变换对数据的过度加工,另一方面在误差反向传播时通过直
连通路,可以让误差有路径直接回传,抑制梯度消散。

大约稍早,Srivastava 在 arxiv 上传了他的 Highway 网络工作,在 Highway
网络中一个隐层节点的输出不再单单是输入通过非线性变换后的数值,而是变成
了通过 Transform gate 和 Carry gate 对非线性变换后的数值和输入进行加权得到的结果。Residual 网络可以被看成是 Highway 网络的一种不额外增加参数量的特例。 

Residual/Highway 网络这么有效果,语音识别领域的研究人员当然也会关注并使用。我来举几个例子,在“Highway Long Short-Term Memory RNNs for
Distant Speech Recognition”中作者提出 Highway LSTM 结构,引入了一种 carry
gate,Carry gate 控制当前层 cell 状态计算有多少来自于前一层的 cell 状态,
carry gate 的计算又取决于当前层的输入、当前层前一时刻的 cell 状态和前一层当前时刻的 cell 状态。通过这种模型结构实现了信息在模型内部更好的跨层流动。 

在 ”Multidimensional Residual Learning Based on Recurrent Neural
Networks for Acoustic Modeling”中作者将 Residual 的概念应用到 LSTM 模型
中,并在 TIMIT 和 HKUST 两个数据集上验证了实验效果。

在 ”Renals.Small-footprint Deep Neural Networks with Highway
Connections for Speech Recognition”中作者对比了 Residual DNN 和 Highway
DNN 在语音识别上的效果,得到的结论是:” residual networks are more
powerful to train deeper networks compared to plain DNNs, particular with
ReLU activation functions which reduce the optimisation difficulty. However,
highway networks are more flexible with the activation functions due to the two
gating functions that control the follow of information.” 

下面是粗粒度建模单元技术,Low frame rate 技术我会放到后面结合阿里巴巴的声学模型技术进行说明,先来看一下 Chain 模型。Chain 模型是 kaldi 的作者 Daniel Povey 近期力推的工作,它使用的也是
DNN-HMM 架构,表中我列出了 chain 模型和传统的神经网络声学模型建模的不同点。

在建模单元方面,传统神经网络声学模型的建模单元一般是 3 状态或者 5
状态的 CD phone,而 chain 模型的建模单元则是 2 状态,其中 sp 是最主要用来表征该 CD phone 的状态,而 sb 则是该 CD phone 的“Blank”空白,空白的概念
其实和 CTC 中的很相似,只是在 chain 模型中每一个建模单元都有自己的空白。

在训练方法上,传统神经网络声学模型需要先进行 Cross-Entropy 训练,后进行区分性准则训练。而 chain 模型直接进行 Lattice-Free MMI 训练,当然其后还可
以接着进行区分性准则训练,但是从目前的报道来看,这部分的提升是比较小的。

在解码帧率方面由于 chain 模型使用的是拼帧然后降采样的方法,解码的帧率只有传统神经网络声学模型的三分之一,而识别准确率方面相比传统模型会有非常明显的提升。
总结一下我认为未来深度神经网络声学模型主要有三个发展方向。 

1.更 Deep 更复杂的网络

类似MSRA152 层 ResNet 的技术,虽然以目前的计算能力在语音识别
的实际应用中这种复杂网络结构的模型暂时还不能落地,但是持续不断
的研究和探索可以为我们明确我们努力的方向和能力所能达到的上界。 

2. End to End 的识别系统

End to End 的识别系统一直是近年来比较火的研究方向,如 CTC、
Attention 等都是在这方面非常有意义的工作,在海量规模的语音数据上
建立计算速度快、识别准确率高的 End to End 的识别系统会是未来的
一个重要课题。

3. 粗粒度的建模单元 state->phone->character

粗粒度建模单元的技术对于加快语音识别的解码速度具有非常重要的
意义,而反过来解码速度的提升又可以让使用更深、更复杂神经网络建
模声学模型成为可能。

三、阿里巴巴的语音识别声学模型技术

最后分享一下阿里巴巴团队在语音识别声学模型技术方面的一些工作。 


在工业界做语音识别,数据量是非常庞大的,上万小时的语音数据是再正常
不过的,面对如此庞大的数据量,使用单机单 GPU 或者单机多 GPU 进行模型
的训练是远远不能满足需求的,必须具有多机多 GPU 进行模型训练的能力。

我们使用的基于 Middleware 的多机多卡方案。GPU Middleware 提供了 API 接口使得我们可以通过对训练工具(kaldi、caffe 等)的简单修改实现并行训练。并且可以自主管理任务队列、数据分发、通信、同步等,是我们能够更多的专注于算法本身。采用 Master-slave 模式,支持 MA / SGD / ASGD 等。

这是 Model Averaging 的一个示例:

表格里给出的是在 5000h 小时训练数据情况下训练 DNN 模型的加速效果,
可以看到使用 8 个 GPU 的情况下大约可以取得 7.2 倍的加速,使用 16 个 GPU
的情况下大约可以取得 14.3 倍的加速。我们目前使用的是 Latency-control BLSTM 模型,这里面有从 BLSTM 到
CSC-BLSTM 再到 LC-BLSTM 的发展历程。

我们知道 BLSTM 可以有效地提升语音识别的准确率,相比于 DNN 模型,相对性能提升可以达到 15%-20%。

但同时 BLSTM 也存在两个非常重要的问题:

1. 句子级进行更新,模型的收敛速度通常较慢,并且由于存在大量的逐帧计算,无法有效发挥 GPU 等并行计算工具的计算能力,训练会非常耗时;

2. 由于需要用到整句递归计算每一帧的后验概率,解码延迟和实时率无法得到有效保证,很难应用于实际服务。对于这两个问题,前 MSRA lead researcher,目前已经是阿里巴巴 iDST 语
音团队负责人的鄢志杰和他当时在微软的实习生一起首先提出 ContextSensitive-Chunk
BLSTM ( CSC-BLSTM)的 方法加 以解决。

而此后文献
(Zhang2015, MIT)又提出了 Latency Controlled BLSTM(LC-BLSTM)这一改进版本,更好、更高效的减轻了这两个问题。我们在此基础上采用 LC-BLSTM-DNN
混合结构配合多机多卡、16bit 量化等训练和优化方法进行声学模型建模。完成了业界第一个上线的 BLSTM-DNN hybrid 语音识别声学模型。 


这两张是 LC-BLSTM 的示意图,训练时每次使用一小段数据进行更新,数据由中心 chunk 和右向附加 chunk 构成,其中右向附加 chunk 只用于 cell 中间状态的计算,误差只在中心 chunk 上进行传播。时间轴上正向移动的网络,前一
个数据段在中心 chunk 结束时的 cell 中间状态被用于下一个数据段的初始状态,
时间轴上反向移动的网络,每一个数据段开始时都将 cell 中间状态置为 0。

该方法可以很大程度上加快网络的收敛速度,并有助于得到更好的性能。解码阶段的数据处理与训练时基本相同,不同之处在于中心 chunk 和右向附加 chunk 的维
度可以根据需求进行调节,并不必须与训练采用相同配置。 

进一步,我们又在 LC-BLSTM 上进行了改进,首先提出一种改进的 FABDIBLSTM
模型,它和 LC-BLSTM 的不同在于时间轴上反向移动的网络,cell 中间状态是由 feed-forward DNN 计算得到的,而不是原来采用的递归方式,这样在
尽可能保证识别准确率的同时,降低了模型的计算量。

我们还提出一种改进的 FABSR-BLSTM 方法,用简单 RNN 替代时间轴上反向移动的 LSTM,以加快这部分的计算速度。

表里面给出的是我们的实验结果,在 Switchboard 数据集上的实验表明在损失少量精度的情况下,我们的改进版模型相比标准的 LC-BLSTM 可以取得 40%-
60%的解码加速。这部分工作已经被 ICASSP 2017 接收,即将于今年三月份发表。

Low frame rate(LFR)是我们上线的又一新技术,LFR 是在 Interspeech 2016
会议上由谷歌的研究人员提出的,在论文中研究人员宣称 CTC 技术只有在 4 万
小时以上的数据量下才有更好的效果,而 LFR 通过使用单状态的 CD-Phone、
拼帧并降帧率、soft label、CE 初始化、Output Delay 等技术可以让传统神经网
络识别模型取得和 CTC 近似或更好的效果。

我们借鉴了论文中的方法并将其成功应用在 LC-BLSTM 上,在我们的一个上万小时数据的任务上。

LFR-LC-BLSTM 可以取得和 LC-BLSTM 差不多的识别
错误率,并且有约 3.6 倍的解码加速。据我们所知(to the best of our knowledge),
我们也是目前业界唯一一家落地 LFR 技术的公司。

在模型的鲁棒性方面,我们也做了非常多的工作。模型的鲁棒性一直是困扰
业界和研究人员的一个问题,比如用安静环境下的语音数据训练的模型在噪声环境下识别准确率就很差,用新闻播报的语音数据训练的模型去识别激情的体育解说,识别准确率也会很差。

那么如何克服不同的信道、噪声、应用场景的差异,使声学模型具有更好的鲁棒性呢,最好的办法当然是收集更多真实场景下的语音
数据,但是如果一时之间做不到呢?

怎么利用现有的语音数据去尽可能的提升模
型的噪声鲁棒性?能不能利用现有数据去“造”和目标场景很类似的数据?

这是一个很有意思的研究课题。算法层面的改进这里暂且不提,说一下我们在“造”数
据上的一些工作,我们设计了一套完整的数据分析、数据筛选和数据加工流程。

从应用场景分析开始,我们会去分析信道情况、噪声情况、语境情况等等。然后根据对应用场景的分析自动筛选适合的训练数据。再根据不同的场景情况,
进行加噪、加快语速等处理。最后训练模型进行测试,再根据对结果的分析反馈我们应用场景的分析。

这一整套流程开始时由人为设计的,现在正逐步往自动化流程上推,依托阿里 MaxCompute 高效计算平台我们可以快速的完成海量数据的加工处理,这大大解放我们的算法人员,让大家有更多的经历投入到技术上的优化,而不是为数据烦恼。
最后是我们语音识别技术应用的一些案例,像是内部的智能质检和智能电话
客服,阿里云年会上实时语音识别挑战金牌速记员。

最后是我们语音识别技术应用的一些案例,比如阿里巴巴内部的智能质检和智能电话客服,从去年开始,阿里集团与蚂蚁客服每接听一个电话,都会立刻启动一个叫风语者的系统,它就是自动语音识别技术,将语音转变成文字,千分之三的人工抽检可以瞬间升级为100%的自动质检。除此应用场景之外,阿里YunOS、阿里小蜜以及手淘,现在都已经应用到阿里云的语音识别系统。 


阿里云在 2016年 会上公开展示实时语音识别技术,并现场挑战世界速记大赛亚军得主。据现场最终评测,机器人在准确率上以 0.67%的微弱优势战胜第50 届国际速联速记大赛全球速记亚军姜毅。 对外服务上我们开放了智能语音交互的能力(data.aliyun.com),为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。 在法庭庭审方面,我们利用语音识别技术,将庭审各方在庭审过程中的语音直接转变为文字,供各方在庭审页面上查看,书记员简单或不用调整即可作为庭审笔录使用。 大家在目睹直播平台上看云栖大会直播时,上面的实时字幕背后用的也是我们自己的语音识别技术。

参考文献

雷锋网

人工智能 2016 十大里程碑盘点!革命还是泡沫?

又是新的一年,2016 在骚动中落下帷幕。回头看去,我们发现这一年的科技圈颇不平静:

  • 大趋势上,AI 助手层出不穷,自动驾驶风雨欲来,各大机器学习平台相继开源;

  • 通讯上,5G 标准初定,蓝牙 5.0 启用,美国断网事件使僵尸网络成为”网红“;

  • 明星企业中,讯飞火了,SpaceX 要让人类移民火星,Nvidia 用去火星的钱砸出新泰坦;

  • 数码界的噩耗,安卓老大三星炸了,智能手表鼻祖 Pebble 死了。

然而最引人注目的,还是 2016 愈演愈烈的 AI 浪潮——甚至把这一年发生的事称之为“人工智能革命”也不为过。这年头,互联网巨头们没有一家不在谈论、研究人工智能,几乎到了不搞点 AI 都不敢自称是互联网科技公司的地步。以至于,周鸿祎直言出现了 AI 经济的泡沫。 

那么,AI 在 2016 年是如何一步步爆发的?都出现了哪些具有划时代意义的进展?到底是泡沫还是革命?请看雷锋网 “AI 科技评论"栏目为您盘点的 ”2016 十大 AI 里程碑事件“:

*波浪线为 2016 全年的谷歌”人工智能“搜索指数变化

1) 3 月 9 日, AlphaGo 下围棋战胜李世石

这场围棋“世纪之战”中,AlphaGo 五局四胜战胜一代宗师李世石,震惊世界。前者是谷歌 DeepMind 开发出的人工智能系统。而计算机在围棋上战胜人类顶尖选手,是有史以来的第一次。这一刻比科学家们预想的早了十年。

围棋,这项中华民族的古老发明,是完全信息博弈游戏(perfectinformation games)的巅峰,长期被看作是棋牌运动中“人类智慧的最后堡垒”。据数学家估算,围棋中潜在的落子组合,比宇宙中原子的总数还要多——即便是电脑,也无法对所有的可能性进行预测。

因此,AlphaGo 采用了深度学习和神经网络技术,能不断对围棋技巧进行“学习”。这与 1997  年国际象棋比赛中,IBM “深蓝”计算机用穷举法击败世界冠军  Garry Kasparov 不可同日而语。

这场对决直接唤起大众对于深度学习的热忱,当之无愧是 2016 年 AI 年度事件。

2)3 月 23 日,微软聊天机器人 “Tay” 学会种族歧视言论

作为一项对人与 AI 交谈的探索,微软聊天机器人 “Tay” 以意料之外、但情理之中的方式草草收场。

在推特上线仅 16 小时后,Tay 就被微软紧急下线——它学会了说脏话,并发布涉嫌种族、性别歧视以及纳粹主义的煽动性言论。这引发巨大争议。微软发布 Tay 的本意是与全世界青少年进行轻松、幽默的互动,并在这过程中训练 Tay ,让它变得更聪明。然而熊孩子们迅速把它教坏:Tay 学会了骂人“黑鬼”。还有一部分熊孩子钻了漏洞,命令 Tay “重复我的话”,使 Tay 推文:“希特勒是对的!我恨犹太人!”。

雷锋网统计,公众的反应可大体归纳为三类:1.忧心 AI 的发展; 2.担忧人性以及世界和平;3. 为 AI 学新东西如此之快感到惊喜。

3) 5月7日,特斯拉自动驾驶致死车祸

(右)事故 Model S,图中皮卡并非当事货车

事故发生在美国佛罗里达州的高速路。当日,一辆处于”自动驾驶“模式的特斯拉 Model S 以 74 英里的时速(119 km/h),撞上了拐弯中的白色拖挂式大货车。Model S 从货车车底穿过,车顶被完全掀飞,40 岁的驾驶员 Joshua Brown 不幸死亡。经调查,事故原因是:

  1. 自动刹车未生效。当日光照强烈,车辆传感器未能识别明亮天空背景下的白色货车。

  2. 超速。出事路段限制时速为 65 英里/时(约105 km/h)

  3. 司机未能及时反应

这引发了全世界的关注。事后,特斯拉为自动驾驶模式做了升级,并强调该模式并非完整的自动驾驶系统,驾驶员需要始终注意路况,双手位于方向盘。

但”自动驾驶“的首例致命车祸在今年初就已发生:中央电视台 9 月报道,1月20日,一辆”自动驾驶“模式的 Model  S 在京港澳高速追尾一辆道路清扫车,23岁的驾驶员高雅宁当场死亡。

4)9 月 28 日 五大科技巨头组建超级 AI 联盟

谷歌、亚马逊、Facebook、IBM 及微软在九月宣布成立 AI 联盟,并取了个很长的名字:Partnership on Artificial Intelligence to Benefit People and Society,意为“为大众和社会谋福祉的 AI 合作组织”。这是一个非盈利性组织,旨在促进公众对 AI 的理解,以及制定行业标准。

官方声明中,联盟的使命为:

  • “开展研究,向业界推荐最好的实践方法;

  • 在 AI 伦理、公平以及包容性领域发表具有开放式许可的研究论文;

  • 促进透明、隐私保护与互通性;

  • 促进人与 AI 系统之间的合作;

  • 提高 AI 的可信度,可靠性和稳健度。”

联盟邀请全球的非盈利性组织、学者及政策、伦理专家加入。苹果也参与了谈判,但尚未决定是否加入。鉴于这五大科技巨头代表了 AI 研究与相关成果商业化的顶级势力,业内人士认为,AI 界首个自律管理组织的雏形或已诞生。

5)10月12日,美国白宫发布人工智能白皮书

当日,白宫发布了一份名为《时刻准备着:为了人工智能的未来》(Preparing for the Future of Artificial Intelligence)的研究报告,主要阐述了 AI 的未来方向及对它的考虑。该报告涉及 AI 的现状,现有、潜在的应用方向,以及 AI 进步给社会及公共政策带来的新问题。

与之同时推出的是《国家人工智能研究与发展战略计划》( National Artificial Intelligence Research and Development Strategic Plan)。如同其名字所示,为联邦投资的 AI 研究和发展制定了一份战略计划。

12 月大选后,白宫发表了该系列的第三份报告:《 人工智能、自动化与经济》 (Artificial Intelligence, Automation, and the Economy),聚焦于 AI 对国民经济的影响,并提出三点政策方向:1. 对 AI 大量投资;2. 为全社会的劳动者提供再培训机会,避免 AI 引发大量失业;3.  加强社会安全网(社保)。

很显然,奥巴马政府把发展 AI 上升到国家战略的层面;至于特朗普是否会继承,尚待观察。这三份报告的中心思想总结起来不外乎两点:1. 美国的 AI 技术必须保证世界第一; 2. 如何更好地应对 AI 带来的挑战,以最大化技术红利。

6)10月 17 日, AI 语音识别能力首次超过人类

微软语音&对话研究团队

当日,微软宣布实现了语音识别的重大突破——机器语音识别错误率 (WER) 降至5.9%,与职业转录员媲美。微软称,这是业内已知的最高水平。该研究刊于微软发表的论文“Achieving Human Parity in Conversational Speech Recognition”(“对话语音识别达到人类水平”)。

测试中,微软雇佣两名职业转录员,一人转录、一人核对,与语音识别系统比试。转录员组合分别在“交换机测试”部分和“家庭电话”部分达到 5.9% 和 11.3% 的错误率;而语音识别系统为 5.9% 和 11.1%,以微弱优势战胜两名人类专家。在语音识别领域,人类不敌 AI 尚属首次。

微软首席语音科学家黄学东表示:“这是一个历史性的成就。”该技术背后的深度学习系统已加入开源工具包 CNTK,供全世界的开发者使用。

7)  11 月 25 日,人工智能改善癌症诊断疗法

当日 IBM 宣布,该公司的研究团队成功深度学习和神经网络技术应用于对癌细胞有丝分裂的识别。而目前该方面的检测完全依赖于人工。这有望革新现有的癌症诊断方式,降低错误率。

其实,在 AI 技术与癌症诊治的结合领域,2016 产生了许多突破,远不止这一个。以下是雷锋网整理的其他最具代表性事件:

  • 1 月 12 号,奥巴马宣布了美国的”癌症登月 2020“计划。

  • 5 月 5 日,IBM 宣布,Watson (“沃森”)将入驻14 家美国、加拿大癌症治疗中心,协助医生选择治疗方案。

  • 11 月 14日,英伟达宣布开发人工智能平台 CANDLE,以助力癌症研究。其全称为“Cancer Distributed Learning Environment”(“癌症分布式学习环境”)。

  • 12 月,美国启动 JDACS4C 项目,全称为 “Joint Design of Advanced Computing Solutions for Cancer” ,即 “联合设计治疗癌症的高级计算解决方案”。它旨在借助深度学习技术加快抗癌研究,并建立癌症数据模型和共享系统。

8)12 月 5 日,亚马逊开展新零售业务 Amazon Go

亚马逊推出了自动结账的线下连锁便利店品牌“Amazon Go” 。当日,它的第一家门店在西雅图开业。这标志着“无人值守”新零售的到来——彻底抛弃传统超市的收银结账过程。顾客们不再需要提着购物篮等待结账,只需打开手机 app,拿起你想要的东西,然后走出商店。就是这么简单。这背后,是亚马逊整合机器视觉、深度学习算法和传感器三大技术,开发出的无人零售系统“拿了就走”(“Just Walk Out”)。

雷锋网获知,这还只是亚马逊线下零售计划的冰山一角,其他项目在秘密开发中。亚马逊独有的线上、线下结合优势引发了业界的遐想。

新零售的大幕是否就此拉开?

9)12 月 19 日,扎克伯格开发 AI 助手 Jarvis

当日,扎克伯格在 Facebook 上发表博文,介绍他花费 100 多个小时、为期一年开发出的的人工智能助手 Jarvis 。

Jarvis 能接受语音和文字指令,控制扎克伯格家中的物联网设备。在它的帮助下,扎克伯克夫妇可以用手机和电脑来调节空调温度、室内灯光明暗,能烤面包,从网上搜索歌曲自动播放,还能给访客开门。

Facebook 并没有打算把 Jarvis 商业化,这只是扎克伯格个人的小尝试。本质上,它是一个 DIY 的亚马逊 Alexa。但利用开发 Jarvis 的经历,扎克伯格向全世界展示了现在 AI 技术已经发展到何等程度。这还向开发者,以及全世界有志于投身 AI 的青年传递了一个乐观的信息——人人都可以开发自己的私人 AI 助手,这不再是科幻小说才有的桥段。

10)华人AI研究贡献占据全球份额近一半

*图片来自创新工场

中国作者的 AI 发文数与引用文章数均已超过美国,成为世界第一。

创新工场人工智能工程院的王咏刚副院长,整理了华人科学家在人工智能核心期刊上的科研贡献率。他发现,占全球高端人工智能科研人才五分之一的华人,在 2006-2016 年间贡献了近三成的顶尖期刊文章,和 31.8% 的被引用频次。

创新工场还表示:“就年度成绩来看,华人 AI 科学家在全球贡献中的占比逐年攀升。2015 年高端期刊文章总数达到了 42.8%,引用总数更是超过一半,达到了 55.8%。就此而言,华人已经处于了人工智能研究的领先地位,占据了人工智能科研世界的半壁江山。”

结语

以上就是雷锋网为您盘点的 2016 人工智能十大事件。其实,这一年的 AI 技术突破、以及行业进展远不止于此。比方说,谷歌翻译上线神经网络算法英伟达借势 AI 计算的崛起也都是业内的大事件。对于国内,8月12日中国计算机学会(CCF)在深圳举办的 CCF-GAIR 大会,标志着我国对人工智能的探索进入新阶段。它聚集了全球顶尖的四个 AI 实验室、八位院士、13 位IEEE/AAAI/ACM嘉宾与会,再次刷新了内地举办的 AI 峰会的规格,反映出天朝在 AI 研究和应用上不断崛起的实力。但这不是重点:在谈讨 AI 技术挑战之外,该大会聚焦于如何搭建国内人工智能学术界-产业界之间的沟通桥梁。而这,正是我国AI 领域所迫切需要的——美国已有了清晰的 AI 国家战略路线图。组建 AI 联盟的互联网巨头们也都来自美国。如何在这场国与国之间的技术竞赛赢得一席之地,尤其是争夺制定标准的话语权,将是中国 AI 业界、学界需要共同面对的一大挑战。

2017 已经到来,新的一年,人工智能又会掀起怎样的风暴?

关注雷锋网与 AI 科技评论公众号,与我们一起见证科技如何改变世界。

*编者注:事件按发生时间排序,与重要程度无关。

雷锋网

2016年大公司都在做什么机器人 | 2016 影响因子

2015年机器人创业的浪潮引起了大企业的关注,今年它们选择了或投资或自己研发的方式加入这场狂欢,这对于行业整体的发展来说是良性的,它们丰富的资源可以推动整个市场快速发展。

那么,过去一年中到底有哪些大公司选择了机器人,又是以何种方式做了什么样的机器人,雷锋网盘点了大公司在机器人领域的一些动作。当然,考虑到机器人的范畴太广,此文并不将聊天机器人列入其中,而是仅报道有硬件产品的案例。

英特尔:收购无人机企业,投资酒店机器人

英特尔不会做机器人,它的最终目标还是物联网,连接的方式是英特尔的芯片。为了加快产业化的步伐,英特尔也会选择投资或收购一些企业。

无人机应该是英特尔最为看中的,早在去年英特尔就投资过Airware、PrecisionHawk 以及来自上海的Yuneec三家无人机企业。今年英特尔又收购了无人机制造商Ascending Technologies以及德国无人机软件创企 MAVinci。其中Airware是做无人机操作系统,PrecisionHawk是为无人机提供空中数据解决方案的,Ascending是做无人机自动驾驶系统研发的,MAVinci是做飞行规划的,Yuneec则是做无人机整机,可以说是比较齐全了。在今年的CES上英特尔发布了Yuneec的Typhoon H,在2016 Intergeo无人机大会上发布了Ascending的商用机Falcon 8+ System UAV,以及在IDF 2016上发布Aero Ready to Fly无人机。

图为英特尔CEO 布莱恩·科再奇(Brian Krzanich)手持Aero无人机,他身后桌子上放着昊翔新版Typhoon H

而在机器人方面,今年1月英特尔旗下风投部门英特尔资本领投了初创企业Savioke 总额 1500 万美元的融资,该公司生产的 Relay机器人可以自动为酒店房间运送牙刷、毛巾和其他物品。

图为Relay机器人

腾讯:无人机、儿童机器人

由于近年来游戏业务增长缓慢,腾讯急需寻求新的业务口,那就是做硬件。腾讯互娱旗下智能玩具部门就是在这样的环境下成立的。当然,腾讯不会真的自己去研发一款硬件,它更愿意选择与其它硬件公司合作,腾讯无人机就是一个例子。

今年年初的CES上,腾讯联合零度发布了腾讯无人机空影。这架与高通、零度智控和XIRO联合打造的无人机主打便携和易操作的特性,定位户外娱乐、旅游拍照这样的场景。不过,由于几家公司之间的内部结构问题,空影无人机一直迟迟未能上市。直到10月,腾讯很低调的将空影上线开放购买。这主要是因为在这之前大疆发布了革命性产品Mavic Pro,导致腾讯也找不到大力宣传的点。

除了无人机,腾讯还看中了机器人,不过目前还没有与哪家有深度的开发合作,只是代理销售,其中包括去年很火爆的BB-8,就是那个《星球大战:原力觉醒》里的机器人衍生品。

沃尔沃:用无人机和机器人来实现倒垃圾自动化

今年2月份,沃尔沃宣布该公司旗下的ROAR(机器人自主拒绝处理系统)项目已进入原型测试阶段。该系统的设计初衷是要实现将路边垃圾箱内的垃圾自动倾倒进垃圾车内的漏斗中,无需人力辅助。

该项目最早计划利用机器人来完成这一工作,这将需要一份标明垃圾桶大致位置的地图来为其提供路径导航(以及GPS、激光雷达和加速度计等辅助工具)。而在新的计划中沃尔沃加入了无人机,作为垃圾车的“天眼”来告知垃圾桶当时的确切位置。

该项目的设计和原型构建是由沃尔沃与查尔姆斯理工大学、梅拉达伦大学和宾州州立大学的学生在短短四个月的时间里完成的。

猎豹:成立机器人公司,进军人工智能领域

今年3月份谷歌AlphaGo打败人类围棋冠军李世石对业内产生很大影响,不少大公司开始对人工智能的未来充满了信心,其中就包括猎豹。在一个月后的4 月26 日的猎豹全球媒体发布会上,猎豹移动CEO傅盛宣布公司未来战略,其中包括拟投入5000万美元成立机器人公司,进军人工智能领域。

傅盛并未透露新公司将会研发什么样的机器人,不过表示猎豹做机器人除了技术、资金之外,傅盛会亲自带领团队来做。除了成立机器人公司,据雷锋网获悉,傅盛还投资了一些机器人初创企业。

360:儿童机器人

周鸿祎曾在今年1月360的公司年会上表示,他最大的梦想是做智能家居机器人。

2016 CES Asia(2016亚洲消费电子展)上,360此次也首次展示了其机器人,一款儿童机器人,也是一款长得很像国外一款名为Jibo的机器人。除了外观外,关于这款机器人,最大的看点应该是999元的售价,据雷锋网获悉这个基本上是贴着成本在卖,这是用周鸿祎经常挂在嘴边的“互联网思维”在卖机器人。

除了自己做儿童机器人,360还投资了国内一家机器人初创企业金刚蚁,这家公司与360差不多同时推出一款名为小亿的机器人,当然,外观也很像。

华硕:家庭机器人

5月30日,华硕除了发布ZenFone 3手机、ZenBook 3笔记本,还进入了一个全新的领域,展示旗下首款智能家庭助理机器人“Zenbo”。Zenbo的工作方式有些类似亚马逊Echo,可以接收语音指令,提供智能家居控制、智能家庭安保、厨房助手、拍照摄影、网络购物、语音输入密码、登录账户、声纹加密等功能。

据雷锋网最新消息,该机器人将于明年1月1日正式上市,售价4300元起。

丰田:成立研究院,收购波士顿动力

去年12月,丰田汽车公司(TOYOTA)宣布成立一家名为丰田研究院(TRI)的新公司,专注研发人工智能和机器人这两个方面。2016年1月,丰田研究院正式在硅谷成立,其大部分研发的技术跟汽车有关,但另一个重要方向是家用人工智能产品——这在未来可能跟日本助老助残机器人业务发展有关。

5月份有外媒报道,丰田汽车正与谷歌母公司Alphabet谈判,拟收购后者的两个机器人部门Boston Dynamics和Schaft。这两个部门主要研发的都是足式机器人,其中Schaft在今年4月展示了一款能轻松爬楼梯的双足直立机器人,该机器人最大负载60KG,能在狭小的空间或攀爬楼梯时保持平衡,同时这还能穿越崎岖的地形。而相对名气较大的Boston Dynamics,是世界上最具影响力的机器人公司之一,开发出了Big Dog、Atlas、Cheetah等多个双足或多足机器人,且平衡能力令人惊叹。就在被收购消息曝出后不到一个月,Boston Dynamics发布了他们新一款的机器人SpotMini,相对于Spot更加小巧、行走更加自如,整只体重65磅(约29.5公斤),能够像动物那样灵活运动。SpotMini的发布让波士顿动力离商业化更近了一步。

美的:收购德国最大工业机器人公司,成立服务机器人部门

早在今年5月份,美的集团向德国库卡机器人公司提出了全面要约收购,并于6月6日正式启动,在收购计划中,美的集团将以每股115欧元的价格想库卡收购股份,并将所持股份提高至30%以上。7月初,库卡的第一大股东福伊特集团宣布,决定向美的集团出售所持库卡公司25.1%的股份,该交易价值12亿欧元(约合88.8亿元人民币)。这一表态,为美的集团收购库卡公司超过30%股权铺平了道路。库卡是全球工业机器人行业的四家顶级企业之一。这次收购受益方不仅仅是美的,甚至可能对中国整体工业机器人的发展造成影响。

除了工业机器人,据雷锋网获悉,美的还特别成立了服务机器人部门,开发面向家庭等服务领域的机器人。

福特:开发人机合作机器人,在德国工厂进行测试

作为老牌汽车品牌的福特,一直在新兴科技的道路上努力着。福特花了两年时间开发制造人机合作机器人,欲将其投入到组装线上使用。

现在,该机器人已经开始投入测试,测试在德国科隆的Fiesta工厂进行,福特已经设计了多种实验来测试该机器人的自动化、操作能力和数据科学制造能力。

据悉,合作机器人将与福特厂的工人一起安装减震器,确保减震器置放的准确性、快速性以及减少工人的负担。这种合作机器人有3英尺高,手臂及手指有传感探测器,只需按下按钮就可以停止动作。

迄今为止,合作机器人已经在两个工作站投入使用了,并会在将来投入到更多工作站。据悉,此种机器人已经在药物制造和电子工业中得到了应用。

软银:推中国版Pepper,与软银成立合资公司

Pepper对于机器人行业的影响并不比AlphaGo小,去年阿里巴巴联合富士康斥巨资投资Pepper 机器人在业内被称为里程碑性事件,不少创业者正是因此而受到启发最终踏上了机器人创业的道路,尤其是在国内,服务机器人创业公司在2015年增加了几百家。

从去年6月份开始,Pepper 正式面向消费者销售,此前曾在法国和台湾等日本以外的地区推广。在今年10月份举办的2016云栖大会上,阿里巴巴展示了搭载YunOS的Pepper,并宣布将在中国内地销售。为此,软银与阿里巴巴集团成立了合资公司“Alibaba Robot Corporation”。

松下:投资折衣机器人

11月,外媒报道日本老牌家用电器厂商松下向机器人初创企业Seven Dreamers投资60 亿日元(约合 5300 万美元)。这家公司在开发一款名为“Laundroid”的机器人——它不仅可以洗衣服、熨衣服,还能把衣服叠好,并按顺序放好每件衣服。这款设备的体积和一台冰箱大小相似,可以放置在家中,同时扮演洗衣机、烘干机和衣橱的角色。

该机器人内部采用了很多复杂的传感器,并配套识别软件、机器学习技术、机械臂技术。传感器通过扫描衣物布料后得到相应的图像,然后系统软件会在这些图形中进行色块分析和定位,分析结果可以确定衣物的材质、形状等大量的信息,然后机械臂会根据这些信息将衣物进行不同方式的折叠。另外,这个机器人还具有学习能力,能够不断记录各种布料衣物的清洗方法和折叠方法,通过机器人学习和不断完善,处理衣物的能力会越来越快。

小米:无人机、家庭机器人、积木机器人

凭借供应链的优势,小米应该是国内对做机器人最为热情了,做了无人机、家庭机器人,其中家庭机器人包括Ninebot推出的Segway Robot,以及石头科技推出的扫地机器人。当然,口碑有好的,也有差的。

图为小米扫地机器人

上个月初,小米推出了一款米兔积木机器人,由978个零件组成,内置自平衡系统,支持手机智能遥控和模块化图形编程,售价499元。

PS:2016 年即将结束。当我们回望这一年,无论艰难还是幸运,这年仿佛过得飞快。「2016 影响因子」是雷锋网在高速运转的科技行当里,在不断发生和被人忘记的事件中,试图在各个领域筛选出那些我们认为可能对当下和未来产生深远影响的因素。2016 影响因子,就是 2016 年值得记录的人、事、公司和技术。

【招聘】雷锋网机器人垂直栏目“新智造”招人了,工作地点深圳。简历投递至wangjinhong@leiphone.com 。

雷锋网

这些是雷锋网今年报道过的最具创新力机器人 | 2016 影响因子

如果按照出货量来算,今年才算得上机器人元年,不少机器人是在今年陆续上市。不过同时也有一个尴尬的局面出现,那就是大家的机器人都长得大同小异,功能也大同小异。而对于一个科技产品来说,没有创新就没有生命力。

机器人作为雷锋网重要关注领域之一,雷锋网在过去一年中也报道过国内外大大小小风格迥异的机器人。对于是否报道一款机器人,雷锋网最为看中的就是创新力。不过考虑到不少还处于概念阶段,本文只是整理了雷锋网在2016年报道过的已经上市或即将上市的较有创新性产品。

机器人手机 | RoBoHoN:是时候拿起机器人打电话了

今年2月夏普在巴塞罗那世界移动通信大会(MWC)上展示了RoBoHon的原型。5月26日,RoBoHon在日本正式开卖,售价为19.8万日元起(约合人民币1.2万元),未来将面向更多国家发售。这台机器人手机是由夏普与东京大学机器人专家高桥智隆(Tomotaka Takahashi)联合开发的。

RoBoHon可以完全代替传统意义上的智能手机,本身可以安装SIM卡,因此无需连接主流设备就能拨打电话。

在拨打电话时,它会摆出一个类似于传统手机的特殊造型,让用户拿着更加顺手。这台设备还能收发邮件、下载应用——毕竟这是一台基于Android的智能手机。夏普称,RoBoHon是一台“你喜欢与之交谈、并渴望了解你的人形手机”。

四足机器人 | SpotMini:助力波士顿动力进军家用市场

迷你Spot比它的大兄弟Spot更加小巧、行走更加自如,整只体重65磅(约29.5公斤),能够像动物那样灵活运动。据介绍,SpotMini摈弃了波士顿动力大型机器人所使用的液压组件,改用纯电伺服器。此外,SpotMini充电一次能用90分钟,这续航也是不咋滴。但它有电的时候,也是很生猛的!

Spotmini的发布,是波士顿动力“嫁”给丰田后的第一个大新闻,这笔交易给波士顿动力带来的转变,是从面相军用市场到进入家用市场了。

送货机器人 | Starship :减少物流“最后一英里”

去年年底,一家名为Starship Technologies 的初创公司对外推出了一款Starship 送货机器人,这款机器人具备避障系统并且可以承载9公斤的货物,可以在物流方圆1公里内进行货物送达。

在经过半年多的测试后,Starship 在7月正式宣布本月将机器人正式投入送货服务中。Starship 机器人将首先出现在欧洲四城市,为在线外卖平台Just Eat和伦敦的初创外卖公司Pronto 的顾客提供送餐服务,为德国快递公司Hermes和德国的零售商Metro集团的顾客提供送货服务。

Starship 的目的是想减少物流“最后一英里”,即从分派中心到终点站这一环节中的时间和成本。Starship估算,他们目前在伦敦市中心每送货一次的成本是12英镑,计划最终将其减少到1英镑。而实现计划的关键在于,机器人的自动化程度。

社交机器人 | Holoera :升级版的「初音未来」

7 月 8 日狗尾草科技在北京发布了新款 AI 产品全息 3D 主机 Holoera,在 Holoera 内可创造出一个二次元虚拟人物「琥珀」。

据狗尾草科技CEO 邱楠介绍,Holoera 采用纳米技术和 Intel CPU,外壳是太空铝合金配以合高分子注塑技术。同时它还内置了人脸识别、人体感应、升温识别等多种识别系统。Holoera 与互联网相连接,利用公有云与私有云数据进行算法分析。

Holoera 内通过全息影像显示出二次元虚拟人物「琥珀」,她拥有自己的日常生活、学习和练习计划,用户还能指定其进行特定项目的训练。另外她可以与人进行交流互动和情感陪伴。

「琥珀」的另一个定位是类似「初音未来」的角色。她将于羽泉合作发行个人唱片,在发布会现场表演了一首歌曲,同时有小说为其提供背景故事。Gowild 未来还将开放 Holoera 的接口给游戏公司。

下水道机器人 | Luigi:可监测整个城市的健康状况

在美国马萨诸塞州的坎布里奇,Luigi 正穿行在下水道中,收集城市10.7万人的数据。这款机器人由MIT的Senseable City实验室开发,来自一个叫做Underworlds(地下世界)的项目,旨在分析人体废弃物,以此监测整个城市的健康状况。

Luigi可以完全使用智能手机控制,会进入城市的每个下水道一到两个小时, 通过超声波感应器确定范围,利用泵吸收液体,过滤器阻止杂物进入,管道记录病毒和细菌,分析生物和化学分子。机器人上安装着探孔和GPS,便于研究员追踪轨迹。

这些数据可以帮助研究人员评估现在城市公共卫生政策对居民的影响,比如对糖征税是否会对居民的饮食习惯造成改变等等。更为宏大的是,如果观察和利用整个城市的人口和地区分布数据,研究者可以理解到城市环境和其他外在因素如何影响到我们的健康。这有可能建立一个新的城市健康普查。

导购机器人 | LoweBot:超市导购员的好帮手

LoweBot零售服务机器人是一款Navii型零售服务机器人,它由初创企业Fellow Robots设计和生产。据悉,该机器人身高约1.5米左右,可以在超市自由穿梭,指引顾客找到想要购买的物品的货架,并显示该产品的库存数量;同时,它还可以提醒售货员补充货物上架等。

美国大型五金零售商店Lowe's计划在加州湾区的11个零售门店引入LoweBot零售服务机器人,为顾客提供贴心服务。9月份, 圣何塞地区的一家Lowe's作为第一家门店欢迎机器人“服务员”的到来。

扫地机器人 | 米家:最具性价比的智能导航扫地机器人

米家的这款扫地机器人由小米供应链公司北京石头世纪科技有限公司在两年前开始运作,于今年8月31日正式发布,也是小米今年发布的最成功的一款产品。

米家扫地机器人共拥有激光测距传感器在内的12类不同的传感器,三颗独立处理器,可以实时处理传感器信息,绘制地图和规划路径。由于激光雷达的成本较高,因此扫地机器人厂商一直不敢将其搭在扫地机器人上,直到今年科沃斯和银星智能等老牌扫地机器人企业才开始应用,也让中国本土扫地机器人进入智能导航时代。米家扫地机器人凭借小米供应链的优势,再次在价格上与其他扫地机器人拉出大差距,1699元的定价几乎是其他扫地机器人价格的一半。对于米家扫地机器人的售价,不少业内人的评价是将改变国内扫地机器人的市场格局,同时也是最有机会让扫地机器人真正打开市场的突破口成为大众消费品,甚至反过来也会影响iRobot这样的国际巨头。而之后的销售火爆,也印证了这点。

教练机器人 | Forpheus :世界首个乒乓球教练机器人,可预测乒乓球的运动轨迹

东京时间 9 月 8 日,日本欧姆龙公司在其官网上宣布,该公司开发的能持续与人类进行乒乓球对打的机器人“Forpheus”被吉尼斯世界纪录认定为世界上首台“乒乓球教练机器人”。

Forpheus  首次出现在众人视野,是在 2015 年 10 月份 CEATEC JAPAN 博览会上。整个机器人的外形看起来十分强悍,有点像“八爪鱼”,比人高出不少。

Forpheus 机器人的两边安装了摄像头,用来预测乒乓球的运动轨迹,包括: 球速、旋转速度、旋转方向等几个数据,从而计算出自己应该让球拍以什么角度在哪个点回击,误差仅几厘米。

无人机 | Mavic Pro:最智能消费级无人机

今年是大疆发布产品最频繁的一年,不仅发布了植保无人机、精灵4以及悟2等主要产品,还推出了全新品类产品Mavic Pro,这是大疆发布的最小的整机,同时也是最受关注的产品。

Mavic Pro采用折叠式设计,折叠状态下,4个机臂紧贴机身,整体仅有矿泉水瓶大小,用户可将其放在背包中,并在短时间内完成飞行准备。紧凑式设计的背后, Mavic的功能依旧强劲。它配备有机械稳定的4K航拍相机、视觉导航系统、最远7公里的图传距离、最长27分钟的飞行时间,种种特性重新定义了小型无人机的技术标准。

类人机器人 | Sophia:最像人的机器人

此前Sophia的每次亮相,都会被媒体一致评为“最像人的机器人”。今年10月的全球最大规模电子产品采购展“环球资源电子展”上,雷锋网看见了传说中能让人产生“恐怖谷”感觉的Sophia。

据介绍,Sophia的皮肤是使用一种名叫Frubber的仿生皮肤材料制成的,这种材料类似一种弹性橡胶,能够模仿人类皮肤的动作。工程师对雷锋网说,Sophia头部的马达会连着一些牵引线来控制面部表情,面部表情的调试很麻烦,在研发Sophia之前,他们还专门去研究了人脸面部肌肉相关的知识。

目前机器人有60多种表情,因为人的喜怒哀乐的程度不一样,表情就不一样,比如光“笑”就有好几种,微笑、大笑等等,这些表情的调试都需要很多时间和很高的技术。

Hanson Robotics的首席营销官林如瓊告诉雷锋网,目前已经做好的这么多台机器人还都是“实验室货”,都是研发人员在实验室里面手工制作的,不过量产已经是计划中的事情了,预计明年年中之后就可以量产了。等到量产之后,这些机器人预计会应用到酒店大厅、商场以及其他一些需要服务指引的地方。

语音机器人 | Olly :拿到CES四项创新奖,要跟Echo争蛋糕

纽约时间 11 月 10 日,CES 宣布了 2017 年度获得创新奖的产品,来自英国创业团队 Emotech 的语音机器人 Olly 获得了 4 项创新奖。虽然入选创新奖的产品数量颇多,但同时揽获 CES 4 项类别奖,这在 CES 历史上还是首次。

Olly 是一款语音机器人,与亚马逊 Echo 和 Google Home 定位于普通家庭不同,Olly 将自己的用户选择在了都市白领,其核心功能是:提醒、优化日程安排,主打个性化和情感互动。

Olly 上半身长得像是一个“甜甜圈”,安装有 LED 灯;下半身是一个底座,内置 6 个麦克风。“甜甜圈”与底座之间可以有 12 种角度变换,甚至可以绕着底座进行 360 度旋转。Olly 约重 1.5 kg,底座直径约 20cm,目前有黑白两种款式。

外骨骼 | Scream One:单机为一台大家电的价格

Scream One是上海的初创企业尖叫智能科技的第一代量产机型,曾在 11 月 17 日深圳高交会上展示。

本次所展示的 Scream One 号机型,有 12 个传感器分布在腰部、腿部两侧、脚底等部位,每一天用户使用的过程中,传感器搜集人体不同维度的信息,包括肌肉电、光栅、肌肉表面舒张压力等。这些信息传到位于腰部的本地 CPU,当设备连上 WIFI 之后,CPU 数据上传到云端,云端的深度学习网络会对新的数据进行学习,从而“定制化”地为每一个用户调整行走模型。

尖叫的外骨骼产品的未来定价大约会在几万人民币,这对于市场来说是不小的改变,因为 Rewalk 和 Cyberdyne 公司的产品,售价分别高达约 7 万美金和 20 多万美金。

洗衣机器人 | Laundroid:不仅能洗,还能折

在去年的CEATEC展会上,Seven Dreamers首次展出了他们的Laundroid折衣机器人,该机器人外观好像一个多开门的立式冰箱,虽说最大的亮点是折衣服,但是其附带洗涤、烘干一体的功能也为整个机器提了一个档次。当人们衣服需要折叠的时候,只需要拉开机器人最底部的一个抽屉,将衣物随意丢进去,等这些衣服再出来的时候,就已经是叠好的干净的衣服了。

该机器人内部采用了很多复杂的传感器,并配套识别软件、机器学习技术、机械臂技术。传感器通过扫描衣物布料后得到相应的图像,然后系统软件会在这些图形中进行色块分析和定位,分析结果可以确定衣物的材质、形状等大量的信息,然后机械臂会根据这些信息将衣物进行不同方式的折叠。

这个过程中需要的大量计算足以让Laundroid称为一个机器人,另外,这个机器人还具有学习能力,能够不断记录各种布料衣物的清洗方法和折叠方法,通过机器人学习和不断完善,处理衣物的能力会越来越快。

Laundroid目前还在研发之中,离实际应用还有一段距离。不过Laundroid的前景被看好,日本老牌家用电器厂商松下向Seven Dreamers豪掷6000万美元,用于开发、完善这款能折衣服的机器人。

仿生假肢 | LUKE:研发8年,最先进的仿生假肢终于投入使用

LUKE之前被称为DEKA手臂系统(Arm System),是Segway创始人Dean Kamen的心血结晶。它的全称是Life Under Kinetic Evolution(动力演化中的生命),不过熟悉科幻的雷锋网读者应该知道,它的灵感来自电影《星球大战:帝国反击战》,剧中人物卢克·天行者(Luke Skywalker)的手臂就是机械手。

根据DARPA官网的消息,在经过8年开发,以及获得FDA(美国食品药品管理局)批准2年后,LUKE终于要进入生产阶段了。不过在商业化生产前,它会首先用在美军中。DARPA的生物技术部门最近向Walter Reed国家军事医疗中心,提供了两个LUKE手臂,供一些需要假肢的医生使用。

PS:2016 年即将结束。当我们回望这一年,无论艰难还是幸运,这年仿佛过得飞快。「2016 影响因子」是雷锋网在高速运转的科技行当里,在不断发生和被人忘记的事件中,试图在各个领域筛选出那些我们认为可能对当下和未来产生深远影响的因素。2016 影响因子,就是 2016 年值得记录的人、事、公司和技术。

【招聘】雷锋网机器人垂直栏目“新智造”招人了,工作地点深圳。简历投递至雷锋网,邮箱:wangjinhong@leiphone.com 。

雷锋网

除了路测、拆分、买买买,今年无人驾驶领域还发生了什么? | 2016 影响因子

雷锋网按:2016 年即将结束。当我们回望这一年,无论艰难还是幸运,这年仿佛过得飞快。「2016 影响因子」是雷锋网在高速运转的科技行当里,在不断发生和被人忘记的事件中,试图在各个领域筛选出那些我们认为可能对当下和未来产生深远影响的因素,是 2016 年值得记录的人、事、公司和技术。

这一年,国内外更多的无人车开始上路:有些公司为乘客提供无人车试乘体验,有些公司在欧洲、日本和迪拜开始了无人驾驶巴士试运营。

这一年,汽车厂商、互联网巨头、零部件供应商和自动驾驶技术公司之间组团与结盟,收购与投资,一场跨界之间的交流比以往更多了。到今年为止,已经有 20 家公司宣布将在 2021 年前后推出自动驾驶汽车。

这一年,被传了造车数年之久的苹果公司,被媒体报道已经悄悄将重心转向自动驾驶系统的研发上;研发了近 8 年的谷歌重新审视无人驾驶商业化场景,拆分无人车业务,成立独立公司 Waymo;而「硅谷范」十足的福特汽车,宣布要在 2021 年推出没有刹车踏板、没有方向盘(符合 SAE Level 4 标准)的量产无人驾驶汽车。

这一年,更多的自动驾驶技术公司先后成立,越来越多的高科技人才以及资本涌向这个行业。针对当下自动驾驶人才的供不应求,前谷歌无人驾驶负责人 Sebastian Thrun 创办的教育公司 Udacity,甚至专门开办了针对无人驾驶的课程,希望为这个行业输送更多优秀技术人才。

这一年,曾经占据先发优势的谷歌无人车团队,流失了大量人才。据统计,今年从谷歌无人车团队出走多达 14 位核心人才。部分从中出走的成员也创办了无人驾驶相关公司。

这一年,还有更多的群体和个人,做出了足以影响无人驾驶未来发展的选择……

为什么无人驾驶在今年成为一个热门话题?乐视汽车智能驾驶副总裁倪凯在一次演讲中回答了这一问题:这与人工智能分不开,其中很大一个原因是深度学习的出现,极大提高了包括图像识别、图像理解、语音识别等各个使用问题解决的成功率。而人工智能的发展反过来促进了自动驾驶的提高。

「智能驾驶现在成了一个大的风口,大批人涌入,这些是我没想到的。」在今年 5 月,一位无人驾驶从业者告诉雷锋网。在他看来,无人驾驶在国内至少要三四年之后才能热起来。但实际上来得比预期要早。

我们整理了今年智能驾驶领域值得关注的十大事件。在无人驾驶的浪潮下,它们上过头条,刷屏过朋友圈,我们也有幸见证到这样一个时刻:在无人驾驶商业化的过程中,这些参与者们是如何克服一个又一个难题,最终将技术成果一步一步带到大众眼前的。

1.激光雷达

依靠 10 年前在美国 DARPA 无人车挑战赛建立起来的影响力,Velodyne 在自动驾驶领域抢得先机。

今年 8 月,福特汽车联合百度 1.5 亿美元的价格共同投资这家激光雷达厂商。据雷锋网了解的信息,Velodyne 已经同 10 家高科技企业和 9 家汽车厂商开展合作,共同推进 19 项自动驾驶汽车项目。其现有的 3 款产品(64 线、32 线、16 线)将会在 2019 年进行产品迭代。

其他激光雷达厂商也没闲着。国内,北科天绘、速腾聚创、禾赛科技以及傲视智绘等初创公司也推出各自产品。国外,汽车零部件供应巨头采埃孚宣布收购位激光雷达公司 Ibeo40% 的股权;Quanergy Systems 在 B 轮融资中获得 9000 万美元; Innoviz 在今年 8 月宣布完成 900 万美元 A 轮融资;英飞凌在今年 10 月收购位于荷兰的半导体公司 Innoluce 准备开发激光雷达芯片……

与此同时,一场激光雷达的价格战悄然打响。包括 Quanergy、 Innoluce 和 Innoviz 在内的许多固态激光雷达制造商正在研发低于 100 美元的产品。Osram 近期宣布,最早在 2018年,他们可以向市场上投放出 50 美元以下的固态激光雷达。

据 Lux Research 报告,到 2030 年,激光雷达将在自动驾驶领域收获近亿美元的商业机会。

大公司如谷歌、宝马、奔驰、奥迪和沃尔沃,汽车供应商如博世、德尔福、大陆和先锋;初创企业如 Cruise Automation,NuTonomy 等,都在其自动驾驶系统中使用激光雷达。激光雷达,自动驾驶最重要的传感器之一,撑起了自动驾驶的半壁江山。

2.英伟达

在今年 1 月的 CES 上,英伟达的主题聚焦在「深度学习与自动驾驶」上。英伟达 CEO 黄仁勋在 CES 第一场 Keynote 上介绍了 Drive PX2——通过深度学习算法,让汽车感知识别周围环境,进而自动驾驶。

在汽车领域,全球共有 50 多家汽车制造商和供应商在使用或测试英伟达的 Drive PX 平台。例如现在公开的消息,沃尔沃计划明年在瑞典进行公开自动驾驶测试的 XC90 SUV 搭载的就是 Drive PX 2 平台。在美国 IHS 公司发布的关于「人工智能」的调研报告中:预计到 2025 年,基于人工智能技术打造的相关系统的新车配售率会从 2015 年的 8% 增加至 2025 年的 109%。

今年 9 月在北京举办的 GTC(英伟达技术峰会)上,黄仁勋对外界强调:「我们不再是一个半导体公司,而是一个 AI Computing Company。」

目前,英伟达在 GPU 市场拥有 70% 以上的份额,几乎每家人工智能(包括无人驾驶在内)公司都会使用 GPU 用于深度学习的训练。英伟达还不断向新兴市场扩张,这让这家「人工智能计算公司」的股价一路飙升。在过去 12 个月,英伟达股价上涨了近 200%,其市值高达 500 亿美元。彭博社对英伟达今年的表现评价为:「Nvidia has a very good 2016。」

地平线机器人创始人余凯认为英伟达如此高速成长,是「Technology Enabled Business 顺势崛起的一个典型案例。」

3.英特尔

在错失移动市场之后,芯片巨头英特尔并未气馁,现在它要积极拥抱自动驾驶市场。

今年11 月,英特尔宣布成立自动驾驶汽车事业部 ADG。 而在此之前的一个月,英特尔斥资 2.5 亿美元,通过英特尔资本(Intel Capital)押注自动驾驶技术。

除了投资,英特尔也在积极「组队」:与德国汽车厂商宝马和 Mobileye 携手,准备在 2021 年推出一款自动驾驶汽车;与汽车零配件供应商德尔福 、 Mobileye 共同打造传感器组件和自动驾驶软件。

有业内人士并不看好英特尔进军自动驾驶领域,因为这家公司在汽车相关产品上表现非常一般,也找不到太多成功案例。但也有不同看法:英特尔未来可能会在车联网、自动驾驶基础设施,搭建高性能云服务平台等领域发力。

据 Gartner 的数据,汽车半导体业务在 2015 年产生的收入将近 300 亿美元。Gartner 集团分析师表示,英特尔寻求进入汽车领域,因为汽车对处理能力的需求将会激增。

自动驾驶车辆需要雷达来检测障碍物,摄像头识别行人和交通灯的颜色,高精地图确定车辆精确位置,超级计算机则快速处理所有信息——而专用芯片是使自动驾驶汽车成为现实的基本技术之一。

4.特斯拉 Autopilot

去年 10 月,特斯拉通过 OTA 更新 Autopilot 7.0 版本,可以实现半自动驾驶。这原本是一件很酷的事情,到了今年却不小心玩砸了:5 月,美国一名特斯拉车主在使用特斯拉 Autopilot 功能时发生事故死亡;9 月,央视《法治在线》栏目曝光,中国出现首例在使用特斯拉过程中遭遇车祸致死事故。

一时间,外界对特斯拉的质疑声甚嚣尘上,认为特斯拉的自动驾驶策略是「技术路线上的激进策略掩盖的安全隐患最终引发悲剧发生。」也有人认为,出人命就说明程序存在漏洞,不应该拿消费者做试验。

这也导致随后 Mobileye 与特斯拉的「分手」。Mobileye 的董事长 Amnon Shashua 表示,因为特斯拉的自动驾驶功能「超过了安全的底线」,因此终止了双方的合作。

但特斯拉并没有被这些「声音」干扰,而是在系统上做了更多改进:通过 OTA 升级 Autopilot 8.0 以及在硬件架构上更新自动驾驶配置(Autopilot 2.0)。特斯拉还计划在 2017 年底演示从洛杉矶到纽约的全自动驾驶功能。

5.福特「2021 无人驾驶汽车战略规划」

在今年的 CES 上,福特汽车明确表示会继续加大对自动驾驶技术的研发力度,将旗下的自动驾驶测试车队伍扩大,增加至 30 辆。7 个月之后,这家百年汽车公司对外公布了「2021 无人驾驶汽车战略规划」:在 2021 年,福特将推出符合 SAE Level 4 标准的量产无人驾驶汽车,没有刹车踏板,没有方向盘,司机的存在成了备选项。

福特的目标看起来相当激进,也是第一家宣布打造符合无人驾驶需求的汽车厂商。同时,福特也正拓展在硅谷的业务,自 2015 年 1 月正式揭幕以来,福特在 Palo Alto 研究与创新中心已成为这一地区最大的整车制造企业研究基地之一。

很明显,在无人驾驶进程中,福特希望成为一股不容忽视的力量。

6.百度无人驾驶

2013 年初百度无人车立项,短短 3 年进展迅速,很大一部分原因是这家公司「最早使用 GPU、FPGA 做人工智能与深度学习算法。」

今年,百度找到了两个战友:Velodyne 和英伟达。前者向百度提供激光雷达;后者与百度联合开发从云到车端到端的自动驾驶汽车平台。与两者的合作,很大程度上增强了百度在无人驾驶汽车领域的技术实力。

与此同时,百度在给搭载自动驾驶的奇瑞 EQ 考驾照(已通过一个科目),希望到无人车第三年商用时能将五科全部考完。百度的目标是希望研发一套集软硬件为一体的无人驾驶系统,系统在量产后价格将控制在 3 万人民币以内(5 年后)。

就在前两天,有消息透露百度将对无人车业务进行拆分,明年将正式实施,但很快百度否认了这一消息。

7.Uber 与 nuTonomy 开始无人车试运营

今年 8 月,Uber 向外界公布三个重大消息:Uber 无人驾驶车队亮相匹兹堡,用户可以随机享受这项打车服务;与沃尔沃达成合作,双方共同投资 3 亿美元开发自动驾驶汽车,预计 2021 年上路;收购无人驾驶技术公司 Otto。

这是 Uber 自 2015 年宣布进军无人驾驶领域以来的最新进展。业内人士分析,Uber 想利用自动驾驶汽车让打车既便宜又方便,以此让人们彻底打消拥有汽车的念头。

另一家新加坡无人车初创公司 nuTonomy 在无人驾驶领域创造了一个新的记录——世界上首辆公开测试的无人驾驶出租车。这家公司在新加坡向普通民众开放测试无人驾驶出租车,民众可以方便的通过智能手机在线预约。

nuTonomy 计划到 2018 年组建一支覆盖整个新加坡的无人驾驶车队,而最终自动驾驶出租车的普及会有望将新加坡的汽车保有量由现在的 90 万辆减少到 30 万辆。

8.谷歌分拆无人车业务,成立新公司 Waymo

从特斯拉、Uber 到汽车厂商,在无人驾驶技术上都落后于谷歌,但在今年却有被赶超的迹象。起步早的谷歌无人驾驶逐渐丧失了先发优势,虽拥有雄厚技术实力和经验积累,但缺席了无人驾驶许多重要时刻。

与此同时,最早参与无人车项目的高管基本都离开了谷歌。

12 月 14 日,谷歌母公司 Alphabet 宣布谷歌无人驾驶项目将作为公司内部一个名为「Waymo」的独立个体存在——这意味着,此前目隶属于 Google X 实验室的谷歌无人驾驶团队成为历史,一个名为「Waymo」的新公司走上台前。

也许谷歌开始意识到,自动驾驶领域的竞争愈发激烈,「自动驾驶技术如何实现商业化」被加速提上日程。

9.苹果研发自动驾驶系统

从今年开始,越来越多的消息指向苹果已经不准备自己真正打造一辆车,而是将重心转移到和汽车密切相关的自动驾驶领域。

在给美国国家高速公路交通安全管理局(NHTSA )一封信件上,苹果首次公开承认自己在进行自动驾驶汽车的研发。

有人曾经算过这么一笔账,苹果公司市值 6200 多亿美金,比世界上营业额最大的前 8 大汽车公司市值之和还大。而且手持 2300 多亿美金的现金储备,也是全球前 8 大汽车公司手中现金储备之和。此前苹果也从汽车公司挖来不少成员,「泰坦计划」项目团队成员达数百人之多。

因此有业内人士抛出了这样一个问题:既有钱又有团队的苹果为什么造不了汽车?

10.无人驾驶政策

与自动驾驶同步发展的,是开放的政策。

在美国加州,由于对创新的宽容,目前已有 20 家公司拿到了无人驾驶上路牌照。今年 9 月,百度无人车获得第 15 张牌照。王劲在回答拿到这一牌照的意义时,告诉雷锋网:让无人车走向生活,百度需要借助外部条件,进行更大胆的测试,才能更快达到安全标准。而加州友好的无人车环境可以测试和推动百度无人车的发展。

在密歇根州,密歇根州州长最近也通过一个对无人车友好的法案:允许无人驾驶汽车在公共道路上行驶,甚至允许无人车可以没有实体的方向盘和刹车、以及无需司机坐在驾驶舱里。

在宾夕法尼亚州,Uber 已经在匹兹堡建立了一个无人车研发中心,这里的地方政府在今年上半年就已支持 Uber 无人车上路行驶。

在国内,虽然还不能在公开道路上进行无人驾驶测试,但相关自动驾驶测试基地也将相继落成。如今年 6 月正式开园的上海汽车城无人驾驶汽车测试基地、百度与芜湖市政府打造的「全无人驾驶汽车运营区域」,以及最近在湖北武汉落成的自动驾驶示范区,等等。在今后,类似这样的测试基地或示范区还将继续在国内出现。

从过去到现在,汽车一直是最重要的产业之一。而在未来,无人驾驶汽车或许将成为各地争夺的新兴产业。

PS:今年无人驾驶领域的哪些事件让你印象深刻?欢迎留言写出你心中的 2016 年无人驾驶十大事件。

雷锋网

盘点:哪些公司在制造无人驾驶的“眼睛”?| 2016 影响因子

*激光雷达“眼中”的世界

雷锋网按:2016 年即将结束。当我们回望这一年,无论艰难还是幸运,这年仿佛过得飞快。「2016 影响因子」是雷锋网在高速运转的科技行当里,在不断发生和被人忘记的事件中,试图在各个领域筛选出那些我们认为可能对当下和未来产生深远影响的因素。2016 影响因子,就是 2016 年值得记录的人、事、公司和技术。

如果你有朝一日看见无人驾驶汽车在路上奔驰,那么只能说明一个问题:无人驾驶汽车终于拥有了「灵敏的眼睛」。而这双「眼睛」不是别的,正是激光雷达。

激光雷达,作为自动驾驶最重要的传感器之一,撑起了自动驾驶的半壁江山。大公司如谷歌、宝马、奔驰、奥迪和沃尔沃,汽车供应商如博世、德尔福、大陆和先锋;初创企业如 Cruise Automation,NuTonomy 等,都在其自动驾驶系统中使用激光雷达。

据 Lux Research 报告,到 2030 年,激光雷达将在自动驾驶领域收获近亿美元的商业机会。

国内,北科天绘、速腾聚创、禾赛科技以及傲视智绘等初创公司也推出各自产品。国外,汽车零部件供应巨头采埃孚宣布收购位激光雷达公司 Ibeo40% 的股权;Quanergy Systems 在 B 轮融资中获得 9000 万美元; Innoviz 在今年 8 月宣布完成 900 万美元 A 轮融资;英飞凌在今年 10 月收购位于荷兰的半导体公司 Innoluce 准备开发激光雷达芯片……

我们盘点了海外的激光雷达公司,看看这些公司在激光雷达领域都有哪些进展。

Velodyne

Velodyne 成立于 1983 年的加州硅谷,在激光雷达领域可以算得上是老大哥了。它在 DARPA 的无人驾驶汽车挑战赛中,凭借 HDL-64 固态混合激光雷达传感器成功获得关注。

Velodyne 与车厂以「LiDAR Club」的形式合作,目前已经同 10 家高科技企业和 9 家汽车厂商开展紧密合作,共同推进 19 项自动驾驶汽车项目。

目前公司已经量产销售的激光雷达有三款:HDL-64E(64 线)、HDL-32E(32 线)、VLP-16(16 线),这三款产品将在 2019 年进行迭代更新。谷歌、百度、Uber 采用的是 64 线产品,单个定制的成本在 8 万美金左右。Velodyne 称如果拿到百万级订单,价格将为 500 美金以内。

前不久,Velodyne 还放出消息称,通过氮化镓(GaN)单片集成电路的应用,能够加固激光雷达组件并且缩小其体积,提升可靠性,并降低成本。

今年 8 月,Velodyne LiDAR 获得福特汽车与百度 1.5 亿美元的共同投资。

Quanergy

成立于 2012 年底的Quanergy可以算得上是一家后起之秀,目前团队规模为百人左右,多为技术研发出身,主要成员来自 Google、IBM、霍尼韦尔、奥迪、福特、博世、戴姆勒、高通等企业,在光学、光电子、光电元件、人工智能软件和控制系统领域都有着深厚积累。

公司一直致力于降低激光雷达的成本。在今年 1 月的 CES 展上,Quanergy 发布了 S3,号称是全球第一款固态激光雷达传感器,并表示如果订货量只要达到一万台,成本就有望控制在 100 美金以下。

S3 采用的是相控阵方式(Optical Phased Array),也就是指利用大量个别控制的小型天线元件排列成阵面,每一个单独立孔子,通过元件发射的时间差就能合成不同相位的主波束。这一技术目前而言已经普遍应用于传统雷达,但它对相关组件的尺寸要求相对较大,且对各个部件的协作也提出了很高的要求。换句话说,固态激光雷达距离产品市场化还有很长的路要走。

但即便如此,Quanergy 依然获得了大量风投的青睐:

  • 2014 年 5 月,Quanergy 获得来自三星电子风险投资,特斯拉创始人及清华企业家协会天使基金的种子投资;

  • 2014 年 12 月,Quanergy 完成 3000 万美金 A 轮融资。2015 年 Quanergy 获得德尔福战略投资,前者收购 Quanergy 部分股权,目前两家公司的工程师正在努力研发激光雷达系统;

  • 2016 年 7 月,Quanergy 获得 9000 万美金的 B 轮融资。

Ibeo

Ibeo 是一家成立于 1998 年的激光雷达供应商,位于德国汉堡,在 2000 年被传感器制造商 Sick AG 收购,后于 2009 年独立运营。

在今年 8 月,Ibeo 同样有新动作,汽车零部件供应巨头采埃孚(ZF)宣布收购其 40% 的股权,旨在获取技术与环境感知算法的相关技术。

在车用激光雷达领域,Ibeo 是最早选择嵌入式方案的公司,代表产品是 4 线的 LUX,价格在 10 万人民币左右。据相关人士透露,如果实现量产,车厂能拿到的价格大概在 3000 人民币以下。

与 Velodyne 及 Quanergy 一样,它也在研发固态激光雷达技术,不过目前尚未有具体成果的消息。

Innoluce 

今年 10 月份,德国芯片厂商英飞凌宣布收购荷兰半导体公司 Innoluce,准备利用其来提升自动驾驶传感技术的领先优势,为高性能激光雷达系统开发芯片组件。

公司旗下最出名的产品是硅基固态 MEMS 微反射镜,它能够对 LiDAR 测距中的激光束进行调整,目前已经取得独家专利。不论是从视角分辨率、还是视野宽度及刷新率来看,Innoluce 的 1D 反射镜都比传统的 2D MEMS 效果要好。而对温度、振动的敏感度较低的特性,也让 Innoluce 的可控制性与成本降低了不少。此外,它们家还研发和相关信号处理集成电路的固态激光扫描模块。

在实际应用上主要包括两个方面,一为 ADAS 及自动驾驶的激光雷达软硬件支持,其固态扫描模块能够达到 200 米以上的远程监测,及小于 0.1°的高分辨率。另外,其价格也将有望压低在 100 美金以下。另一个方面为适用于智能大灯的激光扫描。智能大灯能够基于激光探测,根据天气状况为驾驶员提供最佳的驾驶体验。

Innoviz

以色列雷达传感器公司 Innoviz 在今年 8 月完成了 900 万美元的 A 轮融资,由著名风险投资人 Zohar Zisapel、以色列本土风投公司 Vertex Venture Capital、Vertex,还有以色列本地的一家汽车零售初创公司参与投资。

雷锋网从其官网上了解到,这家公司目前正在开发自动驾驶的核心技术之一——智能三维传感、传感器整合及准确的绘图定位。公司表示要在 2018 年前推出高精度固态激光雷达 InnovizOne(HD-SSL),整体尺寸将缩减为 5cm*5cm*5cm 大小,能适配不同的光线条件,在保证鲁棒性的前提下,还要将价格控制在 100 美金以下。


主创团队约为 35 人,值得一提的是,雷锋网发现在成员列表中,还有一只叫 Winston 的狗。

TriLumina

TriLumina 公司是美国新墨西哥州一家半导体激光照明产品企业,成立于 2013 年。它致力于开发芯片产品,与此同时降低激光雷达的尺寸及成本。

该公司表示,它们合作研发的固态 LiDAR 传感器预计将于 2017 年投入市场。公司的主要投资机构包括 Cottonwood Technology Funds 、Stage 1 Ventures 及 Sun Mountain Capital。

LeddarTech

2007 年成立于加拿大的 LeddarTech,前身是加拿大国家光学研究所的子研究项目。目前 Leddar 已经获得了独家激光雷达专利,能为用户提供高敏感度、识别率高且即时的识别算法。

此前 LeddarTech 在 6 月份公布了无人驾驶汽车的固态激光雷达 IC 路线图,目前正与法雷奥合作研发「最便宜的」激光雷达传感器。

12 月 5 日,官网上宣布了其将在 CES 2017 展出的新产品——2D 及 3D 高精度激光雷达应用方案。

Phantom Intelligence

Phantom Intelligence 同样是一家加拿大公司,秉承的是「以人为本」的宗旨,并以「拯救生命、排忧解难及节约出行时间」为终极目标。目前,Phantom Intelligence 与欧司朗光电半导体事业部合作开发一款低成本的集成式激光雷达,能够用于城市驾驶的低速障碍物探测。

根据媒体报道显示的信息,公司的其中一款概念产品按照「宽度远大于高度的扁矩形形状排列」,拥有 16 个(2*8)的二极管阵列,可探测距离达 30 米。

作为自动驾驶的「眼睛」,激光雷达的技术进步无疑会为其添上浓墨重彩的一笔。雷锋网也同样相信,产品与技术能够在未来成为每一家科技公司的心之所向。

*图片源于网络

雷锋网

机器人操作系统的发展状况和未来优化 | 2016 高工年会

机器人技术其实是一个软件问题,而不是一个硬件问题。

Google早期的研发者Scott Hassan曾经说了上面的这句话,虽然很多硬件从业者不一定同意,但不可否认的是软件也是机器人中非常重要的内容。在昨天的2016高工机器人年会上,汤尼机器人创始人王滨海进行了一次《操作系统让机器人大脑更聪明》的演讲,对机器人系统进行了简单的介绍。以下是王滨海的演讲精要摘编。

什么是机器人操作系统?

狭义的机器人操作系统只是对机器人的驱动、控制的软件架构,是软件上的一些驱动模块,也可以称之为软件中间件。

那么它解决什么问题呢?简单来说它给我们提供了底层的进程管理、消息管理、编译管理、指令管理。在这个基础上开发者就可以做各种各样的功能模块,大部分是UTC,也就是用户产生的内容对整个机器人社区提供大量的开源支持。

在这个领域,我们会发现,在机器人操作系统中,底层的从业人员大部分都是做计算机的,而上面做应用的主要是机器人工程领域,这里有一条很明确的分界线。

机器人操作系统领域的发展状况

日本很早就在国家战略层面提出了机器人操作系统的事情,在日本的先进技术部门引导下,他们也形成了Open  Robot的平台。意大利也是YARP的开源系统来提供全新的开发环境。美国的投入更大,包括鼎鼎大名的微软的开发平台ROBOTIES、Player  Stage以及最知名的ROS系统。ROS是从斯坦福大学实验室走出去的机器人操作系统,目前正被很多大学和企业使用。在上述这些系统中,可能只有ROS被大家所知道、了解,其他都不是太清楚,其原因可能是商业模式注定了不同的开发平台未来的发展趋势。

ROS采用了BSD开发架构,开发任何一个部件都可以商业化,除了微软是不开源,其他的开源平台的License都是这样的,这就阻碍了作为商业平台发展的趋势。

MIT曾经对机器人操作系统进行评价,说30年前,DOS引爆个人电脑,在30年之后,机器人操作系统的出现会对机器人技术是个很大的推进,正如DOS在30年前所做的事情一样,使得能够用很简短的代码实现机器人的功能。目前ROS是大家评价的在机器人领域的事实标准。

在做这个报告之前,很多人问我一个事情,目前这个ROS操作系统的用户会有多少?在今年的ROS大会上我和他们的负责人做了很多交流,拿到一个数据,目前在使用操作系统做开发的人员用户超过35万。这是一个非常大的数据。另外它提供的功能,包括移动平台控制、视觉控制,下载量超过了850万次。这仅仅是2016年1-7月份的数据。

在这个平台上还衍生了很多的分支,最大的分支是ROS-A和ROS-DOS。工业领域有很多用户已经开始使用这个平台来构建他们的工业机器人。而在农业机器人领域,也有很多企业使用操作系统作为开发平台。我们在2015年收购了几家开发农业机器人的企业。我看到的至少不下于十种的农业机器人的操作框架是这个形式的。

还有针对无人机方面的。在无人机方面,有两个不对外开放的分支。其中一个是军用领域,我们猜测军用机器人采用的是操作系统框架。另外一个我们比较惊讶和超出我们预知的是,在DOE能源领域也使用了这个框架,我们不知道如何应用的,我们不知道他们里面什么状况。

说到工业领域,有一个这样的统计数据,大概35%是系统集成商,25%是做OEM的基础,来给一些本体厂商和系统集成商做OEM。还有40%主要用在科研和政府方面,一共加起来有60%是商业化应用。在这个领域,很多巨头们都已经投入进去了,比如ABB、宝马。如果我们去看宝马的官网,会发现ABB有几款工业机器人支持这样的接口,给它做控制,也是给系统集成商一个很好的平台去做这样的集成事情。

操作系统未来需要优化ROS

未来机器人有几部分是很重要的,包括它的AI、视觉、听觉和语言、行为。我记得去年高工年会的时候,许扬生院士提到了机器人三大元素:运动、感知、认知,这里面就包括PC三个部分。

原有的ROS系统只解决了运动的问题,对运动的控制,未来的机器人还需要包括语言、视觉、听觉。所以我们需要一个广义的操作系统,需要驱动本体,增加AI,把语言能力和视觉能力能够提升上去,这是它未来的发展方向。

目前我们做的事情,第一是把机器人按整个层进行划分。包括部件驱动、环境感知、行为管理、数据传输等等。在这个基础上,我们做了一个RoboWare,为大家提供比较好的开发环境,机器人可视控制、仿真、数据传输和深度学习。我们主要针对机器人企业以及开发人员,这是我们主要的客户定位。

我们所提供的价值,总结为三提升三降低。提升了开发质量、开效率、可一致性,降低开发门槛、开发周期和开发成本。

这是目前能支撑的硬件,包括底盘、导航,以及数据传输在软件上的服务。未来的构想是把它作为一个内核,作为中间件的作用,把核心的算法,在数据传输和交互方面都融入进去。

未来要像Windows优化DOS或优秀手机厂商优化Android一样,让ROS也变成一个优秀的机器人操作系统。

雷锋网

中国工程院院士高文:下一波浪潮和AI的未来 | 2016 高工年会

60年前的夏天,当时在美国的达斯矛斯开过一场研讨会,在这个会议上,有一群年轻人搞了一个讨论班,用了两个月,讨论人工智能要怎么做。在这个班里,最后几个大家大部分人都拿了图灵奖,这也是人工智能的一个起源的标志,到现在为止,人工智能的发展有三个浪潮,第一个浪潮就是从起源开始。

编者按:2016高工机器人年会的闭幕式主题报告会上,中国工程程院院士、北京大学教授高文在做了一个主题为“人工智能的前景与挑战”的演讲,在演讲中高文院士回顾了过去60年的三波人工智能浪潮发展的历史(这篇报告有更详细的版本,请点击链接),回顾过后就要展望未来,那么人工智能的未来会怎么样?这也是高文院士今天所讲的一个主要议题,以下为高文院士的演讲全文。

人工智能还存在不足

今天产业界都觉得人工智能大风来了,赶快前进不要掉队。但是如果你冷静下来想想,人工智能从研究方面还是有很多问题没有解决的。当然这不是说不能用,仍然可以用,就看你怎么用,会用在哪里。

人工智能现在主要的缺陷或者不足还是在机器学习上的网络上,神经网络是学习的一个方法,这个方法确实可以解决很多问题,但是它的问题是你不知道它是怎么解决问题的,在神经网络机器人的表达里面有很多东西是没有办法定性、解释的,这是比较难的一个问题。怎么样能把这个问题解决掉,人工智能可能又会来一波大的浪潮。不管怎么样,怎么样做好的知识处理,能够做到知其所以然,这是现在面临的一个比较大的问题。

这方面有人在做研究,例如这位图灵奖的获奖人,他是做分布式学习最重要的一位学者。另外一位在机器学习方面的图灵奖的获奖人是UCLA的教授。围绕这两个领域,做机器学习的人都在探索怎么把这个理论实用化,因为他们的理论太理论,没办法直接用,所以很多人都在探索这个问题。

各国对人工智能的动作

最近有很多不同的基金或者国家面向人工智能或者深度学习方面都有不同的动作。

比如说美国的国家科学基金会(NSF)从今年开始对于机器学习原创工作仍然大力支持,但是对于简单使用深度学习去解决问题的研究已经不再支持了。所以前段时间我去美国开会,马里兰大学的一位很知名的搞人工智能的专家就调侃说,现在都在说Deep  Learing,Deep  YES,Learning NO。因为它的学习严格的说不是学习,而是训练,是用大数据在训练一个结构,而不是真的知道知识是什么,这可能只是一个动作。

国内的自然科学基金业也在采取一些动作,包括我们会把和人工智能相关的一些研究列入支持。比如我们将会把智能科学单独作为一个学科代码,将来在整个自然科学申请体系里面列进去,每一个学科代码在我们这里相当于是一个处的编制。

有的同事知道我另外一个身份是国家自然科学基金委员会的副主任,我现在分管信息学部,自然科学基金今年248亿预算,8个学部,有的学部大一点,有的学部小一点。信息学部今年的预算是1/8左右,也就是说28-29亿,现在四个处在分,每个处是不到5亿。如果我多了一个信息科学代码,那它就会从1/4变成1/5,所以大家可以知道我们将来对信息科学的支持力度会有多大。

当然没有申请人也不会给钱,因为自然科学基金是竞争性的,没有竞争就拿不到钱。所谓竞争,大概就是1/4,大概就是25-30%之间的申请率,平均3份以上选择1份来支持。这是一个信号,我国今后会对人工智能或者机器人的研究会有比较大的资源注入进去。

人工智能的划分

对于未来来说,现在的人工智能和未来的人工智能到底阶段上怎么来划分?或者说我们现在做了多少事,未来还有多少事需要做?

不要认为我们解决了人工智能的所有问题,我们解决的问题还是很小一部分。是哪一部分呢?我们把这个矩阵做成四部分来看。

左上角部分叫做可统计、可推理的知识,或者可统计、可推理的世界。什么叫可统计?只要数据多了,一统计就找到规律了。什么是可推理?它的因果关系能归纳出来。当然这个可推理既是可能是基于大数据的推理,也可能是基于符号的推理。现在它可以用了,因为有了深度学习,我们又有了前些年的逻辑演算的基本算法,这是可以做的。

这一部分工业界可以用了,拿去做机器人、去做各种各样的知识决策系统都是可以的。

还有另外三部分,包括不可统计可推理。什么东西是这样的?要么数据不完备,要么数据里面特征的描述还没有找到更好的办法,可能里面是很稀疏的东西,表达根本没有办法统计出来,在里面是游离状态,但是是可推理的,可以写出正确的规则。这些靠大数据解决不了问题,但是只能靠传统的逻辑来做。这方面又相当脆弱,许多东西需要进一步去验证。

左下角是可统计不可推理。这个意思就是我有大数据,通过大数据都能把规律统计出来,但是用语言表述出它的因果关系不行,有点复杂。当然随着时间的推移,可能也变成可推理。至今这里有相当一部分用神经元网络可以解决,但是用推理的办法还很难解决。这方面曙光有一些,但是也需要更多的沉淀。

右下角是比较难的一部分,未来机器人在这方面很难有作为。为什么?连我们自己都说不清楚。比如说人类有很多顿悟,这些顿悟通过统计能证明它产生?不可能统计出来。通过理论证明这个东西产生吗?不可能。也不知道什么人在什么环境下突然想明白一件事,这个机器做不了,没有模型和数据,所以这些东西是未来机器人不可能涉足,不可能胜过人的。我讲到这里,大家都很容易理解,将来机器人会超过人,你就知道哪些可以哪些不可以。

人工智能时代是否真的到来?

这个问题得看从哪个角度说。

答案可以是肯定的。比如你仅仅是期望计算机能够做的事比人做得更好,很多事情是可重复,可统计,可推理的,把这些事交给计算机去做,它一定做得比人强。例如下围棋,尽管比较难,但是它是经验和知识积累的过程。也就是说,慢慢的,机器一定会胜过人。昨天我在香港和一个教授还在讨论,会以后没有人下围棋呢?为什么这样想呢?他说人和人下很有乐趣,和计算机下盘盘输,为什么下?我说为什么要和计算机下?还是和人,你还是冠军。

答案也可以是否定的,对于上图那几个下面的象限区域的很多事,计算机还不行,我们认为那些还是需要进一步研究的。

人工智能对经济的五个影响

这是我们对AI的看法。现在大家可能知道,10月13日,白宫曾经发布两个和人工智能有关的报告。12月20日,白宫又发布了一个报告,叫做人工智能自动化与经济。这篇报告中说,人工智能总体来说,不管你是否接受,不管你是否看好,这件事就要发生了。我们现在要做的是,如果这件事发生了,我们怎么去应对它。

我认为这个报告出的非常及时,列出了人工智能对经济有五个方面的影响。例如对总的生产率增长的影响是积极的,对就业市场的影响会发生变化,对不同层次的人变化不一样,影响分布是不均衡的,所以不同层次、部门、领域、区域的都会不一样。人工智能会导致一些工作职位的消失,也会产生一些新的类型的工作。劳动力市场将会被搅乱,一些工人短期会失业,失业的时间肯定更长,这就看政策到底怎么调整。

对政策到底有哪些影响?就看人工智能一旦起来到底对哪些人有影响。

按照美国的判断,对每个小时40美元以上的工作影响不大,只有4%,对美国小时20-40美元之间的影响是31%,但是对于低于20美元的劳动力影响非常大,达到83%。所以政府要有所应对。应对的策略,包括鼓励投资开发,也包括对新的工作类型进行培训、对转型期间的工人提供帮助,让他们能够通过再学习得到就业。

下一波浪潮一定是AI

这是美国的研究,回到今天我们的主题,人工智能带来的机遇对全社会,当然也包括对于自动化领域,特别是机器人领域,机遇是非常多的。如果我们说过去这几十年比较大的浪潮,第一波是PC浪潮,给信息领域带领颠覆性的影响。紧接着是互联网浪潮,成就了一大批互联网公司,例如谷歌、百度。之后马上出了一波新的浪潮,叫移动互联网,比如说今天的苹果、华为等等都是这波起来的公司。下一波是什么?一定是在AI,下一波公司能够再出现像苹果、华为,一定是AI。

是否用AI做机器人?当然可能,也有可能是做别的,浪潮就在这里。

我们现在做机器人,绝大部分的行为是设计出来的,我们把它叫做Designed  Robot,要前进、拐弯都是按规律设计出来的。这没有错误,但是不是AI。什么是AI机器人?或者叫学习机器人呢?就是机器人做好以后,他不知道要干什么。你训练他干什么他就干什么。就像小孩一样,小孩出生了,你说他将来是数学家、物理学家、技术工人、农民?他什么都不是,但什么都可能是,就看你教他什么。我们以后的机器人也应该是做出来的时候什么都不是,你教他做什么他就是什么,你教他开车他就会开车,你教他上流水线操作,他就会流水线操作。这一天一定会来,就看谁在上面花的功夫更大,或者准确更充分。

AI带来的机遇与挑战

我们怎么样能让系统和人具有同样的知识能力和水平?现在大部分是软件知识,有一个系统,你会给它大数据的集合,它进行不断的训练,不断的和聊天、对话。这些机器人开始的规则比较简单,大数据进去,不断的会话调整反馈,就能慢慢抓住聊天对象的注意力,让你跟着它转。这可能是现在的一些情况。

真正到了AI阶段,就不是软件知识,而应该是开放知识。现在人类之所以一直在进步,是因为知识本身是开放的,我们得到了一些知识,然后把它教给学生,写成书给社会,社会得到这些知识之后就会不停的进步。在这个基础上,别人再去加新的知识。所以一定是开放的,如果不开放,这个社会就不能进步。这个道理一样落到机器人和AI方面。

人工智能对于教育和就业的机遇比较多,因为现在整个社会需要非常多的学习人工智能的博士,现在在美国博士上百万年金都拿得到,在国内也能拿到接近百万。有时候我们开玩笑,老老实实教了一辈子书,刚毕业的学生就比我们的薪水高。需求太大就水涨船高,所以需要教育提供更多的人才。

对于研究方面的挑战更大一点。主要研究,最近工程院在出一个报告,叫AI 2.0,准备从 1.0 向2.0 过度,要做的事是这里绿色的区域,浅蓝区域是现在可以直接拿去用的东西,绿色的区域还做得不是太好。

总结

最后高文院士用一张PPT对这次演讲进行了总结。

雷锋网

2016 高工年会 | 机器人跨国巨头的战略、与国产的差距以及未来市场格局

今天,在深圳沙井维纳斯皇家酒店,2016高工机器人年会隆重召开,在会上,各个嘉宾针对全球机器人产业变革和重构、中国机器人和世界机器人格局以及智能化趋势等问题进行了讨论。

在上午会议结束之前的圆桌对话上, 新松机器人总裁曲道奎、埃夫特董事长许礼进、ABB机器人中国区总裁王国超、优傲机器人中国区总经理苏璧凯、Rething  Robotics副总裁梁褀以及新时达机器人总经理蔡亮就跨国巨头中国战略的未来走向、国产机器人的差距和机会以及全球机器人产业格局进行了深入的探讨。

跨国巨头中国战略的未来走向

在圆桌会议上,有三人所代表的均是外国公司,主持人也抛出了相应的问题:外国公司准备在中国采取什么样的战略,来对付中国企业和中国市场?如果是中国企业,作为本土企业,如何看待、应对他们的战略?

梁褀:跨国公司需要做好本土化。

Rething Robotics副总裁梁褀表示,作为一个外企在刚进入中国市场的时候,凭借着技术、产品、服务、管理、品牌各方面的优势能够迅速扩展国内的市场,这是在前期非常容易做到的事情。但是当外企在中国市场扩展到一定程度的时候,必然会遇到瓶颈,必然会面临竞争,使得市场份额不像前几年那么容易扩张。这个时候最重要的一点是本土化,包括本地设计、本地制造、本土产品。毕竟欧美市场和中国市场还有比较大的差异。所以本土化是外资企业在中国持续发展的非常核心的重要原因,如果外企依然按照刚进入中国市场的前几年一样——用自己的品牌和产品优势来扩展市场,可能在3-5年内必然遇到瓶颈期,这就要通过全方位的本土化加以解决。

但是本土化还有很多问题需要解决,其中最大的一点就是人才。因为在中国经营企业和在欧美经营企业思路不同,包括产品设计、对中国市场的理解,包括工业产品很重视的售后服务等等方面。另外从国外找一个工程师之类的人才过来成本也是非常高的。

王国超:同意本地化战略,成本不是问题

作为四大家族的ABB,“本土化”也是他们的战略之一。王国超表示没有本地化就谈不上全球化,这个战略ABB一直没有变。

关于跨国成本竞争问题,王国超表示,采用机器人或者使用智能设备的话,应该和成本没有关系。对此他还提出了几个看法:

第一是使用机器人质量相对可靠,人工不可靠。

第二是有很多产品的效果人工智能才能达到,例如汽车生产等。

第三是柔性化,现在产品的更新换代非常快,传统刚性的生产线满足不了需求。

第四是绿色环境化、安全化。

这些都是客户的几个本质需求,也就是说,成本不是唯一的。

苏璧凯:核心技术和质量才是保障

苏璧凯说,设计是可以模仿的,但是核心技术和质量保障是经过多年努力才能实现的,国外企业想在本土利于不败之地还除了那些本土化,最主要的还是要有硬实力。

曲道奎:面对跨国公司在竞争中合作共赢

曲道奎表示他们面对跨国公司的竞争有一个大的原则:是以多赢、双赢为大前提,但是也不惧怕竞争对手到中国来了,中国的巨头是完全在“狼来了”的情况下成长起来的。和国外的巨头更多是合作双赢,但是也会有不可避免的竞争,而基本宗旨还是要在资源上供应整合,曲道奎说他不赞成大家两败俱伤,因为中国的市场很大,世界市场更大,中国企业要面向全球化的市场,在中国进行布局,还要在国外进行布局。很多表面上看起来是竞争对手,也可能在未来是合作伙伴。

许礼进:目前谈不到竞争,先发展好自己

中国的市场才刚开始,大家在竞争过程中就会越来越开放,我们目前需要的是有更多的市场,做好这个环境,机器人行业才刚开始。如果中国不拿出市场进行开放,就会让出这个跑道。所以我认为目前还谈不上竞争。因为这个市场需要各种技术,去研发,去努力,然后有更好的发展。

蔡亮:不一定就是竞争的局面

蔡亮说,市场竞争必然是个杀局,但以后的市场发展不一定非得竞争的你死我活。我们5年内会构建一个乘以10倍的市场,大家的日子都会好过。各自在各自不同的层面进行创新都有可能。也许和国际品牌杀不到一起去,也许某些层面上合作的可能性反而更大。这都是一个动态过程,很难讲一定就是杀局。

国产机器人的差距以及未来市场格局

国产机器人的差距

关于国产机器人与国外跨国机器人巨头的差距, 曲道奎讲述了一些自己的看法。

曲道奎说,国产机器人的差距和机会都是一样的,就是中国作为一个后发国家,差距差在是后发,国外的企业,例如ABB等等都是比较大的巨头,几乎都是百年历史,中国的企业只有十几年、几年的历史。

后发涉及品牌、全球化,在很多经验积累上差距还是比较大的。机会也体现在后发上,我们会直接从前沿入手。还有全球给我们创造的机会,目前全国是个大变革时代,假如没有这个大变革时代,中国企业和国外企业相比很难有胜利的机会。现在恰巧是个大的变革时代,可能要颠复过去已有的规则,打破规矩,把过去已有的他们的经验积累消失。还有机器人有自身的发展,如果还是传统的机器人,中国企业还是没有机会。现在有各种新的技术出现,例如协作机器人等等。还有机器人的普及率提高,除了工业领域,还有健康、教育、消费等等都会诞生很多新的需求。这是我们最大的机会。

未来市场格局

曲道奎:未来格局会是百花齐放

关于机器人格局的问题,机器人产业格局的走向未来会是百花齐放,这里有很大的生态分布,既没有参天大树,也有花草数木。大家要注意选择方向,做企业也是一个选择,过去讲“女怕嫁错郎,男怕入错行”。我们完全可以在这里打造自己的生存空间。未来的走向很大,有很多细分领域,有不同的环节,肯定是百花齐放的时代。

在一般产业形成固定格局的时候,大都会形成龙头企业垄断性质,或者说整个行业会分成一批大企业,一批中型企业,一批小企业。现在是百花齐放,未来还是这样吗?会不会有垄断产生呢?关于这个问题,曲道奎表示,这是数字化、网络化发展的趋势,每个行业中集中度越来越高,垄断越来越强。我们的芯片是非常大的行业,但是因特尔做芯片垄断,高通做通讯垄断。软件方面,大家都知道微软,工业的SAP。更多是要做到自己的特点,知道自己的特点和价值,才可以反垄断,不被别人收购,可以自己壮大,成长起来。但是前提是要有自己独特的价值。

许礼进:标准化会越来越集中

许礼进认为,有些通用的东西,标准化的东西会越来越集中,会集中到几家公司。未来有些利益会逐步标准化,软件更科技化。

苏璧凯:不要管格局,做好自己

苏璧凯说,未来的格局是各行各业都会使用机器人,这对机器人是一个非常好的机会,所以我们必须改变我们的思考。我不说竞争对手如何,至少我们要不断开发新的应用,完善自己。

王国超:市场格局要取决于客户

协作机器人未来的数量和格局不好讲,但是我认为它是个趋势。我的理解是,中国的制造业市场,刚开始工人非常好找,工人比较想找到工作养家糊口。将来的劳动工人可能就会拒绝这些东西,例如他不想要很简单的、危险的、有危害的工作。在市场占有率方面要取决于客户,因为客户有接受过程。

蔡亮:未来会出现寡头“垄断”的局面

大的市场格局未来会慢慢向寡头垄断靠拢,这个寡头垄断不是说就一家寡头霸占市场,但三五家寡头垄断是一定的。

梁褀:市场容量会促成更多差异化需求

首先看市场容量,机器的市场容量未来会发展非常快,而且量非常大。我曾经看过一个报道,深圳预言到2030年,全球机器人的数量超过100亿台,比地球上的人还多。市场容量未来非常大,这是大家都认可的。基于此,市场容量大,需求就是差异化。可能这里会有一些企业的集成度会比较高,但是不可能有一两家独大的情况,这种情况不会发生。可能每个细分产业链,包括零部件、集成的产业集中度越来越高,这是一个趋势。

雷锋网