所有由admin发布的文章

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

雷锋网 AI 科技评论按:本文作者为阿德莱德大学助理教授吴琦,他在为雷锋网 AI 科技评论投递的独家稿件中回顾了他从跨领域图像识别到 Vision-to-Language 相关的研究思路,如今正将研究领域延伸到与 Action 相关的工作。雷锋网 AI 科技评论对文章做了不改动原意的编辑。

大家好,我叫吴琦,目前在阿德莱德大学担任讲师(助理教授)。2014 年博士毕业之后,有幸加入澳大利亚阿德莱德大学(University of Adelaide)开始为期 3 年的博士后工作。由于博士期间主要研究内容是跨领域图像识别,所以博士后期间,原本希望能够继续开展与跨领域相关方面的研究。但是,在与博士后期间的导师 Anton van den Hengel、沈春华教授讨论之后,决定跳出基于图像内部的跨领域研究,而展开图像与其他外部领域的跨领域研究。恰逢 2015 年 CVPR 有数篇 image captioning 的工作,其中最有名的当属 Andrej Karpathy 的 NeuralTak 和 Google 的 Show and Tell,同时 2015 年的 MS COCO Image Captioning Challenge 也得到了大量的关注。所以当时就决定开始研究与 Vision-to-Language 相关的跨领域问题。后来也在这个问题上越走越深,近三年在 CVPR,AAAI,IJCAI,TPAMI 等顶级会议与期刊上,先后发表了 15 篇与 vision-language 相关的论文,近期我们又将这个问题延伸到了与 Action 相关的领域,开启了一个全新的方向。接下来我就介绍一下我的一些研究思路,工作,以及我对这个领域的一些想法。

1. Image Captioning with Attributes

我们 15 年第一个研究的问题是围绕 image captioning 展开的,当时这个方向的主流模型是基于 CNN-RNN 框架的,即输入一张图像,先用一个 pre-trained 的 CNN 去提取图像特征,然后,将这些 CNN 特征输入到 RNN,也就是递归神经网络当中去生成单词序列。这种模型表面上看起来非常吸引人,依赖于强大的深度神经网络,能够用 end-to-end 的方式学习到一个从图像到语言(vision2language)的直接对应关系,但忽略了一个重要的事实是,图像和语言之间,其实是存在鸿沟的。虽然我们用神经网络将图像空间和语言空间 embed 在同一个空间当中,但直觉上告诉我,这两个空间应该需要一个共同的 sub-space 作为桥梁来连接。于是我们想到了 attributes,一种图像和语言都拥有的特征。于是,基于上面提到的 CNN-RNN 结构,我们多加了一个 attributes prediction layer。当给定一张图像,我们先去预测图像当中的各种 attributes(我们的 attributes 定义是广义的,包括物体名称,属性,动作,形容词,副词,情绪等等),然后再将这些 attributes 代替之前的 CNN 图像特征(如图 1),输入到 RNN 当中,生成语句。

图 1:从图像到词语再到语句的 image captioning 模型

我们发现这个简单的操作使我们的 image captioning 模型得到了大幅度的提升(见图 2),并使得我们在 15 年 12 月的 MS COCO Image Captioning Challenge Leader Board 上在多项测评中排名第一(见图 3)。论文后来也被 CVPR 2016 接收,见论文 [1]。

图 2:Image captioning with predicted attributes

图 3: Our results (Q.Wu) on MS COCO Image Captioning Challenge Leader Board, Dec/2015

2. Visual Question Answering with Knowledge Base

看到 attributes 在 image captioning 上的作用之后,我们开始考虑,相同的思路是否可以扩展到更多的 vision-and-language 的问题上?毕竟, vision 和 language 之间的 gap 是客观存在的,而 attributes 能够有效地缩小这种 gap。于是我们尝试将相同的框架运用在了 visual question answering(VQA)上(见图 4),也取得了非常好的效果。相关结果已发表于 TPAMI,见论文 [2].


图 4:Adding intermediate attributes layer in VQA

然而,VQA 与其他 vision-to-language 不同的是,当它需要一个机器去回答一个关于图片内容的问题的时候,机器不仅需要能够理解图像以及语言信息,还要能够具有一定的常识,比如,如图 5 左边所示,问题是图中有几只哺乳动物。那么回答这个问题,我们不仅需要机器能够「看」到图中有狗,猫,鸟,还需要机器能够「知道」狗和猫是哺乳动物,而鸟不是,从而「告诉」我们正确答案是 2.

图 5:Common-sense required questions

于是,我们就自然想到了将知识图谱(knowledge-base)引入到 VQA 当中,帮助我们回答类似的问题。那么该如何连接起图像内容和 knowledge base 呢?我们的 attributes 这时候就又发挥了作用。我们先将图像当中的 attributes 提取出来,然后用这些 attributes 去 query knowledge base(DBpedia),去找到相关的知识,然后再使用 Doc2Vec 将这些知识信息向量化,再与其他信息一起,输入到 lstm 当中,去回答问题。我们的这个框架(见图 6)在 VQA 数据集上取得非常好的表现,相关论文结果已发表于 CVPR 2016,见论文 [3].

图 6:VQA model with knowledge base

3. Visual Question Answering with Reasoning

虽然我们上面提出的框架解决了回答关于「common sense」的问题的挑战,但是我们发现在 VQA 当中还有两个重要的局限:

  • CV doesn't help a lot

    -Only CNN features are used

    -CNN is simply trained on object classification

    -VQA requires multiple CV tasks

  • No reasons are given

    -Image + Question -> Answer mapping

    -Providing reasons is important, e.g. Medical service, Defense.

第一个局限指的是, computer vision 其实在 VQA 当中的作用太小了,我们仅仅是使用 CNN 去对图片当中的物体等内容进行理解。而一个基于图片的问题,可能会问物体之间的关系,物体中的文字等等,而这其实是需要多种的计算机视觉算法来解决的。

第二个局限指的是,在回答问题的过程当中,我们没有办法给出一个合理的解释。而「可解释性」恰恰是近几年来大家都很关注的一个问题。如果我们在回答问题的过程当中,还能够提供一个可理解的原因,将是非常有帮助的。

那么基于上面这两点,我们就提出了一种新的 VQA 结构,我们称之为 VQA Machine。这个模型可以接收多个 computer vision 算法输出的结果,包括 object detection,attributes prediction,relationship detection 等等,然后将这些信息进行融合,得出答案。同时,我们的 VQA Machine 除了输出答案之外,还可以输出原因。在这个模型中,我们首先将问题从三个 level 来 encode。在每个 level,问题的特征与图像还有 facts 再一起 jointly embed 在一个空间当中,通过一个 co-attention model。这里的 facts 是一系列的,利用现有计算机视觉模型所提取出的图像信息。最后,我们用一个 MLP 去预测答案,基于每一层的 co-attention model 的输出。那么回答问题的原因是通过对加权后的 facts 进行排序和 re-formulating 得到的(见图 7)。

图 7:VQA Machine Framework

我们的这个模型在 VQA 数据集上取得了 state-of-art 的表现(见表 1),更重要的是,它在回答问题的同时,能够给出对应的解释,这是其他的 VQA 模型所做不到的。图 8 给出了一些我们模型产生的结果。论文已经发表在 CVPR 2017,见论文 [4].

表 1:Single model performance on the VQA-real test set

图 8:VQA Machine 结果,问题中带颜色的词表示 top-3 的权重。代表了这个词在回答这个问题时的重要程度。图像当中高亮的区域表示图像当中 attention weights。颜色越深的区域说明这个区域对回答问题更重要。最后是我们模型生成的回答问题的原因。

4. Visual Question Answering with Explicit Reasoning on Knowledge Base

既然我们知道了 knowledge 和 reasoning 对 VQA 都很重要,那么怎么将它们两个结合在一起,同时能够进行 explicit reasoning(显示推理)呢?所谓 explicit reasoning,就是在回答问题的过程当中,能够给出一条可追溯的逻辑链。于是我们又提出了 Ahab,一种全新的能够进行显式推理的 VQA 模型。在这个模型当中,与以往直接把图像加问题直接映射到答案不同,Ahab 首先会将问题和图像映射到一个 KB query,也就是知识图谱的请求,从而能够接入到成千上万的知识库当中。另外,在我们的模型当中,答案是 traceable 的,也就是可以追踪的,因为我们可以通过 query 在知识图谱当中的搜索路径得到一个显式的逻辑链。

图 9 展示了我们这一方法。我们的方法可以分成两部分。

  • 首先在第一部分,我们会检测到图像当中的相关概念,然后将他们连接到一个知识图谱当中,形成一个大的 graph,我们把这个过程称为 RDF graph construction process。

  • 在第二步,一个自然语言式的问题会被首先处理成一个合适的 query,这个 query 会去请求上一步当中建立好的图。这个 query 可能会需要到多步的推理过程,而这个 query 对应的 response 则会形成对应问题的答案。

图 9:Our Ahab VQA model

最近我们又建立了一个新的 VQA 数据集叫做 fact-based VQA,就是基于事实的 VQA。我们之前的基于 explicit reasoning 的数据集只能接受固定的模板式的问题,而新的 FVQA 数据集提供了开放式的问题。除此之外,对每一对问题-答案,我们额外提供了一个 supporting fact。所以在回答问题的时候,我们不仅需要机器回答出这个问题,而且还需要它能够提供关于这个回答的 supporting fact。图 10 展示了我们 Ahab 和 FVQA 模型和数据的一些例子。相关数据与结果分别发表于 IJCAI 2017 和 TPAMI,见论文 [5,6]

图 10: Ahab and FVQA datasets and results

5. Visual Dialog with GAN

从 VQA 可以衍生出很多新的问题,Visual Dialog(视觉对话)就是其中一个。与 VQA 只有一轮问答不同的是,视觉对话需要机器能够使用自然的,常用的语言和人类维持一个关于图像的,有意义的对话。与 VQA 另外一个不同的地方在于,VQA 的回答普遍都很简短,比如说答案是 yes/no, 数字或者一个名词等等,都偏机器化。而我们希望 visual dialog 能够尽量的生成偏人性化的数据。比如图 11 所示,面对同样的问题,偏人类的回答信息量更丰富,也更自然,同时能够关注到已经发生的对话,并且引出接下来要发生的对话。而偏机器的回应,就非常的古板,基本没法引出下面的对话。

图 11:Human-like vs, Machine-like

于是我们提出了一个基于 GAN(生成对抗网络) 的方法 (图 12),来帮助模型生成更加符合人类预期的回答。我们左边的生成网络是使用了一个 co-attention,也就是一个联合注意力模型,来联合的使用图像,对话历史来生成新的对话,然后我们将生成的对话以及从生成模型中得出的 attention,一起,送入到一个区别模型当中,去区别对话为人工产生还是自动生成,然后通过 reward 的形式,去鼓励模型生成更加符合人类的对话。

图 12:Dialog Generation via GAN

图 13: Co-attention model

这项工作中,我们使用了一个 co-attention 的模型,来融合来自各个模态的信息,相同的模型也用在我们上面提到的 VQA-machine 当中。在一个 co-attention 模型当中,我们使用两种特征去 attend 另外一种特征,从而进行有效地特征选择。这种 attend 模式会以 sequential 的形式,运行多次,直到每个输入特征,均被另外两个特征 attend 过。该论文 [7] 被 CVPR2018 接受,大会 oral。

 

图 14:Visual Dialog 结果对比

6. 从 Vision-Language 到 Action

前面简单介绍了一些我们在 vision-language 方向上的工作,可以看到,两者的结合无论在技术上还是应用上,都非常的有意义。然而,对于人工智能(AI)而言,这只是一小步。真正的人工智能,除了能够学习理解多种模态的信息,还应该能与真实环境进行一定程度的交互,可以通过语言,也可以通过动作,从而能够改变环境,帮助人类解决实际问题。那么从今年开始,我们开始将 action 也加入进来,进行相关的研究。

我为此提出了一个 V3A 的概念,就是 Vision,Ask,Answer and Act(如图 15),在这个新的体系当中,我们以视觉(Vision)作为中心,希望能够展开提问(Ask),回答(Answer),行动(Act)等操作。这样,我们不仅能够得到一个可训练的闭环,还将很多之前的 vision-language 的任务也融合了进来。比如在 Ask 这一端,我们可以有 Visual Question Generation,image captioning 这样的任务,因为他们都是从图像到语言的生成。在 Answer 这一端,我们可以有 VQA,Visual Dialog 这样需要机器能够产生答案的模型。在 Act 端,我们也有会有一些很有意思的任务,比如 referring expression 和 visual navigation。那么我们在今年的 CVPR2018 上,在这两个方面,都有相关的工作。

图 15:V3A 框架

首先谈一下 referring expression,也叫做 visual grounding,它需要机器在接受一张图片和一个 query(指令)之后,「指」出图片当中与这个 query 所相关的物体。为了解决这个问题,我们提出了一个统一的框架,ParalleL AttentioN(PLAN)网络,用于从可变长度的自然描述中发现图像中的对象。自然描述可以从短语到对话。PLAN 网络有两个注意力机制,将部分语言表达与全局可视内容以及候选目标直接相关联。此外,注意力机制也是重复迭代的,这使得推理过程变的可视化和可解释。来自两个注意力的信息被合并在一起以推理被引用的对象。这两种注意机制可以并行进行训练,我们发现这种组合系统在不同长度语言输入的几个标准数据集上的性能优于现有技术,比如 RefCOCO,RefCOCO +和 GuessWhat 数据集。论文见 [8]。我们还提出了一个基于 co-attention 的模型,论文见 [9]。

图 16:ParalleL AttentioN(PLAN)Network

接下来再给大家介绍一篇我们关于 Visual Navigation 的文章 [10],该论文也被 CVPR2018 接受,由于 topic 比较新颖,也被大家关注。这篇文章叫「Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments」。我们这篇文章想要解决的一个问题就是如何使用一段复杂的人类语言命令,去指导机器人在模拟的真实环境当中,去完成对应的动作和任务。

那么在这篇文章当中,我们首先提出了一个 Matterport3D Simulator。这个 simulator 是一个大规模的可基于强化学习的可交互式环境。在这个 simulator 的环境当中,我们使用了 10800 张 densely-sampled 360 度全景加深度图片,也就是说可以提供到点云级别。然后我们总共有 90 个真实世界的室内场景。那么与之前一些虚拟环境的 simulator 而言,我们和这个新的 simulator 更具有挑战性,同时更接近于实际。图 17 展示了我们的一个真实场景以及机器人(agent)可移动的路线。

图 17:Example navigation graph for a partial floor of one building-scale scene in the Matterport3D Simulator. Navigable paths between panoramic viewpoints are illustrated in blue. Stairs can also be navigated to move between floors.

基于我们的 Matterport3D Simulator,我们又收集了一个 Room-to-Room (R2R) 的数据集,在这个数据集当中,我们收集了 21567 条 navigation instruction(导航指令),平均长度为 29 个单词。每一条指令都描述了一条跨越多个房间的指令。如图 18 所示。图 19 显示了我们导航指令的用词分布。

那么除了上述 simulator 和数据,我们这篇文章还提出了一个 sequence-to-sequence 的模型,改模型与 VQA 模型非常类似,只是将输出动作作为了一种 sequence,用 LSTM 来预测。我们还加入了诸如 teacher-forcing,student-forcing 等变种,取得了更好的效果。我们接下来会继续扩充数据,并保留测试集,提供公平的测试平台,每年举行相关的比赛。请大家关注!

图 18:Room-to-Room (R2R) navigation task. We focus on executing natural language navigation instructions in previously unseen real-world buildings. The agent's camera can be rotated freely. Blue discs indicate nearby (discretized) navigation options

 

图 19:Distribution of navigation instructions based on their first four words. Instructions are read from the center outwards. Arc lengths are proportional to the number of instructions containing each word. White areas represent words with individual contributions too small to show.

7. 总结与未来

人工智能是一个非常复杂的整体的系统,涉及到视觉,语言,推理,学习,动作等等方面,那么计算机视觉作为人工智能领域内的一个方向,除了关注经典的纯视觉的问题(比如图像识别,物体分类等),也应该关注如何与其他领域相结合来实现更高难度的任务与挑战。视觉与语言(vision-language)的结合就是一个非常好的方向,不仅引出了像 image captioning 和 VQA 这种有意思的问题,还提出了很多技术方面的挑战,比如如何融合多领域多维度的信息。我们进一步将 vision-language 引入到了 action 的领域,希望机器能够具有问(Ask),答(Answer)和作(Act)的能力,实质上就是希望机器能够理解和处理视觉信息,语言信息,并输出对应的动作信息,以完成更高程度的跨域信息融合。

图 20:Further plans

接下来我们将继续在 vision-language-action 的方向上做更多的探索,目前的 room-to-room navigation 数据集只是第一步,我们接下来将基于我们的 Matterport3D Simulator, 进一步提出 Visible Object Localization,Hidden Object Localization 和 Ask-to-find 的任务(如图 20),希望 agent 能够通过基于语言的指令,在场景中导航定位到可见(Visible)的物体,隐藏(Hidden)的物体,以及当指令存在歧义时,能够提出问题,消除歧义,从而进一步完成任务。

参考文献

[1] Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, Anthony Dick. What Value Do Explicit High Level Concepts Have in Vision to Language Problems?. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'16), Las Vegas, Nevada, US, Jun, 2016.

[2] Qi Wu, Chunhua Shen, Peng Wang, Anthony Dick, Anton van den Hengel, Image Captioning and Visual Question Answering Based on Attributes and Their Related External Knowledge. IEEE Transaction on Pattern Analysis and Machine Intelligence (TPAMI), Volume:40 Issue:6. 2018.

[3] Qi Wu, Peng Wang, Chunhua Shen, Anton van den Hengel, Anthony Dick. Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'16), Las Vegas, Nevada, US, Jun, 2016.

[4] Peng Wang*, Qi Wu*, Chunhua Shen, Anton van den Hengel. The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'17), Honolulu, Hawaii, US, Jul, 2017.

[5] Peng Wang*, Qi Wu*, Chunhua Shen, Anton van den Hengel, Anthony Dick. Explicit Knowledge-based Reasoning for Visual Question Answering. International Joint Conference on Artificial Intelligence (IJCAI'17), Melbourne, Australia, Aug, 2017.

[6] Peng Wang*, Qi Wu*, Chunhua Shen, Anton van den Hengel, Anthony Dick. FVQA: Fact-based Visual Question Answering. IEEE Transaction on Pattern Analysis and Machine Intelligence (TPAMI), In Press, 2018.

[7] Qi Wu, Peng Wang, Chunhua Shen, Ian Reid, Anton van den Hengel. Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018. (Accepted 19/2/18). [Oral]

[8] Bohan Zhuang*, Qi Wu*, Chunhua Shen, Ian Reid, Anton van den Hengel. Parallel Attention: A Unified Framework for Visual Object Discovery through Dialogs and Queries. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[9] Chaorui Deng*, Qi Wu*, Fuyuan Hu, Fan Lv, Mingkui Tan, Qingyao Wu. Visual Grounding via Accumulated Attention. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[10] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko Snderhauf, Ian Reid, Stephen Gould, Anton van den Hengel. Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[11] Qi Wu, Damien Teney, Peng Wang, Chunhua Shen, Anthony Dick, Anton van den Hengel. Visual question answering: A survey of methods and datasets. Computer Vision and Image Understanding (CVIU), v. 163, p. 21-40, 2017.

[12] Damien Teney, Qi Wu, Anton van den Hengel. Visual Question Answering: A Tutorial. IEEE Signal Processing Magazine, v. 34, n. 6, p. 63-75, 2017

[13] Yan Huang, Qi Wu, Liang Wang. Learning Semantic Concepts and Order for Image and Sentence Matching. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[14] Chao Ma, Chunhua Shen, Anthony Dick, Qi Wu, Peng Wang, Anton van den Hengel, Ian Reid. Visual Question Answering with Memory-Augmented Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[15] Bohan Zhuang*, Qi Wu*, Ian Reid, Chunhua Shen, Anton van den Hengel. HCVRD: a benchmark for largescale Human-Centered Visual Relationship Detection. AAAI Conference on Artificial Intelligence (AAAI'18), New Orleans, Louisiana, US, Feb, 2018. [Oral]

作者简介

吴琦现任澳大利亚阿德莱德大学(University of Adelaide)讲师(助理教授),澳大利亚机器视觉研究中心(Australia Centre for Robotic Vision)任 Associate Investigator(课题副组长)。在加入阿德莱德大学之前,担任澳大利亚视觉科技中心(Australia Centre for Visual Technologies)博士后研究员。分别于 2015 年,2011 年于英国巴斯大学(University of Bath)取得博士学位和硕士学位。他的主要研究方向包括计算机视觉,机器学习等,目前主要研究基于 vision-language 的相关课题,包括 image captioning,visual question answering,visual dialog 等。目前已在 CVPR,ICCV,ECCV,IJCAI,AAAI,TPAMI,TMM 等会议与刊物上发表论文数十篇。担任 CVPR,ECCV,TPAMI,IJCV,TIP,TNN,TMM 等会议期刊审稿人。

雷锋网

ICRA 2018前瞻,五大机器人赛事抢先看

雷锋网 AI 科技评论按:国际机器人与自动化会议(ICRA)是 IEEE 机器人与自动化学会(IEEE Robotics and Automation Society)的旗舰会议,同时也是机器人研究者展示他们工作的重要论坛。ICRA 成立于 1984 年,每年举行一次,该会议将机器人和自动化领域的学者专家聚集起来,使他们能够通过展示和讨论科研成果进行技术交流。ICRA 为所有参会的代表营造了一个非常好的环境,让他们能够沉浸在机器人和自动化科学技术的前沿研究之中。ICRA 2018 于近期在布里斯班举行,雷锋网 AI 科技评论也于澳大利亚现场带来更多精彩报道。

与以往一样,除了学术论文交流的环节,本届 ICRA 也举办了规模宏大、类型丰富的机器人挑战赛。具体而言,ICRA 2018 机器人挑战赛由五项赛事组成,它们是:

  • 2018 可移动微型机器人挑战赛(Mobile microrobotics challenge 2018)

  • 房间整理家务机器人挑战赛(Tidy up my room challenge)

  • 软体机器人挑战赛(Soft material robot challenge)

  • 机器人初创公司启动大赛(Robot launch startup competition) 

  • 大疆创新 ROBOMASTER 人工智能挑战赛

以下是比赛的详细介绍:


2018 可移动微型机器人挑战赛(Mobile microrobotics challenge 2018)

组织者:David J. Cappelleri, 普渡大学
                Aaron T. Ohta, 夏威夷大学
                Igor Paprotny, 伊利诺伊大学-芝加哥分校
                Dan Popa, 路易斯维尔大学

大赛主页:https://sites.google.com/site/mobilemicrorboticschallenge/

IEEE 机器人与自动化学会(RAS)微型机器人与自动化技术专委会(MNRA)组织了 2018 年可移动微型机器人挑战赛,在这项赛事中,人类头发直径大小级别的微型机器人将在装配工作的自主性、准确性测试中进行挑战。

参赛队伍最多可以参加以下三个项目:

1.自动化操作和准确性挑战赛:

微型机器人必须自动操作固定障碍物周围的微型零件,使其到达人们所期望的位置、具有正确的朝向,并且将它叠放在基板上。参赛者需要在最短的时间内,尽可能精确地将物体以正确的朝向运送到目标位置上去。

2.微型组装挑战赛:

微型机器人必须在规定时间内在一个狭窄的通道内组装多个微型零件。这项任务模拟了可以预见到的微型组装的应用,包括人体血管内的操作和纳米加工中的零件装配。

3.MMC 与海报展示:

每个团队都有机会展示并说明任何他们的微型机器人系统的先进的性能和功能。每支参赛队都将获得一张选票,用来决出展示环节最佳的优胜者。

房间整理家务机器人挑战赛(Tidy up my room challenge)

组织者:Jürgen ‘Juxi’ Leitner,Niko Sünderhauf(澳大利亚机器人视觉中心&昆士兰科技大学)

大赛主页:juxi.net/challenge/tidy-up-my-room/

对于大多数机器人来说,在家庭环境中的鲁棒性交互仍然是一个难题。家庭环境的布局往往是非结构化、不断变化的,并且此时居家机器人面对的是人而不是机器人。这使得在一个人的家中抓取并且选择各种各样的物体成为未来机器人应用的一个典型问题。面对这一挑战,组织者的目标是培育一个围绕以整体的方式解决这些任务的社区,以求达到感知、推理和执行的紧密结合。

机器人技术是一门综合性学科,世界各地的实验室每年都在投入大量的努力建造机器人系统,但是这些方法之间很难相互比较和验证。各种各样的竞赛为机器人通过特定的任务,为机器人系统提供了与相应的基准进行对比的机会。这些任务包括抓取并放置物品以及驾驶交通工具。我们希望这项赛事能够包含多种任务,并且在过去的几年中不断增加任务的复杂性。

在 ICRA 2018 上举办的第一届「Tidy up my room」挑战赛中,参赛队伍需要将它们的机器人部署在一个房间中(想想宜家的样板间),并且要求他们执行特定的任务。例如:机器人可能必须找到所有摆放在不恰当的位置上的物品。各个队伍将同时进行比赛,获胜者将进入下一轮的角逐。

软体材料机器人挑战赛(Soft material robot challenge)

组织者: Tiefeng Li, Wei Song & Zheng Chen,浙江大学;Guoying Gu,上海交通大学;Jian Zhu,新加坡国立大学

大赛主页:https://sites.google.com/view/softrobotchallenge2018

软材料机器人挑战赛邀请来自世界各地的参赛者展示他们使用软体材料驱动的机器人。这项赛事为展示软体机器人的研究提供了一个国际化的平台,旨在促进软体机器人领域的研究并提升其在真实场景下的适用性。

A. 软体零件技术挑战赛

本赛事旨在展示新开发的软体机器人技术,包括新的传动装置、传感器和其它推动软体机器人发展的零件的技术。评委将会根据参赛作品的重要性、原创性、功能性呀以及文档的质量对它们进行评价。入围作品需要在 2018 ICRA 的赛场上展示它们的产品原型。

B. 软体机器人物品抓取大赛

本赛事旨在选出对于抓取任务最有效的软体机器人。大赛将设置各种形状、硬度和重量的物体,让软体抓取机器人去进行抓取和运输的工作。

参赛团队在设计机器人时必须遵守以下规定:

(1)抓爪必须由软体材料制成。可以使用刚性部件和马达来辅助软体抓爪进行移动。我们非常鼓励参赛者使用完全由软体材料驱动的机器人。

(2)机器人的尺寸不能大于 0.5m × 0.5m × 0.5m。参赛队伍可以自由使用基板上或基板外提供的电源(没有连接在外部电源上的机器人将获得额外的奖励点数)。只提供 240 伏输入电压的电源插座。如果一个参赛队伍选择使用板外电源,所有连接到机器人上的导线应该在操作中保持松弛状态。

2018 年 ICRA 机器人初创公司启动大赛

组委会

Andra Keay, The Robotics Hub Fund

Ivan J Storr,QUT bluebox

Roland Siegwart,瑞士苏黎世联邦理工学院

大赛主页:https://icra2018startups.org/

在机器人、传感器或人工智能领域,你是否有一个创业点子、一个产品雏形或是一个种子初创公司呢?参赛者将获得赢取由「QUT bluebox」提供的 3000 澳元奖金的机会。

排名前十的初创公司将被选中在舞台上参与和投资者和创业导师进行现场座谈,这些专家包括:

  • Martin Duursma,Main Sequence Ventures 公司

  • Chris Moehle,The Robotics Hub Fund

  • Yotam Rosenbaum,QUT bluebox

  • Roland Siegwart,苏黎世联邦理工学院

参赛作品还有希望取得 QUT bluebox 企业加速器*、硅谷机器人企业加速器的席位*,并且得到所有投资人评委的指导,一集来自 The' Robotics Hub 基金会提供的 25 万美元的潜在投资。(*申请条件——详情请见企业加速器官网)

竞赛条件

  • 预种子类参赛队伍的参赛条件包括一个创业点子和对于创业概念的证明,或者提供一个「原型-客户」验证。

  • 种子类参赛队伍的参赛条件包括一个成立不到 24 个月的初创公司,之前的被投资额不得超过 25 万美元。

  • 种子期后的参赛队伍的参赛条件包括一个成立不到 36 个月的初创公司,之前的被投资额不得超过 250 万美元。

这次不能前往澳大利亚参加比赛怎么办?

淡定!在整个 2018 年的夏天,我们将在美国和欧洲继续举办这项赛事。无论如何,现在开始准备参与这项比赛吧!

参赛传送门:https://airtable.com/shrqFZUaPXUPF5gAO

优秀项目推荐文档指南

主办方为大家提供了一篇范文「Investor One Pager」。你的项目推荐书应该包含 「Nathan Gold's 13 slide」中的内容。 

大疆创新 Robomaster 人工智能挑战赛

组织者:大疆创新 Robomaster 组委会

大赛主页:www.robomaster.com/en-US/resource/pages/728?type=announcementSub

大疆创新于 2015 年创办了 Robomaster 大赛,这是一项为天赋异禀的工程师和科学家们提供的教育性质的机器人竞赛。一年一度的 Robomaster 大赛要求参赛队伍建造与其它的机器人进行设计对抗的机器人。这些机器人的表现将通过专门设计的裁判系统来监控,如果机器人被「子弹」集中,将减少该机器人的健康点数。如果你想查看往届比赛和比赛简介的视频,请访问:https://www.twitch.tv/robomaster。

想查看 Robomaster 2018 的宣传视频,请访问:https://youtu.be/uI2uoV58pzQ

ICRA 2018 DJI RoboMaster 人工智能挑战赛将在铺设有不同功能机关道具的 5m*8m 场地中进行,参赛队需自主研发 1-2 台人工智能机器人,让其全自动发射弹丸与 DJI RoboMaster 人工智能机器人进行对抗,击败官方机器人则获得比赛胜利。(详情请见雷锋网文章:https://www.leiphone.com/news/201712/lUwwwFKghI8yNFBE.html)

大疆在学术领域的研究一直颇为低调,不过对于机器人挑战赛,他们还是非常有话语权的。在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中,大疆凭借本次 Robomaster 人工智能挑战赛在本月也有突出表现,雷锋网也将带来后续报道。

图 1: 需要建造的机器人(途中并非真正的机器人样品)

图 2: 赛场俯视图(图中数字单位为毫米)


图 3: 机器人竞赛展示(图中并非真实的赛场)

届时,雷锋网团队将为大家带来 ICRA 2018 第一手报道,敬请期待!

雷锋网

上百万的应用下载量有水分?“隐流者”病毒家族后台恶意刷榜

当前移动端风险形势十分严峻,木马病毒成为用户手机安全的威胁之一。近日,腾讯安全联合实验室反诈骗实验室自研的TRP-AI反病毒智能引擎捕获一个名为“隐流者”的应用刷榜病毒。该病毒家族隐蔽性极强,通过潜藏在色情、游戏应用的支付插件中伺机作案,目前已入侵国内七成应用市场,给用户的财产安全造成一定影响。

依托自研反病毒智能引擎TRP-AI和杀毒引擎TAV,腾讯手机管家已精准查杀多款感染“隐流者”病毒的恶意软件,保障用户手机使用安全。

“隐流者”病毒存欺诈扣费、恶意刷榜风险

扬州的刘先生就是“隐流者”病毒的受害者之一。前几天他在某应用市场上下载了一款下载量高达百万的游戏软件“中**家(天*食)”,却在玩游戏的第一天就惨遭恶意扣费。刘先生打开游戏后,发现开通会员能获取更多消除工具,于是打算花2元办理包月会员。令刘先生没想到的是,原本200来块的话费瞬间“被花光”。原来,刘先生办理会员时,忽略了屏幕上方一行隐藏的文字:办理会员服务费为2元,完整会员费用为200元(包括服务费)。

 

(图:腾讯手机管家精准查杀“中**家(天*食)”恶意软件)

刘先生事后才发觉,遭恶意扣费可能是因为手机感染病毒了。腾讯手机管家安全专家杨启波分析,刘先生的手机感染了“隐流者”刷单病毒,不仅可能扣费,还存在恶意刷榜风险。首先,该病毒逆向分析各大手机应用市场的搜索协议,随后在用户不知情的情况下发送模拟搜索请求,并通过解析应用市场反馈的数据获取指定刷榜应用信息,进行指定应用下载安装的操作,最终完成指定应用的刷榜行为。

此外,应用市场和应用开发者也受到“隐流者”刷榜病毒的影响。其一,应用市场平台的生态安全遭到严重破坏,该病毒绕过应用市场的虚假设备检测功能,实现对应用的快速刷取排名,影响应用市场排名的公平性。其二,该病毒还针对竞争对手进行虚假下载攻击,让应用开发者遭受巨大的损失,正如下图中的两款应用,其开发者投入了大量市场推广费用,最终换来的可能是虚假用户。

 

(图:“隐流者”病毒存恶意刷榜行为,扰乱应用市场秩序)

腾讯手机管家精准查杀,有效切断病毒感染路径

“隐流者”应用刷榜病毒危害极大,那么各大应用厂商和手机用户应该如何防范呢?腾讯手机管家安全专家杨启波提出以下两点建议:一方面,应用厂商需要对应用市场API(应用程序编程接口)进行鉴权操作,譬如仅允许官方应用进行访问,避免API接口被滥用;建立应用市场增长应用监控机制,避免大规模刷榜行为;与安全厂商进行合作打通安全情报,通过合作发现并打击刷榜行为。

另一方面,用户可以借助腾讯手机管家等第三方安全软件对手机进行安全防护,对下载的软件进行安全扫描,及时识别风险并进行安全处理。同时,腾讯手机管家支持对用户访问的网址进行风险识别,及时进行风险项提醒,帮助用户停止对风险网页的访问,更切断从该页面下载病毒APP的途径。

手机已经成为日常生活中使用最频繁的工具了,而手机应用也成为了不法分子传播木马病毒的主要途径。因此,用户在手机使用尤其是应用下载的过程中,应格外注意手机安全,最好通过应用宝等正规应用市场安全下载软件,以免手机中招,遭受一系列损失。

雷锋网

科沃斯加码AI 成首批南京大学人工智能学院学生实训基地

2018年5月20日,南京大学人工智能学院正式揭牌成立,江苏省委常委、南京市委书记张敬华,南京市委常委、市政府常务副市长、市委秘书长杨学鹏、南京市副市长蒋跃建等领导出席。作为国内家庭服务机器人领域的领导企业,科沃斯机器人股份有限公司成为了该院首批合作单位,与京东、北京旷视科技有限公司一同被授予首批“南京大学人工智能学院学生实训基地”,共同探索人工智能领域产学研合作新道路,推动人工智能技术与产业深度融合。 

今年 3 月,南京大学正式宣布成立人工智能学院,将致力建设“人工智能基础研究基地和人才培养基地”,协同“基础研究”、“人才培养”、“产业创新”发展态势,并建立国际一流的学术重镇和人才高地。未来南京大学人工智能学院和首批合作单位将本着“优势互补、合作共赢、共同发展”的原则,在人才培养、队伍建设、技术合作等方面开展合作。科沃斯机器人为支持学院发展,将在学院设立“科沃斯发展基金”,同时南京大学人工智能学院还将设立并评聘“科沃斯讲席教授”,与科沃斯机器人开展深度的交流合作,推动人工智能领域产学研的深度融合。

“南京大学人工智能学院不仅注重基础理论研究工作,还将致力于与国内顶级的人工智能实体经济达成深度融合,”南京大学人工智能学院院长、国际人工智能大会首位华人主席、欧洲科学院院士、教育部长江学者特聘教授周志华表示,“人工智能行业从新技术发明到产业应用之间的路程很短,产学研靠得很近,我们的目标是培养在人工智能领域具备源头创新能力、具备解决企业关键技术难题能力的人才。”

科沃斯机器人董事长钱东奇祝贺南京大学人工智能学院的正式揭牌成立,在他看来,经济发展的原动力来自技术进步,基础理论研究的突破是技术进步的基石,大学是基础理论研究的基本支撑,科沃斯机器人将始终致力于人工智能领域高水平人才的培养和引进,聚焦人工智能、机器学习等前沿方向,打造我国人工智能领域领先地位。”

一直以来,科沃斯机器人注重人工智能领域基础研究工作建设,深度推动人工智能研究和实体经济的深度融合。成立已有20年历史的科沃斯机器人专注于服务机器人的独立研发、设计、制造和销售,至今已成功推出包括扫地机器人地宝, 擦窗机器人窗宝, 空气净化机器人沁宝和管家机器人UNIBOT的完整家用机器人产品线,以及以公共服务机器人旺宝为主的商用机器人系列产品,基于对服务机器人行业的深入理解,科沃斯机器人率先在人工智能领域展开前沿探索,并得到业界的广泛关注。

雷锋网

美图吴欣鸿预测未来十年趋势 AI 技术占一半

5月18日,美图公司在北京举办“美图秀秀十年分享派对”。美图公司创始人兼CEO吴欣鸿提出了美与社交的战略布局,并预测了图片影像领域十大趋势。

吴欣鸿首先回顾了美图秀秀十年历程——

2008年,美图秀秀电脑版正式上线,让用户轻松美化图片,打破了修图的技术壁垒。2011年,美图秀秀移动端上线,用手机即可随时随地实现图片美化。2013年,美图秀秀在业内率先推出特效自拍和美颜自拍。其后两年,随着AR技术的成熟,美图秀秀陆续推出萌拍、美妆等功能,引导多元化拍照趋势。2017年以来,美图秀秀率先基于人工智能技术推出了手绘自拍、绘画机器人等功能红遍全球。

十年美图秀秀见证并引领了主流审美趋势的变迁。吴欣鸿指出,这十年来,中国社会经历着一场“自我觉醒”:人们的消费观念发生颠覆性的变化,对生活品质的追求日趋精致;90后、00后逐渐掌握话语权,自我投射,渴望展示内心中的自己;女性的话语权和消费能力极大提升,女性意识慢慢觉醒。美图秀秀十年来取得成功的深层原因,正是因为顺应时代的变化并引导着主流审美趋势。

吴欣鸿也提出了自己对图片影像领域的十大趋势构想,雷锋网了解到,在吴欣鸿看来,美图秀秀将经历从工具化到社交化的进阶。

趋势一:从图片工具到社交平台

未来图片美化的工具会逐步转型为社交平台,美图秀秀的社交圈已经开始尝试。未来的十年,美图将逐步向社交拓展。美与社交将会是美图未来努力去突破的两大方向。 

趋势二:从自拍视角,到他拍视角

未来关于“自拍”的定义会更加多元。美图公司从大数据调研得出,越来越多的人已经不再喜欢大头照自拍,更侧重半身、全身的照片。自拍视角将逐渐变为他拍视角。

趋势三:从重度美化,到自然审美

过去的自拍照,人们喜欢重度美化,而现在更多人喜欢真实、自然的美,自然审美在未来会成为主流。

趋势四:从本地处理,到云端处理

随着4G、5G网络的发展,图片美化的过程可以交给云端服务器来完成。美图秀秀绘画机器人Andy,背后就是云美化技术。未来,云端的强大运算能力,将会带来更多的摄影玩法。

趋势五:从手动美化,到AI自动美化

未来十年,AI美化将会取代手动美化,修图的工作可以放心交给人工智能,更快更好更个性化。

趋势六:从千人一面,到千人千面

随着AI技术的发展,定制化美颜技术会更加完善,AI将为每个人定制自己最喜欢的拍摄效果。

趋势七:从虚拟世界,到现实生活

在未来,变美需求会从虚拟世界延伸到现实。人们不仅是需要照片里的自己美,现实中的自己也要美。除了帮助人们从虚拟世界变美,更要关注用户现实变美的需求。

趋势八 : 从平面,到3D立体

美化的过程不再是平面的,而是3D立体的。通过给平面的照片重建3D模型,我们可以进行更加逼真的人像美化。

趋势九:从美化真人形象,到构建虚拟形象

3D技术与AR技术的结合,会碰撞出新的火花。比如,未来美图可以为用户创建专属的虚拟形象,然后对它做美化,它可以代表你去社交、试妆、试衣服。

趋势十:从识别人脸,到识别一切

未来的人工智能会更加厉害,从单纯的人脸识别,到物品识别、空间识别再到识别一切。

雷锋网

肖风:新技术时代的两大变化与资产管理业四大挑战

雷锋网报道,在近日召开的“国际金融科技峰会”上,中国基金业协会金融科技专业委员会主席分享了其“技术改变资管行业”的最新思考与感悟。

肖风指出,“新的技术时代带来的最根本的变化是价值创造的方程式发生了变化。”在工业革命时代,价值创造的方程式是物质和能量之间的转换;在信息社会,价值创造的方程式变成了能量与信息之间的转换。

第二个就是价值交换的方式也发生了变化。区块链或者说价值互联网,它解决的是在互联网上、在虚拟世界里,在数字经济体里如何高效的、低成本的进行价值交换。

“价值交换一直都存在,人和人最基本的关系就是经济交易关系。交易需要一个庞大的信任中介。而在数字世界里面,需要有另外一种价值交换的方式,就是算法规则。由计算机程序来约定,计算机程序一旦设立之后,人不可能去更改它,也不可能阻止它继续发生下去,这就是所谓区块链的智能合约。智能合约就是一旦双方认可这样一个智能合约之后,人工无法干预,不可撤销,不可更改,价值越来越变成了代码化,不管是价值创造的方式和价值交换的方式,在数字经济世界都发生了很大很大的变化。”

下为演讲原文,经过雷锋网编辑:

新经济  新规则

这些价值创造交换的模式,带来的新经济里面新的规则:

数据定义一切

就我们每个人来说,肖风站在这儿,在你们的眼睛里面实际上对我有一个定义,但是这个定义是现实世界,物理世界里面你们给我的定义。而在数字世界里面有个数字化的我,比如说我的基因、密码,从另外一个数字化的角度重新定义了肖风,包括我的遗传基因,身体状况,运动爱好,心率,诸如此类有非常多的数据定义一个数字化的人。

算法驱动世界

当数据定义一切之后,怎么样将数据有效的组织起来、运转起来,并且在数据当中得到有用的结果?唯一能够达成这些目的就是算法。依靠AI的算法,密码学的算法,你才能把数据组织起来,把价值挖掘出来。

网络效应

网络效应使得价值的增长由加法变成了乘法,如何理解网络效应?最简单的一个就是电话网络,建好一个电话网络,如果只有一个人拥有手机,那么这个网络的价值是零,如果两个人拥有手机,你会产生两对通讯模式,如果四个人拥有手机,是有四个通行模式吗?不是,是16对,这就是网络效应。

摩尔定律

每18个月电子设备的硬件性能会提升一倍,价格会下降一半。它定义了我们在一个数字化的世界里面,技术发展的增长从线性增长变成指数级的增长。

零边际成本

在数字世界里面大家强调开源,你不再需要以公司这种方式进行商业活动,那么组织结构就发生变化了,变得越来越轻。因为零边际成本,所以企业的商业边界可以无限大,因为服务一个人和服务一百万人和服务一亿人边际成本都是零。

资产层面的挑战

这些新的技术带来的影响,首先在资产层面。传统资产是股票、债券等,传统另类资产是衍生品等,这几年正在兴起的比特币则属于数字另类资产。

以前在互联网时代,数据是资产,遗留在互联网上的数据,互联网公司可以变现,但是这个资产不可能从互联网上分离出来,因为不能被分离,所以它不可能开放给独立的资产管理公司进行独立的投资,不能证券化。但是在区块链技术的帮助下,互联网上的这些数据资产可以单独分离出去,仍然可以变现,而且它能变成一个投资工具让我们进行投资。

到目前为止,对区块链上加密数据的投资已经纳入到私人银行客户、家族办公室、各类捐赠基金以及去年在美国成立,超过两百多支另类对冲基金的资产组合里面去了。

把资产数字化之后带来的威力非常巨大。至少从两个方面影响着我们。我在美国了解到,美国高中生现在去考取驾照的人数下降了34%,另外一个消息是福特汽车已经决定关闭它在北美三座乘用车的生产工厂,这两个消息放在一块让我想到了数字化生存所对我们现实的物质型的资产带来的巨大影响。为什么那么多高中生不再去考驾照?因为他们不再兜风,他们在互联网上冲浪,他们的生存方式越来越数字化。

另外一个例子就是当5G网络出来以后,VR技术可以使得10亿,甚至70亿观看世界杯足球人,戴着VR眼镜坐在自己家客厅,就能获得在足球比赛现场最佳观赏位置的观影效果,而且你还可以选择跟谁坐在一块,甚至可以选择,你是从主教练的角度去看比赛,还是守门员的角度去看比赛。

世界杯是一个知识产权,在数字技术的加持之下,它的市场会被十倍、二十倍的放大。

投资方法的挑战

在投资方法方面也给我们带来很多影响,区块链用数学方法重新建立一种新的信任关系的时候,在很大程度上削弱了中介,中介取消后,公司的治理模式就发生了很大变化,如果你看所有的运用比较成功的公有区块链,没有股东、员工变成了一个自组织,但是这个自组织运行九年时间都非常成功。

当我们考察一个资产的价值的时候,我们可能要建立新的坐标,因为它如果没有股权,没有治理架构,完全变成一个去中心化的自组织的时候,我们如何评估它的治理机制问题?因为治理机制决定了对它的估值,是很重要的方面。

再有一个,它可能不再是股权的方式,可能是某种数字化资产的凭证,再比如说巴菲特说的区块链的护城河,在区块链的技术上已经没有护城河一说了,现在可以完全的开源,这些都是用非赢利基金会的方式来做的,它甚至没有营业收入,但作为一类数字资产它确实有价值,所以我们要建立一些新的投资方法。

我们知道耶鲁大学基金会在过去几十年有一个超额的回报,可以解释为它对另类资产成功的配置。我认为未来十年、二十年,新的超额收益的来源已经不是传统的另类资产,可能是数字化的另类资产。我们资产管理者要从这个角度去看。这是投资方法的挑战。

客户变化的挑战

客户也在变化,90后不再去考驾照了,他们对物质型资产的需求在下降,他们对于数字型的内容、数字型资产的需求在上升,这必将改变我们服务客户的方式。

90后马上就要成为我们的中坚客户了,我们真的了解他们吗?前几天,我去美国之前一个星期有一位非常著名的华人跑来找我,拿了他儿子的一份商业计划书,他儿子今年芝加哥大学毕业,不想在华尔街工作,只想做区块链,他问我这个靠谱吗?我说你是第七个父亲来问我儿子做区块链行不行?其他的儿子来自斯坦福、MIT、伯克利,你是来自芝加哥,我就反问他:你认为是那七个孩子都不靠谱,还是你不靠谱?

关于未来我们只能相信90后,我们不能相信我们自己,我们不决定未来,90后决定未来,90后喜欢什么未来就是什么!

有人在巴菲特年会上问他怎么看比特币?巴菲特说比特币是老鼠药,你不应该向90岁的人去问未来是什么样的,你应该向90后的人去问未来。

所有的硅谷大佬成功之后,一般干两个事情,一个是探索宇宙,一个是投资生物科技里延长人的寿命这方面的技术。如果人的寿命延长二十年,生命周期变化了,投资行为、储蓄行为、消费行为会带来很大的变化,对这些客户的变化都要做好准备。

机构角色的挑战

机构角色也带来了挑战,AI赋能给我们每个客户,我们的客户具备或者即将具备越来越专业的资产管理方面的能力,我们的能力要不要提升?如果我们的能力不能借助于新的技术实现更大的提升,我们的客户可能就要抛弃我们。我们试问现在,包括我自己所在的资产管理公司,我们数字化能力的建设,我们新技术的采用,我们为未来五年、十年准备好了吗?这是一个问号。

一个多星期前,大疆无人机在融资,这轮融资是一个很典型的案例,我们看到权力在转移,权力在向技术拥有方、数据拥有方转移。大疆无人机的融资融了十亿美元,它要求所有的投资机构,如果要报名的话要先缴纳十万美元的保证金,如果中标能够参与融资,你需要按照1比1.6的比例,向大疆提供无息贷款,在这样的条件下居然有一百多个机构报名,最后所有低于一亿美元的机构统统被扫地出门。

我这次从硅谷到纽约一个最大的体会就是两边已经差别特别大,华尔街自说自话讲自己的事情,硅谷不仅仅在技术上领先全球,而且他们在革金融机构的命,他们在革华尔街的命,他们并不关注华尔街和金融中介,但是两边的差距真的特别大,大到他们已经不可同日而语。

更多资讯,请关注雷锋网。

雷锋网

2018GAIS全球天使投资召开,打造投融资信息桥梁

2018年5月20日光谷资本大厦,“GAIS2018 全球天使投资峰会暨2018中美跨境投资高峰论坛在光谷资本大厦盛大开幕,本次活动由光谷创业咖啡主办,海内外全球投资机构、知名创业独角兽同台对话,共同探讨全球资本新动向、分享中国经济发展新趋势。

本次峰会汇集20多位国内外顶级投资大咖、100多位国内知名投资机构嘉宾、独角兽创始人、创业风云人物,参会人数近1500人。同时,本次峰会通过商讨“一带一路”国际天使联盟未来的发展,打通国内外投资信息渠道,从而深化国内外投融资合作。

共求发展,打通海内外投融资信息渠道

随着我国“双创工作”的大力开展,“天使投资”不再是海外的舶来品。但双创工作在“量”的发展上远远高于“质”。展硅谷作为美国天使投资的聚集地,诞生了无数创业神话。活动现场,来自硅谷的投资人与国内投资机构分享了成功经验的同时,也对国内市场有了更直观的认识。

中美企业家商会 常务副会长Dinah Leung对记者说:“信息交流的渠道很重要,投资行业在美国发展相比中国多的是沉淀,他们带来了宝贵经验的同时也能切身了解中国市场环境,中国产业变革,这样的活动,对中美投资界都是难人可贵的。”

明确角色,资本与孵化器携手助力“双创”

如何增强创业源动力,提高创投转化率成为本次峰会上重要的议题,中美投资机构从助力创业者的角度展开了激烈的探讨。资本作为创业项目的助推器,强化科技金融,在保障创业者的同时提高收益,扮演好“领路人”的角色十分重要。孵化器作为创业团队的载体,升级创业服务业态,细化创业服务,培育龙头企业,实现区域经济发展将成为未来孵化器服务的重点发展方向,这也传递出一个信息—–我国“双创事业正从量的发展向质的提升迅速转变”。

本次活动发起者之一,光谷创业咖啡李儒雄介绍说:“我对中国经济发展一直抱有极大的信心,我相信在不久的将来,中国的GDP将会超越美国,举办GAIS就是搭建中国资本和美国资本之间信息互通,资本互通,产业交流的平台。2017年GAIS第一次在武汉举办,当时吸引了超过100家国内外顶尖的投资机构参会,在汉多个优秀的项目通过全球天使投资峰会对接了海外市场。全球天使投资峰会扩大了企业的视野,提供了更多的市场机遇,所以今年gais将在武汉、成都、西安、合肥四座发展之城联合举办,为创新城市的发展注入新的动力。” 

近年来,创新创业的风暴愈演愈烈,越来越多的投资人汇聚到武汉这片热土。一个个独角兽在创业的浪潮中脱颖而出,涌现出一批优秀的企业,成为光谷的标杆。2017年中国独角兽企业共164家。其中武汉占据5席,数量超过香港、天津、重庆、广州、成都等地,排名第五位。可见武汉已经成为名副其实的“独角兽之城”。

雷锋网

ICRA 2018 十二大奖项名单及评选标准全汇总

雷锋网 AI 科技评论按:国际机器人与自动化会议(ICRA)是 IEEE 机器人与自动化学会(IEEE Robotics and Automation Society)的旗舰会议,同时也是机器人研究者展示他们工作的重要论坛。ICRA 2018 于近期在布里斯班举行,雷锋网 AI 科技评论也于澳大利亚现场带来更多精彩报道。

奖项自然是每个学术会议的重头戏,ICRA 也不例外。以下这一份列表详细列出了 ICRA 即将颁布的十二个奖项,雷锋网整理如下:

1、IEEE ICRA 最佳会议论文奖(始于 1993 年)

简介:选出年度 IEEE 机器人与自动化国际会议(ICRA)中最杰出的论文

评审依据:技术得分,原创性,领域内潜在影响力,书面表达清晰以及口头或其他演示的质量。

2、IEEE ICRA 最佳学生论文奖(始于 1988 年)

简介:选出年度 IEEE 机器人与自动化国际会议(ICRA)上主要由学生撰写的最优秀论文。

评审依据:技术得分,原创性,业界潜在影响力,应用的实际意义,书面陈述清晰以及会议口头陈述的质量。

3、IEEE ICRA 自动化最佳论文奖(始于 1997 年)

简介:为鼓励自动化领域的研究,IEEE 机器人与自动化国际会议(ICRA)每年都会选出系统上最佳自动化论文,这些论文的系统可长时间的在可预测环境中自主运行,或明确构建此类环境。

评审依据:要考虑的因素包括与自动化相关的原创性、深度、质量、展示效果和重要性,强调效率、生产力、质量和可靠性,侧重于在可预测的环境中长时间自主运行的系统或明确构建这样的环境。

4、IEEE ICRA 认知机器人最佳论文奖(由 KROS 赞助)(始于 2010 年)

简介:该奖项旨在促进跨领域技术系统认知和工业、家庭应用和日常生活中认知机器人的发展。每年在 IEEE 国际机器人与自动化大会(ICRA)会议上将颁发相应奖项。

评审依据:需要考虑的因素包括认知行为和认知能力的重要性,跨学科工作、创造力、技术水平、原创性,工业和家庭应用中的潜在影响以及演示的清晰度。

5、IEEE ICRA 人机交互最佳论文奖(HRI)(由 ABB 赞助)(始于 2015 年)

简介:该奖项旨在选出在 IEEE 机器人与自动化国际会议(ICRA)上发表的关于人机交互的最佳论文。

评审依据:评审委员会由 ICRA 奖委员会任命,委员会成员具有人机交互领域的专业知识。论文是根据技术水平、原创性、相关性以及人机交互领域的潜在影响力,书面表达的清晰度以及会议演示文稿的质量来判断的。

6、IEEE ICRA 机器人操作最佳论文奖(由 Ben Wegbreit 赞助)(始于 2000 年)

简介:在机器人与自动化国际会议(ICRA)上发表的有关机器人操作的最佳论文。

评审依据:技术水平,原创性,对该领域的潜在影响,书面文件的清晰度以及口头或其他演示的质量。

7、IEEE ICRA 医疗机器人最佳论文奖(由 Intuitive Surgical 赞助)(始于 2009 年)

简介:该奖项将表彰医疗机器人、计算机介入辅助设备和系统领域的杰出工作。相关主题可能包括新设备和机器人系统的设计和开发,以及与导航和成像技术的一体化以提高临床效能。

评审依据:评选委员会将由具有医疗机器人领域专业知识的会员组成的委员会任命。

8、IEEE ICRA 多机器人系统最佳论文奖(由亚马逊机器人公司赞助)(始于 2017 年)

简介:该奖项选出在 IEEE 机器人与自动化国际会议(ICRA)上发表的关于多机器人系统的最佳论文。

评审依据:ICRA 奖委员会将委任一个评选委员会,委员会成员具有多机器人系统领域的专业知识。论文评判依据是技术水平,原创性,相关性以及对人机交互领域的潜在影响,书面文件的清晰度以及会议演示文稿的质量。

9、IEEE ICRA 服务型机器人最佳论文奖(由 KUKA 赞助)(2008 年)

简介:为促进机器人科学研究与服务机器人应用领域(专业和国内)的产业研发进展。

评审依据:需要考虑的因素有:新应用的重要性,技术水平,原创性,对该领域的潜在影响以及演示的清晰度。

10、IEEE ICRA 机器人视觉最佳论文奖(由 Ben Wegbreit 赞助)(始于 2000 年)

简介:选出在机器人和自动化国际会议上发表的与视觉相关的最佳论文。

判断依据:技术水平,原创性,对该领域的潜在影响,书面文件的清晰度以及口头或其他演示的质量。

11、IEEE ICRA 无人机优秀论文奖(由 DST 集团赞助)(始于 2018 年)

简介:该奖项旨在表彰在 ICRA 上发表的关于无人机的最佳论文。

评审依据:评审委员会由 ICRA 奖项委员会任命,其成员在无人机领域拥有相应的专业知识。论文是根据技术水平,原创性,相关性以及对人机交互领域的潜在影响,书面文件的清晰度以及会议演示文稿的质量来评审的。

12、IEEE ICRA 2018 年度最具影响力论文奖,从1988/1998/2008年的论文中评选。

以下为奖项 final lists:

雷锋网将在会议期间密切关注奖项动态,敬请期待。

雷锋网

工信部预测2020年人工智能带动产业规模突破万亿 中国三大运营商全面布局AI

雷锋网按:5月17日,世界电信和信息社会日大会在北京召开。工信部党组成员、总工程师张峰出席会议并介绍工信部在人工智能领域的工作安排,预测到2020年,中国人工智能带动相关产业规模将超过1万亿元。三大运营商在此次大会上公布了在人工智能方面的部署。

雷锋网对本次大会的核心内容进行不改变原意的整理与编辑:

随着国务院《新一代人工智能发展规划》、工信部《促进新一代人工智能产业发展三年行动计划(2018-2020年)》的相继印发,人工智能已经上升到国家战略高度。

根据中国信通院发布的《2017年中国人工智能产业数据报告》显示,2017年我国人工智能市场规模达到216.9亿元,同比增长52.8%,预计2018年市场规模将达到339亿元。同时机器学习、深度学习等算法能力的增强,将促进计算机视觉、语音等技术的不断突破,人工智能技术将与更多垂直行业加深融合。

工信部党组成员、总工程师张峰在2018年世界电信和信息社会日大会上表示,当前,全球人工智能正进入加速发展时期,国际领先企业争先布局、资本市场投入力度持续加大、主要国家出台战略规划予以支持。在政策和市场的双重驱动下,我国人工智能发展取得长足进步。

张峰介绍,中国的国际科技论文发表量和发明专利授权量已居世界第二,语音识别、机器视觉、自然语言处理等水平加快提升,部分细分领域已经进入国际前列。智能网联汽车、智能服务机器人、智能无人机等新技术新产品创新活跃。人工智能产业也快速发展,涌现出一批“独角兽”企业。制造、物流、家居、医疗、安防、交通、零售等领域“智能+”新技术、新模式不断涌现。据预测,到2020年,中国人工智能核心产业规模超过1500亿元(人民币,下同),带动相关产业规模超过1万亿元

工信部在下一步的工作中将做好四个方面工作,一是完善创新体系,实现系统突破。支持自主核心技术突破,提升软硬件技术水平。加强产学研协同创新,加快创新成果转化,积极培育新产品新应用。二是壮大智慧产业,促进提质增效。深化智能制造,促进制造业数字化、网络化、智能化发展。提升传统产业智能化水平,深化人工智能与相关领域的融合创新。三是发展智能服务,增进民生福祉。建设智慧城市,实现城市管理智能化。打造智慧生活,为人民群众享受美好生活提供动力。四是推动开放合作,实现互利共赢。加强产业合作,全面提升各行各业应用水平。进一步深化标准、规范、监管、安全等领域国际间的交流合作。

三大运营商在此次大会上公布了在人工智能方面的部署。

中国移动

中国移动副总裁李正茂表示,中国移动将从两方面做出努力:一方面是推进通信行业本身的智能化。首先就是网络的智能化。其次,中国移动在智能化服务、智能化市场、智能化安全、智能化泛娱乐方面也做了大量的技术储备和应用落地。另一方面是运用信息通信技术更好地支撑和服务人工智能产业以及各行业的智能化转型。

中国移动已经发布首个人工智能平台——“九天”。中国移动聚焦电信行业场景,建设“九天”人工智能平台,打造开放的人工智能基础平台和核心能力,并开始在网络智能化、市场营销和客户服务智能化等领域开展应用。目前,九天平台已经应用于中移在线智能客服、浙江移动深度学习平台、上海移动智能营销机器人、江苏移动网络智能化等。

中国移动在去年联合AT&T推出了下一代网管、网络编排器的开源框架,次此框架是由中国移动原来的开源组织和AT&T本身的开源组织,共同合作成立了新的开源组织,推动整个开源,特别是在人工智能往前发展,现在已经成为业界最有影响力的开源社区之一。

另外,移动还联合全球另外四大运营商,成立了Ohrand联盟,想借此打造不仅能在核心网、也要在无线接入网等领域实现开放、开源、智能化目标。在人工智能技术、业务和基础设施等相关领域展开合作,合作内容包括两个方面。一方面是基于至强系列,包括至强融核、至强可扩展处理器的架构,打造面向人工智能的基础设施和数据中心;另一方面是结合行业需求进行拓展。

中国电信

中国电信副总裁刘桂清介绍,中国电信积极将ICT新技术集群应用于数字中国、智慧社会建设,与产学研伙伴共建“人工智能联合实验室”、“区块链与数字经济联合创新实验室”、“灯塔AI能力开放平台”等产业协同创新平台,将AI作为新一轮科技产业变革的驱动力,内外兼修地推动智能化转型。

此外,中国电信携手英特尔中国移动在去年联合AT&T推出了下一代网管、网络编排器的开源框架,此框架是由中国移动原来的开源组织和AT&T本身的开源组织,共同合作成立了新的开源组织,推动整个开源,特别是人工智能方向进一步发展,现在已经成为业界最有影响力的开源社区之一。

中国电信智能客服机器人小知,结合神经网络的深度学习、语音识别、自然语言处理、上下文场景交互等核心技术,以人机交互方式面向用户提供7*24小时的智能应答服务,月服务量已超过4000万次。

在此基础上中国电信还布局了智能家电领域,与智能终端厂商合作,引入了智能音箱、智能互联、智能网关、智能机顶盒等产品群。

中国联通

中国联通以混改为契机,加速互联网化运营转型,构建了集约化全云化、智能化、使能化cBSS核心业务支撑平台,已支撑2.2亿出账用户,122亿月收入,具备5亿用户承载规模,可以做到一点对接、全国落地、快速迭代。

中国联通副总裁梁宝俊表示,在人工智能技术大发展的历史新机遇下,中国联通将自主创新与对外合作相结合,与互联网合作伙伴合作完成金融保险类客户AI在线语音质检项目,实现了人工智能助力传统呼叫中心业务的转型;合作试点全语音门户服务,利用AI人工智能技术,通过人机融合服务提升热线服务能力。

联通在运用了人工智能等新的技术后,将通过不断的推进网络优化,提升整个运营的效率和客户的体验,在客户服务方面,与百度、阿里等在人工智能方面深度合作,加速建设全业务、全媒体、全云化的新一代智能客户能力建设。

更值得一提的是,联通在10010中广泛推广客服机器人,提高用户感知的同时降低运营成本,并且以此为基础,可以向各行各业提供智能化的呼叫中心解决方案。

*雷锋网整理。

雷锋网

谷歌 Open Images Challenge 2018 大赛正在进行中,为你送上更多信息

雷锋网 AI 研习社按,上个月月底,Google 在官方 Blog 上发文称将开放 Open Images V4 数据库,并基于这一数据集举办 ECCV 2018 公开图像挑战赛(Open Images Challenge 2018)。详细信息参见雷锋网此前报道:谷歌发布 Open Images V4数据集,190万张图片开启公开图像挑战赛

接下来,雷锋网 AI 研习社将为大家带来关于该比赛的更多信息。

时间节点:

2018.04.30 发布带有边界框注释的对象检测分赛训练集

2018.05.10 发布带有注释的视觉关系检测分赛训练集

2018.05.31 发布评估度量规范

2018.07.01 在 Kaggle 上发布测试集(10 万张图片)

2018.09.01 提交截止日期

比赛分为两个赛道:

  • 对象类别检测:预测出所有实例(500 个类别)的精确边框

  • 视觉关系检测:预测出物体间的特殊关系,例如「正在弹吉他的女人」

Google 希望这个大型训练数据集将助力研究出更绝妙的模型——可以做到比目前顶尖模型的效果还要好。此外,数据集中包含 500 个对象类,将能够更精确地评估不同检测器在哪种情况下工作得最好。另外,这个数据集中包含许多带有注释的对象,我们可以用来进行视觉关系检测,这是一个热度日益增长的话题,社群也在逐渐壮大。

训练集地址如下:https://storage.googleapis.com/openimages/web/challenge_visualizer/index.html

两个分赛道的详细介绍如下:

对象类别检测:

对象类别检测分赛覆盖了 Open Images V4 中带有边界框注释的 600 个类中的 500 类。主办方移除了一些范围很广的类(例如「衣服」)和一些罕见类(例如「裁纸器」)。

评价指标是 mAP。正图像级标签指示图像中存在特定的对象类,负图像级标签则指示图像中不存在某些类。在评价时排除了其他未被标注的类。对于图像中的每一个正图像级标签,我们已经详尽地注释了图像中对象类的每个实例。这使我们能够准确地测量召回率。大家可以点击链接看到关于该数据集的详细信息。

图一:对象类别检测分赛训练集

视觉关系检测:

视觉关系检测分赛需要检测两个对象的关系。这包括了人与物体的关系 (例如:「弹吉他的女人」,「拿着麦克风的男人」) 和物体与物体间的关系 (例如:「桌子上的啤酒」、「车内的狗」。每种关系连接了不同物体。此外,这一比赛还考虑了物体属性 (例如:「手提包由皮革制成」,「凳子是木制的」)。

在标注中,关系与对象形成一个三词短句。(例如「桌上的啤酒,beer on table」)。属性实际上也与前者类似,例如:「桌子是木制的,table is wooden」。标注是基于图像级标签和 Open Images V4 的边界框标注。我们最初选择了 467 个短句,并在 Open Images V4 训练集上进行了标注。视觉关系检测分赛的训练集最终由 Open Images V4 标注训练集中的 329 个至少有一个实例的短句组成,包含 62 个不同的对象类。

图 2:训练集的关系、类和属性

更多信息,参见 https://storage.googleapis.com/openimages/web/challenge.html

雷锋网