标签归档:AlphaGo

DeepMind 资深研究员黄士杰发表临别感言,宣布正式离开 AlphaGo 项目

雷锋网 AI 科技评论按,北京时间 12 月 11 日晚间,Google 宣布推出围棋教学工具 AlphaGo Teach,而在 12 月 12 日晚间,仅仅一天之后,又迎来另一条引爆媒体圈的消息:DeepMind 资深研究员的黄士杰宣布离开 AlphaGo 项目。

他在 Facebook 上发表临别感言:

AlphaGo 教学工具已经发布,这也是我 AlphaGo 研究之旅的美好句点。我已经转到 DeepMind 的其他专案,也将在深度学习与强化学习的 AI 研究上持续探索与精进。

感谢大家的关注,很高兴 AlphaGo 所带给大家的惊喜与美妙的时光。我也期待 AlphaGo 教学工具对围棋界所产生的积极作用。未来,请大家持续关注 DeepMind 与我们其他的专案。

提到黄士杰,最广为熟知的是在 2016 年 3 月,作为 AlphaGo 的「手」,对战李世石——他将 AlphaGo 的棋步下到棋盘,并将李世石的棋步再输到电脑上。

黄士杰本科毕业于台湾交通大学资讯工程专业,后于台湾师范大学资讯工程所获得硕士与博士学位,他本身也是业余六段的围棋棋手。黄士杰与 AlphaGo 的不解之缘,要从他的业余爱好——围棋说起。曾经获得台湾大专杯业余围棋冠军的他,也曾在校内创办过围棋社。而从术业方面,黄士杰的指导教授林顺喜,所在的实验室正是专研各类棋类程序的开发。黄士杰的博士论文就是以「应用于电脑围棋之蒙地卡罗树搜索法的新启发式演算法」。

在 2010 年,黄士杰以妻子为名所设计的系统 Erica 在日本举办的国际奥林匹克竞赛中击败了日本程序员尾岛阳儿所开发的 Zen(业余五段水平),荣获当年的金牌,轰动一时。

2011 年,他在加拿大阿尔伯塔大学担任一年的研究员后,2012 年被英国的 DeepMind 纳入麾下,此后一直在 AlphaGo 项目中进行探索与研究。

而他最近一次出现在大众的视野,是在上个月。11 月 10 日,在台湾中研院举办的「2017 年人工智能年会」上,黄士杰首次为大家讲述 AlphaGo 的研发过程,并且还透露新一代 AlphaGo Zero 的能力还没达到极限。

在演讲中他表示,AlphaGo 的研发过程,有四个时刻对他影响很大。

  • 一是在韩国战胜李世石。「当我们开始做 AlphaGo 时,没想到它会变得那么强。在韩国赢了李世石后,DeepMind 首席执行官 Demis Hassabis 立刻发了一个推特,说「我们登上月球」(We landed it on the moon.)。我明白 Demis 那天的感觉,这是我们团队的一小步,但却是人类的一大步。」

  • 「第二个时刻,是我在网络上操作 AlphaGo 升级版「Master」,下了 60 盘棋。」他表示,自己从小喜欢下棋,在台湾是业余六段。「Master 在网络上对弈的对象,都是我从小崇拜的人。虽然不是我真正在下棋,但却感到非常荣幸。」

  • 第三个时刻,是今年在乌镇的人机大战上操作 AlphaGo 和世界冠军柯洁九段下棋。他说道,「柯洁还不满 20 岁,非常年轻,当天比赛氛围和李世石对弈时很不同。我记得在韩国比赛,能感受到李世石承受到很大的压力,感觉他是在为人类而战。我当时坐在他对面,也尽量保持谨慎的态度,不喝水、不去上洗手间。但到了第二次和柯洁对弈,比较像是人机合作的气氛,柯洁还走过来说:『黄博士,很荣幸跟 AlphaGo 下棋』。」而他也表示,如果 Master 是无敌的,那机器存在的价值应该是要帮助棋手扩张思路、扩展围棋理论。

  • 黄士杰表示,第四次于他的重要时刻,在于 AlphaGo Zero 的出现。通过喂给 AlphaGo Zero 围棋规则,让它自己学会下棋,无疑是人工智能的又一次突破。而随着系统能力的不断提升,人类在其中的作用也越来越小,甚至不再需要人类的帮助。而黄士杰也表示,这会是一个趋势,「AlphaGo 有 99% 的知识是我做的,AlphaGo 能走到这一步,我已经很满足,找到了收尾。」

或许,这也是黄士杰选择退出 Alpha Go 项目的根本原因。

而他昨天正式宣布离开 AlphaGo 项目,正如他在十一月的演讲中所说,「AlphaGo 能走到这一步,我已经很满足,找到了收尾。」

雷锋网 AI科技评论编辑整理,后续,雷锋网 AI科技评论也将持续关注。

雷锋网

德扑 AI 之父托马斯·桑德霍姆:扑克 AI 如何完虐人类,和 AlphaGo 大不同

卡耐基梅隆大学计算机系教授、德扑 AI 之父托马斯·桑德霍姆

雷锋网按:11 月 6 日,在今天举行的京东 JDD(京东金融全球数据探索者大会)大会上,卡耐基梅隆大学计算机系教授、德扑 AI 之父托马斯·桑德霍姆发表演讲,讲述了他们创造的人工智能冷扑大师 Libratus 背后的原理究竟是什么?并表示这种非完美信息的游戏 AI 也可以在经济生活带来广泛的应用。

演讲开始,桑德霍姆即透露,Libratus 和名噪一时的 AlphaGo 非常不同,后者是基于完美信息的游戏,前者则是非完美信息的游戏(imperfect-info games)。“在不完美信息的游戏里面,我们的挑战是不知道对手和他的行为或者是说他的行为可能性。那么对于他们以往做了些什么呢?我也不知道。”他说。

之后,他阐述了 Libratus 的基本原理,包含抽象化、子博弈解决器和自我改善模块三个部分,里面并没有用到深度学习。

桑德霍姆认为,人工智能不光是机器学习,“机器学习是关于过去,我们从过去的数据中学习,希望能够预测到未来或者是说在未来能够做到更多有益的东西,而战略性逻辑会关系到很多的可能性,是关于未来而推出的游戏”。

以下内容由雷锋网根据桑德霍姆的演讲速记整理,有不改变原意的删减。

今天我讲一下超人类的 AI 怎么做战略性的分析和推理,这里用扑克做例子,今天我们说的是不完美信息的游戏,也就是说整个对手的状态不被机器人所知,这个跟下棋没有什么太大的联系,但是和谈判很像。

非完美信息的游戏:扑克 AI 与 AlphaGo 大不同

我们知道 AlphaGo 的技术可以用于所有的完美信息的游戏,完美信息的游戏有一个好性质,就是一个大游戏可以分解成各个小的子游戏,子游戏怎么样解决的呢?通过别的子游戏的结论来学习。比如当我们看这一局的时候,不用关心其他局或者是其他的象棋步骤里面对手怎么做?只看这一步怎么样做就能够学到了。

而非完美的信息是什么意思?就是一个信息一个子游戏学到的,不能用于另外一个子游戏。那么不完美信息的游戏就比完美信息的游戏更难。这些是基于某一 个小领域的技术,并且不可迁于其他的小领域的,比如说扑克,我们发明的这种算法能够在这种不完美信息的情景下也能够学习。

由于完美信息和不完美信息的游戏两者本质不一样,AlphaGo 所应用的技术不可以应用到完美的扑克游戏里面,因为两者的性质是不一样的。在不完美信息的游戏里面,我们的挑战是不知道对手和他的行为或者是说他的行为可能性。那么对于他们以往做了些什么呢?我也不知道。

我跟我的扑克对手,我不知道他以往的行动,他也不知道我以往的行动,像我们人类面对的情景里面更多的是这一类的,不知道对手背后的盘算。那么我们想问的是对手的行动对我有什么样的启示,我怎么样通过对手的行动来推测到背后的动机,我的行动也泄露了我的哪些意图给我的对手呢?

这里面有意思的是,我们不需要去解析这些行动的信号。这些信号让我们回过头来看这个纳什的方程式,纳什先生其实只是给博弈论一个定义,他并没有给我们结论,他用一些算法,根据更窄的定义来算出,争取更好的算法。那扑克里面有很多的数学原理,如果我们看一下纳什先生的那篇博士论文,把他的博弈论方程首先展示给我们,这是 1993 年的时候,这里只有一个定义,那就是类似于扑克的定义。再往后对于扑克,我们有了更多的科学家和更多的定义。

AI 完虐人类赌神

大家也会讨论如果有更多更好的策略和战略来赢扑克,最近去年,我们有数以百计的关于这个扑克的扑克研究。我讲的不会太多,我只讲一些重点的研究,首先有 2004、2005 年的学生和我一起做了这样一个关于无损抽取的一个算法,就是说你略掉了,或者是说不知道这个游戏的 99% 的信息,却依然可以去知道这个游戏的规则。

那么,我们现在要谈的无限下注德州扑克的纸牌压注成为最难的一个计算机界解决的标杆,里面包含了 10 的 161 次方的情景。

到目前为止我刚刚说的无限下注的纸牌游戏是被 AI 攻破的,我们看一下这种单周的关于无限下注的突破,这是第二次单挑,因为之前有一次人机对抗,当时的 AI 输给了人类选手,这次我们叫做再对抗,再挑战。

我们的 AI 系统是一个冷扑大师的智能系统,它的对手是四个非常优秀的扑克选手,我们一共做了 12 万次的交手,在 20 天之内,下注的赌金 20 万美元之多,大家有很强的动机去赢。2017 年这场,我们把这笔 20 万美元的奖金,不是每个人给 20 万,而是根据这四个选手的表现成比例的分配,而且我们的试验设计非常的保守,让人类去设计整个游戏的范式,为什么这么做呢?让人类去设计整个游戏的各种范式,以便于到最后去决定谁赢谁输的时候,因为是人类事先设计好的,就不会有各种的争吵和争议了。

那么,整个的人类在押注的时候,更多的时候会觉得人类会赢。我们看一下游戏的现场,丹尼尔是我的朋友,我的同事,他们单独的一对一单调。

冷扑 AI VS 中国龙之队

一说到丹尼尔和 AI 单挑,AI 和上面的四位扑克大师在楼上单挑。比方说杰森,他在同时看着两桌,他在这两桌之间可能来回切换,在他左边的这个小屏幕上,他可以进行切换,最终的结果,我们的冷扑大师系统赢,而且大胜人类。同理,我们用这个冷扑大师跟中国的赌神进行对抗,中国的龙之队,中国的六位赌神,这是国际扑克大师的赢家,这些都是顶级的扑克手。冷扑大师还是赢了我们人类的赌神。

冷扑 AI 的秘密:竟然没用深度学习

有人要问了,我们这个冷扑大师的系统是什么原理呢?基本上我们用的是已验证正确的技术,这里面没有深度学习。所以说在上面主要有三个选择,第一个选择是有很多游戏规则的输出,还有一些更小的游戏的抽象化,最后有一个算法进行蓝图战略的执行。然后在我们的子博弈的解决器里面,实际上也是在游戏的过程中来进行问题的解决,有一个自我改善的模块,它能够把所有的这些本身的 AI 后台的主机在晚上的时候做一个更新。

对于软件的运行,在我们匹兹堡的超级计算机中心的这台计算机有 1200 万小时的游戏的时间积攒。所以说它有很多的输入的信息,如果我们把 AlphaGo 和它进行对比的话,AlphaGo 是用人类的游戏历史,我们没有做这个东西,我们是白手起家的。好像是我们对着镜子给自己进行拳击,然后突然跳起来飞踢泰森的关系,我们也是一样的,我们通过 AlphaGo 来进行自我游戏实现的。

抽象化

我们看看第一个解析,是模块里面使用新的抽象化的算法,相对来说获得一个更小的规则,然后我们会有一个平衡化的过程。然后重新回到我们最初的游戏中进行我们所谓的蓝图战略。

然后这里有两个抽象化,一个是胜利的抽象化,是定期进行算法的计算。2016 年的时候做过,现在我们用一个最大的抽象化,进行了一个平衡化的算法,来获得多种抽象化,所以从第一个赌局到我们的第二个赌轮里面,在所有的赌轮里面都可以进行,第四个赌轮里面我们使用了子博弈的解决器,这里面有一个产品的抽象画,所以这样的话我们可以对我们的客户端有一个更好的理解了。

第三个正式的抽象化是从我们的扑克赌轮中,这里使用了人工智能之外,还加入了一些大赌局和小赌局的概念,所以说我们可以有最初的一个初级算法,然后把它进行一个优化,但是暂时没有办法来进行拓展,所以说我们还需要把它第一个赌局慢慢的往外拓展。

子博弈解决器

后来到了子博弈的解决器,这里有五个新部分,第一个部分很可能是可以把它当前的对手的一些内容考虑在内,第二个,它是属于一些战略中的,你的子博弈的,这个计算方式很可能不会比这个蓝图战略更差。然后,如果说对手在当前的阶段犯一个错误的话,我们可以重新再考虑到它这样的一个情况下,然后同时考虑到出现的错误,但是还能够保证你的胜利,所以说它是可以在与真正的人进行比赛的时候,不会出现这种类似的错误。

还有就是说关于子博弈的解决问题。一开始的时候,你解决这个问题一,再进行游戏。但是我们在这里先要再解决剩余的一些,就是说整个局我要重新的做一遍,每当对手走一步,我都会把剩下的部分再重新算一遍。另外,它还可以把当时,你可以猜想的步骤的实际这一步计算在内,这些都是在我们的抽象中,还有它可以启动得比较早,以前都是在最后一个赌轮,现在我们放在第三个赌轮里面,如果这里没有在子博弈中的这种牌的抽象化,我们这样做是因为我们希望能够通过一种新方式进行子博弈的解决。

自我改善模块

最后一个模块,它就是自我改善的模块,它采用了完全不同的一种方法来进行自身的改善。并且它也使用了之前我们所说的平衡战略。那么我通常是怎么做的呢?就是说我们需要把一系列的对手模块聚集在一起进行开发,我觉得它是比较有风险的一个方法,特别是对于一些顶级玩家来讲,因为顶级玩家是属于世界上的这个方面的专家,他们是很容易发现漏洞的专家,所以说这个过程中,很容易会遇到困难,然后我们让对手的行为集成告诉我们自己战略里面的漏洞在哪。

这样在这个超级计算机里面,算法会把这些加入到我们的行为抽象画里去,之后我们就可以把它添加到我们的库里面去,可以在自己的主机里面把一些理性的内容再加入进去。

超人类的 AI 怎么做战略性的分析和推理

下面我们再讲一下,在我们实验室里面研究的一些情况,还有就是说如何来解决非完整的信息的内容,这是我们的一些在做的课题,所以在游戏中和我们之前讲的,它会有一个非完整性信息,需要有一个抽象化的寻找器,然后我们要知道它里边的一个,游戏中会出现的问题的路径,然后我们有一个这种算法,它可以把一些概率来进行计算,如果说你这个模型离我们的偏差这么远,然后它这个模块会来进行改善,我们在扑克中是来做竞赛的,所以我们在比赛中需要应用来进行一个模拟,虽然规则不是这么清楚。所以同样的一个概念,如果我们的模块,现实当中只有这么一个差异的话,我们可以来改善我们的战略。然后让它更适合现实中的情况。

第二点,在我们之前说过,可能在事件当中最好的是平衡战略,也是我们能够获得的最好的理论,今年夏天开始,我们有更多的一些算法了。

第三个,我们在双方都会出现比较大的,或者是很多的错误的时候,我们是不是能解决这些问题。尽管传统意义上来讲,我们觉得有一些错误可能是可以进行计算化的,但是现在在计算机里面的一些技术可以用更好的办法来进行一个改善。最后,就是在利用或者是说开发之间的这种对比,在游戏中,我们需要去发现对方的漏洞。然后开始通过这种非游戏理论的方式,考虑到自己如何不会被对方所利用。

所以说如果你开始采用游戏理论的时候,有人利用了这种游戏理论或者是博弈理论是不安全的。但是现实中不见得如此,你可以利用别人的同时,也可以保证自己不被利用,也可以保证自己的安全性。像我之前提到的这些技术,不仅仅是被用来编程,这些被用来任何一个你有互动的过程中,这个当中不光有一方,还有不完整的信息,对于新技术的能力,之所以这么振奋,是因为我们看到了这种战略性的机器中有很多的类似知识的复制。我认为这种战略定价,或者是说战略产品的组合,也可以利用它来进行一个优化。

AI 也可以应用于现实世界的“游戏”

现在,在 AI 当中,我们不光可以节省更多的人力,同时,又可以做得比最好的人类更强,让我们有更多的理由来利用到实际中。有一些人可能觉得大多数的现实中的应用,总会存在着不完美信息,就算是不看做一个游戏,那么我们想象一下,比如说在定价中的利用,如果对方的这个竞争对手的价格已经固定了,如果突然对方改变了这个价格,你需要实现自己的价值优化,需要反应,这里面是一个反映式的模块。

战略性的定价可以让你来驱动市场的发展,同时可以事先进行价格的思考,同样你战略性的产品和组合优化,在金融中的使用也比较多,比如说战略性的结构或者是说战略贸易执行等等,还有自动的溢价。我们使用眼镜改善我们的视力,为什么不能用 AI 来改善自己的战略逻辑呢?

还有像拍卖中,假如有一种投机式的拍卖,在没有人知道底价的情况下,是不是可以采用合理的竞猜。还有像电影版权,不同的一些流媒体公司,他们可能要买一些不同的视频流,到底如何能够构建一个更好的视频流的组合,如何来进行更好的谈判。大部分的应用会考虑到网络安全问题,如何来防护漏洞和操作系统中的问题,以及政治运动中,我到底要花多少钱,基于我竞争对手的预算来进行计算。还有自动驾驶车辆中,或者是说半自动驾驶的车队由不同公司来进行运维的时候,如何来获得一个更好的道路规则。有很多的一些军队或者是说在实体安全方面的应用,还有生物适应或者是说一些医药的安排中,我们已经有了多种的计划能够把这些,比如说对患者人群来进行更好的一个规划,才能够避免进行一些疫苗的注射和癌症的防护等等,当然我们还有娱乐式的,训练式的应用技术,在很多的新的游戏中,同时也会有一些社交的游戏。

人工智能不光是深度学习

最后一张幻灯片我想指出的是人工智能不光是深度学习,还有一些重要的部分和领域,现在有一些新的技术和领域,我们叫做战略性逻辑,它是我们战略博弈的一部分,同时我们还有向对手建模等等,这些也是需要很多的模型。

机器学习是关于过去,我们从过去的数据中学习,希望能够预测到未来或者是说在未来能够做到更多有益的东西,而战略性逻辑会关系到很多的可能性,是关于未来而推出的游戏。我们已经做了一些试验,希望能够获得更多结果,谢谢大家。

雷锋网

雷锋网

One-Page AlphaGo –十分钟看懂 AlphaGo 的核心算法!

雷锋网按:本文作者夏飞,清华大学与卡内基梅隆大学毕业,现于谷歌从事技术研发工作。本文是对《自然》上发表的知名论文“Mastering the game of Go with deep neural networks and tree search”进行的总结,对 AlphaGo 的算法结构进行了概括。原总结文用英语写就,经雷锋网编译,阅读原文请点此

下文概括了围棋借助人工智能在 2016 年实现的突破。

围棋是一个完全信息博弈问题。而完全信息博弈,通常能被简化为寻找最优值的树搜索问题。它含有 b 的 d 次方个可能分支,在国际象棋中 b≈35,d≈80;而在围棋中 b≈250,d≈150。很显然,对于围棋,用穷举法或简单的寻路算法(heuristics)是行不通的。但有效的方法是存在的:

  • 从策略(policy) P(a|s) 中取样 action,降低搜索广度

  • 通过位置评估降低搜索深度

  • 把策略和值用蒙特卡洛树搜索(MCTS)结合起来。

通常的步骤是:

  • 用一个 13 层的 CNN,直接从人类棋步中训练一个监督学习策略网络 Pσ。输入为 48 x 19 x 19 的图像(比方说,它的组成棋子颜色 是 3 x 19 x 19),输出是使用 softmax 层预测的全部落子的概率。精确度是 55.7%。

  • 训练一个能在运行时快速取样 action 的快速策略 Pπ。这会用一个基于小型模式特征的线性 softmax。精确度是 24.2%,但它计算一次落子只用 2 微秒,而不像 Pσ 需要 3 毫秒。

  • 训练一个增强学习策略网络 Pρ ,通过优化博弈结果来进一步提升监督策略网络。这把策略网络向赢棋优化,而不是优化预测精确度。本质上,Pρ 与 Pσ 的结构是一样的。它们的权重使用相同值 ρ=σ 初始化。对弈的两个选手,是当前策略网络 Pρ 和随机(防止过拟合)选择的此前的策略网络迭代。

  • 训练一个价值网络(value network)Vθ,来预测强化学习策略网络自己和自己下棋的赢家。该网络的架构和策略网络类似,但多出一个特征平面(当前玩家的颜色),并且输出变成了单一预测(回归,均方差损失)。根据完整棋局来预测对弈结果,很容易导致过拟合。这是由于连续落子位置之间高度相关,只有一子之差。因此,这里使用了强化学习策略网络自己与自己对弈新生成的数据。该数据从包含 3000 万个不同位置的独立棋局中抽取。

  • 把策略网络、价值网络、快速策略和蒙特卡洛树搜索结合起来。一个标准的蒙特卡洛树搜索过程包含四步:选择、扩展、评估、备份。为了让大家更容易理解,我们只粗略讲了讲它如何在模拟中选择状态的部分(如对数学感兴趣,请到原始论文中找公式)。

状态分数=价值网络输出+快速运行(fast rollout)的策略结果+监督学习策略网络输出

高状态得分(或者说落子)会被选择。价值网络输出和快速运行策略结果是评估函数,在叶子节点进行评估(注意,为了评估快速运行,需要一直到最后一步)。监督学习策略网络输出是一个当前阶段的 action 概率,充作选取分数的奖励分。该分数会随访问次数而退化,以鼓励探索。注意强化学习策略网络只被用于辅助,来生成价值网络,并没有直接在蒙特卡洛树搜索中使用。

到这就结束了,以上就是战胜了人类的 AlphaGo 算法!

via zhihu,雷锋网编译

雷锋网

AlphaGo 是如何被训练成围棋之神的?

编者按:本文作者为彩云天气创始人兼 CEO 袁行远,由雷锋网整理自其知乎专栏,获授权发布。

袁行远:19年前计算机击败国际象棋冠军卡斯帕罗夫的情景还历历在目,现在计算机又要来攻克围棋了吗?

虚竹在天龙八部里自填一子,无意中以“自杀”破解“珍笼”棋局,逍遥子方才亲传掌门之位。难道以后“阿尔法狗”要出任逍遥派掌门了?

1933年,东渡日本19岁的吴清源迎战当时的日本棋坛霸主、已经60岁的本因坊秀哉,开局三招即是日本人从未见过的三三、星、天元布阵,快速进击逼得对方连连暂停“打卦”和弟子商量应对之策。随后以“新布局”开创棋坛新纪元。难道阿尔法狗会再造一个“新新布局”?

作为一个关心人工智能和人类命运的理科生,近些天刷了好些报道,记者们说“阿尔法狗是个‘价值神经网络’和‘策略神经网’络综合蒙特卡洛搜索树的程序”,但我觉得光知道这些概念是不够的。我想看看“阿尔法狗”的庐山真面目。

准备好棋盘和脑容量,一起来探索吧?

围棋棋盘是19×19路,所以一共是361个交叉点,每个交叉点有三种状态,可以用1表示黑子,-1表示白字,0表示无子,考虑到每个位置还可能有落子的时间、这个位置的气等其他信息,我们可以用一个361 * n维的向量来表示一个棋盘的状态。我们把一个棋盘状态向量记为s。

当状态s下,我们暂时不考虑无法落子的地方,可供下一步落子的空间也是361个。我们把下一步的落子的行动也用361维的向量来表示,记为a。

这样,设计一个围棋人工智能的程序,就转换成为了,任意给定一个s状态,寻找最好的应对策略a,让你的程序按照这个策略走,最后获得棋盘上最大的地盘。

如果你想要设计一个特别牛逼惊世骇俗的围棋程序,你会从哪里开始呢?对于在谷歌DeepMind工作的黄士杰和他的小伙伴而言,第一招是:

深度卷积神经网络


深度卷积神经网络早在98年就攻克了手写数字识别,近些年在人脸识别、图像分类、天气预报等领域无往而不利,接连达到或超过人类的水平,是深度学习火遍大江南北的急先锋。我们现在看到的Picasa照片自动分类,Facebook照片识别好友,以及彩云小译同声传译(软广出现,不要打我)都是此技术的应用。这等天赐宝物,如果可以用来下围棋,岂不是狂拽酷炫吊炸天?

所以2015年黄士杰发表在ICLR的论文[3]一上来就使出了“深度神经网络”的杀招,从网上的围棋对战平台KGS(外国的qq游戏大厅)可以获得人类选手的围棋对弈的棋局。观察这些棋局,每一个状态s,都会有一个人类做出的落子a,这不是天然的训练样本<s,a>吗?如此可以得到3000万个样本。我们再把s看做一个19×19的二维图像(具体是19×19 x n,n是表示一些其他feature),输入一个卷积神经网络进行分类,分类的目标就是落子向量a’,不断训练网络,尽可能让计算机得到的a’接近人类高手的落子结果a,不就得到了一个模拟人类棋手下围棋的神经网络了吗?

于是我们得到了一个可以模拟人类棋手的策略函数P_human,给定某个棋局状态s,它可以计算出人类选手可能在棋盘上落子的概率分布a = P_human(s),如下图:

红圈就是P_human觉得最好的落子方案。每一步都选择概率最高的落子,对方对子后再重新计算一遍,如此往复就可以得到一个棋风类似人类的围棋程序。

这个基于“狂拽酷炫”深度学习的方案棋力如何呢?

不咋地。黄士杰说P_human已经可以和业余6段左右的人类选手过招,互有胜负,但还未能超过当时最强的电脑程序CrazyStone[1,5],距离人类顶尖玩家就差得更远了。

所以,为求更进一步,黄士杰打算把P_human和CrazyStone的算法结合一下,师夷长技以制夷,先击败所有的其他围棋AI再说。

等等,CrazyStone的算法是什么?

哦,那个算法是黄士杰的老师Remi Coulum在2006年对围棋AI做出的另一个重大突破:

MCTS,蒙特卡洛搜索树

蒙特卡洛搜索树(Monte-Carlo Tree Search)是一种“大智若愚”的方法。面对一个空白棋盘S0,黄士杰的老师Coulum最初对围棋一无所知,便假设所有落子方法分值都相等,设为1。然后扔了一个骰子,从361种落子方法中随机选择一个走法a0。Coulum想象自己落子之后,棋盘状态变成S1,然后继续假设对手也和自己一样二逼,对方也扔了一个筛子,随便瞎走了一步,这时棋盘状态变成S2,于是这两个二逼青年一直扔骰子下棋,一路走到Sn,最后肯定也能分出一个胜负r,赢了就r记为1,输了则为0,假设这第一次r=1。这样Coulum便算是在心中模拟了完整的一盘围棋。

Coulum心想,这样随机扔骰子也能赢?运气不错啊,那把刚才那个落子方法(S0,a0)记下来,分值提高一些:

  • 新分数= 初始分+ r

我刚才从(S0, a0)开始模拟赢了一次,r=1,那么新分数=2,除了第一步,后面几步运气也不错,那我把这些随机出的局面所对应落子方法(Si,ai)的分数都设为2吧。然后Coulum开始做第二次模拟,这次扔骰子的时候Coulum对围棋已经不是一无所知了,但也知道的不是太多,所以这次除(S0, a0)的分值是2之外,其他落子方法的分数还是1。再次选择a0的概率要比其他方法高一点点。

那位假想中的二逼对手也用同样的方法更新了自己的新分数,他会选择一个a1作为应对。如法炮制,Coulum又和想象中的对手又下了一盘稍微不那么二逼的棋,结果他又赢了,Coulum于是继续调整他的模拟路径上相应的分数,把它们都+1。随着想象中的棋局下得越来越多,那些看起来不错的落子方案的分数就会越来越高,而这些落子方案越是有前途,就会被更多的选中进行推演,于是最有“前途”的落子方法就会“涌现”出来。

最后,Coulum在想象中下完10万盘棋之后,选择他推演过次数最多的那个方案落子,而这时,Coulum才真正下了第一步棋。

蒙特卡洛搜索树华丽转身为相当深刻的方法,可以看到它有两个很有意思的特点:

1)没有任何人工的feature,完全依靠规则本身,通过不断想象自对弈来提高能力。这和深蓝战胜卡斯帕罗夫完全不同,深蓝包含了很多人工设计的规则。MCTS靠的是一种类似遗传算法的自我进化,让靠谱的方法自我涌现出来。让我想起了卡尔文在《大脑如何思维》中说的思维的达尔文主义[6]。

2)MCTS可以连续运行,在对手思考对策的同时自己也可以思考对策。Coulum下完第一步之后,完全不必要停下,可以继续进行想象中的对弈,直到对手落子。Coulum随后从对手落子之后的状态开始计算,但是之前的想象中的对弈完全可以保留,因为对手的落子完全可能出现在之前想象中的对弈中,所以之前的计算是有用的。这就像人在进行对弈的时候,可以不断思考,不会因为等待对手行动而中断。这一点Coulum的程序非常像人,酷毙了。

但黄士杰很快意识到他老师的程序仍然有局限:初始策略太简单。我们需要更高效地扔骰子。

如何更高效的扔骰子呢?

用P_human()来扔。

黄士杰改进了MCTS,一上来不再是二逼青年随机掷骰子,而是先根据P_human的计算结果来得到a可能的概率分布,以这个概率来挑选下一步的动作。一次棋局下完之后,新分数按照如下方式更新:

  • 新分数= 调整后的初始分+ 通过模拟得到的赢棋概率

如果某一步被随机到很多次,就应该主要依据模拟得到的概率而非P_human。

所以P_human的初始分会被打个折扣:

  • 调整后的初始分= P_human/(被随机到的次数+ 1)

这样就既可以用P_human快速定位比较好的落子方案,又给了其他位置一定的概率。看起来很美,然后实际操作中却发现:“然并卵”。因为,P_human()计算太慢了。

一次P_human()计算需要3ms,相对于原来随机扔骰子不到1us,慢了3000倍。如果不能快速模拟对局,就找不到妙招,棋力就不能提高。所以,黄士杰训练了一个简化版的P_human_fast(),把神经网络层数、输入特征都减少,耗时下降到了2us,基本满足了要求。先以P_human()来开局,走前面大概20多步,后面再使用P_human_fast()快速走到最后。兼顾了准确度和效率。

这样便综合了深度神经网络和MCTS两种方案,此时黄士杰的围棋程序已经可以战胜所有其他电脑,虽然距离人类职业选手仍有不小的差距,但他在2015年那篇论文的最后部分信心满满的表示:“我们围棋软件所使用的神经网络和蒙特卡洛方法都可以随着训练集的增长和计算力的加强(比如增加CPU数)而同步增强,我们正前进在正确的道路上。”

看样子,下一步的突破很快就将到来。同年2月,黄士杰在Deepmind的同事在顶级学术期刊nature上发表了“用神经网络打游戏”的文章[2]。这篇神作,为进一步提高MCTS的棋力,指明了前进的新方向:

左右互搏,自我进化

红白机很多人小时候都玩过,你能都打通吗?黄士杰的同事通过“强化学习”方法训练的程序在类似红白机的游戏机上打通了200多个游戏,大多数得分都比人类还好。

“强化学习”是一类机器学习方法,Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互。游戏结束的时候,Agent得到一个最后总分r。这时我们把之前的环境状态s、动作a匹配起来就得到了一系列<s,a>,设定目标为最后的总得分r,我们可以训练一个神经网络去拟合在状态s下,做动作a的总得分。下一次玩游戏的时候,我们就可以根据当前状态s,去选择最后总得分最大的动作a。通过不断玩游戏,我们对<s,a>下总得分的估计就会越来越准确,游戏也玩儿得越来越好。

打砖块游戏有一个秘诀:把球打到墙的后面去,球就会自己反弹得分。强化学习的程序在玩了600盘以后,学到这个秘诀:球快要把墙打穿的时候评价函数v的分值就会急剧上升。

黄士杰考虑给围棋也设计一个评价函数v(s),在P_human()想象自己开局走了20多步之后,不需要搜索到底,如果有一个v(s)可以直接判断是否能赢,得到最后的结果r,这样肯定能进一步增加MCTS的威力。

黄士杰已经有了国外的qq游戏大厅KGS上的对局,但是很遗憾这些对局数量不够,不足以得到局面评价函数v。但是没关系,我们还可以左右互搏自对弈创造新的对局。

机器学习的开山鼻祖Samuel早在1967年就用自对弈的方法来学习国际跳棋[7],而之前的蒙特卡洛搜索树也是一个自对弈的过程。但是现在黄士杰不仅有一个从人类对弈中学习出的P_human这样一个高起点,而且有一个神经网络可以从对弈样本中学习,有理由相信这次会有更好的结果。

先用P_human和P_human对弈,比如1万局,就得到了一万个新棋谱,加入到训练集当中,训练出P_human_1。然后再让P_human_1和P_human_1对局,得到另外一万个新棋谱,这样可以训练出P_human_2,如此往复,可以得到P_human_n。P_human_n得到了最多的训练,棋力理应比原来更强。我们给最后这个策略起一个新名字:P_human_plus。这时,再让P_human_plus和P_human对局,在不用任何搜索的情况下胜率可达80%,不加任何搜索策略的P_human_plus和开源的MCTS相比也有85%的胜率。自对弈方法奏效了。

既然P_human_plus这么强,我们先代入到MCTS中试试,用P_human_plus来开局,剩下的用P_human_fast。可惜,这样的方法棋力反而不如用P_human。黄士杰认为是因为P_human_plus走棋的路数太集中,而MCTS需要发散出更多的选择才好。看来,P_human_plus练功还是太死板,还没有进入无招胜有招的境界。

没关系,黄士杰还有局面评价函数v(s)这一招,有了v(s),如果我可以一眼就看到“黑棋大势已去”,我就不用MCTS在想象中自我对弈了。但考虑到P_human_plus的招法太过集中,黄士杰在训练v( )的时候,开局还是先用P_human走L步,这样有利于生成更多局面。黄士杰觉得局面还不够多样化,为了进一步扩大搜索空间,在L+1步的时候,干脆完全随机掷一次骰子,记下这个状态SL+1,然后后面再用P_human_plus来对弈,直到结束获得结果r。如此不断对弈,由于L也是一个随机数,我们就得到了开局、中盘、官子不同阶段的很多局面s,和这些局面对应的结果r。有了这些训练样本<s,r>,还是使用神经网络,把最后一层的目标改成回归而非分类,黄士杰就可以得到一个v( )函数,输出赢棋的概率。

v( )可以给出下一步落子在棋盘上任意位置之后,如果双方都使用P_human_plus来走棋,我方赢棋的概率。如果训练v()的时候全部都使用P_human不用P_human_plus呢?实验表明基于P_human_plus训练的v,比基于P_human训练的v’,棋力更强。强化学习确实有效。

万事俱备,只欠东风。准备好P_human(),MCTS,以及评价函数v(),黄士杰和小伙伴们继续进击,向着可以和人类专业选手过招的围棋AI前进:

“阿尔法狗”

黄士杰准备在MCTS框架之上融合局面评估函数v()。这次还是用P_human作为初始分开局,每局选择分数最高的方案落子,下到第L步之后,改用P_human_fast把剩下的棋局走完,同时调用v(SL),评估局面的获胜概率。然后按照如下规则更新整个树的分数:

  • 新分数= 调整后的初始分+ 0.5 * 通过模拟得到的赢棋概率 + 0.5 * 局面评估分

前两项和原来一样,如果待更新的节点就是叶子节点,那局面评估分就是v(SL)。如果是待更新的节点是上级节点,局面评估分是该节点所有叶子节点v()的平均值。

如果v()表示大局观,“P_human_fast模拟对局”表示快速验算,那么上面的方法就是大局观和快速模拟验算并重。如果你不服,非要做一个0.5: 0.5之外的权重,黄士杰团队已经实验了目前的程序对阵其他权重有95%的胜率。

以上,便是阿尔法狗的庐山真面目。

上图演示了阿尔法狗和樊麾对弈时的计算过程,阿尔法狗执黑,红圈是阿尔法狗实际落子的地方。1、2、3和后面的数字表示他想象中的之后双方下一步落子的地方。白色方框是樊麾的实际落子。在复盘时,樊麾觉得位置1的走法更好。

深度学习、蒙特卡洛搜索树,自我进化三招齐出,所有其他围棋ai都毫无还手之力。99%的胜率不说,“阿尔法狗”还可以在让四子的情况下以77%的胜率击败crazystone。“阿尔法狗”利用超过170个GPU,粗略估算超过800万核并行计算,不仅有前期训练过程中模仿人类,自我对弈不断进化,还有实战时的模拟对局可以实时进化,已经把现有方法发挥到了极限,是目前人工智能领域绝对的巅峰之作。

后记

围棋是NP-hard问题,如果用一个原子来存储围棋可能的状态,把全宇宙的原子加起来都不够储存所有的状态。于是我们把这样的问题转换为寻找一个函数P,当状态为S时,计算最优的落子方案a = P(s)。我们看到,无论是“狂拽酷炫”的深度学习,还是“大智若愚”的MCTS,都是对P(s)的越来越精确的估计,但即使引入了“左右互搏”来强化学习,黄士杰和团队仍然做了大量的细节工作。所以只有一步一个脚印,面对挑战不断拆解,用耐心与细心,还有辛勤的汗水,才能取得一点又一点的进步,而这些进步积累在一起,终于让计算机达到并超过了人类职业选手的水平。

因为一盘棋走一步需要3ms(P_human_plus遍历整个棋盘的时间),谷歌用大规模集群进行并行化计算,自我对弈3000万盘棋生成训练集只需要一天左右的时间[4],所以如果对弈更多棋局可以提高棋力的话,黄士杰他们早就做了。目前的方案可能已经达到了CNN网络能力的极限。完整的阿尔法狗不仅需要生成训练集,还要用训练集来生成局面评估函数v(),而这还使用了两周时间,一局比赛需要花掉4个小时,自我对局速度不够快,这也许是阿尔法狗并没有能够完全使用强化学习,而仅仅是在整个过程的一小部分使用左右互搏的原因。左右互博用的还不够多,这是一个遗憾。

如果存在一个“围棋之神”,一个已经穷尽了所有的围棋步法的“上帝”,那他每一步都是最优应对。一些顶尖棋手在接受采访时表示[8],“围棋之神”对战人类选手可能还有让4子的空间,也就是说,就算下赢了人类,计算机也还有很大进步的空间。

面对一个如此高难度的问题,计算机和人类都无法在有限时间内找到完全的规律(柯洁和李世乭比赛是一人有3小时时间思考,阿尔法狗今年3月和李世乭进行的比赛则是每人2小时)。计算机和人都是在对问题做抽象,然后搜索最佳策略。要下好围棋所需要的能力已经接近人类智力的极限:要有大局观、要懂得取舍、还要会精打细算,治理一个国家也不过如此。计算机可以学会围棋,就能学会很多一样难度的技能。在未来,也许围棋、自动驾驶、同声传译(「彩云小译」已经开始公测,欢迎体验)都会被一一攻克。甚至在数论、量子场论等领域,深度学习和搜索相结合,可能也会带给我们更多惊喜,比如攻克“哥德巴赫猜想”。

那么,人工智能是否真的会很快登顶呢?

虽然在智力方面AI有希望登峰造极,但高智商只是人类众多能力的一个方面。吴清源先生在方寸之间纵横无敌,但仍然漂泊一生,被命运推着前进。早年他做段祺瑞的门客,棋盘上把段祺瑞打的落花流水,弄得下人都没有早饭吃;后来东渡日本,三易国籍,留下许多遗憾。如果把“强人工智能”比作一个天才少年,虽然智商爆表,但其他方面还需要我们悉心加以引导。创造出“德才兼备,匡扶济世”的人工智能,才是我辈真正应该努力实现的目标。

一起加油吧,科学少年们!

To the infinity and beyond !

参考文献:

1, EfficientSelectivity and Backup Operators in Monte-Carlo Tree Search

2, Human-level control through deep reinforcementlearning

3, Move Evaluation In GO Using Deep Convolutional Neural Networks

4. Masteringthe Game of Go with Deep Neural Networks and Tree Search

5. A Survey ofMonte Carlo Tree Search Methods

6. 大脑如何思维—智力演化的今昔

7. Some Studies in Machine LearningUsing the Game of Checkers.II-Recent Progress

8.围棋之神存在的话,可以让你几子?

知乎原文链接:https://www.zhihu.com/question/41176911/answer/90118097

雷锋网

继 AlphaGo 之后又一突破:人工智能 Libratus 战胜德州扑克顶级选手

雷锋网消息:当地时间1月30日,在宾夕法尼亚州匹兹堡的Rivers赌场,卡耐基梅隆大学(CMU)开发的人工智能系统Libratus战胜四位德州扑克顶级选手,获得最终胜利。

据官网介绍,此次由4名人类职业玩家Jason Les、Dong Kim、Daniel McAulay 和Jimmy Chou对战人工智能程序Libratus,赛程为20天,一共进行了12万手牌的比赛

2015年,CMU曾组织了首场“大脑对抗人工智能”赛事。在当时的赛事中,代表CMU出战的是另外一款人工智能系统“Claudico”,同样也有4名职业扑克玩家参加了比赛,然而,Claudico并未获得最终胜利。

不过CMU学认为,当时扑克职业玩家与Claudico仅进行了8万手牌的比赛,就统计学角度来讲并无法证明人类职业扑克玩家或人工智能具有优势。这也是本轮巡回赛中比赛的牌局数量增加50%的原因。

德州扑克的玩法:每个玩家有2张牌作为“底牌”,同时还有5张公共牌。玩家用自己的2张底牌和5张公共牌结合在一起,选出5张牌,不论手中的牌使用几张(甚至可以不用手中的底牌),凑成最大的成牌,跟其他玩家比大小。按照“Card Ranking”决定最后的胜者。

由于对方的“底牌信息”是隐藏信息,对于计算机来说,就是在处理一种“非完整信息博弈”。而围棋对弈双方的信息是完整的、对称的,并没有隐藏的信息。Libratus此次战胜顶级人类德州扑克选手,具有非常重要的意义。

计算机正确决定,依赖于对方“底牌信息”情况下的概率分布,这种“底牌信息”可以通过对手过去的行为显露出来。比如有时玩家采取“诈唬”(Bluffing),对手有时手里并没有强牌,但还是作出全额下注志在必得的行为,计算机这时要根据对方过去的博弈表现,来判断对手有强牌的概率。


相应的,对手也会推断我方的底牌信息,所以这里就是一个“递归推理”(recursive reasoning),一个玩家无法轻易推理博弈状况。

继围棋和德州扑克之后,人工智能的下一站会是哪个游戏呢?

雷锋网雷锋网

雷锋网

AlphaGo 将在 2017 年重磅复出,业内人士怎么看?

今日,DeepMind CEO Demis Hassabis 在 Twitter 上发布声明:他们正在全力提高 AlphaGo 的智能程度,全新版 AlphaGo 将在 2017 年复出下棋。DeepMind 会在近期内公布更多信息。

随后樊麾也在微博上发文称 AlphaGo 的棋力得到了巨大的提升。

樊麾现任法国围棋队总教练,曾三度获得欧洲冠军,是第一位与 AlphaGo 交手的职业棋手,去年 10 月,他在一场闭门比赛中 0 比 5 败给机器。随后樊麾加盟了DeepMind团队,担任专职陪练。

今年 3 月李世石与 AlphaGo 大战之后,柯杰非常期待挑战 AlphaGo。国家体育总局棋牌运动管理中心党委书记杨俊安曾在公开场合披露柯洁将挑战 AlphaGo,消息一出被 DeepMind 否认。据业内人消息,中国棋院确实与 DeepMind 达成对战协议,但由于特殊原因,迟迟未能公布。因此,柯杰在明年对战 AlphaGo 的概率非常大。

一年时间的“闭关修炼”,AlphaGo 可能在干嘛?

此前田渊栋在《AlphaGo 为什么那么厉害?》一文中提到:

与之前的围棋系统相比,AlphaGo 较少依赖围棋的领域知识,但还远未达到通用系统的程度。职业棋手可以在看过了寥寥几局之后明白对手的风格并采取相应策略,一位资深游戏玩家也可以在玩一个新游戏几次后很快上手,但到目前为止,人工智能系统要达到人类水平,还是需要大量样本的训练的。

业内人士分析,AlphaGo 隐退的这一年间,它可能会进行大量的样本训练,应用增强学习不断与自己“左右手互博”:在电脑里自行模拟,产生新的棋局,使得收集到的经验和样本变得更多,逐步增强自己的能力。

与此同时,田渊栋也解释到,样本训练固然重要,但动态实战经验所起到的作用可能会更大。

在 AlphaGo 中,增强学习(Reinforcement Learning)所扮演的角色并没有想像中那么大。在理想情况下,我们希望人工智能系统能在对局中动态地适应环境和对手的招式并且找到办法反制之,但是在 AlphaGo 中增强学习更多地是用于提供更多质量更好的样本,给有监督学习(Supervised Learning)以训练出更好的模型。

出于这方面的考量,DeepMind 把樊麾等顶尖棋手招入麾下给 AlphaGo 做陪练,专门进行动态实战训练,至于效果如何,暂时还无法得知。IBM 资深工程师兼弈城业余 4 段棋手 Zhuang Zhuang 向雷锋网透露:

AlphaGo 对战李世石时是 V18 版,现在为 V20 版,明年初正式发布即便是 V21 版也不奇怪。从表面来看,至少三个版本的更迭大致可以看出 AlphaGo 的升级速度相对较快,实力应该有着不少提升。

柯杰与 AlphaGo 谁厉害这一问题一直被摆在热议话题中,那么人类棋手在与 AI 对战时应该注意什么?

Zhuang Zhuang 指出:

与机器交手的心态很重要,这不同于和真人对战。职业棋手在准备重大比赛的时候,可以研究对手的棋风偏好,可以准备一些布局套路,对局时可以在一定程度上推测对手的选择,但这些对 AlphaGo 都不管用。AlphaGo 的棋风是什么?其实不是那么容易说清楚,但是有一点应该是公认的,就是价值判断绝大部分情况下超过人类棋手,它的选择没有感情,不是基于棋风,是基于胜率、价值。当棋手面对 AlphaGo 这样强劲对手,最佳策略就是不断追求最善、最直接的一手,这样才能最大化胜率。在这期间,棋手应该多与冷冰冰的机器系统交战,形成应对机器棋手的独特心态。

除了 AlphaGo 外, Zen 围棋 AI 目前也已升级到了 V13,智能程度不俗。可以预见未来我们看到的不仅是 AI 与人之间的较量,甚至还有各公司水平超越人类的围棋 AI 系统之间的对决。

雷锋网

AlphaGo 超越柯杰,升至世界排名第一;小米笔记本真机谍照曝光,酷似苹果 | 雷锋早报

AlphaGo 超越柯洁,升至世界排名第一

AlphaGo 超越柯杰,升至世界排名第一;小米笔记本真机谍照曝光,酷似苹果 | 雷锋早报

今年3月,一场世界顶尖围棋大赛吸引了所有人的目光,人工智能AlphaGo成功战胜了韩国棋手李世石。不过人类的希望还在,因为中国棋手柯洁仍然牢牢稳居Gorating世界围棋排名之首。

不过最近,柯洁由于在“海峡两岸世界冠军争霸赛”中表现不佳,积分下跌,被AlphaGo反超,排名跌至第2。这也是这名即将年满19岁的中国天才少年,在盘踞了世界第一宝座2年之后,第一次走下“神坛”。

目前AlphaGo以3612分排名世界第一,柯洁以3608分退居第二。

据了解,Gorating世界围棋排名的计算方式比较特别,如果对手的积分发生改变,则自己的积分也会相应变化。AlphaGo主要的对手是李世石,战绩是4胜1负,因此只要李世石的积分提升,AlphaGo就会水涨船高。

小米笔记本真机谍照曝光

小米官方已经确认,7月27日新品发布会的主角之一是红米Pro,另外还有一个神秘小伙伴,几乎可以肯定就是小米笔记本(确切地说是田米笔记本)。微博网友@CoN9洋葱 刚刚又放出了几张谍照,显示着一台笔记本。虽然没有明确说啥,但是看这样子再结合此前谍照,以及该网友的一句“i7卖1999那是不可能的”,可以推断应该就是小米笔记本。

AlphaGo 超越柯杰,升至世界排名第一;小米笔记本真机谍照曝光,酷似苹果 | 雷锋早报AlphaGo 超越柯杰,升至世界排名第一;小米笔记本真机谍照曝光,酷似苹果 | 雷锋早报AlphaGo 超越柯杰,升至世界排名第一;小米笔记本真机谍照曝光,酷似苹果 | 雷锋早报

腾讯发布二代miniStation微游戏机,499元起

AlphaGo 超越柯杰,升至世界排名第一;小米笔记本真机谍照曝光,酷似苹果 | 雷锋早报

腾讯昨天联合创维数字发布了miniStation微游戏机第二代,新品在初代产品上进行了整体的优化,重新构建了新的系统架构,拥有着丰富的游戏和视频内容资源,售价方面,最低至499元(16GB标配版),包含手柄的16GB尊享版售599元,32GB尊享版则售价699元,已登陆京东商城等开售。

miniStation微游戏机第二代同样基于安卓系统,搭载了最高主频为1.8GHz的四核Cortex-A17处理器,Mail-T764 GPU,支持4K、H.265、3D蓝光解码以及最大128GB的TF卡和HDMI接口等,拥有黑白两款颜色。

游戏方面,腾讯miniStation微游戏机二代与腾讯游戏、gameloft、505展开了深度合作,首发69款游戏,视频资源方面则涵盖了腾讯视频的诸多内容,共计600万+小时影视剧资源,如NBA直播、美剧以及国内院线大片。

另外,miniStation微游戏机二代还最多支持8个玩家同屏游戏,具备手机和手柄的双操控模式。在发布会上腾讯还透露,将在近期推出基于miniStation的mobile VR计划,同时也会加紧布局VR游戏和AR游戏。

360与昆仑万维全盘收购Opera失败 改为部分收购

AlphaGo 超越柯杰,升至世界排名第一;小米笔记本真机谍照曝光,酷似苹果 | 雷锋早报

和讯科技消息 北京时间7月18日,以奇虎360和昆仑万维为首的中国财团,持续了五个月的收购挪威浏览器品牌Opera计划以失败告终。导致此次失败的原因是监管层的不认可。

今年2月,以奇虎360和昆仑万维为首的中国财团向老牌挪威浏览器品牌Opera发布收购要约。收购金额为12.4亿美元。随后经过了长达5个月的商务谈判与政府审批。最终由于监管层的未批准而失败。

不过,失败后Opera拿出了替代方案,奇虎360和北京昆仑万维科技等公司组成的中国财团已同意以6亿美元收购Opera部分消费者业务,包括浏览器和应用运营业务。

百度投资美国金融科技公司“ZestFinance”,发展自身信用评级

AlphaGo 超越柯杰,升至世界排名第一;小米笔记本真机谍照曝光,酷似苹果 | 雷锋早报

最新消息,百度在一个月内,两番投资美国金融科技公司。六月刚投资了Circle公司6000万美元,今日又投资了ZestFinance(美国的大数据公司,尤擅长信用评级),投资金额尚未透露。

百度希望通过此次投资,充分利用ZestFinance的技术,发展基于自身搜索数据的信用评级,这对于信用评级体系欠缺的中国市场来说非常重要。对于国内那些不怎么使用银行账户的人或者根本没有开通银行账户的人来说,信用历史数据是根本不成形的。然而,我们要看到随着互联网在中国渐趋主流,中国用户成为最大一支网民群体,审查分类潜在用户的信用将必定会成为新需求。

天宝与中建一局合作开发HoloLens混合现实应用

AlphaGo 超越柯杰,升至世界排名第一;小米笔记本真机谍照曝光,酷似苹果 | 雷锋早报

7月18日消息 天宝公司和中国建筑一局正式在京宣布,双方将共同探索混合现实技术在建筑设计、工程和施工领域(AEC)的深入应用。

天宝微软HoloLens眼镜开发的新一代混合现实工具,旨在提高建筑物和构筑物在设计、施工和运营方面的质量、协作与效率。微软HoloLens眼镜将建筑设计、工程和施工(AEC)行业的专业人士与三维模型的互动拓展至计算机二维屏幕的限制之外,为复杂的施工项目创造可视化、协作、理念分享和管理变革的新方式。拥有了混合现实技术,人机互动的主要方式将具有空间属性。

软银抛阿里攒够320亿美元 溢价43%拿下ARM

昨日下午,日本软银确认,公司将以243亿英镑(约320亿美元)现金收购英国半导体芯片制造商ARM(NASDAQ:ARM),软银将为ARM的每股股票支付17英镑,这较ARM上周收盘溢价43%。

SpaceX第二次实现陆上回收火箭成功

据外媒报道,美国太空技术探索公司SpaceX使用猎鹰9号火箭于美国当地时间18日凌晨从佛罗里达州卡纳维拉尔角发射场,将一艘龙飞船送上太空。此后, 猎鹰9号成功在SpaceX的Landing Zone 1上成功着陆。这是SpaceX第二次在陆上回收火箭成功,也是SpaceX第五次成功回收火箭。


雷锋网

AlphaGo 对李世石“放水”?棋手说不可能!

AlphaGo 对李世石“放水”?棋手说不可能!

就在舆论普遍认为李世石将会继续败北的时候,人机大战的第四场,李世石出人意料地挽回了胜局,将比分改写为“3:1”。

比赛开局阶段,李世石始终落后于 AlphaGo,一直在被吊打。然而,第78手的时候,局势峰回路转,李世石下出了关键的一步,一招极其冷门下出妙手。对于这一步棋,视频观战的职业棋手古力评价为“神之一手”。

随后,AlphaGo 一连串的差手让棋面局势利好于李世石。在第97步,AlphaGo 再次出现低级失误,所下白子被李世石果断吃掉。最终,经过长达4个多小时的鏖战之后,AlphaGo中盘认输,李世石终于在这场人机大战中赢回“尊严”之战。

AlphaGo 对李世石“放水”?棋手说不可能!

对于戏剧性的比赛结果,雷锋网记者的朋友圈出现了有多种观点看法,其中最有代表性的一种说法是“AlphaGo 选择性放水“。甚至还有阴谋论表示,AlphaGo 今天失利是因为被改代码。那么,AlphaGo 放水的可能性有多大呢?

AlphaGo 对李世石“放水”?棋手说不可能!

雷锋网第一时间针对这一问题请教了围棋界、科学界的专业人士。对此说法, 他们都表示,“可能性为零”。至于李世石第78步的落子,完全可以称得上是载入史册的一次妙招!

业余围棋5段的高飞龙表示:

李世石创造了历史,第78步棋没有一定水平看都看不懂,很高的职业水准才能想得到。

棋手鲍云对于李世石第78步下法给予了很高的评价:

“配得上最高评价神之一手。

AlphaGo 程序在大优局面的情况下被李世石的妙手打懵了,导致在随后的20来步进入疯狗状态。鲍云表示:

AlphaGo 前半盘大优,不是防水的态度。至于AlphaGo 第97步的表现可以用“疯狗病发作”来形容。78-97步,机器应该有足够的(时间来)缓冲调整计算出局面走势。97确实是很“丢狗”的一步,说明算法还是有极大的问题,抗击打能力不足,崩溃的太脆了”。

那么,AlphaGo 为何会出现如此明显的异常表现?

根据Alphago原论文第一作者之一的Demis Hassabis 在赛后的总结,

“李世石下出白78后,AlphaGo自我感觉良好,在程序的“值网络”(用于评估电脑胜率)中,误以为胜率达到70%,直到第87步才反应过来。”

AlphaGo 对李世石“放水”?棋手说不可能!

高飞龙猜测,很可能是蒙特卡洛算法本身的一个缺陷。“78步本身是盲点,(李世石)小概率的选点,很可能导致(AlphaGo)在正确率很高的算法上出现意外事件,导致出错。”如果这一猜测成立,人类将可能找到每盘打败阿尔法的策略。而谷歌公司,将需要很长的时间来修正这一“缺陷”问题。

出门问问NLP工程师李理也在微信群给出了自己的猜测:

(如果一定要猜测)我觉得可能是开局主要靠value network,因为搜索空间太大,有可能在某些特殊的局面下出现非常差的结果。就像之前神经网络识别图片时也出现过很诡异的错误,还有人研究怎么构造让它识别出错的例子。

同时,他也认为这一“诡异”问题将会比较难解决,

神经网络打分是固定的,搜索有一定随机性。而value network是异步的,调试也不简单,得通宵加班找bug了。

PS.最新消息补充:

在赛后的记者招待会上,李世石谈到了AlphaGo的两个弱点:一个是AlphaGo执黑棋时似乎挣扎比较多,相较执白棋时更难赢。另一个是,当它遇到出其不意的招数时,有可能会导致失误,未必是失误,就是bug。

那么问题来了,第5场比赛,各位怎么看?是李世石再下一城还是AlphaGo 4:1 荣耀收关?

雷锋网

AlphaGo 对李世石“放水”?棋手说不可能!

就在舆论普遍认为李世石将会继续败北的时候,人机大战的第四场,李世石出人意料地挽回了胜局,将比分改写为“3:1”。比赛开局阶段,李世石始终落后于 AlphaGo,一直在被吊打。然而,第78手的时候,局势峰回路转,李世石下出了关键的一步,一招极其冷门下出妙手。对于这一步棋,视频观战的职业棋手古力评价为“神之一手”。







cnBeta.COM业界资讯

AlphaGo 3比0胜负已分 人机大战第三场比赛回顾

AlphaGo 3比0胜负已分   人机大战第三场比赛回顾

今日,AlphaGo李世石的第三场比赛如期进行,AlphaGo在盘中就占据较大优势,最后AlphaGo在无悬念的情况下拿下本局比赛。


白棋:AlphaGo    黑棋:李世石

AlphaGo 3比0胜负已分   人机大战第三场比赛回顾

比赛进行的前一天,李世石与几位职业九段的好友通宵复盘,希望通过“打劫”在第三局比赛中获得优势,不过在正式的比赛中李世石的情况依旧不如尽人意。在比赛进行的初期,李世石下起了暴力围棋,古力(拿过多次围棋世界冠军)认为初期的对决非常精彩,双方都下得很好,但AlphaGo白方展示出更高的境界,黑棋(李世石)作战有点艰难。


AlphaGo 3比0胜负已分   人机大战第三场比赛回顾

在比赛进行到盘中的时候,许多职业棋手(包括柯洁)都表示虽然比赛还没结束,但是李世石赢棋已经相当困难,败局基本可以确定。


AlphaGo 3比0胜负已分   人机大战第三场比赛回顾

在最后阶段,李世石的下法出现了变化,部分职业棋手觉得他的下法有点不可思议,李世石依旧是抓住AlphaGo打劫的弱点,强行打劫寻找机会,想要制造AlphaGo的失误。但是AlphaGo虽然取得大优势,它并不会像人类一样产生心理性变化,依旧稳健行棋。李世石使用了“奇妙的棋法”,他的第125、127以及129手,连续空投到白棋下边大空之中,试图再次寻求机会,表现得十分悲壮。李世石通过不断打劫、“奇妙的棋法”让整个局面复杂化,想要获得最后一丝反击的机会。最后,在打了十几手劫后,AlphaGo的应对基本没有失误,李世石时宣布投降。

至此为止,AlphaGo 已经拿下了5场比赛中的三场,宣告了人工智能的胜利,根据谷歌与李世石的协议,比赛无论如何都要进行满5场,但是以AlphaGo 的学习速度,后两场的情况对于李世石来说恐怕是更加艰难。

雷锋网