关键时刻,第一时间送达


编译 / 金鹿


总部位于英国伦敦的谷歌旗下人工智能(AI)实验室DeepMind与美国当地时间周三(18日)宣布,已经对其最著名的AI程序AlphaGo进行了显著改进。AlphaGo是一种算法,它因在中国古代围棋中击败人类冠军而名声大噪。现在,它已被重新改进,并重新编程为一种名为AlphaGo Zero的AI程序。


图1:DeepMind AlphaGo项目首席研究员大卫o西尔弗(David Silver,左)与首席执行官德米斯o哈比斯(Demis Hassabis)


DeepMind首席执行官德米斯·哈比斯(Demis Hassabis)在谷歌英国总部表示,AlphaGo Zero比AlphaGo“强大得多”。围棋是一款简单的游戏,但同时又非常复杂。虽然只有几条规则,但每步棋有很多可能的走法,这些可能性甚至比宇宙中原子的数量还要高得多。经过3天的训练,AlphaGo Zero就以100:0的比分完胜对阵李世石的那版AlphaGo。


最初的AlphaGo已经给人留下深刻印象,但它依然无法与AlphaGo Zero相媲美。在接受3天训练后,AlphaGo于去年3月份在韩国击败了世界围棋冠军李世石(Lee Sedol)。经过40天训练后,它击败了AlphaGo Master,后者曾在今年5月份成功击败现任世界冠军柯洁。哈比斯说,在短短几天内,AlphaGo Zero实际上已经获得了人类数千年积累的知识,同时也发现了新的知识、围棋策略以及创意性的新棋路。


在没有人类帮助下,

AlphaGo Zero自学如何下围棋


老版AlphaGo AI与AlphaGo Zero之间的主要区别在于,前者通过吸收人类数据学习下棋,而后者则不需要。之前所有的AlphaGo AI都是从网站上下载人类数据(业余和职业围棋)开始训练的。它们观看了数千场比赛,并被告知人类专家在某些位置上的特定动作。但是,AlphaGo Zero并不使用任何人类数据。相反,AlphaGo Zero通过与自己对弈学会了如何玩围棋,完全是“无师自通”。


DeepMind AlphaGo项目首席研究员大卫·西尔弗(David Silver)解释了AlphaGo Zero是如何从零开始学习的。他说:“AlphaGo Zero使用了一种新的强化学习形式,在这一过程中,它成为了自己的老师。我们的想法是,它的起点是一个对围棋一无所知的神经网络,它会与自己进行数千场对弈。它所走的每一步棋就是把这个神经网络与强大的搜索算法结合起来,然后用它来选择下一个动作。”



西尔弗继续称:“在每场对弈结束后,AlphaGo Zero实际上都训练了一个新的神经网络。它改进了自己的神经网络,预测AlphaGo Zero自己的棋路,同时也预测了这些游戏的赢家。当AlphaGo Zero这样做的时候,实际上会产生一个更强大的神经网络,这将导致‘玩家’进行新的迭代。因此,我们最终得到了一个新版AlphaGo Zero,它比之前的版本更强大。而且随着这个过程不断重复,它也可以产生更高质量的数据,并用于训练更好的神经网络。”


这并不是AI研究人员第一次编写没有学习人类数据的算法。今年8月份,美国科技大亨伊隆o马斯克(Elon Musk)斥资10亿美元支持成立的AI研究公司OpenAI透露,它已经开发出了一款AI,可以在没有任何人工输入的情况下,自学如何玩电脑游戏《Defense of the Ancients》。


AlphaGo Zero使用的计算能力也比AlphaGo之前的版本要少得多,这表明,算法的进步远比计算能力或数据进步更重要。AlphaGo Zero是一项重大突破,它为DeepMind的研究赢得了更大的声誉。在AI研究领域,让机器在某些任务中成为“超人”,而不是为它们提供人类数据进行训练始终是一项长期存在的挑战。由于人类数据太昂贵、太不可靠或根本无法获取,从而导致AI研究进展缓慢。


西尔弗曾被美国主流网络媒体BI称为谷歌DeepMind的无名英雄,他补充道:“由于不使用这些人类数据、特性或专业技术,我们实际上已经消除了人类知识的局限性。因此,AlphaGo Zero能够从最初的原则,从空白石板中创造知识,并制定出自己的策略,以及自己独特的下棋方式。这使它能够比以前的版本强大得多。”


当被问及DeepMind使用了多少资金开发AlphaGo时,哈比斯表示,这个数字“可能相当可怕”,很难量化。大约有15名DeepMind顶级员工年薪在六位甚至七位数以上,他们已经全职研发AlphaGo很长时间,而且该公司使用了大量的谷歌计算能力。


机器还远不及

好莱坞电影中所描绘的那样


尽管AlphaGo Zero的突破令人印象深刻,但值得注意的是,研究人员还远没有研究出像好莱坞电影中描述的那些AI,比如《机械姬》(Ex-Machina)或《她》(Her)。如今的AI程序通常可以在单个任务(比如游戏)中胜出,但是它们很难同时完成多个任务,特别是当这些任务处于不同的领域时。


然而,DeepMind现在正在研究如何将与AlphaGo Zero相同的算法应用到真正的科学挑战中,比如蛋白质折叠、降低能耗、寻找新材料或发现新药。哈比斯表示:“我们正在努力建立通用学习算法,而这只是向前迈出的一步,但它的确令人感到兴奋不已。AlphaGo团队许多成员现在正在开发其他项目,并试图将这项技术应用到其他领域。” 





发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 【友家喵星上门喂猫服务】全身都是戏的#黄豆豆#总是表现出蛋蛋的忧桑的#京妞妞#以及优雅矜持的#薇薇#我们又见面啦多日不见甚是想撸啊哈哈哈#萌宠##云吸猫##云养
  • 《不一样的卡梅拉》全套47册教育部推荐,小学必读老师特别推荐这套书是桥梁书,把孩子和世界联系起来,让不同的文化背景在孩子心里留下最初的美好印象。#不一样的卡梅拉
  • 有心的兄弟 应该会注意到 OWF厂所有产品全部很晚很晚出货 爆款别人卖了几轮了 OWF厂才开始出货因为做货真的认真到了极点!所以我们只在卖荧光黄一个配色目前!
  • 有谁知道一粒冬小麦从播种到成熟要多久?芒种,简单说,有芒的小麦收割,有芒的稻子可种。
  • 顾客也有自己的生活 要上班上学 又不是把大家关起来统一放饭 所以我们没什么固定的食谱 你想吃什么吃什么 我们只会给你营养健康的专业建议!你们可以清晰地看到 我们
  • 毫不客气的说,大多数看到口若悬河的装叉者,我都觉着他们有点孩子气[微笑]佛陀“六和敬”思想:【口和无诤】人类的语言是一个最奇怪的存在,利用好,可以造大善业,利用
  • 本赛季杜兰特与欧文走的很近,众多NBA资深记者也都曾经爆料两人将携手加盟尼克斯,而今日The Athletic的记者Frank Isola的报道显然坐实了这件事
  • 玉门石油人不会忘记你为油田、乃至中国石油作出的贡献,你的精神将激励玉门油田全体员工努力工作,奋力拼搏,完成未竟的事业。他为油奉献的精神将永远成为玉门石油人持续奋
  •   2、奥克泰士德国进口消毒剂没有味道,稀释溶液无论作用到物体表面或者空间,在保证杀灭微生物的同时,不会引起员工的不适!。
  • #摩登兄弟[超话]# 摩登兄弟mdxd,刘宇宁lynℒℴѵℯ [鲜花]ℒℴѵℯ 不求你惊艳我年少时光 只愿你温暖我余生岁月 我给不了你多少温暖 但是有个词叫
  • 普菲特车养护《全国连锁东新路店》今日开业大吉! 养护、欧洗、轮胎技师闪亮登场,为您贡献;专心·专注·专业的车养护服务!
  • 我看书属于比较慢滴那种,一本书看好久,自己都没兴趣了或者已经忘记前半段讲什么了。既然如此,那我连云港爱豆孙悟空也不爽,众所周知,孙悟空是连云港花果山水帘洞人,有
  • 野村发表研究报告指,吉利上半年表现疲弱,但相信公司今年下半年销售及价格环境可得到改善,认为公司股价已反映负面因素,维持「买入」的投资评级,惟将目标价由22元下调
  • 父母,如果只是一味地生而不管,那他们只是生孩子的工具,与动物又有何区别,孩子过的是地狱般的生活,何必呢?活,赞恩需要,父母也需要,父母,在整个大环境下年轻的女孩
  • 王益区牢牢抓住乡村振兴的战略机遇和脱贫攻坚的历史机遇,深入推进“1258”农业发展战略,稳步推进“农业增效、农民增收、农村增绿”确保全区全年农村居民可支配收入增
  • (←有个专门存截图的相册,我偶尔会翻翻看看)然后今天新池子,不出意外,又是有人吸她欧出了货,然而今天跟往常不太一样,我发现了一些比较厉害的东西↓表情如图三,我也
  • 因为我从来感受不到你对我的关心,你对我的爱。不用再攻击长相啦很感谢爸爸妈妈把我带到这个世界上也很感谢他们让我这么健康地过了二十多年想了点刻薄的话最后还是没发出去
  • 人这一辈子,贵在知足,生活,不求完美,适合自己就好!无论她怎么做,做什么都是因为爱,相互钟情才是好的爱情,一个人的爱那不是爱,最多是一种占有,这样的爱情也不会长
  • 10日内地股市其实是有一个利好:7月9日晚,中共中央政治局委员、国务院副总理、中美全面经济对话中方牵头人刘鹤应约与美国贸易代表莱特希泽、财政部长姆努钦通话,就落
  • 开洋豇豆 饭店里经常有豆角或者豇豆都是用肉糜炒的,个人不是很喜欢那种大油的菜,南方人最喜欢的当然是开洋,用开洋炒自是另外一番滋味,鲜,有味儿~豇豆书上说是性平