“AlphaGo 之父”获最新一届ACM 计算奖

2020-05-16 16:16黄珊

海外星云 2020年5期

●黄珊

大卫·席尔瓦

近日，2019 年ACM(国际计算机学会)计算奖颁出，由于在计算机游戏领域取得突破性进展，“AlphaGo 之父”、DeepMind 首席科学家、伦敦大学学院教授大卫·席尔瓦获得最新一届的ACM 计算奖。

大卫·席尔瓦是深度学习领域的先驱人物，他在人工智能领域的一系列成绩中，又以他带领打造的AlphaGo 最为人所知。大卫·席尔瓦通过巧妙地结合深度学习、强化学习、蒙特卡洛搜索树和大规模计算的思想，开发了AlphaGo 算法，AlphaGo 由此战胜了顶尖的人类棋手，更是被公认为人工智能（AI）研究的一个里程碑。

根据ACM 官方报道，最初，AlphaGo 会经过来自人类专业棋手经验的小范围训练，然后，它会通过强化学习来不断改善性能。AlphaGo 之后，大卫·席尔瓦和他的团队创造了更新颖的方法，来实现更高的性能和通用性，AlphaZero 就此诞生。与AlphaGo 不同，AlphaZero 完全通过与自己玩游戏来进行学习，不需要任何人类数据或先验知识（游戏规则除外）。而且，AlphaZero 同时在国际象棋、将棋和围棋游戏中有超过人类的表现，证明了其AI算法的通用性。

早在大卫·席尔瓦于艾伯塔大学（University of Alberta）攻读博士学位时，他就开始探索开发一种可以掌握围棋智慧的计算机程序，这也成为了他后续一直在专注的研究兴趣。在2013 年的NeurIPS 会议上，席尔瓦展示了一种算法，它可以在雅达利游戏中展现达到人类水平的技巧。这个程序学会了在游戏过程中仅仅通过观察像素和分数来玩游戏。

2015 年，大卫·席尔瓦和他的同事发布开创性论文“Human Level Control Through Deep Reinforcement Learning ”，在这个研究中，他们将强化学习与人工神经网络相结合，论文发表在《自然》杂志上，且至今被引用近1 万次，对该领域产生了巨大影响。随后，席尔瓦和他的同事继续用新技术改进这些深度强化学习算法，这些算法仍然是机器学习中应用最广泛的工具之一。

2016 年3 月，团队开发的AlphaGo 击败世界围棋冠军李世石，这被誉为AI 里程碑式的时刻。同年，解析AlphaGo 背后技术的论文“Mastering the Game of Go with Deep Neural Networks and Tree Search ”公开发布在《自然》杂志上。

AlphaGo 和AlphaZero 之后，DeepMind 的游戏AI 探索的另一个重点是征服《星际争霸II》。就在去年，由席尔瓦领导的DeepMind 团队开发了AlphaStar，它掌握了多人即时战略游戏《星际争霸II》，这类游戏被认为是游戏AI 需要攀登的高峰。

现在，在DeepMind——这家谷歌旗下最星光熠熠的AI 公司，大卫·席尔瓦和他的同事仍在寻求将机器学习和神经科学方面的进展进行技术融合，以构建功能强大的通用学习算法。大卫·席尔瓦在深度强化学习上的诸多工作也已被应用于提高英国电网效率、帮助谷歌数据中心降低功耗、为欧洲航天局策划太空探测器轨迹等领域。DeepMind 团队还将继续推进这些技术，并为其找到更多的应用场景。（摘自美《深科技》）