DeepMind | 星岛加拿大都市网多伦多

人工智能下围棋不赚钱 Deepmind三年亏10亿

2019年8月20日 10:04

Alphabet旗下的Deepmind，一个在人工智能领域或许称得上是世界领先的公司，去年亏蚀5.72亿美元；在过去的三年中持续亏蚀，金额超过10亿美元。 Deepmind每年都投入大量的资金，金额甚至比之前任何相关项目的金额都要大。但DeepMind 亏蚀的上升幅度仍值得考虑：2016年为1.54亿美元，2017年为3.41亿美元，2018年为5.72亿美元。 DeepMind一心扑在深度强化学习上，该技术将主要用于识别模式的深度学习与基于奖励信号的强化学习相结合。 2013年，DeepMind在一篇激动人心的论文中将这项技术命名为“深度强化学习”，该论文展示了如何训练一个神经网络系统来玩各种Atari游戏，比如Breakout和Space Invaders；不得不承认，有时候它们比人类玩得都要好。 “雷锋网”称，这篇论文是一篇工程杰作，大概也是促使Alphabet在2014年1月收购DeepMind的主要原因之一。随后，该技术进一步发展，推动了DeepMind在围棋和游戏StarCraft（星际争霸）中取得胜利。问题就在于，该技术对环境的依赖非常大：在玩Breakout时，就连将游戏中的球拍向上移动几个图元这样微小的变化，都会导致游戏性能急剧下降。DeepMind在星际争霸游戏里的胜利也有着同样的局限——使用特定地图和特定“种族”角色时，其结果优于人类；使用不同地图和不同角色结果较差。如果要更换角色，则要从头开始重新训练系统。在某种程度上，深度强化学习是一种涡轮增压式的记忆，使用它的系统能够实现一些人们觉得不可思议的目标，但它们本身对自己在做的事情只有肤浅的理解。因此，当前的系统缺乏灵活性，也无法在环境发生变化时进行调整。深度强化学习还需要大量的资料。比如，AlphaGo在训练过程中参加了数百万次围棋游戏，这远远超过了一个人想要成为世界级棋手所需要的数量；而且实现这个目标需要巨大规模的计算资源，价格也不菲——据估计，训练AlphaGo的成本为3500万美元。不过，这些都是出于经济学的考虑。正如Rebooting AI（重启人工智能）这本书中所说，真正的问题在于信任。目前，深度强化学习只能在受到严格控制、很少出现意外的环境中进行；将其运行在几千年里都没有出现变化的环境里或许可行，但在现实生活中，人们可能不会想依赖它。

Tag: DeepMind

人工智能下围棋不赚钱 Deepmind三年亏10亿