Alphabet旗下的Deepmind,一個在人工智能領域或許稱得上是世界領先的公司,去年虧蝕5.72億美元;在過去的三年中持續虧蝕,金額超過10億美元。
Deepmind每年都投入大量的資金,金額甚至比之前任何相關項目的金額都要大。但DeepMind 虧蝕的上升幅度仍值得考慮:2016年為1.54億美元,2017年為3.41億美元,2018年為5.72億美元。
DeepMind一心撲在深度強化學習上,該技術將主要用於識別模式的深度學習與基於獎勵信號的強化學習相結合。
2013年,DeepMind在一篇激動人心的論文中將這項技術命名為「深度強化學習」,該論文展示了如何訓練一個神經網絡系統來玩各種Atari遊戲,比如Breakout和Space Invaders;不得不承認,有時候它們比人類玩得都要好。
「雷鋒網」稱,這篇論文是一篇工程傑作,大概也是促使Alphabet在2014年1月收購DeepMind的主要原因之一。隨後,該技術進一步發展,推動了DeepMind在圍棋和遊戲StarCraft(星際爭霸)中取得勝利。
問題就在於,該技術對環境的依賴非常大:在玩Breakout時,就連將遊戲中的球拍向上移動幾個圖元這樣微小的變化,都會導致遊戲性能急劇下降。DeepMind在星際爭霸游戲裏的勝利也有着同樣的局限——使用特定地圖和特定「種族」角色時,其結果優於人類;使用不同地圖和不同角色結果較差。如果要更換角色,則要從頭開始重新訓練系統。
在某種程度上,深度強化學習是一種渦輪增壓式的記憶,使用它的系統能夠實現一些人們覺得不可思議的目標,但它們本身對自己在做的事情只有膚淺的理解。
因此,當前的系統缺乏靈活性,也無法在環境發生變化時進行調整。
深度強化學習還需要大量的資料。比如,AlphaGo在訓練過程中參加了數百萬次圍棋遊戲,這遠遠超過了一個人想要成為世界級棋手所需要的數量;而且實現這個目標需要巨大規模的計算資源,價格也不菲——據估計,訓練AlphaGo的成本為3500萬美元。
不過,這些都是出於經濟學的考慮。正如Rebooting AI(重啟人工智能)這本書中所說,真正的問題在於信任。
目前,深度強化學習只能在受到嚴格控制、很少出現意外的環境中進行;將其運行在幾千年里都沒有出現變化的環境里或許可行,但在現實生活中,人們可能不會想依賴它。