AlphaGo團隊新成果人工智能學哺乳動物抄近路

加拿大都市网

2018年5月10日 23:11

網上圖片

一手創造史上最強圍棋人工智能AlphaGo的DeepMind團隊，又教會了人工智能在迷宮中「抄近路」。

北京時間5月10日凌晨1時，該英國團隊在世界頂級學術雜誌《自然》上發表論文稱，其最新研發出的一個人工智能程序具有類似哺乳動物一樣的尋路能力，非常類似大腦中網格細胞的工作原理。

神秘的網格細胞：大腦內置GPS

從家出發到新的地點，再原路返回，從中選擇儘可能的捷徑，這是絕大多數動物都能勝任的簡單任務。然而，大腦這種本能的導航機制尚未被完全理解。

科學家們在動物和人類大腦中找到了三種跟認路相關的細胞，分別是位置細胞、方向細胞和網格細胞。

位置細胞能在主體到達特定地點時放電，從而賦予對過往地點的記憶；方向細胞能感應前進的方向；網格細胞則是最神秘的一種：它們能將整個空間環境劃分成蜂窩狀的六邊形網格，彷彿地圖上的坐標系。

發現網格細胞的的莫索爾夫婦因此獲得了2014年的諾貝爾生理學或醫學獎。不過，網格細胞僅僅是在空間環境中提供GPS定位服務嗎？一些科學家猜測，它們也會參與矢量計算，輔助動物規劃路徑。

人工神經網絡中自動出現類似結構

DeepMind團隊決定用人工神經網絡檢驗上述猜想。人工神經網絡是一種利用多層處理模擬大腦神經網絡的運算結構。團隊首先用深度學習算法訓練神經網絡學習哺乳動物的覓食運動路徑，利用線速度、角速度等信號在視覺環境中進行定位。

研究人員隨後發現，一種類似於網格細胞活動特徵的結構自動誕生了！在此前的訓練中，研究人員並未刻意引導神經網絡產生此種結構。

人工神经网络中自动出现了与大鼠网格细胞（下）类似的网格结构（上）图片来源：DeepMind官方博客

人工神經網絡中自動出現了與大鼠網格細胞（下）類似的網格結構（上）圖源：DeepMind官方博客

這再次顯示了深度學習的可喜又可畏之處：這是一種通過大量匹配的輸入和輸出值訓練機器自我摸索的算法，最後得到的機器邏輯是不為人知的黑匣子。正如AlphaGo自動領悟了人類千年棋史上從所未見的「天外飛仙」棋招，這次的神經網絡也自動出現了令人驚喜的結構。

迷宮尋路

DeepMind團隊隨後利用強化學習檢驗這種網格結構是否能夠進行矢量導航。強化學習被普遍用於訓練遊戲AI，人類告訴AI一種遊戲的得分獎懲機制，但卻不教授遊戲方法，由AI在反覆進行遊戲、努力爭取更高分的過程中自我進化。後期的AlphaGo就完全擯棄了人類棋譜經驗，在純粹的自我對弈中從零進化到更強版本。

研究人員將之前自動出現的網格結構與一個更大型的神經網絡架構結合成了人工智能體，置於虛擬現實的遊戲環境中。經歷強化學習後，該人工智能在遊戲迷宮中向目的地前進的導航能力超越了一般人，達到了職業遊戲玩家水平。它能像哺乳動物一樣尋找新路線和抄近路。

人工智能學習在迷宮中抄近路。圖源：DeepMind官方博客

最關鍵的是，當研究人員「靜默」原來的網格結構後，人工智能體的導航能力就會變弱，判斷目標的距離和方向都更不準確了。

論文作者之一Dharshan Kumaran說道：「我們證明了網格細胞遠不只是給我們提供GPS定位信號，也是一種大腦賴以計算兩個地點間的最短距離的核心導航機制。」

用人工智能代替小白鼠做實驗

與一直強調「人工智能不是仿生學」的Facebook人工智能首席科學家楊立昆（Yann Lecun）不同，天才創始人戴密斯·哈薩比斯(Demis Hassabis)執掌的DeepMind熱衷探索人工智能與腦科學的相輔相成。這項研究再一次體現了他們的科學理念：腦科學啟發下的人工智能算法能反過來幫助人類探索大腦運行機制，從而也更好地理解人工智能的內在邏輯。

哈薩比斯評價道：「我們相信人工智能和神經科學是相互啟發的。這項工作就是很好的證明：通過研發出一個能在複雜環境中導航的人工智能體，我們對網格細胞在哺乳動物導航中的重要性有了更深的理解。」

DeepMind團隊相信，類似的研究方法還可以用來探索大腦聽覺和控制四肢的機制。在更遠的將來，神經科學家們甚至可以用人工智能代替小白鼠來做實驗。（記者虞涵棋）

來源：澎湃新聞