反思能力通過多項測試 GPT-4準確度升近30%!

加拿大都市网

【加拿大都市網】即使不太可能的六個月暫停人工智能開發計劃繼續進行,似乎GPT-4也有能力實現巨大的飛躍,只要它認真審視一下自己。研究人員已經讓GPT對自己的工作進行了批評,使其性能提升30%

研究人員Noah ShinnAshwin Gopinath寫道:「人類不是每天都在開發新技術,利用曾經被認為是人類智能所特有的決策過程來達到最先進的標準。但是,這正是我們所做的。」

「反思」(Reflexion)技術採用了GPT-4已經令人印象深刻的執行各種測試的能力,並引入了「一個框架,允許人工智能代理模仿人類一樣的自我反思並評估其性能」。有效地,它引入了額外的步驟,讓GPT-4設計測試來批判自己的答案,尋找錯誤和誤區,然後根據它發現的情況重寫其解決方案。

該團隊將其技術用於幾個不同的性能測試。在由模型從未見過的164Python編程問題組成的HumanEval測試中,GPT-4的得分創下了67%的紀錄,但使用反思技術,其得分躍升至非常令人印象深刻的88%

Alfworld測試中,該測試挑戰人工智能通過在各種互動環境中執行幾種不同的允許行動來作出決定和解決多步驟任務的能力,反思技術將GPT-4的性能從73%左右提升到接近完美的97%,在134項任務中只有4項失敗。

在另一項名為HotPotQA的測試中,語言模型被賦予了對維基百科的訪問權,然後在可能的13,000個問題/答案對中給出100個,「挑戰代理人對內容的解析和對幾個支持文件的推理」。在這項測試中,GPT-4的準確率只有34%,但帶有反思能力的GPT-4成功地做得更好,達到54%

越來越多的時候,解決人工智能問題的方法似乎是更多的人工智能。在某些方面,這感覺有點像生成式對抗網絡,其中兩個人工智能互相磨練技能,例如,一個試圖生成無法與「真實」圖像區分的圖像,而另一個試圖區分假的和真的。但在這種情況下,GPT既是作者又是編輯,努力改善自己的輸出。

圖片:Northwestern University/MIT

T09

share to wechat

延伸阅读

延伸阅读

温哥华富人区百年教堂 1000万元挂牌出售

美国多人使用吸血鬼面膜感染艾滋病毒!吸自己的血,扎自己的脸

住房是人权 加拿大接下来会有什么改变?

专访另类华裔女性:孩子才出生 却忙着对抗山火地震