DeepMind又搞了個大事情!讓人工智能像人一樣學(xué)習(xí)
DeepMind又搞了個大事情!讓人工智能像人一樣學(xué)習(xí)
【AI世代編者按】通過開發(fā)出一款能夠在任務(wù)中不斷學(xué)習(xí)的人工智能程序,研究人員已克服了人工智能的主要障礙之一。
由谷歌(微博)旗下人工智能公司DeepMind開發(fā)的這款程序,已經(jīng)完成了一系列不同的任務(wù),且表現(xiàn)的幾乎像人類一樣出色。更為重要和獨特的是,這個人工智能程序不會忘記先前解決問題的方法,能夠使用學(xué)習(xí)到的知識解決新問題。
關(guān)注AI世代(微信號:tencentAI),回復(fù)“人工智能學(xué)習(xí)”可獲得DeepMind該論文下載。
在遇到新挑戰(zhàn)時,目前的人工智能就無法發(fā)揮出人類的一般智力,且它對過去課程的使用更為有限。但如果研究人員想要開發(fā)與人類智力匹敵的強人工智能(Artificial General Intelligence)機器,就必須得解決人工智能無法發(fā)揮出人類一般智力的問題。
“如果我們有更聰明、更有用的電腦程序,那么它們就必須得有按順序?qū)W習(xí)的能力,”DeepMind的研究人員詹姆斯·柯克帕特里克(James Kirkpatrick)表示。
對人類而言,牢記舊技能并把它應(yīng)用到新任務(wù)是很自然的事情。一個經(jīng)?;当娜撕芸毂隳苷莆樟锉募记?,因為一種技能能夠幫助其它的技能。但是對人工智能研究人員來說,把這種能力植入到計算機當(dāng)中的難度相當(dāng)大。人工智能程序通常只能針對一個任務(wù),僅僅是一個任務(wù)。
這個問題的出現(xiàn)是因為人工智能倚重工作的方式。絕大多數(shù)的人工智能是基于稱為神經(jīng)網(wǎng)絡(luò)的程序,經(jīng)過無數(shù)次的試驗和錯誤,學(xué)習(xí)如何執(zhí)行如下棋、打撲克等任務(wù)。一旦訓(xùn)練神經(jīng)網(wǎng)絡(luò)下棋,它只有在覆蓋了學(xué)習(xí)到的博弈技巧之后才能學(xué)習(xí)其它游戲的技巧。這也被人工智能研究人員稱為“毀滅性的遺忘。”
如果不具備在一個技巧之上掌握另一個技巧的能力,人工智能就永遠無法像人類一樣,或是有足夠的靈活性去解決人類能夠解決的新問題。“人類和動物會一個問題接著一個問題的學(xué)習(xí),這是建立在他們以前所學(xué)知識的基礎(chǔ)之上、讓他們不斷學(xué)習(xí)的關(guān)鍵因素,”柯克帕特里克說。
為了開發(fā)新型人工智能,研究人員借鑒了神經(jīng)科學(xué)的研究成果,它表明動物在不斷學(xué)習(xí)的同時,會在大腦中保留過去所學(xué)的重要技能。對于動物的生存而言,通過躲避捕食者學(xué)到的經(jīng)驗至關(guān)重要。如果老鼠尋找食物的技能被抹去,那么它就不會長時間的生存。
DeepMind的人工智能用簡單的方式借鑒了大腦學(xué)習(xí)的狀態(tài)。當(dāng)它從一個任務(wù)轉(zhuǎn)向另一個任務(wù)時,它會計算出在神經(jīng)網(wǎng)絡(luò)中的哪個連接對已學(xué)到的任務(wù)最為重要。然后在學(xué)習(xí)下一個技能時,很難對已學(xué)內(nèi)容進行改變?!爱?dāng)網(wǎng)絡(luò)能夠再利用已學(xué)到的知識時,它會這樣做,”柯克帕特里克說。
研究人員讓人工智能隨機玩10款經(jīng)典的Atari游戲。他們發(fā)現(xiàn),在每款游戲上花費數(shù)天之后,人工智能在7款游戲中的表現(xiàn)已同人類玩家相同。如果不采用新記憶鞏固法,人工智能只能玩其中的一款游戲。
在觀察人工智能玩游戲的過程中,科學(xué)家們發(fā)現(xiàn)了一些有趣的策略。舉例來說,當(dāng)人工智能玩賽車游戲Enduro時,它會把夜間、白天、雪地等環(huán)境當(dāng)作是不同的任務(wù)來對待。
研究人員在在國際權(quán)威綜合學(xué)術(shù)期刊《美國科學(xué)院院報》(Proceedings of the National Academy of Sciences of the United States of America, PNAS)發(fā)表的論文中,詳細描述了新人工智能如何使用過去學(xué)到的經(jīng)驗來解決問題。不過目前尚不清楚使用過去的經(jīng)驗?zāi)芊褡屓斯ぶ悄鼙憩F(xiàn)的更加優(yōu)異。雖然DeepMind開發(fā)的人工智能程序能夠玩不同的游戲,但技術(shù)卻沒有像專用的人工智能那樣出色?!拔覀円呀?jīng)證明它可以按順序?qū)W習(xí)任務(wù),但我們沒有
表明因為按順序?qū)W習(xí)它就能變得更好,它依然有改進的空間,”柯克帕特里克說。
“我們知道連續(xù)學(xué)習(xí)非常重要,但我們還沒有進入展示人類和動物利用所學(xué)能夠做些什么的下一個階段。這仍需要很長的路要走,但我們知道它是無法逾越的障礙,”柯克帕特里克說?!岸嘤猛救斯ぶ悄艿陌l(fā)展仍需要很長時間,該領(lǐng)域仍有許多的挑戰(zhàn)未得到解決。其中的難題之一是建立能夠?qū)W習(xí)處理新任務(wù)和挑戰(zhàn)的系統(tǒng),同時保留已經(jīng)學(xué)會的能力。這項研究目前仍處于初期,它能夠及時幫助我們建立問題--解決系統(tǒng),從而更靈活,更有效地學(xué)習(xí)?!?/p>
西英格蘭大學(xué)布里斯托爾機器人實驗室教授艾倫·溫菲爾德(Alan Winfield)就此表示,DeepMind的工作“令人驚訝”,但補充說:“我不認為它能夠讓我們更接近強人工智能,因為這項研究并未向我們表明人工智能如何把學(xué)習(xí)到的經(jīng)驗應(yīng)用到另一項任務(wù)當(dāng)中?!保ň幾g/明軒)
繼續(xù)閱讀與本文標簽相同的文章