首頁 > 百納資訊 > 科技 > 文章

人工智能又來玩《馬里奧兄弟》了，這次靠的是“好奇心”

來源：網(wǎng)絡(luò) 時間：2017-06-05 14:10:31

人工智能又來玩《馬里奧兄弟》了，這次靠的是“好奇心”

在游戲中卡殼時，你是會繼續(xù)反復(fù)地撞南墻，還是轉(zhuǎn)而探索游戲地圖的其它方向？也許是受古裝戲影響，我們可能會四處尋找密道開關(guān)。但當(dāng)前的人工智能可能會選擇前一種，不達目的不罷休。

加州大學(xué)伯克利分校最近發(fā)布的論文，則想要開闊人工智能的視野，讓它在卡殼時退一步，轉(zhuǎn)而探索更廣闊的天地，對視野外的世界產(chǎn)生興趣。論文被 8 月的國際機器學(xué)習(xí)大會接收。

剛剛退役的 AlphaGo，使用蒙特卡羅樹搜索來決定下一步，并依據(jù)此前的經(jīng)驗確定加權(quán)值，給出相對的獎勵反饋，借此讓機器具備人工編程沒有設(shè)計的技能。這種機器學(xué)習(xí)方法叫做“增強學(xué)習(xí)”，特點是獎勵高效和阻止無效的行為。

這種方法的缺點則是，需要大量的訓(xùn)練工作，并且不管什么情況都只追求高回報的行動，哪怕?lián)p害整體效率也不在乎。如果 AI 不能立即獲得所需的反饋，繼續(xù)行進可能會遇到困難，尤其是在反饋不明顯的電子游戲中。

伯克利研究團隊的方法，是在缺乏獎勵、甚至沒有獎勵的情況下，訓(xùn)練人工智能探索環(huán)境。研究人員讓 AI 學(xué)會了在動態(tài)環(huán)境中預(yù)測行動造成的誤差，并將這種探索的動力稱為“好奇心”。小寶寶們經(jīng)常就有這種實驗行為，他們受好奇心的指引，在天馬行空的探索中學(xué)習(xí)技能。

為了訓(xùn)練神經(jīng)網(wǎng)絡(luò)，研究人員讓人工智能學(xué)習(xí)玩《馬里奧兄弟》和射擊游戲《毀滅戰(zhàn)士》。結(jié)果有好奇心的 AI 沒有盲目地重復(fù)回報較高的行動，對游戲整體有了更多把握，學(xué)會了觀察周遭環(huán)境和快速地移動，而沒有花很多時間去撞眼前的墻。

研究人員認為，在許多現(xiàn)實的場景常常缺乏外在的獎勵。在這種情況下，好奇心可以作為內(nèi)在的動力，讓 AI 探索環(huán)境，學(xué)習(xí)后期才會有用的技能。這或許可以為機器人導(dǎo)航任務(wù)帶來啟發(fā)，也能讓機器人學(xué)會抓握奇形怪狀的物體。機器人往往浪費大量時間做無用功，比如嘗試很多隨機的手勢。如果配備了好奇心，機器人可以很快掌握環(huán)境信息并作出相應(yīng)的動作。

讓人工智能具備好奇心已經(jīng)成為該領(lǐng)域的研究熱點。紐約大學(xué)的科學(xué)家 Brenden Lake 接受《麻省理工科技評論》采訪時說，好奇心驅(qū)動的學(xué)習(xí)技術(shù)并沒有關(guān)注得分，但也能在游戲中讓 AI 表現(xiàn)更好，這令人驚訝，“配備與人相似的特征，是開發(fā)出具備人類的學(xué)習(xí)思考能力的機器人的重要一步”，但這項研究里的好奇心仍然不同于孩童身上的好奇心，“AI 只好奇和自己有關(guān)的環(huán)境特點。但人類的好奇心更加寬泛。他們不只關(guān)心周遭的世界?！?/p>

這也不是 AI 第一次玩《馬里奧兄弟》。這款游戲一直是人工智能的試驗田。2015 年，德州大學(xué)奧斯汀分校開發(fā)的 MarI/O 程序（ GitHub 鏈接），用吃一塹長一智的方法在 34 次嘗試后通關(guān)，但它并沒有預(yù)測的能力。

也是 2015 年，德國蒂賓根大學(xué)開發(fā)的 Mario A.I. 項目，讓 AI 學(xué)習(xí)人類的語音內(nèi)容，理解英文的攻略，并獲得過關(guān)的經(jīng)驗。更早的年代，2009 ～ 2012 年間，網(wǎng)絡(luò)上還曾舉辦過馬里奧 AI 大賽，之后被平臺 AI 大賽所取代。

而谷歌(微博)旗下的 DeepMind 在拿下圍棋之后，也要挑戰(zhàn)《星際爭霸》了。過去七年間一直有類似的嘗試，但 AI 從未贏過和熟練玩家的比賽。DeepMind 也并未表明何時會開展人機對決，只計劃在未來幾個月內(nèi)發(fā)布相關(guān)的接口。

但人工智能發(fā)展速度如此之快，在電子競技上打敗人類的那一天也許并不遙遠。

繼續(xù)閱讀與本文標(biāo)簽相同的文章

分享至:

閱讀下一篇 >

Keep獲得騰訊C＋輪戰(zhàn)略金額未透露

騰訊創(chuàng)業(yè)訊運動應(yīng)用Keep通過騰訊創(chuàng)業(yè)首次對外宣布，其已獲得來自騰訊的C＋輪戰(zhàn)略投資，距離上次C輪披露時間僅間隔1個月，具體融資金額未透露。根據(jù)公開資料顯示，Keep自2015年2月上線，2014年11月，獲得300萬人民幣天使投資。2015年3月，獲得Ventech（銀泰資本）和BAI（貝塔斯曼）的500萬美金A輪...

你可能感興趣換一換

熱文推薦

細節(jié)看點

精選熱文

免責(zé)聲明：本頻道所有資訊內(nèi)容均來自于網(wǎng)絡(luò)用戶自主發(fā)布，內(nèi)容和圖片資源均為非盈利性內(nèi)容，本站不對內(nèi)容的真實性負責(zé)，如有侵權(quán)請即使聯(lián)系網(wǎng)站管理員進行刪除。

人工智能又來玩《馬里奧兄弟》了，這次靠的是“好奇心”

人工智能又來玩《馬里奧兄弟》了，這次靠的是“好奇心”

Keep獲得騰訊C＋輪戰(zhàn)略金額未透露

你可能感興趣換一換

熱文推薦

5G大牌手機火熱促銷北京電信歲末雙節(jié)狂歡開啟

OPPO、vivo是如何避免小米手機出現(xiàn)的問題

手機陣地戰(zhàn)：“陸軍”OPPO和 vivo等力量

OPPO和vivo都要“反攻”線上，它們?nèi)绾螒?yīng)對

蘋果iPhone8采用無邊框?qū)谷莝8

細節(jié)看點

精選熱文

OPPO Find X6系列手機新品發(fā)布會

5G大牌手機火熱促銷北京電信歲末雙節(jié)狂歡開啟

詹姆斯超越傳奇加冕NBA歷史得分王

比亞迪漢被曝上牌僅3天就發(fā)生自燃車主：沒有暴曬

提前還房貸利大于弊嗎？個人需考慮這三點

脊髓灰質(zhì)炎疫苗是如何開發(fā)的（以及一路上的所有問題）

QQ空間花藤將停止運營官方回應(yīng):所有數(shù)據(jù)將被刪除或匿名

單杠的雛形是：

人工智能又來玩《馬里奧兄弟》了，這次靠的是“好奇心”

人工智能又來玩《馬里奧兄弟》了，這次靠的是“好奇心”

Keep獲得騰訊C＋輪戰(zhàn)略 金額未透露

你可能感興趣 換一換

熱文推薦

5G大牌手機火熱促銷 北京電信歲末雙節(jié)狂歡開啟

OPPO、vivo是如何避免小米手機出現(xiàn)的問題

手機陣地戰(zhàn)：“陸軍”OPPO和 vivo等力量

OPPO和vivo都要“反攻”線上，它們?nèi)绾螒?yīng)對

蘋果iPhone8采用無邊框?qū)谷莝8

細節(jié)看點

精選熱文

OPPO Find X6系列手機新品發(fā)布會

5G大牌手機火熱促銷 北京電信歲末雙節(jié)狂歡開啟

詹姆斯超越傳奇 加冕NBA歷史得分王

比亞迪漢被曝上牌僅3天就發(fā)生自燃 車主：沒有暴曬

提前還房貸利大于弊嗎？個人需考慮這三點

脊髓灰質(zhì)炎疫苗是如何開發(fā)的（以及一路上的所有問題）

QQ空間花藤將停止運營 官方回應(yīng):所有數(shù)據(jù)將被刪除或匿名

單杠的雛形是：

人工智能又來玩《馬里奧兄弟》了，這次靠的是“好奇心”

人工智能又來玩《馬里奧兄弟》了，這次靠的是“好奇心”

Keep獲得騰訊C＋輪戰(zhàn)略金額未透露

你可能感興趣換一換

5G大牌手機火熱促銷北京電信歲末雙節(jié)狂歡開啟

OPPO和vivo都要“反攻”線上，它們?nèi)绾螒?yīng)對

5G大牌手機火熱促銷北京電信歲末雙節(jié)狂歡開啟

詹姆斯超越傳奇加冕NBA歷史得分王

比亞迪漢被曝上牌僅3天就發(fā)生自燃車主：沒有暴曬

提前還房貸利大于弊嗎？個人需考慮這三點

QQ空間花藤將停止運營官方回應(yīng):所有數(shù)據(jù)將被刪除或匿名