Nature:超強版AlphaGo來瞭 可自學成才

AlphaGo Zero采用瞭人類棋手幾千年來都未發明的圍棋策略(圖片來源:Xavierarnau/Getty)

AlphaGo,一款由谷歌旗下公司DeepMind基於深度學習原理而開發的人工智能程序。之所以聲名大噪,是因為它自2016年以來曾先後擊敗多位世界圍棋冠軍,包括韓國選手李世石、中國選手柯潔,是第一個擊敗人類職業圍棋選手的人工智能。

現在,DeepMind又推出“超強版”——AlphaGo Zero,基於前所未有的學習模式從零自學成才,不再依賴於人類經驗!這一重要成果發表在最新一期《Nature》上,並附有相關評論。

這種不需要人工輸入的自我訓練能力讓我們離一個終極夢想——創造一個能夠解決所有任務的人工智能,更進一步!而且,DeepMind首席執行官Demis Hassabis在新聞發佈會上表示,從中長遠角度出發,這一智能將能夠用於包括蛋白質折疊、材料學等多個科研挑戰中。

AlphaGo Zero:從零自學成才

DeepMind開發的前幾款“圍棋程序”,都是在與有專傢參與的超10萬次圍棋對弈中訓練而來的,且時間長達數月。現在,這一款最新的AlphaGo Zero則從零開始、自我學習。經過40天訓練、3000萬次PK(包括自我對弈),AlphaGo Zero可以打敗之前的AlphaGo版本。

AlphaGo Zero的原理是“強化學習”(reinforcement learning),能夠在更少的訓練時間、更強的計算能力下遠超“前輩”。DeepMind參與AlphaGo開發的科學傢David Silver認為:“對人工智能使用純強化學習一直很困難。”他認為,該項目是第一個“真正穩定、強大的強化學習版本”。

一個“大腦”:40天遠超人類

AlphaGo Zero的前任們使用瞭兩個獨立的神經網絡“大腦”:一個用來預測可能的最佳落子動作,另一個從中評估最有可能獲勝的動作。為瞭實現後者目標,他們使用“roll outs”策略——進行多個快速、隨機的預判,測試可能的結果。

現在,AlphaGo Zero則隻擁有一個“大腦”——種由大腦結構激發的深度神經網絡,它隻學習抽象概念,即僅僅瞭解遊戲規則,通過反復訓練來學習,並通過每場對弈後的反饋信息自我改進。

首先,AlphaGo Zero會學習人自動分料機推薦類選手,以初學者的身份貪婪地捕捉技巧。但是隻需3天,它就可以掌握人類選手使用的復雜戰術。Hassabis說:“它能夠重現人類幾千年的知識。”

40天後,AlphaGo Zero的水平遠超人類。

應用前景:造福科研

依賴於4個特殊的控制芯片,AlphaGo Zero可以在幾天內就完成自我訓練。這意味著,算法比任何平臺或可用數據更重要。

DeepMind研發團隊已經開始嘗試將該技術應用於其他領域,例如解析蛋白質折疊的細節,從而為藥物研發提供工具。

他們認為,蛋白質折疊並沒有什麼數據可以參考,且依據氨基酸序列預測結構擁有太多的可能。這在一定程度上類似於圍棋,兩者都有眾所周知的規則,且有一個清晰的目標。從長遠來看,這種算法適用於量子化學、材料設計、機器人開發等類似任務中。

原標題:Nature:超強版AlphaGo來瞭!可自學成才,將助力科研

參考資料:

Self-taught AI is best yet at strategy game Go

定量充填機小型




掃描二維碼,關註新浪醫藥(sinayiyao)公眾號

360°縱覽醫藥全局,365天放送新聞時事醫藥資訊輕松一覽
精彩不容錯過。

自動化食品機械

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

X戰警多鏡頭行車記錄器專業網|多鏡頭行車記錄器|多鏡頭行車紀錄器比較|多鏡頭行車紀錄器推薦|多鏡頭行車紀錄器影片

一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運

arrow
arrow

    oxe707wx79 發表在 痞客邦 留言(0) 人氣()