【E課堂】一文帶你了解谷歌AlphaGo是怎樣煉成的?
李世石對戰AlphaGo慘敗之后,期待中國選手柯潔為人類圍棋而戰的呼聲就越來越高,從未停止!
本文引用地址:http://www.104case.com/article/201704/346432.htm如今,柯潔終于來到舞臺中央,將于5月23日-27日在中國烏鎮圍棋峰會與AlphaGo一戰高下!屆時,AlphaGo與世界排名第一的柯潔將完成三番棋對弈,此次比賽除了AlphaGo與柯潔的世紀對戰之外,還會采用團隊賽、配對賽的多種形式,中國圍棋代表隊其他成員也將參與。那么,AlphaGo究竟是什么?它是如何煉成的?網易智能帶您一一解讀。
歡迎參與投票對于這次人機大戰,你看好柯潔還是AlphaGo
毫無懸念!AlphaGo穩贏。
柯潔水平高超,我認為柯潔贏。
一半一半吧,我還沒想好。 查看結果起止時間:2017-04-10 至 2017-04-17
AlphaGo是什么?
AlphaGo是第一個擊敗人類職業圍棋選手,第一個戰勝世界冠軍的程序,是圍棋史上最具實力的選手之一。2016年3月,在全世界超過一億觀眾的關注下,Alpha Go經過3局對弈,最終以4比1的總比分戰勝了圍棋世界冠軍李世石,這場比賽成為了人工智能領域的一個重要里程碑。

過去曾有專家預測人工智能需要十年的時間才有可能戰勝人類職業選手,在這場比賽之后,AlphaGo憑借其"充滿創意而又機智"的下法,躋身圍棋界最高職業稱號——職業九段行列,成為歷史上首個獲得這一榮譽的非人類棋手。近期,AlphaGo的升級版本以“Master/Magister”的稱謂與世界頂級的圍棋選手進行60場線上快棋賽,并取得了全勝的出色戰績。
AlphaGo是如何進行訓練的?
一直以來,圍棋就被認為是傳統游戲中,對人工智能而言最具挑戰性的項目,這不僅僅是因為圍棋包含了龐大的搜索空間,更是因為對于落子位置的評估難度已遠運超過了簡単的啟發式算法。為了應對圍棋的巨大復雜性,AlphaGo采用了一種新穎的機器學習技術,結合了監督學習和強化學習的優勢,通過訓練形成一個策略網絡(policy network),將棋盤上的局勢作為輸入信息,并對所有可行的落子位置生成一個概率分布。

然后,訓練出一個價值網絡(value network)對自我對弈進行預測,以-1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。這兩個網絡自身都十分強大,而AlphaGo將這兩種網絡整合進基于概率的蒙特卡羅樹搜索(NCTS)中,實現了它真正的優勢。最后,新版的AlphaGo產生大量自我對弈棋局,為下一代版本提供了訓練數據,此過程循環往復。

注意!此過程循環往復,我們人類需要吃飯休息,而這個比你聰明的選手還比你勤奮!
Alpha Go如何決定落子?


在獲取棋局信息后,Alpha Go會根據策略網絡(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,模擬過程中被系統最頻繁考察的位置將成為Alpha Go的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩后,Alpha Go的搜索算法就能在其計算能力之上加入近似人類的直覺判斷。
評論