人工智慧近年屢屢挑戰人類極限!但想稱霸麻將,可沒那麼容易(下)
為何我們會想寫這篇文章?
讀者看到了這篇文章:AI人工智慧又贏了!微軟Suphx突破日本麻將最高紀錄,打敗人類頂尖玩家時,可能會立即聯想到 Google 開發的圍棋人工智慧 Alpha Go 於兩年前以近乎完美姿態打敗人類選手李世乭和柯潔的新聞。根據微軟所說:研發麻將 AI 人工智慧的技術門檻可說是比研發圍棋、德州撲克等棋牌、博弈類的遊戲難多了!是真的嗎?這篇取材自微軟亞洲研究院的新聞稿,解釋為何同樣是人工智慧,為何研發 AI 麻將技術門檻就是比 Alpha Go 等棋類 AI 高的還多!
「全新機制、教練先知、全面預測」對付麻將AI研發瓶頸
全新機制應對「巨大的狀態空間」
換句話說,就是研究團隊為了應對「巨大的狀態空間」,引入了全新的機制:對探索過程的多樣性,進行動態調控,讓 Suphx 可以比傳統算法,更加充分地試探牌局狀態的多種可能。另一方面,一旦某一輪的底牌給定,其狀態子空間會大幅縮小;所以研究團隊讓Suphx 在推理階段根據本輪的牌局,來動態調整策略,對縮小了的狀態子空間進行更有針對性的探索,從而更好地根據本輪牌局的演進做出自適應的決策。
「先知教練技術」應對「非完美資訊」
其次,針對「非完美訊息」博弈的挑戰,Suphx 創新性地嘗試了先知教練技術來提升強化學習的效果。其基本思想是在自我博弈的訓練階段,利用不可見的一些隱藏訊息,來引導 AI人工智慧 模型的訓練方向,使其學習路徑更加清晰、更加接近完美資訊意義下的最佳路徑,從而倒逼 AI 模型更加深入地理解可見信息,從中找到有效的決策依據。
「全盤預測技術」理解「復雜的獎勵機制」
另外,對於麻將復雜的牌面表達和計分機制,研究團隊還利用全盤預測技術搭建起每輪比賽和8輪過後的終盤結果之間的橋樑。這個預測器通過精巧的設計,可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導,並使得Suphx可以學會一些具有大局觀的高級技巧。
得益於以上新技術和其他方面的創新,自今年 3 月進入天鳳平台以來,Suphx 在與人類玩家的對局中,學得非常快。目前,在平衡攻擊和防禦方面,Suphx 表現出了比許多頂尖人類玩家更明智的策略,能夠戰略性地完成短期損失與長期收益之間的權衡,並根據已有的模糊信息進行快速決策。
Suphx 一直在不斷學習與進步,研究團隊也一直在對 Suphx 背後核心算法的價值進行評估、反思和重複回饋過程,從而實現進一步的改進和提升。劉鐵岩表示「 雖然 Suphx 根據麻將的獨特挑戰,進行了針對性的設計,也取得了不錯的戰績,但我們的創新從未停止。我們期待在不久的將來發明出更新穎、更強大的AI人工智慧 技術,使得Suphx 的能力有更大幅度的提升。縱觀歷史、遊戲AI人工智慧 的進化始終與AI人工智慧 研究進展相生相伴,很多關於人工智能的研究都起源於研究如何構建能夠完成遊戲的智能體。我們希望通過對 Suphx 的研究來探索及擴展已有AI人工智慧技術的邊界,不斷推動人工智慧領域的進步。」
「全新機制、教練先知、全面預測」對付麻將AI研發瓶頸
全新機制應對「巨大的狀態空間」
換句話說,就是研究團隊為了應對「巨大的狀態空間」,引入了全新的機制:對探索過程的多樣性,進行動態調控,讓 Suphx 可以比傳統算法,更加充分地試探牌局狀態的多種可能。另一方面,一旦某一輪的底牌給定,其狀態子空間會大幅縮小;所以研究團隊讓Suphx 在推理階段根據本輪的牌局,來動態調整策略,對縮小了的狀態子空間進行更有針對性的探索,從而更好地根據本輪牌局的演進做出自適應的決策。
「先知教練技術」應對「非完美資訊」
其次,針對「非完美訊息」博弈的挑戰,Suphx 創新性地嘗試了先知教練技術來提升強化學習的效果。其基本思想是在自我博弈的訓練階段,利用不可見的一些隱藏訊息,來引導 AI人工智慧 模型的訓練方向,使其學習路徑更加清晰、更加接近完美資訊意義下的最佳路徑,從而倒逼 AI 模型更加深入地理解可見信息,從中找到有效的決策依據。
「全盤預測技術」理解「復雜的獎勵機制」
另外,對於麻將復雜的牌面表達和計分機制,研究團隊還利用全盤預測技術搭建起每輪比賽和8輪過後的終盤結果之間的橋樑。這個預測器通過精巧的設計,可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導,並使得Suphx可以學會一些具有大局觀的高級技巧。
得益於以上新技術和其他方面的創新,自今年 3 月進入天鳳平台以來,Suphx 在與人類玩家的對局中,學得非常快。目前,在平衡攻擊和防禦方面,Suphx 表現出了比許多頂尖人類玩家更明智的策略,能夠戰略性地完成短期損失與長期收益之間的權衡,並根據已有的模糊信息進行快速決策。
Suphx 一直在不斷學習與進步,研究團隊也一直在對 Suphx 背後核心算法的價值進行評估、反思和重複回饋過程,從而實現進一步的改進和提升。劉鐵岩表示「 雖然 Suphx 根據麻將的獨特挑戰,進行了針對性的設計,也取得了不錯的戰績,但我們的創新從未停止。我們期待在不久的將來發明出更新穎、更強大的AI人工智慧 技術,使得Suphx 的能力有更大幅度的提升。縱觀歷史、遊戲AI人工智慧 的進化始終與AI人工智慧 研究進展相生相伴,很多關於人工智能的研究都起源於研究如何構建能夠完成遊戲的智能體。我們希望通過對 Suphx 的研究來探索及擴展已有AI人工智慧技術的邊界,不斷推動人工智慧領域的進步。」
參考連結:
留言列表