一項新的研究表明,DeepMind驚人的游戲算法AlphaZero可以幫助釋放量子計算的力量和潛力。
自兩年多前出現以來,AlphaZero一再證明了其快速學習能力,將自己提升到圍棋,國際象棋和將棋(日本象棋)的特級大師級別。傳統的游戲引擎,如IBM在1990年代開創性的深藍和當前的世界計算機國際象棋冠軍Stockfish,都依賴于人類玩家手工制作的啟發式方法。AlphaZero采取了一種非常不同的方法——只要只有基本規則,它就會在強化學習環境中通過數百萬次自我游戲來磨練自己的技能。
但AlphaZero不僅僅是游戲——它的成功表明,單一算法可以學習如何在一系列場景中發現新知識,DeepMind的David Silver在一篇博客文章中寫道。這是創建通用系統以追求通用人工智能(AGI)的關鍵:“我們需要它們靈活并適用于新情況。
與DeepMind的愿景相呼應,丹麥奧胡斯大學(AU)的一個研究小組通過將AlphaZero應用于可能用于量子計算機的三個不同控制問題,進一步證明了AlphaZero的廣泛適用性。這項研究發表在最近發表在《自然》科學雜志NPJ Quantum Information上的一篇論文中。
量子計算的大部分潛力在于它能夠實現經典計算機無法實現的目標——通過同時計算所有可能性來解決優化問題。雖然已經開發了大量算法來優化量子動力學,但一個常見的限制是它們依賴于良好的初始猜測。
AU研究人員認為,AlphaZero經過游戲驗證的自學習能力可以使其系統地繞過這一限制。他們決定從頭開始實施該算法,并研究它在量子計算機優化問題上的表現,論文合著者和AU教授Jacob Sherson在一封電子郵件中告訴Synced。
該論文的第一作者,博士生Mogens Dalgaard解釋說:“當我們分析AlphaZero的數據時,我們發現該算法已經學會了利用我們最初沒有考慮的問題的潛在對稱性。那是一次了不起的經歷。
AlphaZero的成功源于傳統的蒙特卡洛樹搜索(MCTS)和一步式前瞻深度神經網絡(DNN)的結合。來自樹下遠處的展望信息可以提高經過訓練的 DNN 的精度,以產生更集中和無啟發式的探索。
當應用于量子計算時,與早期方法相比,AlphaZero在良好解決方案集群的質量和數量方面都取得了實質性的改進。“它能夠自發地學習解決方案中意想不到的隱藏結構和全局對稱性,甚至超越人類啟發式,”研究人員解釋說。
該團隊發現,當他們將AlphaZero的算法與專門的量子優化算法相結合時,該系統取得了最佳結果。“這非常有趣,因為它指向了一個未來,即現成的AI算法不會簡單地接管并主導特殊的主導地位。但是領域專家,在這種情況下是我們物理學家,可以解釋一般方法的優缺點,并用我們詳細的知識和方法增強它們,“謝爾森寫道。
謝爾森說,在項目代碼開源后的幾個小時內,“大型科技公司與量子實驗室和國際一流大學聯系了我,以建立未來的合作。因此,我們希望我們的工作將很快付諸實踐。
論文《量子動力學的全局優化與AlphaZero深度探索》發表在《自然》雜志上。