CICERO - META新的AI:像人一樣談判和策略!
目錄
- 前言
- 什麼是外交遊戲
- Cicero:AI 的新成員
- 多智能體學習的挑戰
- Cicero 的設計結構
- Cicero 的文字生成模型
- 策略思考模組的應用
- 信息篩選的重要性
- Cicero 在比賽中的表現
- 未來展望
- 結論
Cicero:AI 外交遊戲的新成員
在近期發表的一篇論文中,meta AI 提出了一款名為 Cicero 的新型 AI,該 AI 在一款名為『外交遊戲』的對話策略遊戲中表現出色,被譽為是一個優秀的 AI 系統評估標準。Cicero 在匿名的在線外交遊戲聯賽中進行了 40 場對局,在遊戲中取得的分數是人類玩家平均分數的兩倍以上,並在分數排名中位於前 10% 的位置,該比賽要求 AI 通過對話形成聯盟、談判等手段來獲得優勢。
Cicero 的設計結構非常獨特,它將語言模型與計劃和強化學習算法結合在一起,通過從對話中推斷玩家的信念和意圖,並生成對話以實現自己的計劃。Gary Marcus 對這一設計非常驚訝,稱其為高度結構化和內在知識豐富,將計劃與對話分離,並且不像空白筆記本一樣需要大量數據輸入輸出的系統。這樣的進展令人鼓舞,展示了這一領域的前進方向。
那麼,什麼是外交遊戲呢?
😊 什麼是外交遊戲?
外交遊戲是一款最多可容納七位玩家的遊戲,每位玩家控制歐洲的一個國家,在第一次世界大戰前的歐洲格局中,全盤掌握勢力。遊戲板上有多個供應中心,每個中心可以提供艦隊或軍隊的支援。每位玩家控制的支援中心數量等於其在遊戲板上的棋子數量。如果一位玩家失去了所有的支援中心,並且沒有在棋盤上剩下棋子,則該玩家輸掉遊戲。
遊戲進行中,玩家通過攻擊、支援盟友、進行運輸來獲得優勢。在每一回合之間,玩家可以私下協商和其他玩家進行交流,討論各種策略以合作或競爭,以確定他們的棋子的行動。遊戲的最終獲勝者是占領大多數歐洲地區並佔領 18 個供應中心的玩家。
在過去的多智能體 AI 成功案例中,大多數都是在純粹的對抗環境中,如國際象棋、圍棋和撲克等遊戲,這些遊戲中對話交流並沒有價值。相對於這些遊戲,外交遊戲是一個更具挑戰性的學習評估標準。
Cicero 的設計結構
在 Cicero 的設計中,研究團隊使用了一種 2.7 百萬參數的 Bolt 語言模型,該模型先在網絡文本上進行了預訓練,然後在 webdiplomacy.net 上的 92.5 萬場外交遊戲中進行了微調,包括其中的對話數據。訓練過程中,研究團隊還結合了對話模塊和戰略思考模塊,並使用過濾過程來拒絕低質量的對話,從而確定每個玩家的預計行動。
Cicero 的計劃模組和強化學習使用了自我對抗學習算法,通過訓練值函數和策略函數來選擇行動。通過進行自我對抗學習,Cicero 可以定義出與人類相容的語言和行為策略,使其能夠與人類進行有效的溝通。
對話生成模型是 Cicero 的另一個關鍵組件,它通過過濾過程來生成對話,以確保生成的消息合乎邏輯、一致且符合策略。此前的研究表明,神經語言模型往往會出現矛盾、不一致和虛構的問題,而在外交遊戲這樣的複雜領域,對話模型更易產生錯誤。研究團隊通過多層過濾步驟,使生成的消息更優質,避免了不一致以及與策略不符的情況。
在實際的比賽中,Cicero 參加了快速對局的聯賽比賽,每次回合只有 5 分鐘的談判時間,與其他比賽模式相比,這可能更具挑戰性。然而,較長的談判時間可能會對 AI 產生更大的挑戰,因為玩家通常在這些模式下進行更詳細和複雜的談判。
Cicero 在比賽中的表現
Cicero 在比賽中取得了令人印象深刻的表現,成功運用其設計結構和生成模型進行了精細的對話和策略協同。Cicero 在與其他玩家的交流中表現出了高效的協調能力,適應了複雜和不確定的遊戲環境。此外,Cicero 通過與其他 AI 玩家進行自我對抗學習,不斷優化其策略,提高了遊戲性能。
然而,研究團隊也指出,Cicero 在比賽中的對手是針對快速對局的聯賽比賽而設計的,而在其他比賽模式中,比賽玩家通常進行更詳細和複雜的談判。因此,未來的工作仍然需要解決如何應對更具挑戰性的對手。
未來展望
隨著 Cicero 在外交遊戲中的優秀表現,未來有許多應用場景可以考慮。外交遊戲作為一個多智能體學習的評估標準,將為 AI 和自動對話系統的發展帶來新的挑戰和方向。
此外,Cicero 的設計結構和生成模型也為其他領域的應用提供了啟示。例如,在商業談判、危機處理或政治對話等領域,擁有一個具有高效協作能力的 AI 系統可能會帶來巨大的價值。
在繼續改進 Cicero 的同時,研究團隊還計劃將其開源,讓更多的開發者和研究者參與其中,希望這一項目能夠在學術和工業界開創新的思路和應用。
結論
Cicero 是一個具有創新設計結構和生成模型的 AI 外交遊戲代理。它在外交遊戲中表現優異,通過深度學習和自我對抗學習算法來實現協同策略和溝通。Cicero 的設計框架可以應用於其他領域,並為多智能體學習提供了新的挑戰和方向。隨著Cicero 的不斷改進和開源,我們期待它在未來能夠在實際應用中發揮更大的作用。
FAQ
Q:Cicero 在外交遊戲中的表現如何?
A:Cicero 在比賽中取得了令人印象深刻的成績,其在與其他玩家的交流中展現出高效的協調能力和適應能力。在快速對局的聯賽比賽中,Cicero 擊敗了其他玩家並取得了卓越的成績。
Q:Cicero 的設計結構和生成模型有什麼獨特之處?
A:Cicero 將語言模型、計劃和強化學習算法相結合,通過深度學習模型生成精細的對話和策略。其設計結構包括對話模塊、策略思考模塊和信息篩選,使得它能夠實現協同策略、溝通和適應。
Q:外交遊戲有哪些特點和挑戰?
A:外交遊戲是一個多智能體學習評估標準,玩家在遊戲中需要通過對話、談判和協作來取得優勢。這種遊戲要求 AI 能夠有效地協調策略、理解對手的意圖並做出適應性的行動,這對於人工智能系統來說是一個巨大的挑戰。
Q:Cicero 的性能是否受到比賽模式的影響?
A:Cicero 在快速對局的聯賽比賽中表現出色,但更長時間的談判可能對其性能提出更大的挑戰。在較長的比賽模式中,玩家往往進行更詳細和複雜的談判,這對於 AI 系統來說是一個更具挑戰性的任務。
Q:Cicero 將如何影響未來的多智能體學習和對話系統的發展?
A:Cicero 打破了過去僅僅依靠監督學習訓練的限制,通過結合語言模型、計劃和強化學習算法,實現了更高效的協同策略和溝通。這將為未來的多智能體學習和對話系統的開發提供新的思路和方向。