CICERO - META新的AI：像人一樣談判和策略！

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News TW CICERO - META新的AI：像人一樣談判和策略！

CICERO - META新的AI：像人一樣談判和策略！

Cicero：AI 外交遊戲的新成員

在近期發表的一篇論文中，meta AI 提出了一款名為 Cicero 的新型 AI，該 AI 在一款名為『外交遊戲』的對話策略遊戲中表現出色，被譽為是一個優秀的 AI 系統評估標準。Cicero 在匿名的在線外交遊戲聯賽中進行了 40 場對局，在遊戲中取得的分數是人類玩家平均分數的兩倍以上，並在分數排名中位於前 10% 的位置，該比賽要求 AI 通過對話形成聯盟、談判等手段來獲得優勢。

Cicero 的設計結構非常獨特，它將語言模型與計劃和強化學習算法結合在一起，通過從對話中推斷玩家的信念和意圖，並生成對話以實現自己的計劃。Gary Marcus 對這一設計非常驚訝，稱其為高度結構化和內在知識豐富，將計劃與對話分離，並且不像空白筆記本一樣需要大量數據輸入輸出的系統。這樣的進展令人鼓舞，展示了這一領域的前進方向。

那麼，什麼是外交遊戲呢？

😊 什麼是外交遊戲？

外交遊戲是一款最多可容納七位玩家的遊戲，每位玩家控制歐洲的一個國家，在第一次世界大戰前的歐洲格局中，全盤掌握勢力。遊戲板上有多個供應中心，每個中心可以提供艦隊或軍隊的支援。每位玩家控制的支援中心數量等於其在遊戲板上的棋子數量。如果一位玩家失去了所有的支援中心，並且沒有在棋盤上剩下棋子，則該玩家輸掉遊戲。

遊戲進行中，玩家通過攻擊、支援盟友、進行運輸來獲得優勢。在每一回合之間，玩家可以私下協商和其他玩家進行交流，討論各種策略以合作或競爭，以確定他們的棋子的行動。遊戲的最終獲勝者是占領大多數歐洲地區並佔領 18 個供應中心的玩家。

在過去的多智能體 AI 成功案例中，大多數都是在純粹的對抗環境中，如國際象棋、圍棋和撲克等遊戲，這些遊戲中對話交流並沒有價值。相對於這些遊戲，外交遊戲是一個更具挑戰性的學習評估標準。

Cicero 的設計結構

在 Cicero 的設計中，研究團隊使用了一種 2.7 百萬參數的 Bolt 語言模型，該模型先在網絡文本上進行了預訓練，然後在 webdiplomacy.net 上的 92.5 萬場外交遊戲中進行了微調，包括其中的對話數據。訓練過程中，研究團隊還結合了對話模塊和戰略思考模塊，並使用過濾過程來拒絕低質量的對話，從而確定每個玩家的預計行動。

Cicero 的計劃模組和強化學習使用了自我對抗學習算法，通過訓練值函數和策略函數來選擇行動。通過進行自我對抗學習，Cicero 可以定義出與人類相容的語言和行為策略，使其能夠與人類進行有效的溝通。

對話生成模型是 Cicero 的另一個關鍵組件，它通過過濾過程來生成對話，以確保生成的消息合乎邏輯、一致且符合策略。此前的研究表明，神經語言模型往往會出現矛盾、不一致和虛構的問題，而在外交遊戲這樣的複雜領域，對話模型更易產生錯誤。研究團隊通過多層過濾步驟，使生成的消息更優質，避免了不一致以及與策略不符的情況。

在實際的比賽中，Cicero 參加了快速對局的聯賽比賽，每次回合只有 5 分鐘的談判時間，與其他比賽模式相比，這可能更具挑戰性。然而，較長的談判時間可能會對 AI 產生更大的挑戰，因為玩家通常在這些模式下進行更詳細和複雜的談判。

Cicero 在比賽中的表現

Cicero 在比賽中取得了令人印象深刻的表現，成功運用其設計結構和生成模型進行了精細的對話和策略協同。Cicero 在與其他玩家的交流中表現出了高效的協調能力，適應了複雜和不確定的遊戲環境。此外，Cicero 通過與其他 AI 玩家進行自我對抗學習，不斷優化其策略，提高了遊戲性能。

然而，研究團隊也指出，Cicero 在比賽中的對手是針對快速對局的聯賽比賽而設計的，而在其他比賽模式中，比賽玩家通常進行更詳細和複雜的談判。因此，未來的工作仍然需要解決如何應對更具挑戰性的對手。

未來展望

隨著 Cicero 在外交遊戲中的優秀表現，未來有許多應用場景可以考慮。外交遊戲作為一個多智能體學習的評估標準，將為 AI 和自動對話系統的發展帶來新的挑戰和方向。

此外，Cicero 的設計結構和生成模型也為其他領域的應用提供了啟示。例如，在商業談判、危機處理或政治對話等領域，擁有一個具有高效協作能力的 AI 系統可能會帶來巨大的價值。

在繼續改進 Cicero 的同時，研究團隊還計劃將其開源，讓更多的開發者和研究者參與其中，希望這一項目能夠在學術和工業界開創新的思路和應用。

結論

Cicero 是一個具有創新設計結構和生成模型的 AI 外交遊戲代理。它在外交遊戲中表現優異，通過深度學習和自我對抗學習算法來實現協同策略和溝通。Cicero 的設計框架可以應用於其他領域，並為多智能體學習提供了新的挑戰和方向。隨著Cicero 的不斷改進和開源，我們期待它在未來能夠在實際應用中發揮更大的作用。