CICERO - META全新的AI:能像人一樣談判和制定策略!
目錄
- 什麼是外交
- Cicero:一款新的AI外交智能體
- 外交之挑戰:解決自我對話壓力
- Sarah:結合對話模塊和策略推理模塊的AI代理
- 由監督學習到策略推理:Cicero的智能選擇
- 文字生成器的過濾器:保證信息的合理性和一致性
- Cicero的參與和面臨的挑戰
- 未來展望:長談期對Cicero的挑戰
- 外交遊戲中的合作與策略
- Lepanto戰略:對Cicero的特殊推薦
- 結語
🤖 Cicero:一款新的AI外交智能體
在最近的一篇論文中,meta AI介紹了一個名為Cicero的新型人工智能。這款AI代理可以玩外交遊戲,該遊戲要求進行談判、結盟和協商,因此對於評估AI系統而言非常有價值。
Cicero參加了一個匿名的線上外交聯賽,共進行了40場比賽。結果發現,Cicero的得分超過了人類玩家平均得分的兩倍,並在玩家中排名前10%。Cicero的成功可以歸因於將語言模型與規劃和強化學習算法相結合。通過從對話中推斷出玩家的信念和意圖,並生成有助於實現其計劃的對話,Cicero能夠更好地進行決策和談判。
實際上,該研究引起了Gary Marcus的關注,他對Cicero的高結構化程度以及其內在知識表示方法表示讚賞。Cicero能在規劃和對話之間區分,並且區別於從零開始學習的數據輸出系統。這表明人工智能領域的發展正在朝著正確的方向前進。
什麼是外交 🤝
外交是一種最多可以容納七名玩家的遊戲。在這個遊戲中,每個玩家控制著歐洲的一個國家,這個國家將出現在一個覆蓋整個版圖的供應中心中。這些供應中心可以支援海軍或者陸軍,而一個玩家所控制的供應中心的數量等於他在地圖上的軍隊和海軍的數量。如果一個玩家失去了他所控制的所有供應中心,並且在地圖上沒有任何單位,他就會輸掉該遊戲。
在遊戲中,玩家需要通過進行攻擊、支援盟友和組織海上運輸等行動來獲得優勢。在每個回合之間,玩家可以私下討論和傳遞訊息,探討各種戰略來合作或競爭,以確定他們的部隊行動。最終,獲勝的玩家是那個征服了歐洲大部分地區並佔領了34個供應中心中的18個供應中心的玩家。
🤖 Cicero:一款新的AI外交智能體
在最近的一篇論文中,meta AI介紹了一款名為Cicero的新型人工智能。根據這篇論文,《外交》這款遊戲成為了評估多智能體學習的具有挑戰性的指標。Cicero參加了一個匿名的網絡外交聯賽,並在其中進行了40場比賽。Cicero不僅取得了比人類玩家更高的平均分數,而且在和超過一場比賽的參與者中排名前10%。
Cicero能夠在規劃和強化學習算法之間集成語言模型,通過推斷玩家的信念和意圖並生成對話,以實現其計劃。這種結合使Cicero能夠更好地進行談判和決策,並在遊戲中取得優勢。
Gary Marcus對Cicero印象深刻,他認為Cicero高度結構化,具有內在的知識,並能夠將規劃和對話區分開來。與那些從空白狀態開始的數據輸出系統不同,Cicero在輸入和輸出中不依賴於大量的數據,這表明AI領域正在向正確的方向發展。
儘管在難度上追趕卓越,遊戲設計關注著全球霸權,然而,外交遊戲作為多智能體學習的挑戰具有獨特的地位。過去,多數智能體學習適用於純對抗性環境,如國際象棋、圍棋和撲克等單對單的遊戲,這些遊戲中的溝通是沒有價值的。與之不同,外交遊戲的溝通是遊戲的基礎,因此它成為了評估多智能體學習的一個具有挑戰性的標準。
傳統上,智能體模型的訓練採用的是監督學習,其利用標籤選擇基於過去對話結果的行動。然而,完全依賴監督學習選擇行動的智能體在遊戲中相對較弱且容易受到利用。Cicero通過策略推理模塊智能地選擇行動,運用pickle規劃算法預測所有其他玩家的策略,並基於這些預測選擇最優的行動。該策略推理的基礎是自我對話的強化學習,Cicero通過自我遊玩訓練值和策略函數,對於過於偏離玩家預測的行動進行處罰。Cicero在每輪談判結束時播放其最新計算的對話意圖。
Cicero還具有一個訊息生成器,該生成器包含多個過濾器,設計用於限制不合乎邏輯、與意圖不一致或戰略不佳的訊息。先前的研究顯示,神經語言模型在生成語句時容易出現矛盾、不一致,並且有時會產生事實上不正確的信息。在外交遊戲這種複雜的領域中,對話模型也會出現這些問題,以及控制訊息的意圖或戰略內容出現失誤。Cicero的訊息生成器經過多個過濾步驟,最終傳送出高質量的訊息。
Cicero的參賽和面對的挑戰是一個例子。Cicero的參與是在“急速聯賽”期間進行的,這種聯賽每回合都有5分鐘的談判時間,與其他需要更長時間談判的遊戲比較來看,這對AI代理來說可能更具挑戰性。論文也指出,較長的談判期對Cicero來說可能更加困難,因為玩家通常會在這種形式的遊戲中進行更詳細、更復雜的談判。
外交遊戲中的合作與策略 😎
外交遊戲中的合作和策略起到了至關重要的作用。以下是外交遊戲中常見的一些策略:
- 騙局和談判:在外交遊戲中,玩家可以使用騙局和談判來獲得優勢。他們可以假裝結盟或合作,以欺騙其他玩家,並在關鍵時刻改變策略。
- 協助和支援:合作和支援是外交遊戲中的重要策略。玩家可以通過協助盟友的行動,獲得互惠的支援,以達到共同的目標。
- 情報和偵查:了解其他玩家的意圖和行動是外交遊戲中的關鍵。玩家可以透過收集情報和偵查來獲取對手的有利信息,從而制定更好的策略。
- 戰略佈局:在外交遊戲中,玩家需要制定合適的戰略佈局。他們可以選擇保守的策略,專注於防守和保護自己的供應中心,或者採取進攻性的策略,積極擴張自己的勢力範圍。
Lepanto戰略:對Cicero的特殊推薦 😏
Lepanto戰略是一種在外交遊戲中常見的戰略。該戰略是一種防守性的策略,旨在幫助較弱的玩家對抗強大的對手。在Lepanto戰略中,一個較弱的玩家與一個強大的對手結盟,共同打敗其他玩家。
對於Cicero來說,Lepanto戰略是一種特殊推薦。由於Cicero在遊戲中處於相對較弱的位置,Lepanto戰略可以幫助Cicero與其他玩家建立良好的合作關係,並擊敗共同的對手。
結語 📝
Cicero的成功成為了評估多智能體學習的一個里程碑。通過結合語言模型、規劃和強化學習算法,Cicero能夠在外交遊戲中實現優異的表現。然而,Cicero在與其他玩家進行談判和協商時也面臨著挑戰,需要解決如何在自我對話中保持人類可理解的語言和行為的問題。
我們期待著未來更為艱巨的挑戰,例如在更長的談判期間遊戲中的表現,以及更複雜的合作和競爭策略。通過持續的技術創新和不斷努力,我們相信AI在外交遊戲中的表現將繼續提升。
資源: