使用CPU和GPU運行Vulcania | 基於GPT-4最佳免費聊天機器人

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News TW 使用CPU和GPU運行Vulcania | 基於GPT-4最佳免費聊天機器人

使用CPU和GPU運行Vulcania | 基於GPT-4最佳免費聊天機器人

概述
進行 Vulcania 模型的本地端運行
模型數據和流程
Vulcania 模型的性能評估
Vulcania 模型的優化
使用 CPU 運行 Vulcania 模型
使用 GPU 運行 Vulcania 模型
Vulcania 模型的問題和未來發展

概述

在本視頻中，我將向您展示如何使用您的本機計算機（無論是 CPU 還是 GPU）運行 Vulcania 模型，並解釋為何 Vulcania 模型對於此來說如此特殊。在 Vulcania 模型的博客文章中，作者聲稱 Vulcania 模型實現了 90% 的 ChatGPT 質量，這是根據訓練自 UC Berkeley、CMU、Stanford 和 UC San Diego 的 DVD4 模型的結果得出的。在這篇文章中，我們可以看到 Vulcania 13B 模型是基於 Llama 13B 模型進行微調的開源聊天機器人，並且它使用了從共享 GPT 收集的用戶互動。根據這一點，我們已經可以推斷出，該模型不會優於 ChatGPT，因為它基本上是通過從 ChatGPT 的回答中學習，但它仍然努力盡可能接近 ChatGPT 的質量，這與 Alpaca 模型有很多相似之處。有趣的是，作者們表示 Vulcania 模型能夠在超過 90% 的情況下優於 Glamor 和 Stanford Alpaca 等模型，從而使 Vulcania 模型幾乎在所有情況下都表現出更好的性能，這真的很酷和令人印象深刻。此外，作者們還提到提供了訓練和服務代碼以及在線演示，您可以在其中查看模型。博客文章中沒有提到模型權重，稍後會更詳細地描述這一點。

進行 Vulcania 模型的本地端運行

要在本地計算機上運行 Vulcania 模型，您可以選擇使用 CPU 或 GPU。如果您的本地計算機滿足以下要求，我建議您參考安裝指南進行安裝。在進一步分析模型質量之前，讓我們先了解一下研究人員實際上如何評估不同的聊天機器人。

模型數據和流程

在進行聊天機器人的評估時，研究人員首先使用了自我教育的方法，這是當今大多數最先進的聊天機器人中普遍使用的方法。然而，由於回答的多樣性，在進行評估時對於人類來說很難判斷出不同的性能差異，因為聊天機器人的不同輸出都是有效且有意義的。因此，研究人員使用了不同的問題類別進行評估，例如費米問題、角色扮演場景、編程數學任務等。他們同樣提到，這種評估方法並不科學，因為 GPT 是我們無法理解的黑盒，我們不知道它根據哪些標準來衡量結果的質量。但正如我們已經看到的，GPT-4 具有令人驚人的能力，所以這種方法在某種程度上是合理的。這也引出了一個很有趣的問題，就是作者們為什麼要使用 GPT-4 來評估模型性能。他們在博客文章中承認這不是一個科學的方法，因為 GPT-4 在某種程度上具有接近於人類的能力，所以我們可以讓 GPT-4 為我們做這個繁重的工作，以便我們可以評估不同的模型性能。這是一種非常有趣的方法，當然作者也指出這不是一種科學的方法，因為 GPT-4 並不是我們可以理解的黑盒。我們並不知道它真正衡量結果質量的標準是什麼，但我們已經看到 GPT-4 具有令人驚人的能力，所以我可以理解使用這種方法。我在之前的視頻中也提到過，目前很難找到一種有效的評估方法，一方面可以理解為什麼特定模型在某些方面更好，另一方面可以找到可以有效估計聊天機器人質量的衡量方法。

Vulcania 模型的性能評估

在模型的性能評估方面，作者們列舉了 Llama 13B、Alpaca 13B 和 Vulcania 13B 這三個模型。根據他們提供的圖表，我們可以看到 Vulcania 模型的質量接近於 ChatGPT，在多數指標上明顯優於 Alpaca 13B。

Vulcania 模型的優化

在 Vulcania 模型中，有兩個主要優化方面，即記憶優化和多輪對話優化。在記憶優化方面，Vulcania 模型能夠理解更長的上下文，與原始的 Llama 模型相比，Vulcania 模型的上下文長度從 512 增加到了 2048。這個優化可以提高模型的質量，但也增加了 GPU 內存需求。在多輪對話優化方面，Vulcania 模型根據歷史消息來調整損失，以提高多輪對話能力。相比之下，Alpaca 模型只是單獨根據一個輸入進行訓練，而沒有進行多輪對話的訓練。這兩個優化方面可以使 Vulcania 模型在與聊天機器人進行多輪對話時能夠產生更好的質量。

使用 CPU 運行 Vulcania 模型

如果您的本地計算機只滿足使用 CPU 運行 Vulcania 模型的要求，您可以使用以下命令來安裝 Vulcania 模型。首先，創建一個新的虛擬環境（使用 mini-Conda），然後安裝所需的模塊和庫。接下來，克隆 Llama C++ 存儲庫，然後進行建構。最後，下載量化模型，這可以通過使用 Hugging Face Hub 的 Python API 實現。

使用 GPU 運行 Vulcania 模型

如果您的本地計算機擁有 GPU，您可以使用以下命令來運行 Vulcania 模型。首先，安裝 mini-Conda 並創建一個新的虛擬環境（使用 mini-Conda）。然後，克隆文本生成 Web UI 存儲庫並安裝所需的模塊和庫。接下來，安裝額外的存儲庫以安裝 GPTQ 量化模型。最後，下載量化模型並運行文本生成 Web UI。