使用Python和AssemblyAI API建立語音轉文字程式(附源碼)
目錄
介紹和價格 👀
嗨大家好!在這篇教學中,我們將學習如何使用Assembly AI的語音轉文字API建立一個Python應用程式,正確地將音訊檔案轉錄成文字。Assembly AI是一家位於舊金山的深度學習公司,目前他們提供兩項不同的服務:語音轉文字轉錄以及音訊智能功能。最近,他們找到我,希望我能製作一個視頻來展示語音轉錄服務。在使用這個語音轉文字API一段時間後,我發現這個API非常容易使用,並且相比於Google Cloud、Microsoft Azure或Amazon AWS所提供的文字轉語音API,準確度更高。
如果您想獲取關於Assembly AI產品本身的更多資訊,您可以訪問他們的官網 assemblyai.com。
在這個教學影片中,我們將分成三個部分來介紹:
- 語音轉文字API的一般資訊,包括月配額、功能以及定價。
- 如何獲取API金鑰。
- 使用Python基於Assembly AI的API建立語音轉文字應用程式。
語音轉文字API一般資訊 📚
我們首先來介紹語音轉文字API的一般資訊,包括月配額、功能以及定價。在Assembly AI的網站上,我們可以找到所有這些資訊。如果您已經有帳號,您可以前往頁面右上角的"Account"並獲取您的API金鑰。這些都是你將在建立應用程式時需要使用的信息。
語音轉文字API是分為兩個不同的產品:核心轉錄API和音訊智能API。在這個教學中,我們將主要介紹核心轉錄API。
在核心轉錄API中,每秒的價錢是0.00025美元,並且您每個月可以免費使用三小時。一旦您超過了這三小時的免費使用,您需要為您的帳戶加款,以繼續使用API。
另一個重要的功能是能夠將音訊轉錄為SRT或VTT字幕檔案,這對於創作者來說非常有用。您還可以自定義詞彙、設置多通道轉錄以及過濾工作等等。
取得API金鑰 🔑
當你登錄您的帳戶時,右邊是你的API金鑰。您還可以在"Account"中獲取或刷新您的API金鑰。
使用Python建立語音轉文字應用程式 💻
好的,現在我們正式進入教學的內容了。首先,我們需要將API金鑰放到我們的Python應用程式中。讓我們在app.py文件中創建一個名為api_key
的變數。
首先,我們需要導入必要的庫,包括requests
、time
、json
和pandas
(這是第三方庫,您可以使用pip install指令進行安裝)。
然後,我們將建立一個名為AssemblyAI
的類別。我們將設置基本的URL路徑和構造函數,在構造函數中,用戶需要提供一個API金鑰,因為您可以擁有多個帳戶,每個帳戶使用不同的API金鑰。
隨後,我們將創建一個名為upload_audio_by_url
的方法,這個方法接受一個必需的參數,名為url_link
,這是用於訪問媒體檔案的連結。以及其他一些可選的參數,例如是否移除填充字,以及格式化文本。
接下來,我們將創建一個名為retrieve_transcript
的方法,這個方法需要一個必需參數,名為transcript_id
,用於檢索結果。我們將使用GET請求,並且返回結果的JSON表示。