用Python转录音频文件

Find AI Tools in second

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News CN 用Python转录音频文件

Updated on Mar 09,2024

用Python转录音频文件

表格目录

项目简介
实现步骤

1. 项目简介

在这个项目中，我们将学习如何在Python中进行语音识别。我们将采用简单的方法，将之前项目中录制的音频文件转换为文本文件。让我向您展示项目的工作原理。这是之前项目中录制的音频文件：“hi i'm patrick this is a test123”。如果我们运行脚本，我们将获得该音频文件的文本转录，如下所示：“hi i'm patrick this is a test one two three”。

接下来，让我们逐步学习如何在Python中实现这一功能。在这个项目中，我们主要需要两样东西： Assembly AI的API来进行语音识别，以及Python的requests库来与Assembly AI的API进行通信。让我们首先从Assembly AI获取API令牌。这非常简单，您只需转到AssemblyAI.com并创建一个免费账号。创建完成后，登录并复制API密钥。接下来，我们将配置文件并在其中添加API密钥。现在，我们可以开始设置如何上传文件、转录文件以及获取Assembly AI的转录结果。首先，我们需要导入requests库，以便与Assembly AI的API进行通信。

2. 实现步骤

2.1 设置API密钥

首先，我们需要设置API密钥，以便与Assembly AI进行身份验证。您可以将API密钥放在配置文件中。

import configparser

# 从配置文件中读取API密钥
config = configparser.ConfigParser()
config.read('config.ini')
api_key = config['assemblyai']['api_key']

2.2 上传文件

接下来，我们需要将本地的音频文件上传到Assembly AI。为此，我们使用requests库发送一个POST请求。

import requests

# 读取音频文件
file_path = 'audio.wav'
with open(file_path, 'rb') as file:
    audio_data = file.read()

# 设置请求头部
headers = {
    'authorization': api_key,
    'content-type': 'audio/wav'
}

# 发送POST请求上传文件
upload_url = 'https://api.assemblyai.com/v2/transcript'
response = requests.post(upload_url, headers=headers, data=audio_data)

# 获取上传结果
upload_result = response.json()
upload_id = upload_result['id']

2.3 开始转录

现在，我们已经成功上传了文件。接下来，我们需要启动转录过程，并获取转录任务的ID。我们将再次使用requests库发送一个POST请求。

# 设置转录的请求头部
headers = {
    'authorization': api_key,
    'content-type': 'application/json'
}

# 设置转录的数据
transcript_data = {
    'audio_url': upload_id
}

# 发送POST请求开始转录
transcript_url = 'https://api.assemblyai.com/v2/transcript'
response = requests.post(transcript_url, headers=headers, json=transcript_data)

# 获取转录任务的ID
transcript_result = response.json()
transcript_id = transcript_result['id']

2.4 轮询获取结果

转录任务已经启动，但需要一些时间来完成转录过程。因此，我们需要反复轮询Assembly AI的API，以检查转录任务是否完成。我们使用一个while循环，并在每次循环之间等待一段时间。

import time

# 轮询获取转录结果
while True:
    # 设置轮询的请求头部
    headers = {
        'authorization': api_key
    }

    # 发送GET请求获取转录结果
    result_url = f'https://api.assemblyai.com/v2/transcript/{transcript_id}'
    response = requests.get(result_url, headers=headers)

    # 解析结果
    result = response.json()
    status = result['status']

    # 判断转录任务是否完成
    if status == 'completed':
        break
    else:
        print('Transcription in progress. Waiting 30 seconds...')
        time.sleep(30)

2.5 保存转录结果

转录任务已经完成，现在我们需要将转录结果保存到文本文件中。

# 保存转录结果到文本文件
text_file = f'{file_path}.txt'
with open(text_file, 'w', encoding='utf-8') as file:
    file.write(result['text'])
print('Transcription saved to file:', text_file)

现在，我们已经完成了整个Python脚本。您可以根据需要使用不同的音频文件进行测试。