Extraire la parole des vidéos et des audios en utilisant Python
Table des matières:
- Introduction
- Étape 1: Récupérer la clé API
- Étape 2: Conversion de la parole en texte
a. Importer la bibliothèque de requêtes
b. Lecture du fichier audio
c. Envoi de la requête POST pour conversion
- Étape 3: Obtenir le statut de la demande
- Étape 4: Obtention de la transcription
- Conclusion
🎙️ Comment convertir la parole en texte en utilisant l'API Assembly AI avec Python?
Dans ce tutoriel, je vais vous montrer comment convertir la parole en texte en utilisant Python. Cette technique, appelée reconnaissance vocale, implique généralement la création d'algorithmes pour faire correspondre les mots prononcés à la représentation textuelle la plus appropriée. Cependant, je vais vous montrer comment le faire facilement avec l'API Assembly AI. Cette API vous permet également de réaliser des tâches telles que l'analyse des sentiments, la résumé, la détection de sujets, et bien plus encore. Alors, commençons!
Étape 1: Récupérer la clé API
Avant de commencer, nous devons obtenir la clé API pour pouvoir utiliser l'API Assembly AI. Pour cela, nous devons créer un compte gratuit sur le site AssemblyAI.com. Une fois que vous avez créé votre compte, accédez à l'onglet "Accueil" et cliquez sur "Intégrer l'API". Vous y trouverez votre clé API. Copiez-la et nous pourrons passer à l'étape suivante.
Étape 2: Conversion de la parole en texte
a. Importer la bibliothèque de requêtes
Tout d'abord, nous devons importer la bibliothèque de requêtes pour pouvoir envoyer des requêtes HTTP. Utilisez la commande suivante pour importer la bibliothèque de requêtes:
import requests
b. Lecture du fichier audio
Ensuite, nous devons lire le fichier audio à partir duquel nous allons extraire le texte. Vous pouvez télécharger le fichier audio à partir de [lien vers l'audio] et l'enregistrer dans un dossier. Définissons une variable file_name
contenant le chemin du fichier audio.
file_name = "chemin_vers_le_fichier_audio"
c. Envoi de la requête POST pour conversion
Maintenant, nous allons envoyer une requête POST à l'API Assembly AI pour convertir la parole en texte. Pour cela:
- Créez un dictionnaire
headers
contenant les informations d'authentification nécessaires, en utilisant votre clé API.
- Utilisez la fonction
requests.post()
pour envoyer la requête POST. Fournissez l'URL de l'API, les en-têtes et le contenu audio sous forme de fichier binaire en utilisant la fonction open()
.
Voici le code complet pour la conversion de la parole en texte:
headers = {
"Authorization": "Votre_clé_API",
"Content-Type": "audio/wav"
}
response = requests.post(
"https://api.assemblyai.com/v2/transcript",
headers=headers,
data=open(file_name, "rb")
)
Étape 3: Obtenir le statut de la demande
Maintenant que nous avons envoyé la demande de conversion, il est important de vérifier le statut de la demande pour savoir si elle a été traitée avec succès. Pour cela, nous allons utiliser une boucle while
qui vérifie le statut de la demande à intervalles réguliers jusqu'à ce qu'elle soit terminée. Voici comment vous pouvez le faire:
status = ""
while status != "completed":
response = requests.get(f"https://api.assemblyai.com/v2/transcript/{transcript_id}", headers=headers)
status = response.json()["status"]
if status != "completed":
time.sleep(5)
Étape 4: Obtention de la transcription
Une fois que le statut de la demande est "completed", vous pouvez obtenir la transcription en utilisant la clé "text" dans la réponse JSON. Vous pouvez l'imprimer et l'enregistrer dans un fichier texte. Voici comment vous pouvez le faire:
transcript = response.json()["text"]
print(transcript)
with open("transcript.txt", "w") as f:
f.write(transcript)
Conclusion
Félicitations! Vous savez maintenant comment convertir la parole en texte en utilisant l'API Assembly AI avec Python. Vous pouvez utiliser cette technique pour transcrire n'importe quel fichier audio ou vidéo en suivant les étapes décrites dans ce tutoriel. N'hésitez pas à vérifier la précision de l'API en écoutant le fichier audio original et en comparant la transcription obtenue. Merci d'avoir regardé cette vidéo et n'oubliez pas de vous abonner pour plus de contenu similaire. À bientôt!
✨🚀 Résultats:
- Conversion précise de la parole en texte
- Possibilité de transcrire tout fichier audio ou vidéo
- API Assembly AI offre des fonctionnalités supplémentaires telles que l'analyse des sentiments, le résumé et la détection de sujets
❓ FAQ:
Q: Est-ce que l'API Assembly AI est gratuite?
A: Oui, vous pouvez créer un compte gratuit et obtenir une clé API pour utiliser l'API Assembly AI.
Q: Quels formats de fichiers audio sont pris en charge par l'API Assembly AI?
A: L'API Assembly AI prend en charge les fichiers audio aux formats WAV, MP3 et FLAC.
Q: La transcription est-elle précise?
A: L'API Assembly AI offre un haut niveau de précision dans la conversion de la parole en texte, mais il est toujours recommandé de vérifier et de corriger la transcription si nécessaire.