Ouvir e transcrever áudio nunca foi tão rápido!
Sumário
Introdução
Neste artigo, vamos explorar uma nova tecnologia de transcrição de fala para texto que é rápida, eficiente e precisa. O projeto Distill Whisper, desenvolvido pela equipe do Hugging Face, apresenta uma versão destilada do modelo Whisper, proporcionando um desempenho superior em relação ao modelo original. Neste artigo, vamos entender como o Distill Whisper funciona e como podemos usá-lo para transcrever áudios com maior rapidez e eficiência. Vamos começar!
O que é o projeto Whisper?
O projeto Whisper é uma solução de código aberto desenvolvida pela OpenAI para a transcrição de fala para texto. Ele utiliza modelos de aprendizado profundo para converter áudios em texto de maneira precisa. No entanto, o tamanho desses modelos pode ser um obstáculo para sua utilização em dispositivos com recursos limitados.
Distill Whisper: mais rápido e menor
O Distill Whisper é uma versão destilada do modelo Whisper, projetada especificamente para otimizar o desempenho e o tamanho do modelo original. Com base em técnicas de destilação, a equipe do Hugging Face conseguiu reduzir em até 49% o tamanho do modelo e alcançar uma velocidade seis vezes maior. Além disso, o Distill Whisper mantém uma taxa de erro de palavra de apenas 1% em avaliações fora da distribuição.
Essa redução no tamanho e aumento na velocidade tornam o Distill Whisper uma escolha ideal para transcrever grandes volumes de áudio com eficiência.
Como usar o Distill Whisper
Existem três formas principais de utilizar o modelo Distill Whisper: transcrição de curta duração, transcrição de longa duração e uso como assistente para o Whisper original. A seguir, vamos explorar cada uma dessas opções com mais detalhes.
Transcrição de curta duração
A transcrição de curta duração é utilizada quando temos um áudio de poucos segundos que desejamos transcrever rapidamente. Para isso, podemos utilizar a função pipeline
do Distill Whisper.
from transformers import pipeline
transcriber = pipeline("automatic-speech-recognition", model="huggingface/distill-whisper")
result = transcriber("Áudio de curta duração")
Essa função irá retornar o texto transcrito do áudio fornecido como entrada.
Transcrição de longa duração
A transcrição de longa duração é utilizada quando temos áudios mais extensos, como uma palestra ou uma entrevista completa. Para isso, o Distill Whisper utiliza a técnica de fragmentação (chunking
) do áudio em partes menores, de forma a otimizar o processo de transcrição.
from transformers import AutoModelForSpeechRecognition, Wav2Vec2Processor
import torch
model = AutoModelForSpeechRecognition.from_pretrained("huggingface/distill-whisper")
processor = Wav2Vec2Processor.from_pretrained("huggingface/distill-whisper")
chunk_size = 30 # segundos
# Carregar o áudio
audio = torc