Ouvir e transcrever áudio nunca foi tão rápido!

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News PT Ouvir e transcrever áudio nunca foi tão rápido!

Ouvir e transcrever áudio nunca foi tão rápido!

Sumário

Introdução
O que é o projeto Whisper?
Distill Whisper: mais rápido e menor
Como usar o Distill Whisper
Transcrição de curta duração
Transcrição de longa duração
Usando o modelo como assistente
Como instalar o Distill Whisper
Comparação de desempenho
Considerações finais

Introdução

Neste artigo, vamos explorar uma nova tecnologia de transcrição de fala para texto que é rápida, eficiente e precisa. O projeto Distill Whisper, desenvolvido pela equipe do Hugging Face, apresenta uma versão destilada do modelo Whisper, proporcionando um desempenho superior em relação ao modelo original. Neste artigo, vamos entender como o Distill Whisper funciona e como podemos usá-lo para transcrever áudios com maior rapidez e eficiência. Vamos começar!

O que é o projeto Whisper?

O projeto Whisper é uma solução de código aberto desenvolvida pela OpenAI para a transcrição de fala para texto. Ele utiliza modelos de aprendizado profundo para converter áudios em texto de maneira precisa. No entanto, o tamanho desses modelos pode ser um obstáculo para sua utilização em dispositivos com recursos limitados.

Distill Whisper: mais rápido e menor

O Distill Whisper é uma versão destilada do modelo Whisper, projetada especificamente para otimizar o desempenho e o tamanho do modelo original. Com base em técnicas de destilação, a equipe do Hugging Face conseguiu reduzir em até 49% o tamanho do modelo e alcançar uma velocidade seis vezes maior. Além disso, o Distill Whisper mantém uma taxa de erro de palavra de apenas 1% em avaliações fora da distribuição.

Essa redução no tamanho e aumento na velocidade tornam o Distill Whisper uma escolha ideal para transcrever grandes volumes de áudio com eficiência.

Como usar o Distill Whisper

Existem três formas principais de utilizar o modelo Distill Whisper: transcrição de curta duração, transcrição de longa duração e uso como assistente para o Whisper original. A seguir, vamos explorar cada uma dessas opções com mais detalhes.

Transcrição de curta duração

A transcrição de curta duração é utilizada quando temos um áudio de poucos segundos que desejamos transcrever rapidamente. Para isso, podemos utilizar a função pipeline do Distill Whisper.

from transformers import pipeline

transcriber = pipeline("automatic-speech-recognition", model="huggingface/distill-whisper")
result = transcriber("Áudio de curta duração")

Essa função irá retornar o texto transcrito do áudio fornecido como entrada.

Transcrição de longa duração

A transcrição de longa duração é utilizada quando temos áudios mais extensos, como uma palestra ou uma entrevista completa. Para isso, o Distill Whisper utiliza a técnica de fragmentação (chunking) do áudio em partes menores, de forma a otimizar o processo de transcrição.


from transformers import AutoModelForSpeechRecognition, Wav2Vec2Processor
import torch

model = AutoModelForSpeechRecognition.from_pretrained("huggingface/distill-whisper")
processor = Wav2Vec2Processor.from_pretrained("huggingface/distill-whisper")

chunk_size = 30  # segundos

# Carregar o áudio
audio = torc

Descubra a realidade do ChatGPT Plus - Vale a pena assinar?

Descubra os segredos ocultos do Chatbot Open Assistant de IA