Áudio

Converter

Texto

Conversor de Voz para Texto

Voz para texto com Whisper IA no navegador. Transcreva áudio e vídeo em SRT, VTT, JSON. Roda no dispositivo com WebGPU/WASM, sem enviar nada.

Transcrição com IA usando OpenAI Whisper. Todo o processamento acontece no seu navegador - seu áudio nunca sai do seu dispositivo.

Detectando...

Selecionar Arquivo de Áudio ou Vídeo

Arraste e solte um arquivo de áudio ou vídeo aqui

Suporta MP3, WAV, M4A, MP4, WebM e mais

Transcrição

Select

Copy

Download text

A transcrição é editável — suas correções são incluídas em cada exportação (TXT, SRT, VTT, JSON, MD, CSV).

Segmentos com Marcações de Tempo

Copy

Download text

Clique no texto de qualquer segmento para editá-lo. As edições atualizam a transcrição e todas as legendas exportadas.

Tem feedback? Reporte bugs, sugira recursos ou compartilhe suas ideias — lemos todos

Sobre o Conversor de Voz para Texto com IA

Esta ferramenta de transcrição com IA utiliza o modelo Whisper da OpenAI para converter voz em texto com alta precisão. Diferente dos serviços em nuvem, todo o processamento acontece diretamente no seu navegador usando WebGPU/WebAssembly - seus arquivos de áudio nunca são enviados para nenhum servidor, garantindo privacidade total.

Como funciona a transcrição no navegador?

A ferramenta usa Transformers.js para executar o modelo Whisper da OpenAI diretamente no seu navegador. Na primeira vez que você transcreve, o modelo de IA é baixado e armazenado no seu navegador. Todo o processamento de áudio e transcrição acontece localmente no seu dispositivo usando sua CPU/GPU, sem enviar dados para servidores externos.

Qual tamanho de modelo devo escolher?

Existem três opções de modelo:
- Tiny (~40MB): O mais rápido para carregar e processar. Ideal para áudio claro com pouco ruído de fundo.
- Base (~75MB): Opção equilibrada com melhor precisão que o Tiny.
- Small (~250MB): Maior precisão, especialmente para áudio com sotaques ou ruído de fundo. Recomendado para transcrições importantes.

Modelos maiores oferecem melhor precisão mas requerem mais tempo de download e processamento.

Quais idiomas são suportados?

Whisper suporta mais de 99 idiomas incluindo português, inglês, espanhol, francês, alemão, chinês, japonês, coreano, árabe, hindi, russo, vietnamita e muitos outros. Você pode selecionar o idioma manualmente para melhor precisão, ou deixar a IA detectar automaticamente.

Quais formatos de áudio e vídeo são suportados?

Todos os formatos de áudio comuns são suportados: MP3, WAV, M4A, AAC, FLAC, OGG, OPUS e WebA. Arquivos de vídeo também são suportados - a faixa de áudio é automaticamente extraída de MP4, WebM, MKV, AVI, MOV e outros formatos de vídeo.

Qual a precisão da transcrição?

Whisper fornece precisão de última geração para reconhecimento automático de fala. Os melhores resultados são para:
- Gravações claras com pouco ruído de fundo
- Falantes nativos com sotaques padrão
- Áudio de um único falante

A precisão pode variar para:
- Sotaques ou dialetos fortes
- Múltiplos falantes sobrepostos
- Qualidade de áudio ruim ou muito ruído
- Jargão técnico ou palavras incomuns

Posso obter marcações de tempo e legendas?

Sim! Ative 'Incluir marcações de tempo' para obter segmentos com tempo perfeitos para criar legendas. Você pode baixar a transcrição como arquivo SRT pronto para edição de vídeo. Ative 'Marcações de tempo por palavra' para tempos ainda mais precisos de palavras individuais.

Por que o processamento está lento no meu dispositivo?

A velocidade de transcrição depende do seu hardware. Dispositivos modernos com suporte a WebGPU (Chrome 113+) serão significativamente mais rápidos. Para melhorar o desempenho:
- Use o navegador Chrome ou Edge para aceleração WebGPU
- Feche outras abas e aplicativos
- Use o modelo Tiny para processamento mais rápido
- Computadores desktop/laptops são mais rápidos que dispositivos móveis
- Arquivos de áudio de até 10 minutos funcionam melhor

Conversor de Voz para Texto — Voz para texto com Whisper IA no navegador. Transcreva áudio e vídeo em SRT, VTT, JSON. Roda no dispositivo com WebGPU/W — **Conversor de Voz para Texto**

Meus dados de áudio são privados?

Absolutamente. Diferente dos serviços de transcrição em nuvem, seu áudio nunca sai do seu dispositivo. Todo o processamento de IA acontece localmente no seu navegador usando WebGPU ou WebAssembly. Nenhum áudio é enviado, armazenado ou processado em nenhum servidor. Quando você fecha a página, todos os dados são apagados da memória.

Qual é o tamanho e duração máxima de arquivo?

O tamanho máximo de arquivo é 100MB. Para desempenho ideal, recomendamos arquivos de áudio com menos de 10 minutos. Arquivos mais longos podem ser processados mas exigirão significativamente mais tempo e memória. Se você tem gravações longas, considere dividi-las em segmentos menores.

Exatamente qual modelo e pesos isto executa?

Executa o modelo Whisper da OpenAI via Transformers.js usando os pesos abertos da ONNX-community: onnx-community/whisper-tiny, whisper-base e whisper-small. No WebGPU o modelo roda em fp32 para máxima precisão; no WebAssembly (CPU) roda em q8 (quantizado em 8 bits) para carregar e funcionar em dispositivos menos potentes. A versão q8 troca um pouco de precisão por velocidade e memória, por isso um modelo maior ajuda com áudio ruidoso ou com sotaques.

Posso editar a transcrição antes de exportar?

Sim. A caixa de transcrição e cada segmento com marcação de tempo são totalmente editáveis. Corrija nomes, jargões e pontuação diretamente, e cada exportação — TXT, SRT, VTT, JSON, Markdown e CSV, além do download de segmentos — refletirá suas edições em vez do resultado original do modelo. Editar o texto atualiza as exportações de texto completo; editar um segmento atualiza aquela legenda e ressincroniza a transcrição completa.

Quais formatos de exportação e esquema de segmentos existem?

Seis formatos: TXT (texto puro), SRT e WebVTT (legendas com marcação de tempo), Markdown (texto mais lista de segmentos com tempo), CSV (índice, start_seconds, end_seconds, text) e JSON. O esquema JSON é { language, text, segments: [{ start, end, text }], words: [{ start, end, text }] | null, exported_at, tool }. As marcações por palavra preenchem o array 'words' do JSON e ficam separadas da lista de segmentos por frase para que SRT/VTT permaneçam legíveis.

Funciona offline e o modelo fica em cache?

A primeira transcrição baixa uma vez o modelo Whisper escolhido; o navegador o armazena em cache (cache HTTP / Cache Storage). Depois, a transcrição funciona sem baixar o modelo novamente e continua rodando inteiramente no seu dispositivo. Nada — nem seu áudio nem sua transcrição — é enviado para um servidor; toda a inferência acontece localmente no navegador com WebGPU ou WebAssembly.

Qual a precisão — posso publicar o resultado diretamente?

Trate o resultado como um rascunho rápido, não como produto final. A taxa de erro de palavras varia conforme o tamanho do modelo, ruído de fundo, sotaques, falantes sobrepostos e jargão técnico, e a versão WASM é quantizada (q8). Sempre revise e verifique antes de publicar legendas ou entregáveis — exatamente por isso a transcrição e os segmentos são editáveis e a versão corrigida é o que é exportado.

Veja também

FERRAMENTAS DE IA33

WUTOOLS