Conversor de Voz para Texto
Voz para texto com Whisper IA no navegador. Transcreva áudio e vídeo em SRT, VTT, JSON. Roda no dispositivo com WebGPU/WASM, sem enviar nada.
Sobre o Conversor de Voz para Texto com IA
Esta ferramenta de transcrição com IA utiliza o modelo Whisper da OpenAI para converter voz em texto com alta precisão. Diferente dos serviços em nuvem, todo o processamento acontece diretamente no seu navegador usando WebGPU/WebAssembly - seus arquivos de áudio nunca são enviados para nenhum servidor, garantindo privacidade total.
Como funciona a transcrição no navegador?
A ferramenta usa Transformers.js para executar o modelo Whisper da OpenAI diretamente no seu navegador. Na primeira vez que você transcreve, o modelo de IA é baixado e armazenado no seu navegador. Todo o processamento de áudio e transcrição acontece localmente no seu dispositivo usando sua CPU/GPU, sem enviar dados para servidores externos.
Qual tamanho de modelo devo escolher?
Existem três opções de modelo:
- Tiny (~40MB): O mais rápido para carregar e processar. Ideal para áudio claro com pouco ruído de fundo.
- Base (~75MB): Opção equilibrada com melhor precisão que o Tiny.
- Small (~250MB): Maior precisão, especialmente para áudio com sotaques ou ruído de fundo. Recomendado para transcrições importantes.
Modelos maiores oferecem melhor precisão mas requerem mais tempo de download e processamento.
Quais idiomas são suportados?
Whisper suporta mais de 99 idiomas incluindo português, inglês, espanhol, francês, alemão, chinês, japonês, coreano, árabe, hindi, russo, vietnamita e muitos outros. Você pode selecionar o idioma manualmente para melhor precisão, ou deixar a IA detectar automaticamente.
Quais formatos de áudio e vídeo são suportados?
Todos os formatos de áudio comuns são suportados: MP3, WAV, M4A, AAC, FLAC, OGG, OPUS e WebA. Arquivos de vídeo também são suportados - a faixa de áudio é automaticamente extraída de MP4, WebM, MKV, AVI, MOV e outros formatos de vídeo.
Qual a precisão da transcrição?
Whisper fornece precisão de última geração para reconhecimento automático de fala. Os melhores resultados são para:
- Gravações claras com pouco ruído de fundo
- Falantes nativos com sotaques padrão
- Áudio de um único falante
A precisão pode variar para:
- Sotaques ou dialetos fortes
- Múltiplos falantes sobrepostos
- Qualidade de áudio ruim ou muito ruído
- Jargão técnico ou palavras incomuns
Posso obter marcações de tempo e legendas?
Sim! Ative 'Incluir marcações de tempo' para obter segmentos com tempo perfeitos para criar legendas. Você pode baixar a transcrição como arquivo SRT pronto para edição de vídeo. Ative 'Marcações de tempo por palavra' para tempos ainda mais precisos de palavras individuais.
Por que o processamento está lento no meu dispositivo?
A velocidade de transcrição depende do seu hardware. Dispositivos modernos com suporte a WebGPU (Chrome 113+) serão significativamente mais rápidos. Para melhorar o desempenho:
- Use o navegador Chrome ou Edge para aceleração WebGPU
- Feche outras abas e aplicativos
- Use o modelo Tiny para processamento mais rápido
- Computadores desktop/laptops são mais rápidos que dispositivos móveis
- Arquivos de áudio de até 10 minutos funcionam melhor

Meus dados de áudio são privados?
Absolutamente. Diferente dos serviços de transcrição em nuvem, seu áudio nunca sai do seu dispositivo. Todo o processamento de IA acontece localmente no seu navegador usando WebGPU ou WebAssembly. Nenhum áudio é enviado, armazenado ou processado em nenhum servidor. Quando você fecha a página, todos os dados são apagados da memória.
Qual é o tamanho e duração máxima de arquivo?
O tamanho máximo de arquivo é 100MB. Para desempenho ideal, recomendamos arquivos de áudio com menos de 10 minutos. Arquivos mais longos podem ser processados mas exigirão significativamente mais tempo e memória. Se você tem gravações longas, considere dividi-las em segmentos menores.
Exatamente qual modelo e pesos isto executa?
Executa o modelo Whisper da OpenAI via Transformers.js usando os pesos abertos da ONNX-community: onnx-community/whisper-tiny, whisper-base e whisper-small. No WebGPU o modelo roda em fp32 para máxima precisão; no WebAssembly (CPU) roda em q8 (quantizado em 8 bits) para carregar e funcionar em dispositivos menos potentes. A versão q8 troca um pouco de precisão por velocidade e memória, por isso um modelo maior ajuda com áudio ruidoso ou com sotaques.
Posso editar a transcrição antes de exportar?
Sim. A caixa de transcrição e cada segmento com marcação de tempo são totalmente editáveis. Corrija nomes, jargões e pontuação diretamente, e cada exportação — TXT, SRT, VTT, JSON, Markdown e CSV, além do download de segmentos — refletirá suas edições em vez do resultado original do modelo. Editar o texto atualiza as exportações de texto completo; editar um segmento atualiza aquela legenda e ressincroniza a transcrição completa.
Quais formatos de exportação e esquema de segmentos existem?
Seis formatos: TXT (texto puro), SRT e WebVTT (legendas com marcação de tempo), Markdown (texto mais lista de segmentos com tempo), CSV (índice, start_seconds, end_seconds, text) e JSON. O esquema JSON é { language, text, segments: [{ start, end, text }], words: [{ start, end, text }] | null, exported_at, tool }. As marcações por palavra preenchem o array 'words' do JSON e ficam separadas da lista de segmentos por frase para que SRT/VTT permaneçam legíveis.
Funciona offline e o modelo fica em cache?
A primeira transcrição baixa uma vez o modelo Whisper escolhido; o navegador o armazena em cache (cache HTTP / Cache Storage). Depois, a transcrição funciona sem baixar o modelo novamente e continua rodando inteiramente no seu dispositivo. Nada — nem seu áudio nem sua transcrição — é enviado para um servidor; toda a inferência acontece localmente no navegador com WebGPU ou WebAssembly.
Qual a precisão — posso publicar o resultado diretamente?
Trate o resultado como um rascunho rápido, não como produto final. A taxa de erro de palavras varia conforme o tamanho do modelo, ruído de fundo, sotaques, falantes sobrepostos e jargão técnico, e a versão WASM é quantizada (q8). Sempre revise e verifique antes de publicar legendas ou entregáveis — exatamente por isso a transcrição e os segmentos são editáveis e a versão corrigida é o que é exportado.
