Conversor de Voz para Texto
Converta voz para texto grátis com IA. Transcreva arquivos de áudio e vídeo com marcações de tempo. 100% privado, funciona no navegador com OpenAI Whisper.
Sobre o Conversor de Voz para Texto com IA
Esta ferramenta de transcrição com IA utiliza o modelo Whisper da OpenAI para converter voz em texto com alta precisão. Diferente dos serviços em nuvem, todo o processamento acontece diretamente no seu navegador usando WebGPU/WebAssembly - seus arquivos de áudio nunca são enviados para nenhum servidor, garantindo privacidade total.
Como funciona a transcrição no navegador?
A ferramenta usa Transformers.js para executar o modelo Whisper da OpenAI diretamente no seu navegador. Na primeira vez que você transcreve, o modelo de IA é baixado e armazenado no seu navegador. Todo o processamento de áudio e transcrição acontece localmente no seu dispositivo usando sua CPU/GPU, sem enviar dados para servidores externos.
Qual tamanho de modelo devo escolher?
Existem três opções de modelo:
- Tiny (~40MB): O mais rápido para carregar e processar. Ideal para áudio claro com pouco ruído de fundo.
- Base (~75MB): Opção equilibrada com melhor precisão que o Tiny.
- Small (~250MB): Maior precisão, especialmente para áudio com sotaques ou ruído de fundo. Recomendado para transcrições importantes.
Modelos maiores oferecem melhor precisão mas requerem mais tempo de download e processamento.
Quais idiomas são suportados?
Whisper suporta mais de 99 idiomas incluindo português, inglês, espanhol, francês, alemão, chinês, japonês, coreano, árabe, hindi, russo, vietnamita e muitos outros. Você pode selecionar o idioma manualmente para melhor precisão, ou deixar a IA detectar automaticamente.
Quais formatos de áudio e vídeo são suportados?
Todos os formatos de áudio comuns são suportados: MP3, WAV, M4A, AAC, FLAC, OGG, OPUS e WebA. Arquivos de vídeo também são suportados - a faixa de áudio é automaticamente extraída de MP4, WebM, MKV, AVI, MOV e outros formatos de vídeo.
Qual a precisão da transcrição?
Whisper fornece precisão de última geração para reconhecimento automático de fala. Os melhores resultados são para:
- Gravações claras com pouco ruído de fundo
- Falantes nativos com sotaques padrão
- Áudio de um único falante
A precisão pode variar para:
- Sotaques ou dialetos fortes
- Múltiplos falantes sobrepostos
- Qualidade de áudio ruim ou muito ruído
- Jargão técnico ou palavras incomuns
Posso obter marcações de tempo e legendas?
Sim! Ative 'Incluir marcações de tempo' para obter segmentos com tempo perfeitos para criar legendas. Você pode baixar a transcrição como arquivo SRT pronto para edição de vídeo. Ative 'Marcações de tempo por palavra' para tempos ainda mais precisos de palavras individuais.
Por que o processamento está lento no meu dispositivo?
A velocidade de transcrição depende do seu hardware. Dispositivos modernos com suporte a WebGPU (Chrome 113+) serão significativamente mais rápidos. Para melhorar o desempenho:
- Use o navegador Chrome ou Edge para aceleração WebGPU
- Feche outras abas e aplicativos
- Use o modelo Tiny para processamento mais rápido
- Computadores desktop/laptops são mais rápidos que dispositivos móveis
- Arquivos de áudio de até 10 minutos funcionam melhor
Meus dados de áudio são privados?
Absolutamente. Diferente dos serviços de transcrição em nuvem, seu áudio nunca sai do seu dispositivo. Todo o processamento de IA acontece localmente no seu navegador usando WebGPU ou WebAssembly. Nenhum áudio é enviado, armazenado ou processado em nenhum servidor. Quando você fecha a página, todos os dados são apagados da memória.
Qual é o tamanho e duração máxima de arquivo?
O tamanho máximo de arquivo é 100MB. Para desempenho ideal, recomendamos arquivos de áudio com menos de 10 minutos. Arquivos mais longos podem ser processados mas exigirão significativamente mais tempo e memória. Se você tem gravações longas, considere dividi-las em segmentos menores.