Gerador de Legendas Automático
Gere legendas SRT/VTT de vídeo com OpenAI Whisper rodando localmente no seu navegador. Sem upload, sem cadastro, multi-idioma. Alternativa grátis ao Rev/Otter.
Sobre o Gerador de Legendas Automático
Transcrever manualmente um vídeo de 30 minutos em legendas leva cerca de 90 minutos para um legendador treinado; as auto-captions do YouTube chegam lá mas exigem upload não-listado e refinamento apenas em inglês; o Rev cobra US$ 1,50/minuto e o Otter limita o tier grátis a 300 minutos/mês. Esta ferramenta roda o Whisper da OpenAI (o mesmo modelo multilíngue usado por serviços profissionais de transcrição) inteiramente no seu navegador via WebAssembly — seu vídeo nunca sai do seu dispositivo, sem cota, sem assinatura. Extrai áudio via ffmpeg.wasm, alimenta o Whisper para fala-para-texto em 99 idiomas com timestamps de milissegundos, depois formata como SRT padrão (suporte universal de players) ou WebVTT (nativo HTML5/YouTube). Crítico para privacidade em filmagens confidenciais, entrevistas sob NDA, ou conteúdo jurídico/médico.
Como funciona?
A ferramenta extrai o áudio do seu vídeo, então usa o modelo Whisper da OpenAI (executando localmente no seu navegador via WebAssembly) para transcrever a fala em texto com marcas de tempo. Finalmente, formata a transcrição em arquivos de legendas padrão SRT ou VTT.
Quais formatos de vídeo são suportados?
São suportados formatos MP4, WebM e MOV. O tamanho máximo é 500MB para garantir processamento suave no navegador.
Qual modelo IA devo escolher?
Tiny é o mais rápido e funciona bem para fala clara. Base oferece bom equilíbrio de velocidade e precisão. Small é o mais preciso mas mais lento e requer mais memória. Comece com Tiny para testar.
Qual a diferença entre SRT e VTT?
SRT (SubRip) é o formato mais amplamente suportado, compatível com a maioria dos players e plataformas. VTT (WebVTT) é o padrão web, usado para vídeo HTML5 e suporta estilos avançados.
Meu vídeo é enviado para um servidor?
Não. Todo processamento acontece localmente no seu navegador usando WebAssembly. Seu vídeo nunca sai do seu dispositivo, garantindo privacidade completa.

Quão preciso é o Whisper comparado à transcrição humana?
O Whisper Small atinge cerca de 95-97% de precisão de palavra em áudio limpo em inglês, comparável a um transcritor humano de baixo custo. Tiny cai para cerca de 85-90% — bom para rascunhos mas você vai querer editar. A precisão despenca com: sotaques fortes, múltiplos falantes sobrepostos, música/ruído de fundo, jargão técnico, e microfones silenciosos/distantes. Para qualidade de broadcast (99%+), use o Whisper como primeira passada e edite humanamente, ainda economiza cerca de 70% do tempo versus digitar do zero.
Por que é tão lento em vídeos longos?
O Whisper processa áudio a cerca de 0,5-3x a velocidade em tempo real dependendo do seu CPU e do modelo escolhido. Um vídeo de 10 minutos pode levar 3-8 minutos com Tiny em um laptop moderno, ou 15-30 minutos com Small. Ainda não há aceleração GPU no Whisper baseado em navegador (o suporte WebGPU da Apple ainda está amadurecendo). Para vídeos de 30+ minutos, espere deixar a aba aberta por um tempo. O modelo baixa uma vez e fica em cache, então execuções subsequentes pulam essa etapa.
Lida com múltiplos falantes ou diarização de falantes?
O Whisper em si não faz diarização (rotular 'Falante 1' vs 'Falante 2'). Ele transcreve fala sequencialmente sem identificar quem está falando. Para reuniões, podcasts ou entrevistas que exigem rótulos de falante, você precisaria de uma etapa de pós-processamento usando pyannote ou AWS Transcribe. A saída SRT/VTT aqui é um fluxo contínuo de linhas com timestamp — perfeito para conteúdo de apresentador único como aulas, tutoriais, vlogs, documentários narrados.
Quão bem lida com idiomas não-ingleses?
O Whisper suporta 99 idiomas com precisão variável. Top-tier (95%+ no Small): inglês, espanhol, francês, alemão, italiano, português, japonês. Bom (85-92%): chinês, coreano, russo, árabe, hindi, vietnamita. Defina 'Idioma' para seu idioma específico para melhores resultados — 'Detectar Automaticamente' adiciona uma primeira passada probabilística que ocasionalmente classifica errado (especialmente com clipes muito curtos ou code-switching). Para conteúdo multilíngue, execute passadas separadas por seção de idioma.
As legendas vão sincronizar corretamente quando eu queimar no meu vídeo?
Sim — tanto SRT quanto VTT usam timestamps absolutos (HH:MM:SS,mmm) medidos a partir do início do seu áudio. Solte o SRT no HandBrake, DaVinci Resolve, Premiere, FFmpeg ou qualquer player de vídeo e o timing será exato ao milissegundo. A única pegadinha: se você editar o vídeo fonte (cortar 30 segundos do começo) depois de gerar legendas, vai precisar deslocar todos os timestamps em -30 segundos, ou regenerar. Ferramentas como Aegisub ou Subtitle Edit lidam com deslocamentos em massa de timestamp facilmente.
