Gerador de Legendas Automático

Legendas com IA no seu navegador: vídeo para SRT e WebVTT, timestamps por palavra, 99 idiomas, controle de CPS e tamanho de linha. Privado, offline, sem upload.

Selecionar Vídeo

Arraste e solte o vídeo aqui ou clique para procurar

MP4, WebM, MOV, MKV, AVI, M4V e mais (máx 200MB)

Information

Tem feedback? Reporte bugs, sugira recursos ou compartilhe suas ideias — lemos todos

Sobre o Gerador de Legendas Automático

Transcrever manualmente um vídeo de 30 minutos em legendas leva cerca de 90 minutos para um legendador treinado; as auto-captions do YouTube chegam lá mas exigem upload não-listado e refinamento apenas em inglês; o Rev cobra US$ 1,50/minuto e o Otter limita o tier grátis a 300 minutos/mês. Esta ferramenta roda o Whisper da OpenAI (o mesmo modelo multilíngue usado por serviços profissionais de transcrição) inteiramente no seu navegador via WebAssembly — seu vídeo nunca sai do seu dispositivo, sem cota, sem assinatura. Extrai áudio via ffmpeg.wasm, alimenta o Whisper para fala-para-texto em 99 idiomas com timestamps de milissegundos, depois formata como SRT padrão (suporte universal de players) ou WebVTT (nativo HTML5/YouTube). Crítico para privacidade em filmagens confidenciais, entrevistas sob NDA, ou conteúdo jurídico/médico.

Como funciona?

A ferramenta extrai o áudio do seu vídeo, então usa o modelo Whisper da OpenAI (executando localmente no seu navegador via WebAssembly) para transcrever a fala em texto com marcas de tempo. Finalmente, formata a transcrição em arquivos de legendas padrão SRT ou VTT.

Quais formatos de vídeo são suportados?

São suportados MP4, WebM, MOV, MKV, AVI, M4V, WMV, FLV, 3GP, OGV e MPEG/MPG — o ffmpeg.wasm faz o demux de todos para extrair a faixa de áudio. O tamanho máximo é 200MB, o que mantém o áudio decodificado confortavelmente dentro do limite de memória WebAssembly do navegador (arquivos 4K longos podem ultrapassá-lo).

Qual modelo IA devo escolher?

Tiny é o mais rápido e funciona bem para fala clara. Base oferece bom equilíbrio de velocidade e precisão. Small é o mais preciso mas mais lento e requer mais memória. Comece com Tiny para testar.

Qual a diferença entre SRT e VTT?

SRT (SubRip) é o formato mais amplamente suportado, compatível com a maioria dos players e plataformas. VTT (WebVTT) é o padrão web para vídeo HTML5 e o formato que o YouTube prefere; a especificação também permite cue settings e estilos ::cue, embora esta ferramenta emita cues simples sem estilo que você pode estilizar depois no seu player ou via CSS. Há também uma opção TXT em texto puro que exporta só a transcrição sem timecodes. Os três compartilham o mesmo texto quebrado; só SRT e VTT carregam a temporização.

Meu vídeo é enviado para um servidor?

Não. Todo processamento acontece localmente no seu navegador usando WebAssembly. Seu vídeo nunca sai do seu dispositivo, garantindo privacidade completa.

Quão preciso é o Whisper comparado à transcrição humana?

O Whisper Small atinge cerca de 95-97% de precisão de palavra em áudio limpo em inglês, comparável a um transcritor humano de baixo custo. Tiny cai para cerca de 85-90% — bom para rascunhos mas você vai querer editar. A precisão despenca com: sotaques fortes, múltiplos falantes sobrepostos, música/ruído de fundo, jargão técnico, e microfones silenciosos/distantes. Para qualidade de broadcast (99%+), use o Whisper como primeira passada e edite humanamente, ainda economiza cerca de 70% do tempo versus digitar do zero.

Gerador de Legendas Automático — Legendas com IA no seu navegador: vídeo para SRT e WebVTT, timestamps por palavra, 99 idiomas, controle de CPS e tamanho — **Gerador de Legendas Automático**

Por que é tão lento em vídeos longos?

O Whisper processa áudio a cerca de 0,5-3x a velocidade em tempo real dependendo do seu CPU e do modelo escolhido. Um vídeo de 10 minutos pode levar 3-8 minutos com Tiny em um laptop moderno, ou 15-30 minutos com Small. Ainda não há aceleração GPU no Whisper baseado em navegador (o suporte WebGPU da Apple ainda está amadurecendo). Para vídeos de 30+ minutos, espere deixar a aba aberta por um tempo. O modelo baixa uma vez e fica em cache, então execuções subsequentes pulam essa etapa.

Lida com múltiplos falantes ou diarização de falantes?

O Whisper em si não faz diarização (rotular 'Falante 1' vs 'Falante 2'). Ele transcreve fala sequencialmente sem identificar quem está falando. Para reuniões, podcasts ou entrevistas que exigem rótulos de falante, você precisaria de uma etapa de pós-processamento usando pyannote ou AWS Transcribe. A saída SRT/VTT aqui é um fluxo contínuo de linhas com timestamp — perfeito para conteúdo de apresentador único como aulas, tutoriais, vlogs, documentários narrados.

Quão bem lida com idiomas não-ingleses?

O Whisper suporta 99 idiomas com precisão variável. Top-tier (95%+ no Small): inglês, espanhol, francês, alemão, italiano, português, japonês. Bom (85-92%): chinês, coreano, russo, árabe, hindi, vietnamita. Defina 'Idioma' para seu idioma específico para melhores resultados — 'Detectar Automaticamente' adiciona uma primeira passada probabilística que ocasionalmente classifica errado (especialmente com clipes muito curtos ou code-switching). Para conteúdo multilíngue, execute passadas separadas por seção de idioma.

As legendas vão sincronizar corretamente quando eu queimar no meu vídeo?

Sim — tanto SRT quanto VTT usam timestamps absolutos (HH:MM:SS,mmm) medidos a partir do início do seu áudio. Solte o SRT no HandBrake, DaVinci Resolve, Premiere, FFmpeg ou qualquer player de vídeo e o timing será exato ao milissegundo. Para queimar legendas abertas com FFmpeg use o filtro subtitles: ffmpeg -i in.mp4 -vf "subtitles=subs.srt" out.mp4. Para multiplexar como closed captions suaves num MP4 use -c:s mov_text (-c:s webvtt para WebM/HLS). Uma pegadinha: timestamps são segundos de relógio, então em timelines drop-frame 29.97/59.94 o timecode SMPTE e o relógio do SRT divergem em durações longas — alinhe a taxa de quadros do seu NLE com a fonte antes de confiar em inícios de cue exatos ao quadro.

Como manter as legendas compatíveis com broadcast (caracteres por linha / CPS)?

O Whisper cru despeja uma frase inteira num único cue, o que o QC rejeita. As diretrizes de BBC, Netflix e EBU limitam cada linha a cerca de 37-42 caracteres, permitem no máximo duas linhas, e mantêm a velocidade de leitura abaixo de cerca de 17-20 caracteres por segundo (CPS). Defina 'Máximo de Caracteres por Linha' (padrão 42) e a ferramenta quebra cada chunk longo do Whisper num cue compatível de uma ou duas linhas nos limites de palavra — sem quebras no meio da palavra. Ela também limita o fim de cada cue à duração real da mídia para que nenhuma legenda passe do EOF, o que validadores rígidos e alguns players rejeitam. Para CEA-608/708 (as captions de linha 21 embutidas em streams de broadcast) você ainda precisa de um codificador como o CCExtractor, mas SRT/VTT é o formato de intercâmbio que todo pipeline de captions ingere.

Como re-sincronizo as legendas após cortar o vídeo?

Use o campo 'Deslocamento Inicial'. Depois que seu editor cortar, digamos, 5 segundos do início da timeline, defina o deslocamento como -5 e regenere (ou +3 se você adicionou um cartão de intro de 3 segundos). Cada timestamp desloca esse valor e é limitado a 0 para que nada fique negativo, e a cauda é limitada à duração da mídia. Este é o deslocamento em massa que você de outra forma faria no Aegisub ou Subtitle Edit, feito dentro da ferramenta antes mesmo de exportar — sem ida e volta a um editor de legendas separado.

Veja também

FERRAMENTAS DE VíDEO36

WUTOOLS