Generador de Subtítulos Automático

Subtítulos con IA en tu navegador: video a SRT y WebVTT, marcas de tiempo por palabra, 99 idiomas, control de CPS y longitud de línea. Privado, offline, sin subir.

Seleccionar Video

Arrastra y suelta el video aquí o haz clic para buscar

MP4, WebM, MOV, MKV, AVI, M4V y más (máx 200MB)

Information

¿Tienes comentarios? Reporta errores, sugiere funciones o comparte tus ideas — leemos todos

Acerca del Generador de Subtítulos Automático

Transcribir manualmente un video de 30 minutos a subtítulos le toma a un subtitulador entrenado unos 90 minutos; las auto-captions de YouTube llegan pero requieren subida no listada y refinamiento solo en inglés; Rev cobra $1.50/minuto y Otter limita la capa gratis a 300 minutos/mes. Esta herramienta ejecuta Whisper de OpenAI (el mismo modelo multilingüe que usan servicios profesionales de transcripción) completamente en tu navegador via WebAssembly: tu video nunca sale de tu dispositivo, sin cuota, sin suscripción. Extrae audio con ffmpeg.wasm, lo pasa a Whisper para voz-a-texto en 99 idiomas con timestamps al milisegundo, luego formatea como SRT estándar (soporte universal en reproductores) o WebVTT (nativo HTML5/YouTube). Crítico para metraje confidencial, entrevistas bajo NDA, o contenido legal/médico.

¿Cómo funciona?

La herramienta extrae el audio de tu video, luego usa el modelo Whisper de OpenAI (ejecutándose localmente en tu navegador via WebAssembly) para transcribir el habla a texto con marcas de tiempo. Finalmente, formatea la transcripción en archivos de subtítulos estándar SRT o VTT.

¿Qué formatos de video son compatibles?

Se soportan MP4, WebM, MOV, MKV, AVI, M4V, WMV, FLV, 3GP, OGV y MPEG/MPG — ffmpeg.wasm los demultiplexa todos para extraer la pista de audio. El tamaño máximo es 200MB, lo que mantiene el audio decodificado cómodamente dentro del límite de memoria WebAssembly del navegador (los archivos 4K largos pueden superarlo).

¿Qué modelo IA debería elegir?

Tiny es el más rápido y funciona bien para habla clara. Base ofrece un buen equilibrio de velocidad y precisión. Small es el más preciso pero más lento y requiere más memoria. Comienza con Tiny para probar.

¿Cuál es la diferencia entre SRT y VTT?

SRT (SubRip) es el formato más ampliamente soportado, compatible con la mayoría de reproductores y plataformas. VTT (WebVTT) es el estándar web para video HTML5 y el formato que YouTube prefiere; la especificación también permite ajustes de cue y estilos ::cue, aunque esta herramienta emite cues planos sin estilo que puedes estilizar luego en tu reproductor o con CSS. También hay una opción TXT en texto plano que exporta solo la transcripción sin códigos de tiempo. Los tres comparten el mismo texto ajustado; solo SRT y VTT llevan el tiempo.

¿Mi video se sube a un servidor?

No. Todo el procesamiento ocurre localmente en tu navegador usando WebAssembly. Tu video nunca sale de tu dispositivo, asegurando privacidad completa.

¿Qué tan preciso es Whisper comparado con transcripción humana?

Whisper Small alcanza aproximadamente 95-97% de precisión de palabra en audio limpio en inglés, comparable a un transcriptor humano económico. Tiny baja a 85-90%: bien para borradores pero querrás editar. La precisión cae con: acentos fuertes, varios hablantes superpuestos, música/ruido de fondo, jerga técnica, y micrófonos silenciosos/distantes. Para calidad de broadcast (99%+), usa Whisper como primera pasada y luego edición humana, que aún ahorra ~70% del tiempo vs escribir desde cero.

Generador de Subtítulos Automático — Subtítulos con IA en tu navegador: video a SRT y WebVTT, marcas de tiempo por palabra, 99 idiomas, control de CPS y long — **Generador de Subtítulos Automático**

¿Por qué es tan lento en videos largos?

Whisper procesa audio a aproximadamente 0.5-3x velocidad de tiempo real dependiendo de tu CPU y el modelo elegido. Un video de 10 minutos puede tardar 3-8 minutos con Tiny en un laptop moderno, o 15-30 minutos con Small. No hay aceleración GPU en Whisper basado en navegador todavía (el soporte WebGPU de Apple aún madura). Para videos de 30+ minutos, espera dejar la pestaña abierta un rato. El modelo se descarga una vez y se cachea, así que ejecuciones posteriores omiten ese paso.

¿Puede manejar varios hablantes o diarización de hablantes?

Whisper por sí mismo no hace diarización (etiquetar 'Hablante 1' vs 'Hablante 2'). Transcribe habla secuencialmente sin identificar quién habla. Para reuniones, podcasts o entrevistas que requieren etiquetas de hablante, necesitarías un paso de post-procesamiento usando pyannote o AWS Transcribe. La salida SRT/VTT aquí es un flujo continuo de líneas con timestamp: perfecto para contenido de presentador único como conferencias, tutoriales, vlogs, documentales narrados.

¿Qué tan bien maneja idiomas no-inglés?

Whisper soporta 99 idiomas con precisión variable. Nivel superior (95%+ en Small): inglés, español, francés, alemán, italiano, portugués, japonés. Bueno (85-92%): chino, coreano, ruso, árabe, hindi, vietnamita. Configura 'Idioma' a tu idioma específico para mejores resultados: 'Detección automática' añade una pasada probabilística inicial que ocasionalmente clasifica mal (especialmente con clips muy cortos o cambio de código). Para contenido multilingüe, ejecuta pasadas separadas por sección de idioma.

¿Los subtítulos se sincronizarán correctamente al incrustarlos en mi video?

Sí: SRT y VTT usan timestamps absolutos (HH:MM:SS,mmm) medidos desde el inicio de tu audio. Suelta el SRT en HandBrake, DaVinci Resolve, Premiere, FFmpeg, o cualquier reproductor de video y el timing será exacto al milisegundo. Para incrustar subtítulos abiertos con FFmpeg usa el filtro subtitles: ffmpeg -i in.mp4 -vf "subtitles=subs.srt" out.mp4. Para multiplexarlos como subtítulos cerrados blandos en un MP4 usa -c:s mov_text (-c:s webvtt para WebM/HLS). Una trampa: los timestamps son segundos de reloj, así que en líneas de tiempo drop-frame 29.97/59.94 el timecode SMPTE y el reloj del SRT se desfasan en duraciones largas — alinea la tasa de cuadros de tu NLE con la fuente antes de confiar en inicios de cue exactos al cuadro.

¿Cómo mantengo los subtítulos compatibles con broadcast (caracteres por línea / CPS)?

Whisper crudo vuelca una frase entera en un solo cue, lo que el QC rechazará. Las guías de la BBC, Netflix y EBU limitan cada línea a unos 37-42 caracteres, permiten como máximo dos líneas, y mantienen la velocidad de lectura bajo unos 17-20 caracteres por segundo (CPS). Configura 'Máximo de Caracteres por Línea' (predeterminado 42) y la herramienta ajusta cada chunk largo de Whisper en un cue compatible de una o dos líneas en los límites de palabra — sin cortes a mitad de palabra. También limita el final de cada cue a la duración real del medio para que ningún subtítulo pase del EOF, lo que validadores estrictos y algunos reproductores rechazan. Para CEA-608/708 (las captions de línea 21 incrustadas en flujos broadcast) aún necesitas un codificador como CCExtractor, pero SRT/VTT es el formato de intercambio que ingiere toda tubería de captions.

¿Cómo resincronizo los subtítulos tras recortar el video?

Usa el campo 'Desfase Inicial'. Después de que tu editor recorte, por ejemplo, 5 segundos del inicio de la línea de tiempo, pon el desfase en -5 y regenera (o +3 si añadiste un cartel de intro de 3 segundos). Cada timestamp se desplaza esa cantidad y se limita a 0 para que nada quede negativo, y la cola se limita a la duración del medio. Este es el desplazamiento masivo que de otro modo harías en Aegisub o Subtitle Edit, hecho dentro de la herramienta antes de exportar — sin viaje de ida y vuelta a un editor de subtítulos aparte.

Ver también

HERRAMIENTAS DE VIDEO36

WUTOOLS