Generador de Subtítulos Automático
Genera subtítulos SRT/VTT desde video con OpenAI Whisper corriendo localmente en tu navegador. Sin subidas, sin registro, multi-idioma. Alternativa gratis a Rev/Otter.
Acerca del Generador de Subtítulos Automático
Transcribir manualmente un video de 30 minutos a subtítulos le toma a un subtitulador entrenado unos 90 minutos; las auto-captions de YouTube llegan pero requieren subida no listada y refinamiento solo en inglés; Rev cobra $1.50/minuto y Otter limita la capa gratis a 300 minutos/mes. Esta herramienta ejecuta Whisper de OpenAI (el mismo modelo multilingüe que usan servicios profesionales de transcripción) completamente en tu navegador via WebAssembly: tu video nunca sale de tu dispositivo, sin cuota, sin suscripción. Extrae audio con ffmpeg.wasm, lo pasa a Whisper para voz-a-texto en 99 idiomas con timestamps al milisegundo, luego formatea como SRT estándar (soporte universal en reproductores) o WebVTT (nativo HTML5/YouTube). Crítico para metraje confidencial, entrevistas bajo NDA, o contenido legal/médico.
¿Cómo funciona?
La herramienta extrae el audio de tu video, luego usa el modelo Whisper de OpenAI (ejecutándose localmente en tu navegador via WebAssembly) para transcribir el habla a texto con marcas de tiempo. Finalmente, formatea la transcripción en archivos de subtítulos estándar SRT o VTT.
¿Qué formatos de video son compatibles?
Se soportan formatos MP4, WebM y MOV. El tamaño máximo es 500MB para asegurar un procesamiento fluido en el navegador.
¿Qué modelo IA debería elegir?
Tiny es el más rápido y funciona bien para habla clara. Base ofrece un buen equilibrio de velocidad y precisión. Small es el más preciso pero más lento y requiere más memoria. Comienza con Tiny para probar.
¿Cuál es la diferencia entre SRT y VTT?
SRT (SubRip) es el formato más ampliamente soportado, compatible con la mayoría de reproductores y plataformas. VTT (WebVTT) es el estándar web, usado para video HTML5 y soporta estilos avanzados.
¿Mi video se sube a un servidor?
No. Todo el procesamiento ocurre localmente en tu navegador usando WebAssembly. Tu video nunca sale de tu dispositivo, asegurando privacidad completa.

¿Qué tan preciso es Whisper comparado con transcripción humana?
Whisper Small alcanza aproximadamente 95-97% de precisión de palabra en audio limpio en inglés, comparable a un transcriptor humano económico. Tiny baja a 85-90%: bien para borradores pero querrás editar. La precisión cae con: acentos fuertes, varios hablantes superpuestos, música/ruido de fondo, jerga técnica, y micrófonos silenciosos/distantes. Para calidad de broadcast (99%+), usa Whisper como primera pasada y luego edición humana, que aún ahorra ~70% del tiempo vs escribir desde cero.
¿Por qué es tan lento en videos largos?
Whisper procesa audio a aproximadamente 0.5-3x velocidad de tiempo real dependiendo de tu CPU y el modelo elegido. Un video de 10 minutos puede tardar 3-8 minutos con Tiny en un laptop moderno, o 15-30 minutos con Small. No hay aceleración GPU en Whisper basado en navegador todavía (el soporte WebGPU de Apple aún madura). Para videos de 30+ minutos, espera dejar la pestaña abierta un rato. El modelo se descarga una vez y se cachea, así que ejecuciones posteriores omiten ese paso.
¿Puede manejar varios hablantes o diarización de hablantes?
Whisper por sí mismo no hace diarización (etiquetar 'Hablante 1' vs 'Hablante 2'). Transcribe habla secuencialmente sin identificar quién habla. Para reuniones, podcasts o entrevistas que requieren etiquetas de hablante, necesitarías un paso de post-procesamiento usando pyannote o AWS Transcribe. La salida SRT/VTT aquí es un flujo continuo de líneas con timestamp: perfecto para contenido de presentador único como conferencias, tutoriales, vlogs, documentales narrados.
¿Qué tan bien maneja idiomas no-inglés?
Whisper soporta 99 idiomas con precisión variable. Nivel superior (95%+ en Small): inglés, español, francés, alemán, italiano, portugués, japonés. Bueno (85-92%): chino, coreano, ruso, árabe, hindi, vietnamita. Configura 'Idioma' a tu idioma específico para mejores resultados: 'Detección automática' añade una pasada probabilística inicial que ocasionalmente clasifica mal (especialmente con clips muy cortos o cambio de código). Para contenido multilingüe, ejecuta pasadas separadas por sección de idioma.
¿Los subtítulos se sincronizarán correctamente al incrustarlos en mi video?
Sí: SRT y VTT usan timestamps absolutos (HH:MM:SS,mmm) medidos desde el inicio de tu audio. Suelta el SRT en HandBrake, DaVinci Resolve, Premiere, FFmpeg, o cualquier reproductor de video y el timing será exacto al milisegundo. La única trampa: si editas el video fuente (recortas 30 segundos del inicio) después de generar subtítulos, necesitarás desplazar todos los timestamps en -30 segundos, o regenerar. Herramientas como Aegisub o Subtitle Edit manejan desplazamientos masivos de timestamp fácilmente.
