Audio

Conversor

Texto

Convertidor de Voz a Texto

Voz a texto con Whisper IA en tu navegador. Transcribe audio y video a SRT, VTT, JSON. Se ejecuta en tu dispositivo con WebGPU/WASM, sin subir nada.

Transcripción con IA usando OpenAI Whisper. Todo el procesamiento ocurre en tu navegador - tu audio nunca sale de tu dispositivo.

Detectando...

Seleccionar Archivo de Audio o Video

Arrastra y suelta un archivo de audio o video aquí

Soporta MP3, WAV, M4A, MP4, WebM y más

Transcripción

Select

Copy

Download text

La transcripción es editable — tus correcciones se incluyen en cada exportación (TXT, SRT, VTT, JSON, MD, CSV).

Segmentos con Marcas de Tiempo

Copy

Download text

Haz clic en el texto de cualquier segmento para editarlo. Las ediciones actualizan la transcripción y todos los subtítulos exportados.

¿Tienes comentarios? Reporta errores, sugiere funciones o comparte tus ideas — leemos todos

Acerca del Convertidor de Voz a Texto con IA

Esta herramienta de transcripción con IA utiliza el modelo Whisper de OpenAI para convertir voz a texto con alta precisión. A diferencia de los servicios en la nube, todo el procesamiento ocurre directamente en tu navegador usando WebGPU/WebAssembly - tus archivos de audio nunca se suben a ningún servidor, garantizando privacidad total.

¿Cómo funciona la transcripción en el navegador?

La herramienta usa Transformers.js para ejecutar el modelo Whisper de OpenAI directamente en tu navegador. La primera vez que transcribes, el modelo de IA se descarga y se guarda en tu navegador. Todo el procesamiento de audio y transcripción ocurre localmente en tu dispositivo usando tu CPU/GPU, sin enviar datos a servidores externos.

¿Qué tamaño de modelo debo elegir?

Hay tres opciones de modelo:
- Tiny (~40MB): El más rápido de cargar y procesar. Ideal para audio claro con poco ruido de fondo.
- Base (~75MB): Opción equilibrada con mejor precisión que Tiny.
- Small (~250MB): Mayor precisión, especialmente para audio con acentos o ruido de fondo. Recomendado para transcripciones importantes.

Los modelos más grandes ofrecen mejor precisión pero requieren más tiempo de descarga y procesamiento.

¿Qué idiomas son compatibles?

Whisper soporta más de 99 idiomas incluyendo español, inglés, francés, alemán, chino, japonés, coreano, árabe, hindi, portugués, ruso, vietnamita y muchos más. Puedes seleccionar el idioma manualmente para mejor precisión, o dejar que la IA lo detecte automáticamente.

¿Qué formatos de audio y video son compatibles?

Todos los formatos de audio comunes son compatibles: MP3, WAV, M4A, AAC, FLAC, OGG, OPUS y WebA. Los archivos de video también son compatibles - la pista de audio se extrae automáticamente de MP4, WebM, MKV, AVI, MOV y otros formatos de video.

¿Qué tan precisa es la transcripción?

Whisper proporciona precisión de última generación para reconocimiento automático de voz. Los mejores resultados son para:
- Grabaciones claras con poco ruido de fondo
- Hablantes nativos con acentos estándar
- Audio de un solo hablante

La precisión puede variar para:
- Acentos o dialectos marcados
- Múltiples hablantes superpuestos
- Calidad de audio deficiente o mucho ruido
- Jerga técnica o palabras poco comunes

¿Puedo obtener marcas de tiempo y subtítulos?

¡Sí! Activa 'Incluir marcas de tiempo' para obtener segmentos con tiempo perfectos para crear subtítulos. Puedes descargar la transcripción como archivo SRT listo para edición de video. Activa 'Marcas de tiempo por palabra' para tiempos aún más precisos de palabras individuales.

¿Por qué el procesamiento es lento en mi dispositivo?

La velocidad de transcripción depende de tu hardware. Los dispositivos modernos con soporte WebGPU (Chrome 113+) serán significativamente más rápidos. Para mejorar el rendimiento:
- Usa el navegador Chrome o Edge para aceleración WebGPU
- Cierra otras pestañas y aplicaciones
- Usa el modelo Tiny para procesamiento más rápido
- Las computadoras de escritorio/laptops son más rápidas que los dispositivos móviles
- Los archivos de audio de hasta 10 minutos funcionan mejor

Convertidor de Voz a Texto — Voz a texto con Whisper IA en tu navegador. Transcribe audio y video a SRT, VTT, JSON. Se ejecuta en tu dispositivo con — **Convertidor de Voz a Texto**

¿Mis datos de audio son privados?

Absolutamente. A diferencia de los servicios de transcripción en la nube, tu audio nunca sale de tu dispositivo. Todo el procesamiento de IA ocurre localmente en tu navegador usando WebGPU o WebAssembly. Ningún audio se sube, almacena o procesa en ningún servidor. Cuando cierras la página, todos los datos se borran de la memoria.

¿Cuál es el tamaño y duración máxima de archivo?

El tamaño máximo de archivo es 100MB. Para un rendimiento óptimo, recomendamos archivos de audio de menos de 10 minutos. Los archivos más largos pueden procesarse pero requerirán significativamente más tiempo y memoria. Si tienes grabaciones largas, considera dividirlas en segmentos más pequeños.

¿Qué modelo y pesos exactos utiliza?

Ejecuta el modelo Whisper de OpenAI mediante Transformers.js usando los pesos abiertos de ONNX-community: onnx-community/whisper-tiny, whisper-base y whisper-small. En WebGPU el modelo se ejecuta en fp32 para mayor precisión; en WebAssembly (CPU) se ejecuta en q8 (cuantizado a 8 bits) para cargar y funcionar en dispositivos menos potentes. La versión q8 sacrifica algo de precisión por velocidad y memoria, por eso un modelo más grande ayuda con audio ruidoso o con acentos.

¿Puedo editar la transcripción antes de exportar?

Sí. El cuadro de transcripción y cada segmento con marca de tiempo son totalmente editables. Corrige nombres, jerga y puntuación directamente, y cada exportación — TXT, SRT, VTT, JSON, Markdown y CSV, además de la descarga de segmentos — reflejará tus ediciones en lugar del resultado original del modelo. Editar el texto actualiza las exportaciones de texto completo; editar un segmento actualiza ese subtítulo y vuelve a sincronizar la transcripción completa.

¿Qué formatos de exportación y esquema de segmentos hay?

Seis formatos: TXT (texto plano), SRT y WebVTT (subtítulos con marcas de tiempo), Markdown (texto más lista de segmentos con tiempo), CSV (índice, start_seconds, end_seconds, text) y JSON. El esquema JSON es { language, text, segments: [{ start, end, text }], words: [{ start, end, text }] | null, exported_at, tool }. Las marcas de tiempo por palabra llenan el arreglo 'words' del JSON y se mantienen separadas de los segmentos por frase para que SRT/VTT sigan siendo legibles.

¿Funciona sin conexión y se almacena el modelo en caché?

La primera transcripción descarga una vez el modelo Whisper elegido; el navegador lo guarda en caché (caché HTTP / Cache Storage). Después, la transcripción funciona sin volver a descargar el modelo y sigue ejecutándose totalmente en tu dispositivo. Nada — ni tu audio ni tu transcripción — se sube a un servidor; toda la inferencia ocurre localmente en tu navegador con WebGPU o WebAssembly.

¿Qué tan precisa es? ¿Puedo publicar el resultado directamente?

Trata el resultado como un primer borrador rápido, no como un producto terminado. La tasa de error de palabras varía según el tamaño del modelo, el ruido de fondo, los acentos, los hablantes superpuestos y la jerga técnica, y la versión WASM está cuantizada (q8). Revisa y verifica siempre antes de publicar subtítulos o entregables — justamente por eso la transcripción y los segmentos son editables y se exporta la versión corregida.

Ver también

HERRAMIENTAS IA33

WUTOOLS