TelegramÚnete al grupo de Telegram para solicitar herramientas, reportar errores y recibir actualizaciones@WuToolsCommunity

Convertidor de Voz a Texto

Convierte voz a texto gratis con IA. Transcribe archivos de audio y video con marcas de tiempo. 100% privado, funciona en el navegador con OpenAI Whisper.

AI Transcripción con IA usando OpenAI Whisper. Todo el procesamiento ocurre en tu navegador - tu audio nunca sale de tu dispositivo.
Detectando...
Upload
Arrastra y suelta un archivo de audio o video aquí
Soporta MP3, WAV, M4A, MP4, WebM y más

Acerca del Convertidor de Voz a Texto con IA

Esta herramienta de transcripción con IA utiliza el modelo Whisper de OpenAI para convertir voz a texto con alta precisión. A diferencia de los servicios en la nube, todo el procesamiento ocurre directamente en tu navegador usando WebGPU/WebAssembly - tus archivos de audio nunca se suben a ningún servidor, garantizando privacidad total.

¿Cómo funciona la transcripción en el navegador?

La herramienta usa Transformers.js para ejecutar el modelo Whisper de OpenAI directamente en tu navegador. La primera vez que transcribes, el modelo de IA se descarga y se guarda en tu navegador. Todo el procesamiento de audio y transcripción ocurre localmente en tu dispositivo usando tu CPU/GPU, sin enviar datos a servidores externos.

¿Qué tamaño de modelo debo elegir?

Hay tres opciones de modelo:
- Tiny (~40MB): El más rápido de cargar y procesar. Ideal para audio claro con poco ruido de fondo.
- Base (~75MB): Opción equilibrada con mejor precisión que Tiny.
- Small (~250MB): Mayor precisión, especialmente para audio con acentos o ruido de fondo. Recomendado para transcripciones importantes.

Los modelos más grandes ofrecen mejor precisión pero requieren más tiempo de descarga y procesamiento.

¿Qué idiomas son compatibles?

Whisper soporta más de 99 idiomas incluyendo español, inglés, francés, alemán, chino, japonés, coreano, árabe, hindi, portugués, ruso, vietnamita y muchos más. Puedes seleccionar el idioma manualmente para mejor precisión, o dejar que la IA lo detecte automáticamente.

¿Qué formatos de audio y video son compatibles?

Todos los formatos de audio comunes son compatibles: MP3, WAV, M4A, AAC, FLAC, OGG, OPUS y WebA. Los archivos de video también son compatibles - la pista de audio se extrae automáticamente de MP4, WebM, MKV, AVI, MOV y otros formatos de video.

¿Qué tan precisa es la transcripción?

Whisper proporciona precisión de última generación para reconocimiento automático de voz. Los mejores resultados son para:
- Grabaciones claras con poco ruido de fondo
- Hablantes nativos con acentos estándar
- Audio de un solo hablante

La precisión puede variar para:
- Acentos o dialectos marcados
- Múltiples hablantes superpuestos
- Calidad de audio deficiente o mucho ruido
- Jerga técnica o palabras poco comunes

¿Puedo obtener marcas de tiempo y subtítulos?

¡Sí! Activa 'Incluir marcas de tiempo' para obtener segmentos con tiempo perfectos para crear subtítulos. Puedes descargar la transcripción como archivo SRT listo para edición de video. Activa 'Marcas de tiempo por palabra' para tiempos aún más precisos de palabras individuales.

¿Por qué el procesamiento es lento en mi dispositivo?

La velocidad de transcripción depende de tu hardware. Los dispositivos modernos con soporte WebGPU (Chrome 113+) serán significativamente más rápidos. Para mejorar el rendimiento:
- Usa el navegador Chrome o Edge para aceleración WebGPU
- Cierra otras pestañas y aplicaciones
- Usa el modelo Tiny para procesamiento más rápido
- Las computadoras de escritorio/laptops son más rápidas que los dispositivos móviles
- Los archivos de audio de hasta 10 minutos funcionan mejor

¿Mis datos de audio son privados?

Absolutamente. A diferencia de los servicios de transcripción en la nube, tu audio nunca sale de tu dispositivo. Todo el procesamiento de IA ocurre localmente en tu navegador usando WebGPU o WebAssembly. Ningún audio se sube, almacena o procesa en ningún servidor. Cuando cierras la página, todos los datos se borran de la memoria.

¿Cuál es el tamaño y duración máxima de archivo?

El tamaño máximo de archivo es 100MB. Para un rendimiento óptimo, recomendamos archivos de audio de menos de 10 minutos. Los archivos más largos pueden procesarse pero requerirán significativamente más tiempo y memoria. Si tienes grabaciones largas, considera dividirlas en segmentos más pequeños.