Texto a Voz
Texto a voz gratis con voces naturales e IA. Velocidad y tono ajustables, resaltado de palabras para revisar, lector accesible. Privado, offline, sin registro.
Acerca de la Herramienta de Texto a Voz
Este lector de texto a voz utiliza la Web Speech API integrada en los navegadores modernos, por lo que cada palabra se reproduce localmente en tu dispositivo. No se sube texto, no se almacena nada en un servidor y la herramienta funciona sin conexión una vez cargada la página. Elige cualquier voz que tu sistema operativo ofrezca, ajusta la velocidad, el tono y el volumen, y observa cómo se resalta la palabra actual mientras se habla. Es ideal para revisar borradores escritos, aprender pronunciación en otro idioma, crear locuciones rápidas o mejorar la accesibilidad para lectores que tienen dificultades con bloques largos de texto.
¿Cómo funciona esta herramienta de texto a voz?
La herramienta llama a la interfaz window.speechSynthesis integrada en el navegador, parte de la Web Speech API del W3C. Al pulsar Hablar, tu texto se entrega al motor de voz del sistema operativo: Microsoft Speech Platform en Windows, AVSpeechSynthesizer en macOS e iOS, Google Text-to-Speech en Android y Chromebooks, o eSpeak NG en muchas distribuciones de Linux. El motor genera el audio localmente y lo reproduce por tus altavoces. Ningún dato sale de tu dispositivo, por eso la herramienta es totalmente privada y funciona sin conexión una vez cargada la página. Las voces visibles dependen del sistema operativo, así que la lista varía entre dispositivos y configuraciones.
¿Por qué veo voces distintas en cada dispositivo?
Las voces no vienen con el sitio web, sino con tu sistema operativo, navegador y los paquetes de idiomas que tengas instalados. Windows 11 incluye Microsoft David y Zira en inglés, más una voz por idioma de pantalla. macOS añade voces de Siri y clásicas como Mónica, Diego o Paulina. Android usa Google Text-to-Speech, que puede descargar voces de alta calidad bajo demanda. Para conseguir más voces, abre los ajustes del sistema operativo, busca una opción de Voz, Acceso por voz o Pack de idiomas e instala las voces que necesites: aparecerán en este desplegable la próxima vez que recargues la página.
¿Qué hacen los controles de velocidad, tono y volumen?
Velocidad controla la rapidez con que se habla, desde 0.5x (la mitad) hasta 2.0x (el doble). Un valor de 1.0 corresponde al ritmo natural de la voz, alrededor de 150 a 180 palabras por minuto en español. Tono cambia la frecuencia fundamental: 0 suena grave y áspero, 1.0 es el tono natural y 2.0 es muy agudo, casi de dibujos animados. Volumen ajusta la reproducción de silencio (0) al máximo (1.0); es independiente del volumen del sistema, así que conviene configurarlos en conjunto. Muchos oyentes prefieren 1.1x con un tono ligeramente bajo para lecturas largas, porque cansa menos el oído.
¿Puedo guardar la locución como un archivo MP3 o WAV?
No directamente. La Web Speech API solo permite reproducir; no devuelve la forma de onda en bruto a JavaScript, por lo que la página no puede codificarla en un archivo de audio. Es una restricción intencional de los navegadores para proteger las voces propietarias del sistema operativo. Para capturar la voz, usa la grabación de pantalla integrada (Barra de juegos en Windows, QuickTime Player en macOS, captura de pantalla en Chromebook) o un cable de audio virtual con cualquier grabadora gratuita mientras la herramienta reproduce. Si necesitas exportación automática, recurre a un servicio en la nube como Amazon Polly, Google Cloud TTS o Microsoft Azure Speech: devuelven MP3 o WAV pero son de pago.
¿Por qué la voz se corta o se detiene de repente en Chrome?
Chrome tiene un límite conocido de unos 15 segundos por enunciado y puede silenciar pasajes largos. La herramienta mitiga este problema enviando cada petición Hablar como un único enunciado y llamando a resume() justo después de speak(), lo que mantiene el motor activo en versiones recientes de Chrome. Si aún así se trunca, divide los párrafos largos en bloques más cortos y pulsa Hablar por cada bloque, o cambia a Microsoft Edge que usa voces Azure de alta calidad sin ese límite. Firefox y Safari manejan textos largos de forma fiable. Pausar y reanudar muchas veces puede hacer que Chrome pierda la cola; la recuperación más segura es pulsar Detener y luego Hablar de nuevo.

¿Cómo controlo la pronunciación y las pausas?
La mayoría de los navegadores no aceptan SSML, así que el ritmo se controla con puntuación. Las comas producen pausas cortas de unos 150 ms, los punto y coma o guiones largos generan pausas medias, los puntos y los signos de interrogación añaden una parada más larga con entonación. Para forzar un silencio de varios segundos, escribe puntos suspensivos o una línea de puntos en una línea aparte. Para corregir pronunciación, reescribe fonéticamente las palabras difíciles: por ejemplo, escribir 'Vietnam' como 'vi-et-nam' o 'IPv6' como 'I P V seis'. Las siglas en mayúsculas suelen leerse letra a letra, mientras que las palabras con mayúsculas y minúsculas mixtas se leen como una sola palabra.
¿Esta herramienta es realmente privada?
Sí. Todo el procesamiento ocurre dentro de la pestaña del navegador usando el motor de voz local de tu sistema operativo. El texto que escribes nunca sale de tu equipo: no se envía a nuestro servidor, ni a plataformas de analítica, ni a proveedores externos de TTS. Puedes comprobarlo abriendo las herramientas de desarrollo del navegador, yendo a la pestaña Red y pulsando Hablar: no se realizan peticiones salientes. La única excepción son las voces 'natural' de Chromebook, que Google entrega por la red y que llevan claramente 'natural' en el nombre; si te preocupa la privacidad, deselecciónalas y elige una voz marcada como local o predeterminada del sistema.
¿Cuál es la mejor configuración para grabar una locución?
Para una narración provisional limpia, empieza con una voz natural o neural: en Edge busca las voces de Microsoft 'Online (Natural)', en macOS las voces de Siri y en Android las voces de red de Google, todas mucho más humanas que las antiguas voces de eSpeak. Ajusta la velocidad entre 0,95x y 1,1x: un poco por debajo de 1,0 lee de forma más pausada y es más fácil de editar, mientras que algo por encima mantiene la energía en vídeos explicativos. Deja el tono en 1,0 salvo que quieras un personaje más grave o más brillante, y pon el volumen al 100% para que tu grabadora capte la señal más fuerte; luego ajustas niveles. Como la Web Speech API no exporta audio directamente, dirige la reproducción a la grabadora del sistema: en Windows usa la Barra de juegos o un cable de audio virtual hacia Audacity, en macOS graba el audio del sistema con QuickTime. Cuida la puntuación —las comas y los puntos controlan tu ritmo y tus respiraciones— y usa el resaltado de palabras en vivo para seguir el texto y detectar términos mal pronunciados antes de grabar.
¿Cómo leo documentos muy largos sin que el audio se corte?
Deja activado el interruptor 'Dividir texto largo automáticamente' (viene activado por defecto). En lugar de enviar todo el documento como una sola petición —que Chromium detiene en silencio tras unos 15 segundos—, la herramienta divide el texto en fragmentos del tamaño de una frase usando el segmentador de frases del navegador y los reproduce uno tras otro, reaplicando tu voz, velocidad, tono y volumen a cada fragmento. Las frases muy largas se cortan además en la coma o el espacio más cercano para que ningún fragmento alcance el límite del motor. La barra de progreso y el resaltado dentro del texto se basan en la posición real que informa el motor de voz, no en una estimación por reloj, así que se mantienen precisos a cualquier velocidad, voz o idioma —incluidas las voces no inglesas donde contar palabras no es fiable—. Así, un artículo de 5.000 caracteres, un capítulo o un guion completo se leen de principio a fin en Chrome, Edge, Firefox y Safari sin tener que pulsar párrafo por párrafo. Si alguna vez necesitas el comportamiento clásico de un solo enunciado, basta con desactivar el interruptor.
¿Quién se beneficia más del texto a voz?
Los redactores la usan para revisar borradores, porque el oído capta frases torpes y palabras omitidas que la vista pasa por alto. Los estudiantes de idiomas la usan para escuchar pronunciaciones nativas de listas de vocabulario. Personas con dislexia, TDAH o baja visión la emplean como herramienta de lectura asistida. Podcasters y youtubers crean locuciones rápidas como narración provisional. Los docentes convierten apuntes en versiones de audio para mejorar la accesibilidad. Los desarrolladores prueban interfaces con salida similar a lectores de pantalla. Conductores y viajeros transforman artículos en audio manos libres. La herramienta es deliberadamente ligera y gratuita para que cualquier persona —incluida la que tiene conexión lenta o hardware antiguo— pueda usarla sin registro, sin pago y sin instalar nada.
