Eliminador de Voces IA
Eliminador de voces gratuito con IA que usa redes neuronales profundas. Quita voces o extrae instrumentales de cualquier canción con calidad profesional.
Sobre el Eliminador de Voces IA
Este eliminador de voces con IA separa una canción estéreo en dos stems — voces (acapella) e instrumental (karaoke) — usando una red neuronal profunda que corre enteramente dentro de tu navegador. La misma familia de modelos de separación de fuentes alimenta productos comerciales como LALAL.AI, Moises, Vocalremover.org y Audio Shake; el baseline open source en el que se basa esta herramienta desciende de Spleeter de Deezer (Hennequin et al., 2019) y Demucs de Facebook AI Research (Défossez et al., 2019). Ningún audio se sube — el modelo se ejecuta localmente en tu CPU, GPU (WebGL) o GPU moderna (WebGPU). Una vez descargado y cacheado el archivo del modelo (~68 MB), la herramienta funciona offline.
La separación con IA es una mejora real frente al viejo truco de cancelación de fase. La cancelación de fase solo funciona cuando la voz está exactamente al centro de una mezcla estéreo, invirtiendo un canal y sumándolo al otro. Cancela el centro y se lleva la voz — pero también cancela cada elemento centrado (bombo, bajo, caja), y la mayoría de las grabaciones modernas tienen reverb, doblajes o paneo ligeramente fuera del centro, así que el truco falla. Las redes modernas de separación de fuentes en cambio aprenden la firma espectral de las voces a partir de miles de ejemplos emparejados y pueden levantar el canto de una mezcla incluso con reverb, dobles, armonías, autotune o paneo.
Aplicaciones útiles: hacer pistas de karaoke / minus-one, aislar acapellas para remixar, samplear voces para producción musical, transcribir letras enterradas en mezclas densas, limpiar diálogo en pódcast y vídeo, aprender idiomas escuchando la letra de una canción aislada, y estudio académico de interpretación vocal. Especialmente útil para flamenco, salsa, reggaetón, bachata y música regional latinoamericana donde la voz es central. La herramienta acepta audio (MP3, WAV, FLAC, OGG, M4A, AAC, OPUS) y vídeo (MP4, MKV, MOV, WebM, AVI) — para vídeo se extrae automáticamente la pista de audio mediante la Web Audio API. Salida en WAV a la frecuencia de muestreo original; convierte a MP3 después si necesitas archivos más pequeños.
Sobre derechos de autor: la herramienta es gratuita, pero el audio que procesas no lo es. Separar una canción con derechos de autor no te otorga el derecho a publicar la voz o el instrumental resultante comercialmente, distribuirlo, venderlo o subirlo a un servicio. Úsala para canciones que escribiste, canciones para las que tienes permiso explícito de remix, o escenarios genuinos de uso justo (transcripción, educación, investigación, parodia según tu jurisdicción). La normativa española y latinoamericana, la directiva 2019/790 de la UE y la ley de copyright estadounidense aplican a stems extraídos por IA igual que a la grabación original.
La privacidad es por diseño. Tu audio se decodifica en el navegador, la inferencia IA corre localmente en los recursos de cómputo de tu dispositivo, y los stems resultantes se codifican de vuelta a WAV en tu navegador. La página usa TensorFlow.js con WebGPU cuando está disponible; los pesos se descargan una vez por HTTPS y se cachean. No vemos, almacenamos, registramos ni compartimos tu audio.
Cómo funciona la separación
La separación de fuentes es el problema inverso de mezclar: dada una mezcla x = voces + instrumental, recuperar las dos señales componentes. El enfoque clásico de los 90 era el análisis de componentes independientes (ICA), que solo funciona cuando las fuentes son estadísticamente independientes y la mezcla es fija y lineal — ninguna premisa se cumple para la música. Los sistemas modernos de aprendizaje profundo aprenden la separación directamente de los datos: observan miles de ejemplos emparejados (mezcla, voces, instrumental) y aprenden a mapear un espectrograma de mezcla a espectrogramas por fuente.
El pipeline estándar empieza con una Transformada de Fourier de Tiempo Corto (STFT) de la entrada. Configuraciones típicas son tamaño FFT de 4096 muestras y hop de 1024 muestras (75 % de solapamiento), dando un espectrograma complejo con una columna cada ~23 ms a 44,1 kHz. El espectrograma de magnitud pasa por una U-Net — un encoder–decoder totalmente convolucional con conexiones skip — que emite dos máscaras de frecuencia suaves: una para voces, una para instrumental. Cada máscara se multiplica con el espectrograma de entrada y se le aplica STFT inversa para recuperar una señal en dominio temporal. La fase original se reutiliza; las voces reciben la misma fase que la mezcla en cada frecuencia, una pequeña aproximación pero suena bien en la práctica.
Spleeter (Hennequin, Cournou, Defossez & Moussallam, 2019, Deezer) fue un hito open source: una U-Net entrenada en 25 000 canciones que da separación 2-stem (voces/instrumental), 4-stem (voces/batería/bajo/otros) y 5-stem (añade piano). El modelo 2-stem es lo bastante pequeño para inferencia en navegador. Demucs (Défossez et al., 2019; Hybrid Demucs 2021) elevó el listón trabajando en dominio temporal con arquitectura Wave-U-Net y luego combinando ramas de forma de onda y espectrograma; estableció el estado del arte en el benchmark MUSDB18. Hybrid Transformer Demucs (HTDemucs, 2023) añadió un bloque Transformer en el cuello de botella. La serie MDX (Music Demixing Challenge, 2021–2023) en ISMIR ha sido el benchmark público.
La métrica de precisión usada en los papers de separación de fuentes es SDR (Signal-to-Distortion Ratio) en decibelios — más alto es mejor. Spleeter reporta ~6,6 dB de SDR vocal en MUSDB18; Demucs v3 reporta ~9,0 dB; HTDemucs y los ganadores del MDX-23 se agrupan en 9,5–10 dB. Como referencia, la calidad audible empieza a sentirse 'de grado comercial' en SDR > 7 dB en grabaciones de estudio limpias. Grabaciones en directo, mezclas muy densas, autotune fuerte y géneros inusuales (ópera clásica, canto difónico, algunos subgéneros de metal) puntúan notablemente por debajo del promedio del benchmark.
En esta herramienta de navegador, el búfer de audio de 4 segundos se divide en bloques solapados, cada bloque pasa por la U-Net, y las salidas de los bloques se mezclan con crossfade para que las costuras no sean audibles. La aceleración WebGPU (Chrome 113+, Edge 113+) da un throughput 5–10× mayor frente a WebGL; en un escritorio moderno una canción de 3 minutos se separa en 30–60 segundos con WebGPU y 2–3 minutos con WebGL. El fallback CPU es mucho más lento (10–15 minutos) pero siempre funciona. La salida es WAV estéreo a frecuencia de muestreo completa, igual que la entrada; no hacemos downsampling.
Precisión y qué esperar
La calidad varía marcadamente según el material fuente. Para pop, rock, R&B, hip-hop y electrónica modernas mezclados profesionalmente — voz lead limpia, mix bus separado, imagen estéreo clara — puedes esperar un instrumental limpio con como mucho un leve residuo vocal ('ghosting') en pasajes silenciosos. Los stems vocales sonarán como un acapella de alta calidad con quizás un toque de reverb de sala. Este es el rango operativo donde brillan los separadores IA y donde se midieron las puntuaciones de Spleeter / Demucs / HTDemucs.
La calidad cae en grabaciones en vivo (sangrado del público, el reverb de sala filtra energía vocal al stem instrumental), autotune fuerte (las voces con formantes desplazados confunden a la red), géneros con fuerte solapamiento entre voz y timbre instrumental (coros a-cappella de fondo, coro, canto difónico), grabaciones muy antiguas o de baja fidelidad (mono, ancho de banda de radio AM, crepitación de vinilo) y pistas donde los instrumentos imitan el rango de frecuencia de la voz humana (saxofón, guitarra lead distorsionada, samples hablados). Las grabaciones de bossa nova y MPB suelen funcionar bien porque la voz se mezcla prominente y clara; samba y pagode con percusión densa y muchas voces de fondo son más difíciles.
Modos de fallo que oirás: sangrado vocal en el instrumental durante sibilantes (sonidos 's' / 't', que abarcan un rango amplio de frecuencias), golpes de batería clasificados erróneamente como transitorios vocales, artefactos de fase o 'acuosos' en notas largas sostenidas, y ancho estéreo reducido en el instrumental porque la red a veces pliega información de paneo ligero en la máscara vocal. Ninguno es un bug de la herramienta — son límites inherentes de la separación de 2 stems. Si necesitas resultados más limpios en una pista difícil, los servicios comerciales de pago (LALAL.AI, Moises, Audio Shake) usan ensembles más grandes de modelos mayores y pueden hacerlo algo mejor, pero también tienen estos modos de fallo.
- La separación funciona mejor en grabaciones de estudio profesionales; en vivo y lo-fi tienen sangrado audible.
- Autotune fuerte, vocoder, talkbox o voces con formantes desplazados pueden clasificarse parcialmente como instrumental.
- Los coros y voces de fondo a menudo quedan en el stem vocal; eliminar voces por completo en armonías densas es poco fiable.
- Las sibilantes ('s', 'sh', 't') a menudo dejan un siseo leve en la pista instrumental.
- Las notas sostenidas y colas de reverb largas pueden tener leves artefactos de fase tras la separación.
- Tamaño máximo 100 MB; audio muy largo (más de 30 minutos) se rechaza para evitar problemas de memoria del navegador.
- La salida es WAV a frecuencia de muestreo original; debes convertir tú a MP3/AAC si necesitas archivos más pequeños.
- El copyright se aplica a los stems extraídos igual que a la fuente — verifica derechos antes de publicar o uso comercial.
- Requisitos de navegador: Chrome / Edge para aceleración WebGPU; Firefox / Safari caen a WebGL más lento o CPU.
Glosario
- Separación de fuentes
- El problema de procesamiento de señal de recuperar señales fuente individuales (voces, batería, bajo, ...) de una mezcla grabada. El inverso de mezclar.
- Stem
- Pista fuente individual dentro de una mezcla. La separación 2-stem divide en voces + instrumental; 4-stem divide en voces + batería + bajo + otros.
- U-Net
- Arquitectura de red neuronal encoder–decoder totalmente convolucional (Ronneberger et al., 2015) con conexiones skip del encoder al decoder. Diseñada originalmente para segmentación de imagen biomédica, ahora estándar para separación de fuentes en dominio espectrograma.
- Máscara de frecuencia
- Matriz 2D del mismo tamaño que un espectrograma, con valores típicamente en [0, 1], que dice cuánta de cada frecuencia en cada tiempo pertenece a una fuente dada. Multiplicar el espectrograma de mezcla por la máscara aísla esa fuente.
- Dominio tiempo-frecuencia
- Representar audio como una matriz 2D donde un eje es tiempo y otro frecuencia, producida por una STFT. La representación natural para métodos espectrales de separación de fuentes.
- Spleeter
- Separador de fuentes 2-, 4- y 5-stem open source publicado por Deezer en 2019. El primer separador de stems amigable para navegador ampliamente usable y un baseline común.
- Demucs / HTDemucs
- Separador open source de Facebook AI Research, originalmente Wave-U-Net (dominio temporal), luego híbrido forma-de-onda + espectrograma (Hybrid Demucs), después con un bloque Transformer (Hybrid Transformer Demucs / HTDemucs).
- SDR (Signal-to-Distortion Ratio)
- Métrica objetiva estándar de calidad para separación de fuentes, en dB. Más alto significa stem más limpio. SDR pop/rock > 7 dB suena de grado comercial; > 9 dB lidera el benchmark.
- MUSDB18
- Dataset público de 150 canciones multipista (100 entrenamiento, 50 prueba) usado como benchmark estándar para separación de fuentes. Cada canción se divide en stems vocal, batería, bajo y otros.
Preguntas Frecuentes
¿Cómo elimina la IA las voces?
Ejecuta una red neuronal profunda U-Net en tu navegador. El audio se convierte a espectrograma vía STFT, la red emite una máscara de frecuencia que predice qué celdas tiempo-frecuencia contienen energía vocal, la mezcla se multiplica por la máscara y el resultado se transforma con STFT inversa de vuelta a un WAV en dominio temporal. La arquitectura desciende de Spleeter / Demucs y se entrena con datos emparejados estilo MUSDB18.
¿Cuánto tarda la separación?
En un escritorio moderno con WebGPU (Chrome / Edge 113+), una canción de 3 minutos se separa en aproximadamente 30–60 segundos. Con WebGL es 2–3× más lento. El fallback CPU es de 10–15 minutos para una canción de 3 minutos. Los dispositivos móviles son más lentos que los escritorios; los archivos más largos se procesan por bloques con barra de progreso.
¿Qué calidad de audio entrega?
WAV a la frecuencia de muestreo original (44,1 kHz, 48 kHz, etc.) y al número de canales original (mono / estéreo). Esto preserva la máxima calidad que la separación IA puede producir. Si necesitas archivos más pequeños, convierte el WAV a MP3 o AAC después en cualquier editor de audio.
¿Es este separador IA mejor que la cancelación de fase?
Sí, drásticamente. La cancelación de fase solo funciona en voces perfectamente centradas en una mezcla estéreo limpia y también cancela otras fuentes centradas (bajo, bombo, caja). La IA mira el contenido espectral real de la voz frente a los instrumentos y funciona en voces estéreo, mono, paneadas, dobladas, armonizadas y con reverb — todas las cuales rompen la cancelación de fase.
¿Qué modelo se usa? ¿Spleeter? ¿Demucs?
El modelo de navegador está en la misma familia que Spleeter (Deezer, 2019) e Hybrid Demucs (Facebook AI, 2019–2023): una U-Net que opera sobre espectrogramas STFT, entrenada con datos emparejados estilo MUSDB18. Elegimos un modelo lo bastante pequeño (~68 MB) para descargar y ejecutar en navegador vía TensorFlow.js, con aceleración WebGPU cuando está disponible.
¿Por qué el instrumental aún tiene una voz tenue?
La separación suave siempre deja residuo — la red tiene que elegir, frame por frame, cuánta energía de cada bin de frecuencia pertenece a las voces. Sibilantes, respiraciones y notas sostenidas muy suaves a menudo comparten bandas de frecuencia con platillos, hi-hats y otra percusión, así que la red no puede separarlas limpiamente. Modelos de pago más grandes pueden hacerlo algo mejor pero nunca cero residuo.

¿Mi audio se sube a tu servidor?
No. Todo el procesamiento — decodificación, STFT, inferencia de red neuronal, STFT inversa, codificación WAV — corre localmente en tu navegador vía TensorFlow.js. El único tráfico de red es la descarga única de los pesos del modelo (~68 MB, cacheados). Los bytes de tu audio nunca salen de tu dispositivo.
¿Puedo usar los stems extraídos comercialmente?
Solo si tienes derechos sobre la canción subyacente. Extraer un instrumental de una grabación con copyright no transfiere derecho alguno — publicar el resultado comercialmente es lo mismo que publicar la grabación original sin licencia. Para uso libre de regalías necesitas una canción que escribiste, una con licencia, o una en Creative Commons / dominio público.
¿Por qué a veces el modelo emite una voz tenue incluso en modo solo instrumental?
Porque estima primero la máscara vocal y resta; si la red está incierta sobre una región, tanto la salida 'vocal' como la 'instrumental' pueden contener un resto suave. Es por diseño (preserva la energía total). Para silencio absoluto necesitarías un gate del residuo o un paso de postprocesado más agresivo.
¿Cuál es el tamaño y duración máximos?
Máximo 100 MB y 30 minutos por archivo. El tope existe para evitar que el navegador se quede sin memoria — incluso con procesamiento por bloques, audio muy largo puede agotar el heap WebGPU. Para grabaciones más largas, divide con cualquier editor de audio primero y procesa cada segmento.
¿Puedo separar también batería o bajo (4-stem o 5-stem)?
Esta herramienta corre actualmente un modelo 2-stem (voces + instrumental) por razones de tamaño y velocidad. Los modelos Spleeter y Demucs también ofrecen versiones 4-stem y 5-stem si los corres localmente con una instalación Python. Puede que añadamos una opción 4-stem en una futura versión.
La herramienta es lenta o se cae. ¿Qué hago?
Cierra otras pestañas, prefiere Chrome o Edge para aceleración WebGPU, asegúrate de tener el navegador actualizado, prueba primero con un archivo más corto para confirmar que el pipeline funciona, y procesa en escritorio en vez de móvil si es posible. Los usuarios WebGPU en GPUs integradas pueden necesitar habilitar la aceleración por hardware en los ajustes del navegador.
Referencias y fuentes académicas
- Hennequin, R., Khlif, A., Voituret, F., & Moussallam, M.. (2020). Spleeter: A Fast and Efficient Music Source Separation Tool with Pre-trained Models Journal of Open Source Software (Deezer Research).
- Défossez, A., Usunier, N., Bottou, L., & Bach, F.. (2019). Music Source Separation in the Waveform Domain (Demucs) Facebook AI Research.
- Rouard, S., Massa, F., & Défossez, A.. (2023). Hybrid Transformers for Music Source Separation (HTDemucs) Meta AI / IEEE ICASSP.
- Rafii, Z., Liutkus, A., Stöter, F.-R., Mimilakis, S. I., & Bittner, R.. (2017). MUSDB18 — corpus para separación de música Zenodo / SiSEC.
- Mitsufuji, Y., Fabbro, G., Uhlich, S., et al.. (2023). Music Demixing Challenge (MDX) — ISMIR / Sony ISMIR / Sony AI.
- Ronneberger, O., Fischer, P., & Brox, T.. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation MICCAI.
Last reviewed: · Reviewed by Equipo de Ingeniería de Audio de WuTools
