Removedor de Vocal IA
Use redes neurais para remover vocais ou extrair o instrumental de qualquer música com qualidade profissional, direto no navegador.
Sobre o Removedor de Vocal IA
Este removedor de vocal com IA separa uma música estéreo em dois stems — vocal (acapella) e instrumental (karaokê) — usando uma rede neural profunda que roda inteiramente dentro do seu navegador. A mesma família de modelos de separação de fontes alimenta produtos comerciais como LALAL.AI, Moises, Vocalremover.org e Audio Shake; o baseline open source no qual esta ferramenta se baseia descende do Spleeter da Deezer (Hennequin et al., 2019) e do Demucs do Facebook AI Research (Défossez et al., 2019). Nenhum áudio é enviado — o modelo executa localmente na sua CPU, GPU (WebGL) ou GPU moderna (WebGPU). Uma vez baixado e cacheado o arquivo do modelo (~68 MB), a ferramenta funciona offline.
A separação por IA é um upgrade real frente ao velho truque de cancelamento de fase. O cancelamento de fase só funciona quando o vocal está exatamente no centro de uma mixagem estéreo, invertendo um canal e somando ao outro. Cancela o centro e leva o vocal junto — mas também cancela todo elemento centralizado (bumbo, baixo, caixa), e a maioria das gravações modernas tem reverb, dobras ou panorama do vocal levemente fora do centro, então o truque falha. Redes modernas de separação de fontes em vez disso aprendem a assinatura espectral dos vocais a partir de milhares de exemplos pareados e conseguem retirar o canto de uma mixagem mesmo com reverb, dobras, harmonias, autotune ou panorama.
Aplicações úteis: fazer pistas de karaokê / minus-one, isolar acapellas para remixar, samplear vocais para produção musical, transcrever letras enterradas em mixagens densas, limpeza de diálogo em podcasts e vídeo, aprender idiomas ouvindo a letra isolada, e estudo acadêmico de performance vocal. Especialmente útil para bossa nova, MPB, samba, pagode, sertanejo e funk brasileiro onde o vocal é central. Profissionais de estúdios brasileiros já usam Spleeter e Demucs em workflows de produção. A ferramenta aceita áudio (MP3, WAV, FLAC, OGG, M4A, AAC, OPUS) e vídeo (MP4, MKV, MOV, WebM, AVI) — para vídeo, a faixa de áudio é extraída automaticamente via Web Audio API. Saída em WAV na taxa de amostragem da fonte; converta para MP3 depois se precisar arquivos menores.
Sobre direitos autorais: a ferramenta é gratuita, mas o áudio que você processa não é. Separar uma música protegida por direitos autorais não te dá o direito de publicar o vocal ou instrumental resultante comercialmente, distribuir, vender ou enviar a um serviço. Use para músicas que você compôs, músicas para as quais você tem permissão explícita de remix, ou cenários genuínos de uso justo (transcrição, educação, pesquisa, paródia conforme jurisdição). A LDA brasileira, a diretiva 2019/790 da UE e a lei de copyright dos EUA aplicam-se a stems extraídos por IA igualzinho à gravação original.
Privacidade é por design. Seu áudio é decodificado pelo navegador, a inferência IA roda localmente nos recursos de computação do seu dispositivo, e os stems resultantes são codificados de volta para WAV no seu navegador. A página usa TensorFlow.js com WebGPU quando disponível; pesos baixam uma vez por HTTPS e são cacheados. Não vemos, armazenamos, registramos ou compartilhamos seu áudio.
Como funciona a separação
A separação de fontes é o problema inverso da mixagem: dada uma mistura x = vocal + instrumental, recuperar os dois sinais componentes. A abordagem clássica dos anos 1990 era a análise de componentes independentes (ICA), que só funciona quando as fontes são estatisticamente independentes e a mixagem é fixa e linear — nenhuma das premissas vale para música. Sistemas modernos de aprendizado profundo aprendem a separação diretamente dos dados: observam milhares de exemplos pareados (mistura, vocal, instrumental) e aprendem a mapear um espectrograma de mistura para espectrogramas por fonte.
O pipeline padrão começa com uma Transformada de Fourier de Tempo Curto (STFT) da entrada. Configurações típicas são FFT size 4096 amostras e hop size 1024 amostras (75 % de sobreposição), dando um espectrograma complexo com uma coluna a cada ~23 ms a 44,1 kHz. O espectrograma de magnitude passa por uma U-Net — encoder–decoder totalmente convolucional com conexões skip — que emite duas máscaras de frequência suaves: uma para vocais, uma para instrumental. Cada máscara é multiplicada com o espectrograma de entrada e passa por STFT inversa para recuperar um sinal no domínio do tempo. A fase original é reutilizada; os vocais recebem a mesma fase que a mistura em cada frequência, uma pequena aproximação mas que soa bem na prática.
Spleeter (Hennequin, Cournou, Defossez & Moussallam, 2019, Deezer) foi um marco open source: uma U-Net treinada em 25 000 músicas dando separação 2-stem (vocal/instrumental), 4-stem (vocal/bateria/baixo/outros) e 5-stem (adiciona piano). O modelo 2-stem é pequeno o suficiente para inferência em navegador. Demucs (Défossez et al., 2019; Hybrid Demucs 2021) elevou o nível trabalhando em domínio do tempo com arquitetura Wave-U-Net e depois combinando ramos forma-de-onda e espectrograma; estabeleceu o estado da arte no benchmark MUSDB18. Hybrid Transformer Demucs (HTDemucs, 2023) adicionou um bloco Transformer no gargalo. A série MDX (Music Demixing Challenge, 2021–2023) na ISMIR foi o benchmark público.
A métrica de precisão usada nos papers de separação de fontes é SDR (Signal-to-Distortion Ratio) em decibéis — quanto maior, melhor. Spleeter relata ~6,6 dB de SDR vocal no MUSDB18; Demucs v3 relata ~9,0 dB; HTDemucs e os vencedores do MDX-23 ficam em 9,5–10 dB. Para referência, qualidade audível começa a soar 'grau comercial' em SDR > 7 dB em gravações de estúdio limpas. Gravações ao vivo, mixagens muito densas, autotune pesado e gêneros incomuns (ópera clássica, canto de garganta, alguns subgêneros de metal) pontuam visivelmente abaixo da média do benchmark.
Nesta ferramenta de navegador, o buffer de áudio de 4 segundos é dividido em blocos sobrepostos, cada bloco passa pela U-Net, e as saídas dos blocos são misturadas com crossfade para que as emendas não sejam audíveis. Aceleração WebGPU (Chrome 113+, Edge 113+) dá throughput 5–10× maior comparado a WebGL; em desktop moderno uma música de 3 minutos separa em 30–60 segundos com WebGPU e 2–3 minutos com WebGL. O fallback CPU-only é muito mais lento (10–15 minutos) mas sempre funciona. A saída é WAV estéreo na sample rate completa, igual à entrada; não fazemos downsampling.
Precisão e o que esperar
A qualidade varia bastante conforme o material de origem. Para pop, rock, R&B, hip-hop e eletrônica modernas mixadas profissionalmente — vocal lead limpo, mix bus separado, imagem estéreo clara — você pode esperar instrumental limpo com no máximo um leve resíduo vocal ('ghosting') em passagens silenciosas. Os stems vocais soarão como acapella de alta qualidade com talvez um toque de reverb de sala. Este é o envelope de operação onde os separadores IA brilham e onde as pontuações de Spleeter / Demucs / HTDemucs foram medidas.
A qualidade cai em gravações ao vivo (sangramento da plateia, reverb de sala vaza energia vocal para o stem instrumental), autotune pesado (vocais com formantes deslocados confundem a rede), gêneros com forte sobreposição entre voz e timbre instrumental (vocais de apoio a-cappella, coro, canto de garganta), gravações muito antigas ou de baixa fidelidade (mono, largura de banda de rádio AM, chiado de vinil), e faixas onde instrumentos imitam a faixa de frequência da voz humana (saxofone, guitarra lead distorcida, samples falados). Gravações de bossa nova e MPB frequentemente funcionam bem porque o vocal é mixado proeminente e claro; samba e pagode com percussão pesada e muitos vocais de fundo são mais difíceis.
Modos de falha que você ouvirá: vazamento vocal no instrumental durante sibilantes (sons 's' / 't', que abrangem ampla faixa de frequência), batidas de bateria classificadas erroneamente como transientes vocais, artefatos de fase ou 'aquosos' em notas longas sustentadas, e largura estéreo reduzida no instrumental porque a rede às vezes dobra informação leve de panorama na máscara vocal. Nenhum desses é bug da ferramenta — são limites inerentes da separação 2-stem. Se precisa de resultados mais limpos em uma faixa difícil, serviços comerciais pagos (LALAL.AI, Moises, Audio Shake) usam ensembles maiores de modelos maiores e podem fazer um pouco melhor, mas também têm esses modos de falha.
- A separação funciona melhor em gravações de estúdio mixadas profissionalmente; ao vivo e lo-fi têm vazamento audível.
- Autotune pesado, vocoder, talkbox ou vozes com formantes deslocados podem ser parcialmente classificados como instrumental.
- Vocais de apoio e coros frequentemente ficam no stem vocal; remoção completa de vocal em harmonias densas é não confiável.
- Sibilantes ('s', 'sh', 't') frequentemente deixam um chiado leve na faixa instrumental.
- Notas sustentadas e caudas de reverb longas podem ter leves artefatos de fase após separação.
- Tamanho máximo 100 MB; áudio muito longo (acima de 30 minutos) é rejeitado para evitar problemas de memória do navegador.
- Saída é WAV em sample rate da fonte; você precisa converter para MP3/AAC se precisar de arquivos menores.
- Direitos autorais aplicam-se aos stems extraídos exatamente como à fonte — verifique direitos antes de publicar ou uso comercial.
- Requisitos de navegador: Chrome / Edge para aceleração WebGPU; Firefox / Safari caem para WebGL mais lento ou CPU.
Glossário
- Separação de fontes
- O problema de processamento de sinal de recuperar sinais de fonte individuais (vocais, bateria, baixo, ...) a partir de uma mistura gravada. O inverso da mixagem.
- Stem
- Faixa de fonte individual dentro de uma mixagem. Separação 2-stem divide em vocal + instrumental; 4-stem divide em vocal + bateria + baixo + outros.
- U-Net
- Arquitetura de rede neural encoder–decoder totalmente convolucional (Ronneberger et al., 2015) com conexões skip do encoder ao decoder. Originalmente projetada para segmentação de imagem biomédica, agora padrão para separação de fontes em domínio espectrograma.
- Máscara de frequência
- Matriz 2D do mesmo tamanho que um espectrograma, com valores tipicamente em [0, 1], que diz quanto de cada frequência em cada tempo pertence a uma dada fonte. Multiplicar o espectrograma da mistura pela máscara isola aquela fonte.
- Domínio tempo-frequência
- Representar áudio como matriz 2D onde um eixo é tempo e o outro é frequência, produzida por uma STFT. Representação natural para métodos espectrais de separação de fontes.
- Spleeter
- Separador de fontes 2-, 4- e 5-stem open source lançado pela Deezer em 2019. O primeiro separador de stems amigável para navegador amplamente utilizável e baseline comum.
- Demucs / HTDemucs
- Separador open source do Facebook AI Research, originalmente Wave-U-Net (domínio do tempo), depois híbrido forma-de-onda + espectrograma (Hybrid Demucs), depois com bloco Transformer (Hybrid Transformer Demucs / HTDemucs).
- SDR (Signal-to-Distortion Ratio)
- Métrica objetiva padrão de qualidade para separação de fontes, em dB. Maior significa stem mais limpo. SDR pop/rock > 7 dB soa grau comercial; > 9 dB é líder de benchmark.
- MUSDB18
- Dataset público de 150 músicas multifaixa (100 treino, 50 teste) usado como benchmark padrão para separação de fontes. Cada música é dividida em stems vocal, bateria, baixo e outros.
Perguntas Frequentes
Como a IA remove vocais?
Roda uma rede neural profunda U-Net no seu navegador. O áudio é convertido em espectrograma via STFT, a rede emite uma máscara de frequência prevendo quais células tempo-frequência contêm energia vocal, a mistura é multiplicada pela máscara, e o resultado passa por STFT inversa de volta para um WAV no domínio do tempo. A arquitetura descende de Spleeter / Demucs e é treinada em dados pareados estilo MUSDB18.
Quanto tempo leva a separação?
Em desktop moderno com WebGPU (Chrome / Edge 113+), uma música de 3 minutos separa em aproximadamente 30–60 segundos. Com WebGL é 2–3× mais lento. Fallback CPU é 10–15 minutos para música de 3 minutos. Dispositivos móveis são mais lentos que desktops; arquivos mais longos são processados em blocos com barra de progresso.
Que qualidade de áudio é gerada?
WAV na sample rate da fonte (44,1 kHz, 48 kHz, etc.) e na contagem de canais da fonte (mono / estéreo). Isso preserva a qualidade máxima que a separação IA pode produzir. Se precisa arquivos menores, converta o WAV para MP3 ou AAC depois em qualquer editor de áudio.
Este separador IA é melhor que cancelamento de fase?
Sim, dramaticamente. Cancelamento de fase só funciona em vocais perfeitamente centralizados em mistura estéreo limpa e também cancela outras fontes centralizadas (baixo, bumbo, caixa). A IA olha o conteúdo espectral real de voz versus instrumentos e funciona em vocais estéreo, mono, com panorama, dobrados, harmonizados e com reverb — todos os quais quebram cancelamento de fase.
Que modelo é usado? Spleeter? Demucs?
O modelo de navegador está na mesma família que Spleeter (Deezer, 2019) e Hybrid Demucs (Facebook AI, 2019–2023): uma U-Net operando sobre espectrogramas STFT, treinada em dados pareados estilo MUSDB18. Escolhemos um modelo pequeno o suficiente (~68 MB) para baixar e rodar em navegador via TensorFlow.js, com aceleração WebGPU quando disponível.
Por que o instrumental ainda tem vocal fraco?
Separação suave sempre deixa resíduo — a rede precisa escolher, frame a frame, quanta energia em cada bin de frequência pertence aos vocais. Sibilantes, respiração e notas sustentadas muito suaves frequentemente compartilham bandas de frequência com pratos, hi-hats e outras percussões, então a rede não pode separá-las limpamente. Modelos pagos maiores podem fazer um pouco melhor mas nunca zero resíduo.

Meu áudio é enviado ao seu servidor?
Não. Todo o processamento — decodificação, STFT, inferência da rede neural, STFT inversa, codificação WAV — roda localmente no seu navegador via TensorFlow.js. O único tráfego de rede é o download único dos pesos do modelo (~68 MB, cacheados). Os bytes do seu áudio nunca saem do seu dispositivo.
Posso usar os stems extraídos comercialmente?
Apenas se você tiver direitos sobre a música subjacente. Extrair um instrumental de gravação protegida por direitos autorais não transfere copyright algum — lançar o resultado comercialmente é igual a lançar a gravação original sem licença. Para uso livre de royalties você precisa de música que você compôs, música licenciada, ou música em Creative Commons / domínio público.
Por que o modelo às vezes emite voz fraca mesmo no modo só instrumental?
Porque ele estima a máscara vocal primeiro e subtrai; se a rede está incerta sobre uma região, tanto a saída 'vocal' quanto a 'instrumental' podem conter resíduo suave. É por design (preserva energia total). Para silêncio absoluto você precisaria gate do resíduo ou passo de pós-processamento mais agressivo.
Qual é o tamanho e duração máximos?
Máximo 100 MB e 30 minutos por arquivo. O limite duro existe para evitar crashes de memória no navegador — mesmo com processamento em blocos, áudio muito longo pode esgotar o heap WebGPU. Para gravações mais longas, divida com qualquer editor de áudio primeiro e processe cada segmento.
Posso separar bateria ou baixo também (4-stem ou 5-stem)?
Esta ferramenta atualmente roda um modelo 2-stem (vocal + instrumental) por razões de tamanho e velocidade. Os modelos Spleeter e Demucs também oferecem versões 4-stem e 5-stem se você rodar localmente com instalação Python. Podemos adicionar opção 4-stem em uma futura versão.
A ferramenta está lenta ou crashando. O que faço?
Feche outras abas do navegador, prefira Chrome ou Edge para aceleração WebGPU, garanta navegador atualizado, tente arquivo mais curto primeiro para confirmar que o pipeline funciona, e processe em desktop em vez de celular se possível. Usuários WebGPU em GPUs integradas podem precisar habilitar aceleração de hardware nas configurações do navegador.
Referências e fontes acadêmicas
- Hennequin, R., Khlif, A., Voituret, F., & Moussallam, M.. (2020). Spleeter: A Fast and Efficient Music Source Separation Tool with Pre-trained Models Journal of Open Source Software (Deezer Research).
- Défossez, A., Usunier, N., Bottou, L., & Bach, F.. (2019). Music Source Separation in the Waveform Domain (Demucs) Facebook AI Research.
- Rouard, S., Massa, F., & Défossez, A.. (2023). Hybrid Transformers for Music Source Separation (HTDemucs) Meta AI / IEEE ICASSP.
- Rafii, Z., Liutkus, A., Stöter, F.-R., Mimilakis, S. I., & Bittner, R.. (2017). MUSDB18 — corpus para separação de música Zenodo / SiSEC.
- Mitsufuji, Y., Fabbro, G., Uhlich, S., et al.. (2023). Music Demixing Challenge (MDX) — ISMIR / Sony ISMIR / Sony AI.
- Ronneberger, O., Fischer, P., & Brox, T.. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation MICCAI.
Last reviewed: · Reviewed by Equipe de Engenharia de Áudio WuTools
