Suppresseur de Voix IA

Suppresseur de voix IA U-Net sur votre appareil : séparez toute chanson en stems WAV voix et instrumental. Sans téléversement, prêt karaoké et acapella, contrôle de crête réelle.

Cet outil utilise un réseau de neurones profond (~68 Mo) pour séparer les voix de la musique. Le modèle tourne entièrement dans votre navigateur - aucun téléversement requis. Le modèle se télécharge automatiquement quand vous démarrez le traitement.

Sélectionner un Fichier Audio ou Vidéo

Glissez-déposez un fichier audio ou vidéo ici

ou cliquez pour parcourir

Stem	Crête d'échantillon	Crête réelle (dBTP)	Sécurité de saturation
Piste Vocale (Acapella)	-	-	-
Piste Instrumentale (Karaoké)	-	-	-

Information

Vous avez des commentaires ? Signalez des bugs, suggérez des fonctionnalités ou partagez vos idées — nous lisons tout

À propos du Suppresseur de Voix IA

Ce suppresseur de voix IA sépare une chanson stéréo en deux stems — voix (acapella) et instrumental (karaoké) — à l'aide d'un réseau de neurones profond qui s'exécute entièrement dans votre navigateur. La même famille de modèles de séparation de sources alimente des produits commerciaux comme LALAL.AI, Moises, Vocalremover.org et Audio Shake ; la base open source dont s'inspire cet outil descend de Spleeter de Deezer (Hennequin et al., 2019) et de Demucs de Facebook AI Research (Défossez et al., 2019). Aucun audio n'est téléversé — le modèle s'exécute localement sur votre CPU, GPU (WebGL) ou GPU moderne (WebGPU). Une fois le fichier modèle (~68 Mo) téléchargé et mis en cache, l'outil fonctionne hors ligne.

La séparation IA est une vraie amélioration par rapport à la vieille astuce d'annulation de phase. L'annulation de phase ne fonctionne que sur les chansons où la voix se trouve exactement au centre d'un mixage stéréo, en inversant un canal et l'ajoutant à l'autre. Elle annule le centre, emportant la voix — mais elle annule aussi tout élément centré (grosse caisse, basse, caisse claire), et la plupart des enregistrements modernes ont de la réverbération, des doublages ou un panoramique légèrement décentré, donc l'astuce échoue. Les réseaux modernes de séparation de sources apprennent au contraire la signature spectrale des voix à partir de milliers d'exemples appariés et peuvent extraire le chant d'un mix même avec réverbération, doublages, harmonies, autotune ou panoramique.

Applications utiles : créer des pistes de karaoké / minus-one, isoler des acapellas pour le remix, échantillonner des voix pour la production musicale, transcrire des paroles enfouies sous un mixage dense, nettoyage de dialogue dans podcasts et vidéo, apprentissage des langues en écoutant les paroles isolées, et étude académique de la performance vocale. Particulièrement utile pour la chanson française, la variété, le rap français et l'électro francophone où la voix est centrale. L'outil accepte l'audio (MP3, WAV, FLAC, OGG, M4A, AAC, OPUS) et la vidéo (MP4, MKV, MOV, WebM, AVI) — pour la vidéo, la piste audio est extraite automatiquement via la Web Audio API. Le réseau de neurones fonctionne à 44,1 kHz, donc les sources 48/96 kHz sont rééchantillonnées à 44,1 kHz pour l'inférence et les stems sont exportés à 44,1 kHz ; vous choisissez la profondeur de bits du WAV (16 bits, 24 bits ou 32 bits flottant). Convertissez en MP3 ensuite dans n'importe quel éditeur si vous avez besoin de fichiers plus petits.

Sur le droit d'auteur : l'outil est gratuit, mais l'audio que vous traitez ne l'est pas. Séparer une chanson protégée par le droit d'auteur ne vous donne pas le droit de publier la voix ou l'instrumental résultant commercialement, de le distribuer, le vendre ou le téléverser sur un service. Utilisez-le pour des chansons que vous avez écrites, des chansons pour lesquelles vous avez l'autorisation explicite de remix, ou des scénarios authentiques d'usage équitable (transcription, éducation, recherche, parodie selon votre juridiction). Le code de la propriété intellectuelle français, la directive UE 2019/790 et la loi américaine sur le copyright s'appliquent aux stems extraits par IA exactement comme à l'enregistrement original.

La confidentialité est par conception. Votre audio est décodé par le navigateur, l'inférence IA tourne localement sur les ressources de calcul de votre appareil, et les stems résultants sont réencodés en WAV dans votre navigateur. La page utilise TensorFlow.js avec WebGPU si disponible ; les poids se téléchargent une fois en HTTPS et sont mis en cache. Nous ne voyons, ne stockons, ne journalisons ni ne partageons votre audio.

Comment fonctionne la séparation

La séparation de sources est le problème inverse du mixage : étant donnée une mixture x = voix + instrumental, retrouver les deux signaux composants. L'approche classique des années 1990 était l'analyse en composantes indépendantes (ICA), qui ne fonctionne que lorsque les sources sont statistiquement indépendantes et que le mixage est fixe et linéaire — aucune des deux hypothèses ne tient pour la musique. Les systèmes modernes d'apprentissage profond apprennent la séparation directement à partir des données : ils observent des milliers d'exemples appariés (mixture, voix, instrumental) et apprennent à projeter un spectrogramme de mixture vers des spectrogrammes par source.

Le pipeline standard commence par une transformée de Fourier à court terme (STFT) de l'entrée. Les paramètres typiques sont une taille FFT de 4096 échantillons et un saut de 1024 échantillons (recouvrement de 75 %), donnant un spectrogramme complexe avec une colonne toutes les ~23 ms à 44,1 kHz. Le spectrogramme de magnitude est passé dans une U-Net — un encodeur–décodeur entièrement convolutionnel avec des connexions skip — qui produit deux masques de fréquence doux : un pour les voix, un pour l'instrumental. Chaque masque est multiplié au spectrogramme d'entrée et soumis à STFT inverse pour récupérer un signal en domaine temporel. La phase originale est réutilisée ; les voix reçoivent la même phase que la mixture à chaque fréquence, une légère approximation mais ça sonne bien en pratique.

Spleeter (Hennequin, Cournou, Defossez & Moussallam, 2019, Deezer) a été un jalon open source : une U-Net entraînée sur 25 000 chansons donnant une séparation 2-stem (voix/instrumental), 4-stem (voix/batterie/basse/autres) et 5-stem (ajoute le piano). Le modèle 2-stem est suffisamment petit pour l'inférence dans le navigateur. Demucs (Défossez et al., 2019 ; Hybrid Demucs 2021) a relevé la barre en travaillant en domaine temporel avec une architecture Wave-U-Net puis en combinant des branches forme-d'onde et spectrogramme ; il a établi l'état de l'art sur le benchmark MUSDB18. Hybrid Transformer Demucs (HTDemucs, 2023) a ajouté un bloc Transformer dans le goulot d'étranglement. La série MDX (Music Demixing Challenge, 2021–2023) à l'ISMIR a été le benchmark public.

La métrique de précision utilisée dans les articles de séparation de sources est le SDR (Signal-to-Distortion Ratio) en décibels — plus c'est haut, mieux c'est. Spleeter rapporte ~6,6 dB de SDR vocal sur MUSDB18 ; Demucs v3 rapporte ~9,0 dB ; HTDemucs et les vainqueurs du MDX-23 se regroupent autour de 9,5–10 dB. Pour repère, la qualité audible commence à donner une impression « grade commercial » à SDR > 7 dB sur des enregistrements studio propres. Les enregistrements live, les mixages très denses, l'autotune marqué et les genres inhabituels (opéra classique, chant de gorge, certains sous-genres de métal) obtiennent des scores nettement inférieurs à la moyenne du benchmark.

Dans cet outil de navigateur, le tampon audio de 4 secondes est divisé en blocs chevauchants, chaque bloc passe par la U-Net, et les sorties des blocs sont fondues entre elles par crossfade afin que les coutures soient inaudibles. L'accélération WebGPU (Chrome 113+, Edge 113+) donne un débit 5–10× supérieur à WebGL ; sur un ordinateur de bureau moderne une chanson de 3 minutes se sépare en 30–60 secondes avec WebGPU et 2–3 minutes avec WebGL. Le repli CPU seul est beaucoup plus lent (10–15 minutes) mais fonctionne toujours. La U-Net fonctionne à 44,1 kHz, donc les stems sont exportés en WAV stéréo 44,1 kHz (16 bits, 24 bits ou 32 bits flottant, à votre choix) ; les masters 48/96 kHz sont rééchantillonnés à 44,1 kHz pour l'inférence — choisissez 24 bits ou 32 bits flottant pour conserver toute la marge sur les stems élevés.

Précision et à quoi s'attendre

La qualité varie nettement selon le matériel source. Pour la pop, le rock, le R&B, le hip-hop et l'électro modernes mixés professionnellement — voix lead propre, mix bus séparé, image stéréo claire — vous pouvez attendre un instrumental propre avec au pire un léger résidu vocal (« ghosting ») dans les passages calmes. Les stems vocaux sonneront comme un acapella de haute qualité avec peut-être un soupçon de réverbération de salle. C'est l'enveloppe opérationnelle où les séparateurs IA brillent et où les scores Spleeter / Demucs / HTDemucs ont été mesurés.

La qualité chute sur les enregistrements live (fuites du public, la réverbération de salle laisse passer de l'énergie vocale dans le stem instrumental), l'autotune marqué (les voix à formants déplacés trompent le réseau), les genres avec fort recouvrement entre voix et timbre instrumental (chœurs a-cappella, chœur, chant de gorge), les enregistrements très anciens ou de basse fidélité (mono, bande passante de radio AM, craquements de vinyle), et les pistes où des instruments imitent la plage de fréquences de la voix humaine (saxophone, guitare lead saturée, samples parlés). Les enregistrements de bossa nova et de MPB fonctionnent souvent bien parce que la voix est mixée mise en avant et claire ; samba et pagode avec percussions denses et nombreuses voix d'accompagnement sont plus difficiles.

Modes d'échec que vous entendrez : fuite vocale dans l'instrumental durant les sifflantes (sons « s » / « t », qui couvrent une large plage de fréquences), coups de batterie classés à tort comme transitoires vocaux, artefacts de phase ou « aqueux » sur les notes longues tenues, et largeur stéréo réduite sur l'instrumental car le réseau replie parfois une légère information de panoramique dans le masque vocal. Aucun de ces problèmes n'est un bug de l'outil — ce sont des limites inhérentes à la séparation 2-stem. Si vous avez besoin de résultats plus propres sur une piste difficile, les services commerciaux payants (LALAL.AI, Moises, Audio Shake) utilisent des ensembles plus grands de modèles plus gros et peuvent faire un peu mieux, mais ils présentent aussi ces modes d'échec.

La séparation fonctionne mieux sur les enregistrements studio mixés professionnellement ; les enregistrements live et lo-fi laissent fuiter de l'audio.
L'autotune marqué, le vocodeur, le talkbox ou les voix à formants déplacés peuvent être partiellement classés comme instrumental.
Les chœurs et voix d'accompagnement restent souvent dans le stem vocal ; supprimer entièrement les voix dans des harmonies denses n'est pas fiable.
Les sifflantes (« s », « ch », « t ») laissent souvent un léger souffle dans la piste instrumentale.
Les notes tenues et les longues queues de réverbération peuvent présenter de légers artefacts de phase après séparation.
Taille maximale 100 Mo ; audio très long (plus de 30 minutes) refusé pour éviter les problèmes de mémoire navigateur.
Les stems sont des WAV 44,1 kHz (la fréquence d'inférence du modèle) ; les sources 48/96 kHz sont rééchantillonnées. Choisissez 24 bits ou 32 bits flottant pour la marge ; convertissez vous-même en MP3/AAC pour des fichiers plus petits.
Le droit d'auteur s'applique aux stems extraits comme à la source — vérifiez les droits avant publication ou usage commercial.
Exigences navigateur : Chrome / Edge pour l'accélération WebGPU ; Firefox / Safari retombent sur WebGL plus lent ou CPU.

Glossaire

Séparation de sources: Le problème de traitement du signal consistant à retrouver des signaux sources individuels (voix, batterie, basse, ...) à partir d'une mixture enregistrée. L'inverse du mixage.
Stem: Piste source individuelle dans une mixture. La séparation 2-stem divise en voix + instrumental ; 4-stem divise en voix + batterie + basse + autres.
U-Net: Architecture de réseau de neurones encodeur–décodeur entièrement convolutionnelle (Ronneberger et al., 2015) avec connexions skip de l'encodeur au décodeur. Conçue à l'origine pour la segmentation d'image biomédicale, devenue standard pour la séparation de sources en domaine spectrogramme.
Masque de fréquence: Matrice 2D de la même forme qu'un spectrogramme, avec valeurs typiquement dans [0, 1], indiquant quelle proportion de chaque fréquence à chaque instant appartient à une source donnée. Multiplier le spectrogramme de mixture par le masque isole cette source.
Domaine temps-fréquence: Représenter l'audio comme une matrice 2D où un axe est le temps et l'autre la fréquence, produite par une STFT. La représentation naturelle pour les méthodes spectrales de séparation de sources.
Spleeter: Séparateur de sources 2-, 4- et 5-stem open source publié par Deezer en 2019. Le premier séparateur de stems utilisable en navigateur largement disponible et une référence courante.
Demucs / HTDemucs: Séparateur open source de Facebook AI Research, à l'origine Wave-U-Net (domaine temporel), puis hybride forme-d'onde + spectrogramme (Hybrid Demucs), puis avec un bloc Transformer (Hybrid Transformer Demucs / HTDemucs).
SDR (Signal-to-Distortion Ratio): Métrique objective standard de qualité pour la séparation de sources, en dB. Plus c'est haut, plus le stem est propre. Un SDR pop/rock > 7 dB sonne grade commercial ; > 9 dB est en tête de benchmark.
MUSDB18: Jeu de données public de 150 chansons multipiste (100 entraînement, 50 test) utilisé comme benchmark standard pour la séparation de sources. Chaque chanson est divisée en stems voix, batterie, basse et autres.

Foire aux Questions

Comment l'IA retire-t-elle les voix ?

Elle exécute un réseau de neurones profond U-Net dans votre navigateur. L'audio est converti en spectrogramme via STFT, le réseau produit un masque de fréquence prédisant quelles cellules temps-fréquence contiennent de l'énergie vocale, la mixture est multipliée par le masque, et le résultat passe par une STFT inverse pour revenir à un WAV en domaine temporel. L'architecture descend de Spleeter / Demucs et est entraînée sur des données appariées de style MUSDB18.

Combien de temps prend la séparation ?

Sur un ordinateur de bureau moderne avec WebGPU (Chrome / Edge 113+), une chanson de 3 minutes se sépare en environ 30–60 secondes. Avec WebGL c'est 2–3× plus lent. Le repli CPU prend 10–15 minutes pour une chanson de 3 minutes. Les appareils mobiles sont plus lents que les ordinateurs ; les fichiers plus longs sont traités par blocs avec barre de progression.

Quelle fréquence d'échantillonnage et profondeur de bits ont les stems ?

La U-Net fonctionne à 44,1 kHz, donc les stems sont exportés en WAV stéréo 44,1 kHz — les masters 48 kHz / 96 kHz sont rééchantillonnés à 44,1 kHz pour l'inférence (nous ne prétendons plus que la sortie conserve la fréquence source). Vous choisissez la profondeur de bits : 16 bits pour des fichiers légers, 24 bits pour la marge studio, ou 32 bits flottant pour zéro saturation. Si vous voulez des fichiers plus petits, convertissez le WAV en MP3 ou AAC ensuite dans n'importe quel éditeur.

Ce séparateur IA est-il meilleur que l'annulation de phase ?

Oui, considérablement. L'annulation de phase ne fonctionne que sur des voix parfaitement centrées dans un mix stéréo propre et annule aussi d'autres sources centrées (basse, grosse caisse, caisse claire). L'IA regarde le contenu spectral réel de la voix par rapport aux instruments et fonctionne sur des voix stéréo, mono, panoramées, doublées, harmonisées et avec réverbération — toutes celles qui mettent en échec l'annulation de phase.

Quel modèle est utilisé ? Spleeter ? Demucs ?

Le modèle navigateur est de la même famille que Spleeter (Deezer, 2019) et Hybrid Demucs (Facebook AI, 2019–2023) : une U-Net opérant sur des spectrogrammes STFT, entraînée sur des données appariées de style MUSDB18. Nous avons choisi un modèle suffisamment petit (~68 Mo) pour télécharger et exécuter dans un navigateur via TensorFlow.js, avec accélération WebGPU si disponible.

Pourquoi l'instrumental contient-il encore une voix ténue ?

La séparation douce laisse toujours du résidu — le réseau doit choisir, image par image, combien d'énergie dans chaque bin de fréquence appartient aux voix. Sifflantes, respirations et notes tenues très douces partagent souvent des bandes de fréquences avec cymbales, hi-hat et autres percussions, donc le réseau ne peut pas les séparer proprement. Des modèles payants plus grands peuvent faire un peu mieux mais jamais zéro résidu.

Suppresseur de Voix IA — Suppresseur de voix IA U-Net sur votre appareil : séparez toute chanson en stems WAV voix et instrumental. Sans télévers — **Suppresseur de Voix IA**

Mon audio est-il téléversé sur votre serveur ?

Non. Tout le traitement — décodage, STFT, inférence du réseau de neurones, STFT inverse, encodage WAV — tourne localement dans votre navigateur via TensorFlow.js. Le seul trafic réseau est le téléchargement unique des poids du modèle (~68 Mo, mis en cache). Les octets de votre audio ne quittent jamais votre appareil.

Puis-je utiliser les stems extraits commercialement ?

Seulement si vous avez les droits sur la chanson sous-jacente. Extraire un instrumental d'un enregistrement protégé ne transfère aucun droit — publier le résultat commercialement revient à publier l'enregistrement original sans licence. Pour un usage libre de droits il vous faut une chanson que vous avez écrite, sous licence, ou en Creative Commons / domaine public.

Pourquoi le modèle produit-il parfois une voix faible même en mode instrumental seul ?

Parce qu'il estime d'abord le masque vocal et soustrait ; si le réseau est incertain sur une zone, les sorties « voix » et « instrumental » peuvent toutes deux contenir un faible résidu. C'est par conception (cela préserve l'énergie totale). Pour un silence absolu il faudrait un gate sur le résidu ou une étape de post-traitement plus agressive.

Quelle est la taille et la durée maximales ?

Maximum 100 Mo et 30 minutes par fichier. Le plafond dur existe pour éviter les plantages mémoire du navigateur — même avec un traitement par blocs, un audio très long peut épuiser le tas WebGPU. Pour des enregistrements plus longs, divisez avec n'importe quel éditeur audio d'abord et traitez chaque segment.

Pourquoi mon stem vocal sature-t-il et comment l'exporter en sécurité ?

La séparation par masque doux calcule la voix comme mélange moins instrumental, et cette soustraction dépasse souvent 0 dBFS — surtout au niveau de la crête réelle inter-échantillon (true-peak). Un WAV 16 bits écrête ce dépassement et le stem devient inutilisable dans une DAW. L'outil mesure la crête d'échantillon et la crête réelle suréchantillonnée 4x (dBTP) de chaque stem après la séparation et affiche un badge vert 'Sûr' / rouge 'Risque de saturation'. Exportez en 24 bits ou 32 bits flottant pour préserver le dépassement sans perte, ou cochez 'Normaliser à -1 dBTP' pour mettre le stem à un plafond sûr avant le téléchargement.

Puis-je aussi séparer la batterie ou la basse (4-stem ou 5-stem) ?

Cet outil exécute actuellement un modèle 2-stem (voix + instrumental) pour des raisons de taille et de vitesse. Les modèles Spleeter et Demucs proposent aussi des versions 4-stem et 5-stem si vous les exécutez localement avec une installation Python. Nous pourrons ajouter une option 4-stem dans une future version.

L'outil est lent ou plante. Que faire ?

Fermez les autres onglets du navigateur, préférez Chrome ou Edge pour l'accélération WebGPU, assurez-vous que votre navigateur est à jour, essayez d'abord un fichier plus court pour confirmer que le pipeline fonctionne, et traitez sur un ordinateur de bureau plutôt que mobile si possible. Les utilisateurs WebGPU sur GPU intégré peuvent devoir activer l'accélération matérielle dans les paramètres du navigateur.