Comment lire un spectre FFT : guide pratique
Par WuTools editorial team · Mis à jour
Un graphique FFT (Fast Fourier Transform) paraît confus de prime abord — une ligne qui monte, descend, fait des pics et retombe le long d'un axe en hertz. Pourtant, dès qu'on sait à quoi correspond chaque détail visuel dans le signal temporel, ce graphique devient même plus lisible que la forme d'onde elle-même. Ce guide explique ce que la FFT calcule réellement, comment lire les bins de fréquence, la différence entre magnitude et puissance, l'allure des signaux réels (sinus, voix, bruit), et quels réglages de notre Analyseur de Spectre influencent quoi.
Ce que la FFT montre vraiment
La FFT décompose un fragment fini de signal en somme de sinusoïdes. L'axe horizontal est la fréquence (Hz). L'axe vertical est l'amplitude (ou la puissance) de chaque composante de fréquence présente dans ce fragment. Si le fragment contient une sinusoïde de 440 Hz, le graphique affiche un pic haut et étroit à 440 Hz. S'il contient un bruit plat sur la bande audible, il affiche une ligne quasi plate de 20 Hz jusqu'à la fréquence de Nyquist.
La FFT ne dit pas à quel moment chaque fréquence est apparue — elle moyenne le fragment entier. Pour suivre l'évolution temporelle il faut un spectrogramme (une pile de FFT), que notre Visualiseur d'Onde superpose au signal temporel.
Bins de fréquence et résolution
Une FFT de N points produit N/2 bins de fréquence distincts entre 0 Hz et la fréquence de Nyquist (la moitié du taux d'échantillonnage). Chaque bin couvre fs/N hertz ; une FFT de 4096 points à 48 kHz donne environ 11,7 Hz par bin. Donc deux tons purs séparés de moins de 11,7 Hz tomberont dans le même bin — ils apparaîtront comme un seul pic. Pour les résoudre, augmentez N (FFT plus longue) ou baissez la fréquence d'échantillonnage.
Compromis : une FFT plus longue moyenne sur plus de temps, donc les transitoires se floutent. L'analyse de la voix utilise typiquement 1024–4096 points (20–90 ms à 48 kHz). La musique, 8192 ou plus pour une résolution de hauteur fine. La vibration sur machines tournantes peut monter à 65536 pour séparer des harmoniques d'arbre proches.
Magnitude, puissance et dB
Trois conventions sont courantes pour l'axe vertical. Magnitude est l'amplitude linéaire de chaque composante ; les grands pics dominent, les petits détails disparaissent. Puissance est la magnitude au carré, ce qui exagère encore les pics. Décibels (20·log10(magnitude) ou 10·log10(puissance)) compriment la dynamique : un rapport d'amplitudes 1000:1 devient un écart visuel de 60 dB et les détails fins redeviennent lisibles.
En audio, utilisez toujours une échelle dB sauf si vous traquez un seul tonalité précise. L'oreille humaine entend en dB ; l'œil lit mieux les graphiques en dB. Les spécifications (THD, plancher de bruit, SNR) sont rapportées universellement en dB.
Motifs à reconnaître
Sinusoïde pure : un seul pic haut et étroit à la fréquence du ton. Si la base s'évase en jupe, c'est un artefact de fenêtrage (section suivante).
Voix : une fondamentale au pitch du locuteur (~100 Hz hommes, ~200 Hz femmes) plus une pile d'harmoniques en 2×, 3×, 4× la fondamentale, décroissant vers le haut. L'écart entre pics est la fondamentale — un raccourci pour estimer la hauteur vocale. Essayez avec notre Détecteur de Tonalité.
Bruit blanc : ligne plate oscillant de quelques dB sur toute la bande.
Bruit rose : ligne tombant à 3 dB/octave (10 dB/décade). Signal de test classique en acoustique des salles.
Ronflette secteur : pic très étroit à 50 Hz (France, Europe) ou 60 Hz (Amérique du Nord), souvent avec harmoniques mineures à 100/120, 150/180 Hz. Boucles de masse, alimentations bon marché et ordinateurs portables sur secteur sont les coupables habituels.
Signal écrêté (clipping) : forêt d'harmoniques bien au-dessus de la fondamentale. Confirmez en regardant la forme d'onde — sommets aplatis visibles.
Réverbération / modes de salle : pics en basses fréquences, typiquement sous 300 Hz, aux fréquences des ondes stationnaires de la pièce. En général 5–20 dB au-dessus de la ligne de base.
Fenêtrage — pourquoi les pics ont des jupes
La FFT suppose que le fragment qu'elle analyse se répète à l'infini. Pour la plupart des signaux réels ce n'est pas vrai, donc la discontinuité aux bords crée du spectral leakage — l'énergie d'un seul ton se diffuse dans les bins voisins. La parade : multiplier le fragment par une fenêtre lissée (Hann, Hamming, Blackman, Kaiser, Flat-top) avant la FFT, pour que les bords arrivent à zéro.
Chaque fenêtre a son compromis : Hann est le choix quotidien — lobe principal étroit, lobes latéraux corrects. Blackman élargit le lobe principal en échange d'une meilleure réjection des lobes latéraux (utile pour repérer un petit ton à côté d'un grand). Flat-top a le lobe principal le plus large mais la meilleure précision en amplitude — à utiliser quand on veut mesurer exactement la hauteur d'un pic. Rectangulaire (sans fenêtre) a le lobe principal le plus étroit mais le pire leakage — utile uniquement quand le fragment est un multiple exact de la période du ton.
Axe de fréquence : linéaire ou logarithmique
Un axe linéaire place 0–10 kHz à la même largeur que 10–20 kHz. C'est faux pour l'analyse perceptive : l'oreille perçoit la hauteur en logarithmique, donc 100 Hz et 200 Hz sont à une octave d'écart, alors que 10000 Hz et 10100 Hz ne sont qu'une fraction de demi-ton. En linéaire, la zone des graves (où se passe la majorité de l'action musicale) se retrouve écrasée dans les 5 % gauches du graphique.
Utilisez la fréquence logarithmique pour toute tâche audio : voix, musique, acoustique des salles, prothèses auditives. Utilisez le linéaire pour les instruments scientifiques, l'analyse vibratoire des machines tournantes (où certains harmoniques d'arbre comptent) et l'ultrason. Notre Analyseur de Spectre est en logarithmique par défaut.
Lire le plancher de bruit
La ligne de base plate ou légèrement inclinée sous tous les pics est le plancher de bruit — limité par la quantification du convertisseur, le bruit électronique de la chaîne et le bruit acoustique ambiant. Sa distance en dB par rapport aux pics est la dynamique ou le SNR de l'enregistrement. Théoriquement, 16 bits donne ≈ −96 dBFS ; 24 bits, −144 dBFS. Les planchers réels sont 20–40 dB plus haut à cause de l'analogique.
Si un ton à mesurer est à moins de 10 dB du plancher, allongez la FFT, montez le gain (avec précaution — le clipping détruit le spectre) ou moyennez plusieurs FFT. Moyenner N FFT réduit le plancher apparent de 10·log10(N) dB sans flouter le ton.
Outils associés
- Analyseur de Spectre — FFT en direct avec fenêtre, longueur et axe log/linéaire au choix
- Visualiseur d'Onde — Temps et spectrogramme côte à côte
- Générateur de Tons — Génère un ton propre pour vérifier l'analyseur
- Détecteur de Tonalité — Détection de hauteur et tonalité musicale par chroma FFT
- Égaliseur Audio — Refaçonnez le spectre une fois compris
Questions fréquentes
Pourquoi ma sinusoïde pure ressemble à un triangle sur la FFT ?
Spectral leakage dû à une fenêtre rectangulaire (sans fenêtre). La fréquence du ton ne tombe sans doute pas au centre d'un bin, donc l'énergie s'étale. Passez à Hann ou Blackman et le triangle se réduit à un pic plus étroit.
Quelle différence entre spectre et spectrogramme ?
Un spectre est une seule FFT — un instantané du contenu fréquentiel sur un fragment de temps. Un spectrogramme est plusieurs FFT côte à côte au fil du temps, généralement en carte de chaleur avec le temps en X, la fréquence en Y et l'amplitude en couleur.
Comment augmenter la résolution fréquentielle sans perdre la résolution temporelle ?
Impossible — elles sont inversement liées (style principe d'incertitude). FFT plus longue = meilleurs bins mais pire localisation temporelle. Le compromis est la STFT avec fenêtres se chevauchant, base de la quasi-totalité des spectrogrammes.
Pourquoi la FFT n'est utile que jusqu'à la moitié de l'échantillonnage ?
Théorème de Nyquist : un signal échantillonné à fs Hz ne peut représenter que des fréquences jusqu'à fs/2. Au-dessus, il y a aliasing — repliement vers les fréquences plus basses. La FFT respecte cette limite ; les bins au-dessus de N/2 sont des images miroir et sont écartés.
Que signifie un pic à 50 Hz ?
Ronflette secteur (France, Europe — réseau 230 V/50 Hz) captée par la chaîne d'enregistrement. Fréquent avec micros à simple bobinage, boucles de masse, alimentations USB bon marché ou ordinateurs portables branchés. S'accompagne souvent d'harmoniques mineures à 100, 150, 200 Hz.
Pourquoi les graphiques FFT utilisent les dB plutôt que les pourcentages ?
La dynamique audio couvre couramment 80–100 dB (10000:1 à 100000:1). En pourcentage, tout ce qui est sous 1 % est invisible — pourtant ce sont précisément les fréquences qui comptent (réverbération, harmoniques de distorsion, plancher de bruit).
La FFT marche-t-elle pour des signaux non stationnaires comme la voix ?
Une seule FFT floute la parole — elle moyenne tous les phonèmes. Utilisez un spectrogramme (FFT courtes de 20–40 ms) ou notre Détecteur de Tonalité, qui analyse trame par trame.
À quoi sert la fenêtre flat-top ?
À mesurer l'amplitude exacte d'un ton isolé. La flat-top a un lobe principal large (mauvaise pour résoudre des tons proches) mais un sommet plat (la hauteur du pic égale l'amplitude du ton quel que soit son emplacement entre bins). La vérification d'amplitude au banc utilise flat-top.
