Cómo leer un espectro FFT: guía práctica

Por WuTools editorial team · Actualizado

Un gráfico FFT (Fast Fourier Transform) parece confuso al principio — una línea que sube, baja, hace picos y se desploma a lo largo de un eje en hertzios. Pero al saber qué corresponde cada rasgo visual a la señal en el dominio del tiempo, el gráfico resulta más legible que la propia onda. Esta guía explica qué calcula realmente la FFT, cómo leer los bins de frecuencia, la diferencia entre magnitud y potencia, qué pinta tienen las señales reales (seno, voz, ruido) y qué controles de nuestro Analizador de Espectro afectan a cada característica.

Qué muestra realmente una FFT

La FFT descompone un fragmento finito de señal en una suma de sinusoides. El eje horizontal es la frecuencia (Hz). El eje vertical es la amplitud (o potencia) de cada componente de frecuencia presente en ese fragmento. Si el fragmento contiene una sinusoide de 440 Hz, el gráfico muestra un pico alto y estrecho a 440 Hz. Si contiene ruido plano en toda la banda audible, muestra una línea aproximadamente plana de 20 Hz hasta la frecuencia de Nyquist.

La FFT no indica cuándo apareció cada frecuencia — promedia todo el fragmento. Para ver la evolución temporal hace falta un espectrograma (una pila de FFTs), que el Visor de Onda superpone sobre la señal temporal.

Bins de frecuencia y resolución

Una FFT de N puntos produce N/2 bins de frecuencia distintos entre 0 Hz y la frecuencia de Nyquist (la mitad del muestreo). Cada bin abarca fs/N hertzios; una FFT de 4096 puntos a 48 kHz da unos 11,7 Hz por bin. Es decir, dos tonos puros separados menos de 11,7 Hz caerán en el mismo bin — se verán como un único pico. Para resolverlos hay que aumentar N (FFT más larga) o bajar la tasa de muestreo.

Hay un compromiso: una FFT más larga promedia sobre más tiempo, así que los transitorios se difuminan. El análisis de voz suele usar 1024–4096 puntos (20–90 ms a 48 kHz). Música, 8192 o más para resolución de tono fina. Vibración en máquinas rotativas, hasta 65536 para separar armónicos cercanos del eje.

Magnitud, potencia y dB

Hay tres convenciones habituales para el eje vertical. Magnitud es la amplitud lineal de cada componente; los picos altos dominan, lo pequeño desaparece. Potencia es la magnitud al cuadrado, lo cual exagera aún más los picos. Decibelios (20·log10(magnitud) o 10·log10(potencia)) comprimen el rango dinámico: un cociente de amplitudes de 1000:1 se convierte en un salto visual de 60 dB y los detalles pequeños pasan a ser legibles.

Para audio, siempre use escala dB salvo que persiga un único tono concreto. El oído humano oye en dB; el ojo lee mejor los gráficos en dB. Las especificaciones (THD, suelo de ruido, SNR) se reportan universalmente en dB.

Patrones a reconocer

Sinusoide pura: un único pico alto y estrecho a la frecuencia del tono. Si tiene faldones anchos en la base, es un artefacto de ventaneado (siguiente sección).

Voz: una fundamental al pitch del hablante (~100 Hz hombres, ~200 Hz mujeres) más una pila de armónicos en 2×, 3×, 4× la fundamental, decayendo hacia arriba. La separación entre picos es la fundamental — un atajo para estimar el pitch vocal. Pruébelo con nuestro Detector de Tonalidad.

Ruido blanco: línea plana que oscila unos pocos dB en toda la banda.

Ruido rosa: línea que cae 3 dB/octava (10 dB/década). Señal de prueba clásica para acústica de salas.

Zumbido de red: pico muy estrecho en 50 Hz (España y la mayor parte del mundo) o 60 Hz (Norteamérica), a menudo con armónicos menores en 100/120, 150/180 Hz. Los lazos de masa, las fuentes baratas y los portátiles enchufados son los culpables.

Señal recortada (clipping): bosque de armónicos muy por encima de la fundamental. Confírmelo viendo la forma de onda — tendrá cumbres planas.

Reverberación / modos de sala: picos en bajas frecuencias, normalmente bajo 300 Hz, en las frecuencias de las ondas estacionarias del cuarto. Suelen estar 5–20 dB por encima de la línea base.

Ventaneado — por qué los picos tienen faldones

La FFT asume que el fragmento que analiza se repite por siempre. En la mayoría de señales reales no es así, así que la discontinuidad en los extremos genera spectral leakage — la energía de un único tono se desparrama por bins vecinos. La solución es multiplicar el fragmento por una ventana suavizada (Hann, Hamming, Blackman, Kaiser, Flat-top) antes de la FFT, para que los bordes lleguen a cero.

Cada ventana tiene su compromiso: Hann es la opción cotidiana — lóbulo principal estrecho, lóbulos laterales aceptables. Blackman ensancha el lóbulo principal a cambio de mejor rechazo de laterales (útil para encontrar tonos pequeños junto a grandes). Flat-top tiene el lóbulo principal más ancho pero la mejor precisión de amplitud — se usa cuando necesitas medir con exactitud el alto del pico. Rectangular (sin ventana) tiene el lóbulo principal más estrecho pero el peor leakage — sólo útil cuando el fragmento es múltiplo exacto del periodo del tono.

Eje de frecuencia: lineal o logarítmico

Un eje lineal pone 0–10 kHz con la misma anchura que 10–20 kHz. Eso es incorrecto para análisis perceptual: el oído percibe pitch logarítmicamente, así que 100 Hz y 200 Hz están a una octava de distancia, mientras que 10000 Hz y 10100 Hz son una pequeña fracción de semitono. En un eje lineal, la región de bajos (donde sucede la mayoría de la acción musical) queda apretada en el 5% izquierdo del gráfico.

Use frecuencia logarítmica para cualquier tarea de audio: voz, música, acústica de salas, audífonos. Use lineal para instrumentos científicos, vibración en maquinaria rotativa (donde le interesan armónicos del eje específicos) y ultrasonidos. Nuestro Analizador de Espectro usa logarítmico por defecto.

Leer el suelo de ruido

La línea de base plana o levemente inclinada bajo todos los picos es el suelo de ruido — limitado por la cuantización del ADC, el ruido electrónico de la cadena y el ruido ambiente acústico. Su nivel relativo a los picos (en dB) es el rango dinámico o la SNR de la grabación. Para 16 bits el suelo teórico es ≈ −96 dBFS; para 24 bits, −144 dBFS. Los suelos reales están 20–40 dB por encima por la electrónica analógica.

Si un tono que intenta medir está a menos de 10 dB del suelo, alargue la FFT, suba la ganancia (con cuidado — el clipping mata el espectro) o promedie varias FFTs. Promediar N FFTs reduce el suelo aparente en 10·log10(N) dB sin difuminar el tono.

Herramientas relacionadas

Preguntas frecuentes

¿Por qué mi sinusoide pura aparece como un triángulo en la FFT?

Es spectral leakage por usar ventana rectangular (sin ventana). Probablemente la frecuencia del tono no coincide con el centro de un bin, así que la energía se reparte. Cambie a Hann o Blackman y el triángulo se reduce a un pico más estrecho.

¿Cuál es la diferencia entre espectro y espectrograma?

Un espectro es una sola FFT — instantánea de contenido frecuencial sobre un trozo de tiempo. Un espectrograma es muchas FFTs colocadas una junto a otra a medida que avanza el tiempo, normalmente como mapa de calor con tiempo en X, frecuencia en Y y amplitud en color.

¿Cómo aumento la resolución de frecuencia sin perder resolución temporal?

No se puede — son inversamente proporcionales (estilo principio de incertidumbre). Una FFT más larga da mejores bins pero peor localización temporal. El compromiso es la STFT con ventanas solapadas, que es lo que hacen casi todos los espectrogramas.

¿Por qué la FFT sólo es útil hasta la mitad del muestreo?

Teorema de Nyquist: una señal muestreada a fs Hz sólo puede representar frecuencias hasta fs/2. Lo que esté por encima sufre aliasing, plegándose a frecuencias menores. La FFT respeta esto; los bins por encima de N/2 son imágenes especulares y se descartan.

¿Qué significa un pico a 50 Hz?

Zumbido de la red eléctrica (España, Europa) captado por la cadena de grabación. Es habitual con pastillas de bobina simple, lazos de masa, fuentes USB baratas o portátiles enchufados. Suele ir acompañado de armónicos menores en 100, 150, 200 Hz.

¿Por qué los gráficos FFT usan dB en vez de porcentaje?

El rango dinámico de audio cubre rutinariamente 80–100 dB (10000:1 a 100000:1). En porcentaje, todo lo que esté por debajo del 1% es invisible — pero esas frecuencias bajas suelen ser justo lo que se quiere ver (reverberación, armónicos de distorsión, suelo de ruido).

¿Sirve la FFT para señales no estacionarias como la voz?

Una sola FFT difumina el habla — promedia todos los fonemas. Use un espectrograma (FFTs cortos de 20–40 ms) o nuestro Detector de Tonalidad que analiza fotograma a fotograma.

¿Para qué sirve la ventana flat-top?

Para medir con exactitud la amplitud de un tono aislado. La flat-top tiene un lóbulo principal ancho (mala para resolver tonos cercanos) pero un techo plano (la altura del pico iguala la amplitud del tono sin importar dónde caiga entre bins). La verificación de amplitud en banco usa flat-top.

Referencias

  1. Julius O. Smith III — Spectral Audio Signal Processing (Stanford CCRMA)
  2. IEEE 1057 — Standard for Digitizing Waveform Recorders
  3. MathWorks — Documentación de FFT
  4. F.J. Harris — On the Use of Windows for Harmonic Analysis with the DFT (1978)