Como ler um espectro FFT: guia prático

Por WuTools editorial team · Atualizado 2026-05-08

Olhe o diagrama abaixo: aquela escada de picos é um gráfico FFT (Fast Fourier Transform) de uma única nota de piano (Lá4, 440 Hz). O pico mais alto à esquerda é a fundamental — o tom que você de fato ouve. Os picos menores e igualmente espaçados à direita são harmônicos em 2×, 3×, 4× a frequência fundamental — eles dão o timbre, a razão de um piano soar diferente de uma flauta tocando a mesma nota. Leia uma FFT assim e o resto da página passa a fazer sentido: cada bossa, pico, saia e inclinação informa algo concreto sobre a onda original. Este guia explica o que a FFT realmente calcula, como ler bins de frequência, a diferença entre magnitude e potência, como se parecem sinais reais (senoide, voz, ruído) e quais controles do nosso Analisador de Espectro influenciam cada característica.

O que a FFT realmente mostra

FFT de uma nota Lá4 de piano. Fundamental em 440 Hz (a altura percebida); harmônicos em 880, 1320, 1760 Hz (o timbre).

A FFT decompõe um trecho finito de sinal em uma soma de senoides. O eixo horizontal é frequência (Hz). O eixo vertical é a amplitude (ou potência) de cada componente de frequência presente no trecho. No diagrama acima o trecho contém uma nota de piano: a FFT recupera corretamente a fundamental de 440 Hz mais uma pilha de harmônicos em múltiplos inteiros (880, 1320, 1760 Hz). Se o trecho contivesse apenas uma senoide pura de 440 Hz, somente o pico mais à esquerda apareceria; se contivesse ruído de banda larga, o gráfico seria uma linha aproximadamente plana de 20 Hz até a frequência de Nyquist.

A FFT não diz quando cada frequência apareceu — ela faz a média do trecho inteiro. Para acompanhar a evolução temporal use um espectrograma (uma pilha de FFTs), o que o nosso Visualizador de Onda sobrepõe ao sinal no tempo.

Bins de frequência e resolução

Uma FFT de N pontos produz N/2 bins de frequência distintos entre 0 Hz e a frequência de Nyquist (metade da taxa de amostragem). Cada bin cobre fs/N hertz; uma FFT de 4096 pontos a 48 kHz dá cerca de 11,7 Hz por bin. Significa que dois tons puros separados por menos de 11,7 Hz cairão no mesmo bin — aparecerão como um único pico. Para resolvê-los aumente N (FFT mais longa) ou reduza a taxa de amostragem.

Há um tradeoff: FFT mais longa faz a média sobre mais tempo, então transientes ficam borrados. Análise de voz costuma usar 1024–4096 pontos (20–90 ms a 48 kHz). Música, 8192 ou mais para resolução fina de altura. Vibração em máquinas rotativas, até 65536 para separar harmônicos próximos do eixo.

Magnitude, potência e dB

Há três convenções comuns para o eixo vertical. Magnitude é a amplitude linear de cada componente; picos altos dominam, detalhes pequenos somem. Potência é magnitude ao quadrado, exagerando ainda mais os picos. Decibéis (20·log10(magnitude) ou 10·log10(potência)) comprimem a faixa dinâmica: uma razão de amplitudes 1000:1 vira um salto visual de 60 dB e os detalhes pequenos ficam legíveis.

Para áudio, sempre use escala dB exceto quando você caça um único tom específico. O ouvido humano percebe em dB; o olho lê melhor gráficos em dB. Especificações (THD, ruído de fundo, SNR) são reportadas universalmente em dB.

Padrões a reconhecer

Quatro formas comuns em uma FFT. F0 = fundamental vocal; 60/120/180 = hum da rede e seus harmônicos.

Senoide pura: um único pico alto e estreito na frequência do tom. Se tem saias largas na base, é artefato de janelamento (próxima seção).

Voz: uma fundamental no pitch do falante (~100 Hz homens, ~200 Hz mulheres) mais uma pilha de harmônicos em 2×, 3×, 4× a fundamental, decaindo para cima. O espaçamento entre picos é a fundamental — atalho para estimar pitch vocal. Teste no nosso Detector de Tom.

Ruído branco: linha plana oscilando alguns dB ao longo de toda a banda.

Ruído rosa: linha caindo 3 dB/oitava (10 dB/década). Sinal de teste padrão para acústica de salas.

Hum da rede elétrica: pico bem estreito em 60 Hz (Brasil, América do Norte) ou 50 Hz (Europa, Ásia), normalmente acompanhado de harmônicos menores em 120/100, 180/150, 240/200 Hz. Loop de terra, fontes baratas e notebooks na tomada são os culpados.

Sinal clipado: floresta de harmônicos bem acima da fundamental. Confirma fácil olhando a forma de onda no tempo — terá topos achatados.

Reverberação / modos de sala: picos em baixas frequências, tipicamente abaixo de 300 Hz, nas frequências das ondas estacionárias do cômodo. Costumam ficar 5–20 dB acima da linha base.

Janelamento — por que os picos têm saias

Mesmo tom único, duas janelas. Rectangular espalha energia pelos bins vizinhos (saias largas). A janela Hann concentra a energia em um único pico.

A FFT assume que o trecho analisado se repete para sempre. Para a maioria dos sinais reais isso não é verdade, então a descontinuidade nas bordas gera spectral leakage — a energia de um único tom espalha pelos bins vizinhos. A solução é multiplicar o trecho por uma janela suavizada (Hann, Hamming, Blackman, Kaiser, Flat-top) antes da FFT, para que as bordas vão a zero. O diagrama acima mostra o mesmo tom analisado sem janela (esquerda, energia escapando para os lados) versus com janela Hann (direita, energia concentrada em um único pico).

Cada janela tem seu compromisso: Hann é o padrão diário — lobo principal estreito, lobos laterais decentes. Blackman alarga o lobo principal em troca de melhor rejeição lateral (boa para achar tons pequenos perto de tons grandes). Flat-top tem o lobo principal mais largo mas a melhor precisão de amplitude — usada quando você precisa medir a altura do pico com exatidão. Rectangular (sem janela) tem o lobo principal mais estreito mas o pior leakage — só útil quando o trecho é múltiplo exato do período do tom.

Eixo de frequência: linear ou logarítmico

Eixo linear coloca 0–10 kHz na mesma largura visual de 10–20 kHz. Errado para análise auditiva: o ouvido percebe pitch em escala logarítmica, então 100 Hz e 200 Hz estão a uma oitava de distância, enquanto 10000 Hz e 10100 Hz são fração de semitom. No eixo linear, a região de graves (onde mora boa parte da ação musical) fica espremida nos 5% iniciais do gráfico.

Use frequência logarítmica para tudo de áudio: voz, música, acústica de salas, aparelhos auditivos. Use linear para instrumentos científicos, vibração em máquinas rotativas (onde harmônicos específicos do eixo importam) e ultrassom. Nosso Analisador de Espectro usa logarítmico por padrão.

Lendo o ruído de fundo

A linha base plana ou levemente inclinada abaixo de todos os picos é o ruído de fundo — limitado pela quantização do ADC, ruído eletrônico da cadeia de gravação e ruído acústico do ambiente. Sua distância em dB até os picos é a faixa dinâmica ou SNR da gravação. Para 16 bits, o piso teórico é cerca de −96 dBFS; para 24 bits, −144 dBFS. Pisos reais ficam 20–40 dB acima por causa da eletrônica analógica.

Se um tom que você quer medir está a menos de 10 dB do piso, aumente o tamanho da FFT, suba o ganho (cuidado — clipping destrói o espectro) ou faça média de várias FFTs. Promediar N FFTs reduz o ruído aparente em 10·log10(N) dB sem borrar o tom.

Ferramentas relacionadas

Analisador de Espectro — FFT ao vivo com janela, comprimento e eixo log/linear selecionáveis
Visualizador de Onda — Tempo e espectrograma lado a lado
Gerador de Tons — Faça um tom de teste limpo para validar o analisador
Detector de Tom — Detecção de pitch e tom musical a partir de chroma FFT
Equalizador de Áudio — Refaça o espectro depois de entendê-lo

Perguntas frequentes

Por que minha senoide pura aparece como triângulo na FFT?

Spectral leakage por janela rectangular (sem janela). A frequência do tom provavelmente não coincide com o centro de um bin, então a energia se espalha. Mude para Hann ou Blackman e o triângulo vira um pico mais estreito.

Qual a diferença entre espectro e espectrograma?

Espectro é uma única FFT — instantâneo do conteúdo de frequência sobre um trecho. Espectrograma é várias FFTs lado a lado conforme o tempo passa, geralmente em mapa de calor com tempo no X, frequência no Y e amplitude na cor.

Como aumento a resolução de frequência sem perder a temporal?

Não dá — são inversamente proporcionais (princípio de incerteza). FFT mais longa dá bins melhores mas pior localização no tempo. O compromisso é a STFT com janelas sobrepostas, base de quase todo espectrograma.

Por que a FFT só é útil até metade da taxa de amostragem?

Teorema de Nyquist: um sinal amostrado a fs Hz só pode representar frequências até fs/2. Acima disso vira aliasing — dobra para frequências menores. A FFT respeita esse limite; bins acima de N/2 são imagens espelhadas e descartados.

O que significa um pico em 60 Hz?

Hum da rede elétrica (Brasil, América do Norte) captado pela cadeia de gravação. Comum com captadores single-coil, loop de terra, fontes USB baratas ou notebook na tomada. Costuma vir acompanhado de harmônicos menores em 120, 180, 240 Hz.

Por que gráficos FFT usam dB em vez de porcentagem?

Faixa dinâmica de áudio cobre rotineiramente 80–100 dB (10000:1 a 100000:1). Em porcentagem, tudo abaixo de 1% some — mas justamente aí estão coisas importantes (reverberação, harmônicos de distorção, ruído de fundo).

FFT funciona para sinais não estacionários como voz?

Uma única FFT borra a fala — faz média de todos os fonemas. Use espectrograma (FFTs curtas de 20–40 ms) ou nosso Detector de Tom, que analisa frame a frame.

Pra que serve a janela flat-top?

Medir a amplitude exata de um tom isolado. Flat-top tem lobo principal largo (ruim para resolver tons próximos) mas topo plano (a altura do pico bate com a amplitude do tom independente de onde ele caia entre bins). Verificação de amplitude em bancada usa flat-top.