Contador de Frequência de Palavras

Conte frequência de palavras, bigramas e trigramas, e verifique a densidade de palavras-chave com veredicto Ótimo/Sobre-otimizado. Exporte em CSV, JSON ou TXT.

Texto de entrada

Open file

Clear

Paste

Opções de Análise

Diferenciar maiúsculas

Remover palavras vazias (a, o, de, etc.)

Remover pontuação

Remover números

Comprimento mínimo da palavra: 1

Máximo de resultados para exibir: 100

Tamanho da Frase (N-grama) Conte frases de 2-3 palavras em vez de palavras isoladas

Manter palavras vazias dentro das frases

Estatísticas

Tabela de Frequência

Posição	Palavra	Contagem	Frequência	Densidade
Sem resultados. Digite texto e clique em Analisar.

Exportar Resultados

Tem feedback? Reporte bugs, sugira recursos ou compartilhe suas ideias — lemos todos

Sobre a Ferramenta Contador de Frequência de Palavras

O Contador de Frequência de Palavras é uma poderosa ferramenta de análise de texto que ajuda você a identificar as palavras mais usadas em qualquer texto. Perfeito para escritores, pesquisadores, especialistas em SEO e analistas de dados que precisam analisar padrões de palavras, identificar palavras superutilizadas ou estudar distribuição de vocabulário. A ferramenta oferece opções avançadas de filtragem incluindo remoção de palavras vazias, diferenciação de maiúsculas, tratamento de pontuação e comprimento mínimo de palavra personalizável.

Qual a diferença entre contagem de palavras e contagem de caracteres para SEO?

Contagem de palavras mede unidades linguísticas discretas separadas por espaço; contagem de caracteres mede cada glifo incluindo espaços, pontuação e acentos. Para SEO ambas importam mas em camadas diferentes. O Google usa contagem de palavras vagamente como sinal de profundidade — artigos rankeando em consultas competitivas têm em média 1.500-2.500 palavras porque formato longo tende a ser mais abrangente, mas comprimento sozinho não é fator de ranking. Contagem de caracteres domina elementos da SERP: title tags truncam por volta de 60 caracteres, meta descriptions cerca de 155-160. Twitter/X limita a 280, Open Graph descriptions exibem ~200. Esta ferramenta conta palavras para análise de profundidade; para limites de snippet, use um contador de caracteres.

O que são stop words e devo sempre removê-las da análise de frequência?

Stop words são as palavras funcionais mais comuns de um idioma — português o, a, de, em, que, e, do, da; inglês a, an, the, is, of; espanhol el, la, de; francês le, la, de; vietnamita là, của, và. Elas carregam pouco significado tópico e dominariam qualquer lista de frequência, afogando as palavras que realmente distinguem seu texto. Para pesquisa de keywords SEO, tematização de conteúdo e modelagem de tópicos, remova-as. Mas para estilometria (atribuição de autoria), análise de tradução ou pesquisa linguística, stop words são críticas — revelam padrões sintáticos que variam por autor e dialeto. O filtro desta ferramenta usa uma lista padrão por idioma; você pode desativá-lo quando precisar de todo token.

Como tokenizadores dividem texto em vietnamita, chinês e japonês que não tem espaços entre palavras?

Tokenização por espaço funciona bem para inglês, espanhol, francês e português onde espaços separam palavras. Mas vietnamita, apesar de usar alfabeto latino com espaços, frequentemente tem palavras compostas como "học sinh" (estudante) que abrangem duas sílabas separadas por espaço — dividir por espaço produz "học" e "sinh" como tokens separados, distorcendo frequência. Chinês e japonês não têm espaços entre palavras de forma alguma. Tokenização adequada exige segmentadores baseados em dicionário: pyvi ou underthesea para vietnamita, jieba para chinês, MeCab para japonês. Este contador de frequência usa tokenização por espaço, precisa para idiomas ocidentais e aproximada para vietnamita (nível silábico). Para chinês ou japonês, pré-processe com um segmentador e cole o resultado separado por espaço.

Como encontro as palavras-chave mais distintivas usando TF-IDF em vez de frequência bruta?

Frequência bruta diz quais palavras aparecem mais em um documento, mas as mais frequentes geralmente são stopwords universais ou termos genéricos. TF-IDF (Term Frequency-Inverse Document Frequency) pondera cada palavra por quão única é num corpus: palavras que aparecem frequentemente neste documento mas raramente no corpus mais amplo recebem as pontuações mais altas. A fórmula é TF × log(N / DF), onde TF é a contagem neste doc, N é total de documentos, e DF é o número de documentos contendo a palavra. Para usar esta ferramenta para TF-IDF: rode frequência em cada documento, então para cada palavra divida sua contagem pelo número de documentos do corpus que a contêm. Palavras com alta distintividade tornam-se keywords candidatas para aquele documento específico.

Devo normalizar palavras (stemming, lematização) antes de contar frequência?

Contar formas brutas trata "correr," "corre," "correndo" e "correu" como quatro tokens separados, o que frequentemente representa mal o tópico. Normalização os colapsa. Stemming (Porter, Snowball) corta sufixos mecanicamente: "correndo" → "corr," mas também "universidade" → "univers." Lematização (spaCy) usa dicionários para encontrar formas canônicas: "melhor" → "bom," "correndo" → "correr." Lematização é mais precisa mas mais lenta. Para SEO e análise de conteúdo, lematização dá uma imagem mais verdadeira da cobertura tópica. Para português, espanhol e francês — idiomas fortemente flexivos — normalização é essencial ou contagens ficarão fragmentadas. Esta ferramenta conta formas superficiais; pré-processe com um stemmer se precisar de contagens normalizadas.

Contador de Frequência de Palavras — Conte frequência de palavras, bigramas e trigramas, e verifique a densidade de palavras-chave com veredicto Ótimo/Sobre- — **Contador de Frequência de Palavras**

Qual uma boa distribuição de frequência de palavras para conteúdo de soar natural?

Linguagem natural segue a lei de Zipf: a n-ésima palavra mais frequente aparece cerca de 1/n vezes tão frequentemente quanto a mais frequente. Plotada em eixos log-log, é uma linha reta. Conteúdo saudável mostra: stopword superior em torno de 5-7% do total de tokens, palavra de conteúdo superior 0,5-2%, cauda longa de palavras aparecendo uma vez (hapax legomena) compondo 40-50% do vocabulário único. Bandeiras vermelhas: qualquer palavra de conteúdo única acima de 3% sugere keyword stuffing, que pode disparar os filtros de spam do Google. Texto repetitivo gerado por IA frequentemente mostra distribuição mais plana e menos hapax legomena do que escrita humana. Use esta ferramenta para identificar keywords usadas em excesso, e mire densidade de keyword na faixa de 0,5-2% para termos primários.

O que são bigramas e trigramas, e por que contar frases em vez de palavras isoladas?

Um n-grama é uma sequência contígua de n palavras: um bigrama é uma frase de 2 palavras ("aprendizado de máquina"), um trigrama uma de 3 ("processamento de linguagem natural"). A frequência de palavras isoladas diz quais termos se repetem, mas dispersa conceitos de várias palavras — "aprendizado" pode aparecer muito sem revelar que "aprendizado de máquina" é o tema real. Use o seletor Tamanho da Frase (N-grama) desta ferramenta para contar bigramas e trigramas: ele revela colocações, frases de marca e alvos de keywords de cauda longa que a contagem de palavras isoladas oculta. A análise de bigramas/trigramas é a forma mais rápida de extrair keywords de cauda longa candidatas para SEO e detectar frases de preenchimento repetitivas. Nota: o veredicto de densidade (Escasso/Ótimo/Sobre-otimizado) aplica-se a palavras-chave isoladas; para frases, leia a contagem e porcentagem brutas, pois os limiares de 0,5-3% são definidos para termos individuais.

Como leio o veredicto de densidade Escasso / Ótimo / Sobre-otimizado?

No modo palavra isolada (unigrama) esta ferramenta marca cada termo com um veredicto de densidade de palavra-chave para você não fazer a conta à mão. Os limiares seguem a orientação SEO padrão: uma palavra-chave de conteúdo principal entre 0,5-2% (permitimos até 3%) é lida como Ótimo — frequente o bastante para sinalizar foco temático, sem parecer manipulada. Abaixo de 0,5% é Escasso: o termo pode estar subutilizado frente à sua intenção alvo, então considere incorporá-lo mais. Acima de 3% é sinalizado Sobre-otimizado, a clássica bandeira vermelha de excesso de palavras-chave que pode acionar os filtros de spam do Google e prejudicar a legibilidade. A linha de resumo abaixo da tabela informa sua palavra-chave de maior densidade e levanta um alerta geral de risco de excesso quando qualquer palavra de conteúdo ultrapassa 3%. Trate como uma verificação rápida de aprovado/reprovado e analise novamente. O veredicto acompanha suas exportações CSV, JSON e TXT.

Como a análise de frequência se compara à modelagem de tópicos baseada em embeddings?

Frequência de palavras é abordagem bag-of-words — ignora ordem, sintaxe e similaridade semântica. "Cachorro grande mordeu homem" e "Homem mordeu cachorro grande" têm perfis de frequência idênticos. Modelagem moderna de tópicos usa embeddings de palavras (Word2Vec, GloVe, sentence-BERT) que mapeiam palavras e sentenças em espaços vetoriais onde itens semanticamente relacionados se agrupam. Embeddings podem agrupar "carro," "automóvel" e "veículo" como um conceito, onde a frequência conta como três. Para análise semântica profunda, rode embeddings de sentença através de k-means ou HDBSCAN. Para exploração léxica rápida, pesquisa de keywords e revisão editorial, frequência bruta permanece o sinal mais rápido e interpretável. Eles se complementam em vez de competir.

Como a tokenização de subpalavras em LLMs (BPE, SentencePiece) afeta a análise de frequência para design de prompts?

Grandes modelos de linguagem não veem palavras inteiras — veem tokens de subpalavra produzidos por Byte-Pair Encoding (BPE) ou SentencePiece. "Tokenizadores" pode dividir como "Token," "izador," "es," enquanto "colonoscopia" pode ser "colon," "oscopia." Palavras comuns viram um único token; raras ou não-inglesas fragmentam em muitos. Isso importa para custo (APIs cobram por token), janelas de contexto (um limite de 4k tokens cabe apenas ~3.000 palavras inglesas mas só ~2.000 portuguesas devido à codificação de acentos), e análise de frequência em prompts. Para estimar a contagem real de tokens do seu prompt, use a biblioteca tiktoken da OpenAI ou o tokenizador da Anthropic. Este contador de palavras serve para drafting; troque para um contador de tokens ao otimizar prompts para custo ou contexto.

Exemplo de Análise de Frequência de Palavras

Texto de Entrada	Top 3 Palavras	Total de Palavras	Palavras Únicas
O rápido raposo marrom pula sobre o cachorro preguiçoso	o (2), rápido (1), raposo (1)	9	8
Olá mundo! Olá todos neste mundo.	olá (2), mundo (2), todos (1)	7	5
Análise de dados é importante. Análise ajuda.	análise (2), dados (1), importante (1)	6	5

Veja também

FERRAMENTAS DE TEXTO65

WUTOOLS