Contador de Frecuencia de Palabras

Cuenta frecuencia de palabras, bigramas y trigramas, y verifica la densidad de palabras clave con veredicto Óptimo/Sobreoptimizado. Exporta a CSV, JSON o TXT.

Texto de entrada

Open file

Clear

Paste

Opciones de Análisis

Distinguir mayúsculas/minúsculas

Eliminar palabras vacías (el, la, de, etc.)

Eliminar puntuación

Eliminar números

Longitud mínima de palabra: 1

Máximo de resultados a mostrar: 100

Longitud de Frase (N-grama) Cuenta frases de 2-3 palabras en lugar de palabras sueltas

Mantener palabras vacías dentro de las frases

Estadísticas

Tabla de Frecuencia

Rango	Palabra	Cantidad	Frecuencia	Densidad
Sin resultados. Ingrese texto y haga clic en Analizar.

Exportar Resultados

¿Tienes comentarios? Reporta errores, sugiere funciones o comparte tus ideas — leemos todos

Acerca del Contador de Frecuencia de Palabras

El Contador de Frecuencia de Palabras es una herramienta poderosa de análisis de texto que te ayuda a identificar las palabras más utilizadas en cualquier texto. Perfecta para escritores, investigadores, especialistas en SEO y analistas de datos que necesitan analizar patrones de palabras, identificar palabras sobreutilizadas o estudiar la distribución de vocabulario. La herramienta ofrece opciones avanzadas de filtrado incluyendo eliminación de palabras vacías, sensibilidad a mayúsculas, manejo de puntuación y longitud mínima de palabra personalizable.

¿Cuál es la diferencia entre conteo de palabras y conteo de caracteres para SEO?

El conteo de palabras mide unidades lingüísticas separadas por espacios; el conteo de caracteres mide cada glifo incluyendo espacios, puntuación y acentos. Para SEO ambos importan pero en capas distintas. Google usa el conteo de palabras vagamente como señal de profundidad — artículos posicionando en consultas competitivas promedian 1.500-2.500 palabras porque el formato largo tiende a ser más completo, pero la longitud sola no es factor de ranking. El conteo de caracteres domina elementos de SERP: las etiquetas title truncan alrededor de 60 caracteres, las meta descriptions alrededor de 155-160. Twitter/X tope en 280, Open Graph descriptions muestran ~200. Esta herramienta cuenta palabras para análisis de profundidad; para límites de snippet, usa un contador de caracteres.

¿Qué son las stop words y debo eliminarlas siempre del análisis de frecuencia?

Las stop words son las palabras funcionales más comunes de un idioma — español el, la, de, en, que, y, los; inglés a, an, the, is, of, to; francés le, la, de, est; portugués o, a, de, em; vietnamita là, của, và. Aportan poco significado temático y dominarían cualquier lista de frecuencia, ahogando las palabras que realmente distinguen tu texto. Para investigación de keywords SEO, tematización de contenido y modelado de tópicos, elimínalas. Pero para estilometría (atribución de autoría), análisis de traducción o investigación lingüística, las stop words son críticas — revelan patrones sintácticos que varían por autor y dialecto. El filtro de esta herramienta usa una lista por idioma; puedes desactivarlo cuando necesites cada token.

¿Cómo segmentan los tokenizadores el vietnamita, chino y japonés que no tienen espacios entre palabras?

La tokenización por espacios funciona bien para español, inglés, francés y portugués donde los espacios separan palabras. Pero el vietnamita, a pesar de usar alfabeto latino con espacios, a menudo tiene palabras compuestas como "học sinh" (estudiante) que abarcan dos sílabas separadas por espacio — dividir por espacio produce "học" y "sinh" como tokens separados, distorsionando la frecuencia. El chino y japonés no tienen espacios entre palabras en absoluto. Una tokenización adecuada requiere segmentadores basados en diccionario: pyvi o underthesea para vietnamita, jieba para chino, MeCab para japonés. Este contador usa tokenización por espacios, precisa para idiomas occidentales y aproximada para vietnamita (a nivel sílaba).

¿Cómo encuentro las palabras clave más distintivas usando TF-IDF en lugar de frecuencia bruta?

La frecuencia bruta te dice qué palabras aparecen más en un documento, pero las más frecuentes suelen ser stopwords universales o términos genéricos. TF-IDF (Term Frequency-Inverse Document Frequency) pondera cada palabra por cuán única es en un corpus: palabras que aparecen frecuentemente en este documento pero raramente en el corpus general obtienen las puntuaciones más altas. La fórmula es TF × log(N / DF), donde TF es el conteo en este doc, N el total de documentos y DF el número de documentos que contienen la palabra. Para usar esta herramienta para TF-IDF: corre frecuencia en cada documento, luego para cada palabra divide su conteo por el número de docs del corpus que la contienen. Las palabras con alta distintividad se vuelven keywords candidatas.

¿Debo normalizar palabras (stemming, lematización) antes de contar frecuencia?

Contar formas brutas trata "correr," "corre," "corriendo" y "corrió" como cuatro tokens separados, lo que a menudo malrepresenta el tema. La normalización los colapsa. El stemming (Porter, Snowball) corta sufijos mecánicamente: "corriendo" → "corr," pero también "universidad" → "univers." La lematización (spaCy) usa diccionarios para hallar formas canónicas: "mejor" → "bueno," "corriendo" → "correr." La lematización es más precisa pero más lenta. Para SEO y análisis de contenido, da una imagen más verdadera de la cobertura temática. Para español, portugués y francés — idiomas fuertemente flexivos — la normalización es esencial o los conteos quedarán fragmentados. Esta herramienta cuenta formas superficiales; preprocesa con un stemmer si necesitas conteos normalizados.

Contador de Frecuencia de Palabras — Cuenta frecuencia de palabras, bigramas y trigramas, y verifica la densidad de palabras clave con veredicto Óptimo/Sobre — **Contador de Frecuencia de Palabras**

¿Cuál es una buena distribución de frecuencia de palabras para contenido de sonido natural?

El lenguaje natural sigue la ley de Zipf: la palabra n-ésima más frecuente aparece aproximadamente 1/n veces tan a menudo como la más frecuente. Graficada en ejes log-log, es una línea recta. Contenido saludable muestra: stopword superior alrededor de 5-7% del total de tokens, palabra de contenido superior 0,5-2%, cola larga de palabras que aparecen una vez (hapax legomena) representando 40-50% del vocabulario único. Banderas rojas: cualquier palabra de contenido por encima del 3% sugiere keyword stuffing, que puede disparar los filtros antispam de Google. El texto repetitivo generado por IA a menudo muestra una distribución más plana y menos hapax legomena que la escritura humana. Apunta a densidad de keyword de 0,5-2% para términos primarios.

¿Qué son los bigramas y trigramas, y por qué contar frases en lugar de palabras sueltas?

Un n-grama es una secuencia contigua de n palabras: un bigrama es una frase de 2 palabras ("aprendizaje automático"), un trigrama una de 3 ("procesamiento de lenguaje natural"). La frecuencia de palabras sueltas te dice qué términos se repiten, pero dispersa los conceptos multipalabra — "aprendizaje" puede aparecer mucho sin revelar que "aprendizaje automático" es el tema real. Usa el selector Longitud de Frase (N-grama) de esta herramienta para contar bigramas y trigramas: revela colocaciones, frases de marca y objetivos de keywords long-tail que el conteo de palabras sueltas oculta. El análisis de bigramas/trigramas es la forma más rápida de extraer keywords long-tail candidatas para SEO y detectar frases de relleno repetitivas. Nota: el veredicto de densidad (Escaso/Óptimo/Sobreoptimizado) aplica a palabras clave sueltas; para frases, lee el conteo y porcentaje brutos, ya que los umbrales de 0,5-3% se definen para términos individuales.

¿Cómo leo el veredicto de densidad Escaso / Óptimo / Sobreoptimizado?

En modo palabra suelta (unigrama) esta herramienta etiqueta cada término con un veredicto de densidad de palabra clave para que no hagas el cálculo a mano. Los umbrales siguen la guía SEO estándar: una palabra clave de contenido principal entre 0,5-2% (permitimos hasta 3%) se lee como Óptimo — bastante frecuente para señalar enfoque temático, sin parecer manipulada. Por debajo de 0,5% es Escaso: el término puede estar infrautilizado frente a tu intención objetivo, así que considera integrarlo más. Por encima de 3% se marca Sobreoptimizado, la clásica bandera roja de relleno de palabras clave que puede activar los filtros antispam de Google y dañar la legibilidad. La línea resumen bajo la tabla informa tu palabra clave de mayor densidad y lanza una advertencia general de riesgo de relleno cuando cualquier palabra de contenido supera el 3%. Trátalo como un chequeo rápido de aprobado/reprobado y vuelve a analizar. El veredicto viaja con tus exportaciones CSV, JSON y TXT.

¿Cómo se compara el análisis de frecuencia con el modelado de tópicos basado en embeddings?

La frecuencia de palabras es un enfoque bag-of-words — ignora orden, sintaxis y similitud semántica. "Perro grande mordió hombre" y "Hombre mordió perro grande" tienen perfiles de frecuencia idénticos. El modelado moderno de tópicos usa embeddings de palabras (Word2Vec, GloVe, sentence-BERT) que mapean palabras y oraciones a espacios vectoriales donde elementos semánticamente relacionados se agrupan. Los embeddings pueden agrupar "coche," "auto" y "vehículo" como un concepto, donde la frecuencia los cuenta como tres. Para análisis semántico profundo, ejecuta embeddings de oraciones a través de k-means o HDBSCAN. Para exploración léxica rápida, investigación de keywords y revisión editorial, la frecuencia bruta sigue siendo la señal más rápida e interpretable. Se complementan en lugar de competir.

¿Cómo afecta la tokenización de subpalabras en LLMs (BPE, SentencePiece) al análisis de frecuencia para diseño de prompts?

Los grandes modelos de lenguaje no ven palabras enteras — ven tokens de subpalabra producidos por Byte-Pair Encoding (BPE) o SentencePiece. "Tokenizadores" podría dividirse como "Token," "izador," "es," mientras "colonoscopía" podría ser "colon," "oscopía." Las palabras comunes se vuelven un solo token; las raras o no inglesas se fragmentan en muchos. Esto importa para el costo (las APIs facturan por token), ventanas de contexto (un límite de 4k tokens cabe solo ~3.000 palabras inglesas pero apenas ~2.000 españolas debido a codificación de acentos), y análisis de frecuencia en prompts. Para estimar el conteo real de tokens, usa la librería tiktoken de OpenAI o el tokenizador de Anthropic. Este contador funciona para redacción; cambia a un contador de tokens al optimizar prompts para costo o contexto.

Ejemplo de Análisis de Frecuencia de Palabras

Texto de Entrada	Top 3 Palabras	Palabras Totales	Palabras Únicas
El rápido zorro marrón salta sobre el perro perezoso	el (2), rápido (1), zorro (1)	9	8
Hola mundo! Hola a todos en este mundo.	hola (2), mundo (2), todos (1)	7	5
El análisis de datos es importante. El análisis ayuda.	análisis (2), datos (1), importante (1)	7	6

Ver también

HERRAMIENTAS DE TEXTO65

WUTOOLS