Extracción

Texto

Análisis

Extractor de Palabras Clave IA

Extractor de palabras clave con IA en tu dispositivo: sin subir nada, un transformer MiniLM (384-dim, ~23 MB) en tu navegador. Ranking KeyBERT MMR para SEO.

Funciona con Xenova/all-MiniLM-L6-v2 (~23 MB). El modelo se descarga una vez y queda en caché de tu navegador.

Detectando...

Texto de origen

Open file

Clear

Paste

Los mejores resultados se obtienen con 100-2000 palabras. Se analizan los primeros 8000 caracteres.

Número de palabras clave10

Cuántas palabras clave devolver (5-30)

Longitud de frase

Número máximo de palabras por frase clave

Diversidad0.5

0 = más cercano al tema, 1.0 = frases más variadas

¿Tienes comentarios? Reporta errores, sugiere funciones o comparte tus ideas — leemos todos

Sobre el Extractor de Palabras Clave IA

El Extractor de Palabras Clave IA identifica las palabras y frases cortas más representativas semánticamente en cualquier texto. Ejecuta el pipeline KeyBERT completamente en tu navegador usando un modelo sentence-transformer con aceleración WebGPU, por lo que el texto confidencial nunca abandona tu dispositivo. Diversidad y longitud de frase ajustables para investigación SEO, transcripciones de reuniones o descubrimiento de temas. Consulta también nuestro Traductor IA y Generador de subtítulos de imagen.

¿En qué se diferencia esto de un extractor simple TF-IDF?

Los métodos de frecuencia de términos como TF-IDF ordenan las frases según cuántas veces aparecen comparadas con un corpus de referencia. Son rápidos pero ciegos al significado, así que sobrevaloran nombres propios raros y subestiman frases conceptualmente centrales que se reformulan a lo largo del texto. Esta herramienta usa el sentence-transformer all-MiniLM-L6-v2, que mapea tanto el documento como cada frase candidata a un espacio semántico de 384 dimensiones y las ordena por similitud coseno. Como resultado, un párrafo que habla de 'redes neuronales' usando vocabulario variado (aprendizaje profundo, capas ocultas, retropropagación) seguirá teniendo 'redes neuronales' como palabra clave principal aunque aparezca solo una vez, porque su embedding ocupa el centro de la nube conceptual.

¿Qué es Maximal Marginal Relevance (MMR) y por qué importa?

MMR es un algoritmo de reordenación introducido por Carbonell y Goldstein en 1998 que elige cada nuevo elemento equilibrando dos puntuaciones: su similitud con la consulta (aquí, el embedding del documento) y su disimilitud respecto a los elementos ya seleccionados. Un parámetro lambda (mapeado al deslizador inverso de Diversidad) controla el equilibrio. Sin MMR, los extractores basados en transformer tienden a devolver listas de casi duplicados porque las K mejores frases están cerca en el espacio de embeddings. Con MMR alto, la lista sigue siendo relevante pero se reparte por la superficie conceptual del documento, ofreciendo una visión mucho más rica, lo cual es ideal para briefs de contenido, clústeres temáticos o resúmenes de investigación.

¿Mi texto se sube a algún sitio?

No. El archivo del modelo se descarga una vez desde el CDN de Hugging Face (igual que cualquier biblioteca JavaScript) y queda en caché del navegador. Después, toda la inferencia ocurre dentro de un Web Worker en tu propio CPU o GPU. El texto que pegas, las frases candidatas y los embeddings finales nunca viajan por la red. Puedes verificarlo abriendo la pestaña Red de las DevTools del navegador: tras la descarga inicial del modelo no deberías ver ninguna petición saliente al pulsar Extraer. Este diseño puramente local hace que la herramienta sea segura para documentos confidenciales, NDAs, transcripciones de clientes y escritos no publicados.

¿Por qué la primera ejecución tarda mucho más que la segunda?

En la primera ejecución, el navegador debe descargar los pesos del modelo (~23 MB para el checkpoint MiniLM destilado más un pequeño tokenizador), descomprimirlos y compilar JIT los kernels WebAssembly o WebGPU que ejecutan las multiplicaciones matriciales. Luego los archivos quedan en la Cache Storage API y los kernels se mantienen calientes en el worker, así que las siguientes extracciones suelen completarse en menos de un segundo para documentos de pocos miles de palabras. Si limpias la caché del navegador, la descarga se repetirá. En conexión lenta la primera vez puede tardar 20-40 segundos; con conexión rápida más WebGPU baja de 5 segundos.

Extractor de Palabras Clave IA — Extractor de palabras clave con IA en tu dispositivo: sin subir nada, un transformer MiniLM (384-dim, ~23 MB) en tu nave — **Extractor de Palabras Clave IA**

¿Por qué el extractor a veces devuelve palabras vacías dentro de una frase?

El generador de candidatos descarta frases cuyo primer o último token es una palabra vacía, pero deliberadamente permite palabras vacías en medio. Esto es intencional: frases como 'tasa de retorno', 'estado del arte' o 'coste de vida' tienen significado real aunque contengan 'de' o 'la'. Si quieres salida más estricta baja la longitud a 1-2 palabras; si quieres máxima legibilidad déjala en 1-3 y deja que el paso MMR resalte solo las frases más cohesivas. La columna de puntuación en la lista simple te permite filtrar agresivamente (por ejemplo, quedarte solo con entradas de puntuación >= 0.4).

¿Qué significa realmente el número de puntuación y qué umbral debo fiarme?

Cada puntuación es la similitud coseno (de 0 a 1) entre el embedding de la frase candidata y el del documento, así que mide qué tan central es la frase respecto a todo el texto, no cuántas veces aparece. Como calibración práctica: puntuaciones de 0.5 o más indican una frase muy cercana al tema central y casi siempre vale la pena conservarla; de 0.4 a 0.5 está sólidamente en el tema y es un buen umbral por defecto para briefs SEO y clústeres temáticos; de 0.3 a 0.4 está vagamente relacionada y sirve sobre todo para ampliar; por debajo de 0.3 suele ser ruido. Usa el deslizador Puntuación mínima de relevancia situado sobre los botones de exportación para filtrar la lista en tiempo real y exportar solo las frases que superen ese umbral. Una advertencia para textos muy largos: solo se analizan los primeros 8000 caracteres, y aunque el embedding del documento ahora abarca toda esa ventana mediante el promediado por fragmentos, lo que está más allá del corte de 8000 caracteres no se puntúa: divide los textos extensos en secciones si necesitas cobertura total.

¿Puedo procesar varios artículos y exportar las palabras clave a una hoja de cálculo?

Sí. Pasa cada artículo por la herramienta uno a uno, ajusta el deslizador de Puntuación mínima de relevancia a tu umbral preferido (0.4 es un valor sensato), y pulsa CSV para descargar columnas de frase, puntuación y recuento que se abren directamente en Excel, Google Sheets o cualquier herramienta de datos, o JSON si alimentas un script, y Markdown para una tabla rápida en tu CMS. Como el deslizador filtra la lista antes de exportar, el archivo solo contiene las palabras clave de alta confianza, así que puedes pegar las exportaciones de varios artículos en una hoja maestra y pivotar o eliminar duplicados para construir un clúster de contenido sin limpiar a mano las filas de baja puntuación. Toda la extracción ocurre en el dispositivo, así que ni siquiera un lote de borradores no publicados sale de tu equipo.

¿Qué idiomas soporta el modelo?

El checkpoint all-MiniLM-L6-v2 fue entrenado principalmente en inglés, así que los documentos en inglés dan la mayor calidad. El modelo aún produce embeddings útiles para lenguas romances y germánicas cercanas (español, portugués, francés, alemán, italiano): la extracción funcionará y los resultados serán mayormente sensatos, pero la calibración de puntuaciones es menos fiable. Para vietnamita, chino, japonés, coreano, árabe y otros idiomas con conjuntos de caracteres distintos, un checkpoint multilingüe como paraphrase-multilingual-MiniLM-L12-v2 sería más preciso. Es posible que añadamos un selector de modelo en el futuro; por ahora puedes usar la herramienta con confianza en contenido en inglés y de forma exploratoria en lenguas romances.

Ver también

HERRAMIENTAS IA33

WUTOOLS