Extractor de Palabras Clave IA
Extractor gratuito de palabras clave con IA. Pega texto y obtén las palabras y frases más representativas con sentence-transformers (MiniLM) y MMR localmente.
Sobre el Extractor de Palabras Clave IA
¿En qué se diferencia esto de un extractor simple TF-IDF?
Los métodos de frecuencia de términos como TF-IDF ordenan las frases según cuántas veces aparecen comparadas con un corpus de referencia. Son rápidos pero ciegos al significado, así que sobrevaloran nombres propios raros y subestiman frases conceptualmente centrales que se reformulan a lo largo del texto. Esta herramienta usa el sentence-transformer all-MiniLM-L6-v2, que mapea tanto el documento como cada frase candidata a un espacio semántico de 384 dimensiones y las ordena por similitud coseno. Como resultado, un párrafo que habla de 'redes neuronales' usando vocabulario variado (aprendizaje profundo, capas ocultas, retropropagación) seguirá teniendo 'redes neuronales' como palabra clave principal aunque aparezca solo una vez, porque su embedding ocupa el centro de la nube conceptual.
¿Qué es Maximal Marginal Relevance (MMR) y por qué importa?
MMR es un algoritmo de reordenación introducido por Carbonell y Goldstein en 1998 que elige cada nuevo elemento equilibrando dos puntuaciones: su similitud con la consulta (aquí, el embedding del documento) y su disimilitud respecto a los elementos ya seleccionados. Un parámetro lambda (mapeado al deslizador inverso de Diversidad) controla el equilibrio. Sin MMR, los extractores basados en transformer tienden a devolver listas de casi duplicados porque las K mejores frases están cerca en el espacio de embeddings. Con MMR alto, la lista sigue siendo relevante pero se reparte por la superficie conceptual del documento, ofreciendo una visión mucho más rica, lo cual es ideal para briefs de contenido, clústeres temáticos o resúmenes de investigación.
¿Mi texto se sube a algún sitio?
No. El archivo del modelo se descarga una vez desde el CDN de Hugging Face (igual que cualquier biblioteca JavaScript) y queda en caché del navegador. Después, toda la inferencia ocurre dentro de un Web Worker en tu propio CPU o GPU. El texto que pegas, las frases candidatas y los embeddings finales nunca viajan por la red. Puedes verificarlo abriendo la pestaña Red de las DevTools del navegador: tras la descarga inicial del modelo no deberías ver ninguna petición saliente al pulsar Extraer. Este diseño puramente local hace que la herramienta sea segura para documentos confidenciales, NDAs, transcripciones de clientes y escritos no publicados.

¿Por qué la primera ejecución tarda mucho más que la segunda?
En la primera ejecución, el navegador debe descargar los pesos del modelo (~22 MB para el checkpoint MiniLM destilado más un pequeño tokenizador), descomprimirlos y compilar JIT los kernels WebAssembly o WebGPU que ejecutan las multiplicaciones matriciales. Luego los archivos quedan en la Cache Storage API y los kernels se mantienen calientes en el worker, así que las siguientes extracciones suelen completarse en menos de un segundo para documentos de pocos miles de palabras. Si limpias la caché del navegador, la descarga se repetirá. En conexión lenta la primera vez puede tardar 20-40 segundos; con conexión rápida más WebGPU baja de 5 segundos.
¿Por qué el extractor a veces devuelve palabras vacías dentro de una frase?
El generador de candidatos descarta frases cuyo primer o último token es una palabra vacía, pero deliberadamente permite palabras vacías en medio. Esto es intencional: frases como 'tasa de retorno', 'estado del arte' o 'coste de vida' tienen significado real aunque contengan 'de' o 'la'. Si quieres salida más estricta baja la longitud a 1-2 palabras; si quieres máxima legibilidad déjala en 1-3 y deja que el paso MMR resalte solo las frases más cohesivas. La columna de puntuación en la lista simple te permite filtrar agresivamente (por ejemplo, quedarte solo con entradas de puntuación >= 0.4).
¿Qué idiomas soporta el modelo?
El checkpoint all-MiniLM-L6-v2 fue entrenado principalmente en inglés, así que los documentos en inglés dan la mayor calidad. El modelo aún produce embeddings útiles para lenguas romances y germánicas cercanas (español, portugués, francés, alemán, italiano): la extracción funcionará y los resultados serán mayormente sensatos, pero la calibración de puntuaciones es menos fiable. Para vietnamita, chino, japonés, coreano, árabe y otros idiomas con conjuntos de caracteres distintos, un checkpoint multilingüe como paraphrase-multilingual-MiniLM-L12-v2 sería más preciso. Es posible que añadamos un selector de modelo en el futuro; por ahora puedes usar la herramienta con confianza en contenido en inglés y de forma exploratoria en lenguas romances.
