Extrator de Palavras-Chave IA

Extrator gratuito de palavras-chave com IA. Cole texto e obtenha as palavras e frases mais representativas com sentence-transformers (MiniLM) e MMR, tudo local.

AI Usa Xenova/all-MiniLM-L6-v2 (~25 MB). O modelo é baixado uma vez e armazenado em cache pelo navegador.
Detectando...
clearClearpastePaste
Melhores resultados com 100-2000 palavras. São analisados os primeiros 8000 caracteres.
Quantas palavras-chave retornar (5-30)
Número máximo de palavras por frase-chave
0 = mais próximo do tópico, 1.0 = frases mais variadas

Sobre o Extrator de Palavras-Chave IA

Em que isso difere de um extrator simples baseado em TF-IDF?

Métodos de frequência de termos como TF-IDF classificam frases pela quantidade de vezes que aparecem em comparação a um corpus de referência. São rápidos, mas cegos ao significado, então valorizam demais nomes próprios raros e subvalorizam frases conceitualmente centrais reformuladas pelo texto. Esta ferramenta usa o sentence-transformer all-MiniLM-L6-v2, que mapeia tanto o documento quanto cada frase candidata em um espaço semântico de 384 dimensões e os ordena pela similaridade cosseno. Como resultado, um parágrafo discutindo 'redes neurais' com vocabulário variado (aprendizado profundo, camadas ocultas, retropropagação) ainda terá 'redes neurais' como palavra-chave principal, mesmo aparecendo apenas uma vez, porque seu embedding ocupa o centro da nuvem conceitual.

O que é Maximal Marginal Relevance (MMR) e por que importa?

MMR é um algoritmo de re-classificação introduzido por Carbonell e Goldstein em 1998 que escolhe cada novo item equilibrando duas pontuações: a similaridade com a consulta (aqui, o embedding do documento) e a dissimilaridade em relação aos itens já selecionados. Um parâmetro lambda (mapeado ao controle invertido de Diversidade) controla o equilíbrio. Sem MMR, extratores baseados em transformer tendem a retornar listas de quase duplicatas porque as K melhores frases ficam próximas no espaço de embeddings. Com MMR alto, a lista continua relevante mas se espalha pela superfície conceitual do documento, oferecendo uma visão muito mais rica - ideal para briefings de conteúdo, clusters temáticos ou resumos de pesquisa.

Meu texto é enviado para algum servidor?

Não. O arquivo do modelo é baixado uma vez do CDN do Hugging Face (como qualquer biblioteca JavaScript) e fica em cache do navegador. Depois, toda a inferência acontece dentro de um Web Worker no seu próprio CPU ou GPU. O texto que você cola, as frases candidatas e os embeddings finais nunca trafegam pela rede. Você pode verificar isso na aba Network do DevTools: após o download inicial do modelo, não deve haver requisições de saída ao clicar em Extrair. Esse design local torna a ferramenta segura para documentos confidenciais, NDAs, transcrições de clientes e escritos inéditos.

Extrator de Palavras-Chave IA — Extrator gratuito de palavras-chave com IA. Cole texto e obtenha as palavras e frases mais representativas com sentence-
Extrator de Palavras-Chave IA

Por que a primeira execução demora muito mais que a segunda?

Na primeira execução, o navegador precisa baixar os pesos do modelo (~22 MB para o checkpoint MiniLM destilado mais um tokenizador pequeno), descompactá-los e compilar JIT os kernels WebAssembly ou WebGPU que executam as multiplicações matriciais. Depois os arquivos ficam na Cache Storage API e os kernels permanecem aquecidos no worker, então as próximas extrações costumam terminar em menos de um segundo para documentos de alguns milhares de palavras. Se você limpar o cache, o download se repete. Em conexão lenta, a primeira execução pode levar 20-40 segundos; com conexão rápida e WebGPU fica abaixo de 5 segundos.

Por que o extrator às vezes retorna stop-words dentro de uma frase?

O gerador de candidatos descarta frases cujo primeiro ou último token é uma stop-word, mas deliberadamente permite stop-words no meio. Isso é intencional: frases como 'taxa de retorno', 'estado da arte' ou 'custo de vida' têm significado real mesmo contendo 'de' ou 'a'. Se quiser saída mais rígida, reduza o comprimento para 1-2 palavras; para máxima legibilidade, deixe 1-3 e deixe o MMR destacar apenas as frases mais coesas. A coluna de pontuação na lista simples permite filtrar de forma agressiva (por exemplo, manter apenas entradas com pontuação >= 0.4).

Quais idiomas o modelo suporta?

O checkpoint all-MiniLM-L6-v2 usado aqui foi treinado principalmente em inglês, então documentos em inglês têm a maior qualidade. O modelo ainda gera embeddings úteis para línguas românicas e germânicas próximas (espanhol, português, francês, alemão, italiano) - a extração funciona e os resultados são em geral sensatos, mas a calibração da pontuação é menos confiável. Para vietnamita, chinês, japonês, coreano, árabe e outras línguas com conjuntos de caracteres distintos, um checkpoint multilíngue como paraphrase-multilingual-MiniLM-L12-v2 seria mais preciso. Podemos adicionar um seletor de modelo no futuro; por enquanto, use a ferramenta com confiança em conteúdo em inglês e em modo exploratório para línguas românicas.