Extrator

Texto

Analisador

Extrator de Palavras-Chave IA

Extrator de palavras-chave com IA no dispositivo: sem upload, roda um transformer MiniLM (384-dim, ~23 MB) no navegador. Ranking KeyBERT MMR para SEO.

Usa Xenova/all-MiniLM-L6-v2 (~23 MB). O modelo é baixado uma vez e armazenado em cache pelo navegador.

Detectando...

Texto de origem

Open file

Clear

Paste

Melhores resultados com 100-2000 palavras. São analisados os primeiros 8000 caracteres.

Número de palavras-chave10

Quantas palavras-chave retornar (5-30)

Comprimento da frase

Número máximo de palavras por frase-chave

Diversidade0.5

0 = mais próximo do tópico, 1.0 = frases mais variadas

Tem feedback? Reporte bugs, sugira recursos ou compartilhe suas ideias — lemos todos

Sobre o Extrator de Palavras-Chave IA

O Extrator de Palavras-Chave com IA identifica as palavras e frases curtas mais representativas semanticamente em qualquer texto. Executa o pipeline KeyBERT inteiramente no seu navegador usando um modelo sentence-transformer com aceleração WebGPU, então textos confidenciais nunca saem do dispositivo. Diversidade e comprimento de frase ajustáveis para pesquisa de SEO, transcrições de reuniões ou descoberta de tópicos. Veja também nosso Tradutor IA e Gerador de legendas de imagem.

Em que isso difere de um extrator simples baseado em TF-IDF?

Métodos de frequência de termos como TF-IDF classificam frases pela quantidade de vezes que aparecem em comparação a um corpus de referência. São rápidos, mas cegos ao significado, então valorizam demais nomes próprios raros e subvalorizam frases conceitualmente centrais reformuladas pelo texto. Esta ferramenta usa o sentence-transformer all-MiniLM-L6-v2, que mapeia tanto o documento quanto cada frase candidata em um espaço semântico de 384 dimensões e os ordena pela similaridade cosseno. Como resultado, um parágrafo discutindo 'redes neurais' com vocabulário variado (aprendizado profundo, camadas ocultas, retropropagação) ainda terá 'redes neurais' como palavra-chave principal, mesmo aparecendo apenas uma vez, porque seu embedding ocupa o centro da nuvem conceitual.

O que é Maximal Marginal Relevance (MMR) e por que importa?

MMR é um algoritmo de re-classificação introduzido por Carbonell e Goldstein em 1998 que escolhe cada novo item equilibrando duas pontuações: a similaridade com a consulta (aqui, o embedding do documento) e a dissimilaridade em relação aos itens já selecionados. Um parâmetro lambda (mapeado ao controle invertido de Diversidade) controla o equilíbrio. Sem MMR, extratores baseados em transformer tendem a retornar listas de quase duplicatas porque as K melhores frases ficam próximas no espaço de embeddings. Com MMR alto, a lista continua relevante mas se espalha pela superfície conceitual do documento, oferecendo uma visão muito mais rica - ideal para briefings de conteúdo, clusters temáticos ou resumos de pesquisa.

Meu texto é enviado para algum servidor?

Não. O arquivo do modelo é baixado uma vez do CDN do Hugging Face (como qualquer biblioteca JavaScript) e fica em cache do navegador. Depois, toda a inferência acontece dentro de um Web Worker no seu próprio CPU ou GPU. O texto que você cola, as frases candidatas e os embeddings finais nunca trafegam pela rede. Você pode verificar isso na aba Network do DevTools: após o download inicial do modelo, não deve haver requisições de saída ao clicar em Extrair. Esse design local torna a ferramenta segura para documentos confidenciais, NDAs, transcrições de clientes e escritos inéditos.

Por que a primeira execução demora muito mais que a segunda?

Na primeira execução, o navegador precisa baixar os pesos do modelo (~23 MB para o checkpoint MiniLM destilado mais um tokenizador pequeno), descompactá-los e compilar JIT os kernels WebAssembly ou WebGPU que executam as multiplicações matriciais. Depois os arquivos ficam na Cache Storage API e os kernels permanecem aquecidos no worker, então as próximas extrações costumam terminar em menos de um segundo para documentos de alguns milhares de palavras. Se você limpar o cache, o download se repete. Em conexão lenta, a primeira execução pode levar 20-40 segundos; com conexão rápida e WebGPU fica abaixo de 5 segundos.

Extrator de Palavras-Chave IA — Extrator de palavras-chave com IA no dispositivo: sem upload, roda um transformer MiniLM (384-dim, ~23 MB) no navegador. — **Extrator de Palavras-Chave IA**

Por que o extrator às vezes retorna stop-words dentro de uma frase?

O gerador de candidatos descarta frases cujo primeiro ou último token é uma stop-word, mas deliberadamente permite stop-words no meio. Isso é intencional: frases como 'taxa de retorno', 'estado da arte' ou 'custo de vida' têm significado real mesmo contendo 'de' ou 'a'. Se quiser saída mais rígida, reduza o comprimento para 1-2 palavras; para máxima legibilidade, deixe 1-3 e deixe o MMR destacar apenas as frases mais coesas. A coluna de pontuação na lista simples permite filtrar de forma agressiva (por exemplo, manter apenas entradas com pontuação >= 0.4).

O que o número da pontuação realmente significa e em qual limiar devo confiar?

Cada pontuação é a similaridade cosseno (de 0 a 1) entre o embedding da frase candidata e o do documento, então ela mede quão central a frase é em relação ao texto inteiro - não quantas vezes aparece. Como calibração prática: pontuações de 0.5 ou mais indicam uma frase muito próxima do tópico central e quase sempre vale a pena manter; de 0.4 a 0.5 está solidamente no tema e é um bom limiar padrão para briefings de SEO e clusters de tópicos; de 0.3 a 0.4 está vagamente relacionada e útil principalmente para amplitude; abaixo de 0.3 costuma ser ruído. Use o controle Pontuação mínima de relevância acima dos botões de exportação para filtrar a lista em tempo real e exportar apenas as frases que ultrapassem o limiar. Uma ressalva para entradas muito longas: apenas os primeiros 8000 caracteres são analisados e, embora o embedding do documento agora abranja toda essa janela via média por blocos, o conteúdo além do corte de 8000 caracteres não é pontuado - divida textos extensos em seções se precisar de cobertura total.

Posso processar vários artigos e exportar as palavras-chave para uma planilha?

Sim. Passe cada artigo pela ferramenta um de cada vez, ajuste o controle Pontuação mínima de relevância ao limiar desejado (0.4 é um padrão sensato) e clique em CSV para baixar colunas de frase, pontuação e contagem que abrem diretamente no Excel, Google Sheets ou qualquer ferramenta de dados - ou JSON se você alimenta um script, e Markdown para uma tabela rápida no seu CMS. Como o controle filtra a lista antes de exportar, o arquivo contém apenas as palavras-chave de alta confiança, então você pode colar as exportações de vários artigos em uma planilha mestra e dinamizar ou remover duplicatas para montar um cluster de conteúdo sem limpar manualmente as linhas de baixa pontuação. Toda a extração acontece no dispositivo, então nem mesmo um lote de rascunhos inéditos sai da sua máquina.

Quais idiomas o modelo suporta?

O checkpoint all-MiniLM-L6-v2 usado aqui foi treinado principalmente em inglês, então documentos em inglês têm a maior qualidade. O modelo ainda gera embeddings úteis para línguas românicas e germânicas próximas (espanhol, português, francês, alemão, italiano) - a extração funciona e os resultados são em geral sensatos, mas a calibração da pontuação é menos confiável. Para vietnamita, chinês, japonês, coreano, árabe e outras línguas com conjuntos de caracteres distintos, um checkpoint multilíngue como paraphrase-multilingual-MiniLM-L12-v2 seria mais preciso. Podemos adicionar um seletor de modelo no futuro; por enquanto, use a ferramenta com confiança em conteúdo em inglês e em modo exploratório para línguas românicas.

Veja também

FERRAMENTAS DE IA33

WUTOOLS