Resumidor de Texto com IA
Resumidor de texto gratuito com IA. Gere resumos concisos de artigos, documentos e textos longos. Escolha resumo extrativo ou abstrativo com tamanho personalizável.
Sobre o Resumidor de Texto com IA
Nosso Resumidor de Texto com IA usa modelos avançados de aprendizado de máquina do Hugging Face para gerar resumos inteligentes de textos longos. A ferramenta suporta tanto resumo extrativo (selecionando frases-chave) quanto resumo abstrativo (reescrita gerada por IA).
O modo extrativo analisa a importância das frases com base em posição, palavras-chave e estrutura para selecionar as frases mais relevantes. O modo abstrativo usa BART (Bidirectional and Auto-Regressive Transformers) da Facebook AI para entender o contexto e gerar resumos de som natural nas próprias palavras da IA.
Ambos os métodos requerem conexão com a internet para acessar APIs de IA baseadas em nuvem. Seu texto é enviado para serviços externos para processamento. Veja também nosso Corretor Gramatical e Parafraseador e Extrator de palavras-chave IA.
O resumidor de IA roda totalmente no meu navegador?
Sim. O modelo é baixado uma única vez via Transformers.js e depois executa localmente dentro da aba do navegador usando WebAssembly ou WebGPU. Após o download inicial (armazenado em cache para futuras visitas), não há nenhuma chamada de rede por resumo — cada token do seu texto e cada palavra do resumo gerado permanece no seu dispositivo. Nunca vemos seus documentos e nenhum registro é criado no servidor. Isso torna a ferramenta segura para rascunhos confidenciais, relatórios internos, peças jurídicas, notas médicas ou qualquer texto que você não possa legalmente enviar para uma API externa como OpenAI ou Anthropic.
Quais formatos e tamanhos de texto são suportados?
Você pode colar texto puro, Markdown ou conteúdo copiado de PDF, Word, artigos web ou e-mail. O codificador aceita UTF-8 em qualquer idioma com o qual o modelo foi treinado (geralmente inglês, com variantes multilíngues suportando mais de 100 idiomas). O tamanho prático é limitado pela janela de contexto do modelo — a maioria dos modelos BART/T5 destilados lida com 512 a 1024 tokens (cerca de 400-800 palavras em português) por passagem. Para documentos mais longos, a ferramenta divide a entrada em janelas sobrepostas, resume cada bloco e depois resume os resumos (resumo hierárquico).
Por que o primeiro resumo demora tanto e os próximos são rápidos?
A primeira execução precisa baixar os pesos do modelo (60-250 MB conforme a variante), analisá-los, montar o grafo WebAssembly e compilar os kernels de computação para sua CPU ou GPU. Esse custo de partida a frio pode levar 10-40 segundos em um desktop típico e mais no celular. Uma vez carregados, os pesos vivem na memória do navegador (e no cache IndexedDB), então os resumos seguintes reutilizam o mesmo modelo e concluem em 1-5 segundos para trechos curtos. Se você fechar a aba a RAM é liberada, mas o cache IndexedDB sobrevive, e a próxima visita só precisa recompilar, não rebaixar.
Quão precisos são os resumos de IA comparados aos humanos?
Modelos abstrativos modernos como BART-large-CNN ou Pegasus alcançam pontuações ROUGE-L de 40-45 nos benchmarks CNN/DailyMail, competitivas com resumidores humanos não-especialistas em conteúdo jornalístico. A qualidade cai em textos muito técnicos, de domínio específico ou narrativos com os quais o modelo não foi treinado. O modelo também pode "alucinar" — introduzir fatos que não estão no original — então sempre verifique números, nomes e citações contra o texto-fonte antes de publicar. Modelos destilados (DistilBART, T5-small) trocam 2-5 pontos ROUGE por 3-5x mais velocidade e menor download.

WebGPU é mais rápido que WebAssembly para resumo?
Sim, frequentemente de forma drástica. WebGPU pode delegar as multiplicações de matrizes que dominam a inferência do transformer para sua GPU integrada ou dedicada, obtendo acelerações de 3-10x em um notebook típico em relação ao backend SIMD-WebAssembly rodando em CPU. A diferença aumenta com modelos grandes: um BART-large de 400 MB é quase inutilizável em CPU mas opera em tempo real no WebGPU. WebGPU requer um navegador recente (Chrome 113+, Edge, Safari 18+, Firefox Nightly com flag) e um driver de GPU compatível. Caso indisponível, a ferramenta automaticamente recorre a WebAssembly com SIMD e multithreading.
Por que o arquivo do modelo é tão grande e posso reduzi-lo?
O tamanho do transformer é dominado pelas matrizes de parâmetros: um BART-base de 140M parâmetros em FP32 ocupa 560 MB, e em FP16 são 280 MB. Por padrão entregamos ONNX quantizado em INT8, reduzindo para cerca de 140 MB e perdendo apenas 1-3 pontos ROUGE. Variantes destiladas menores — DistilBART-CNN-6-6 com cerca de 60 MB em INT8 — são ainda mais rápidas e carregam em segundos, ao custo de resumos ligeiramente menos refinados. Você pode escolher a variante nas configurações avançadas. Para uso pontual em conexão lenta, a variante menor costuma ser a melhor escolha.
Qual arquitetura transformer alimenta os resumos — BART, T5 ou Pegasus?
O padrão é um modelo da família BART (encoder-decoder) ajustado no dataset CNN/DailyMail (ou sua destilação DistilBART). BART usa um codificador bidirecional como BERT para ler toda a fonte e um decodificador autorregressivo como GPT para gerar o resumo abstrativo. T5 ("text-to-text transfer transformer") também é suportado e trata o resumo como tarefa seq2seq genérica com o prefixo "summarize:" — lida melhor com conteúdo multilíngue. Pegasus é uma terceira opção, pré-treinada com gap-sentence-generation especificamente para resumo, frequentemente com a maior ROUGE em entradas jornalísticas mas com maior pegada de memória.
O que é quantização INT8 e ela prejudica a qualidade?
A quantização armazena cada peso como inteiro de 8 bits (256 valores possíveis) em vez de float de 32 bits (~4 bilhões). Reduz o tamanho do arquivo em 4x e acelera a inferência em 2-4x na CPU porque a aritmética INT8 usa menos ciclos e cabem mais valores por registro SIMD. Para resumo, INT8 normalmente custa 1-3 pontos ROUGE-L em relação a FP32 — geralmente invisível no texto de saída. A quantização agressiva INT4 (mais 2x de redução) está começando a aparecer mas degrada a coerência de saídas longas de forma mais perceptível. O backend ONNX Runtime Web lida com a dequantização em tempo de execução.
