Resumidor de Texto IA
Resumidor de texto com IA 100% privado que roda no seu dispositivo, dentro do navegador. Sem upload, sem cadastro, sem chave de API. Resuma artigos e documentos offline.
Sobre o Resumidor de Texto IA
Nosso Resumidor de Texto IA executa um modelo real de aprendizado de máquina inteiramente dentro do seu navegador. O modo abstrativo carrega o Xenova/distilbart-cnn-6-6 (uma destilação do BART em ONNX, quantizada em INT8) via Transformers.js e gera o resumo no seu próprio dispositivo usando WebGPU, com retorno automático para WebAssembly. Seu texto nunca é enviado para nenhum servidor, não há chave de API e nenhuma conta é necessária.
O modo extrativo é uma heurística local e rápida que pontua cada frase por posição, tamanho e palavras-chave e retorna as mais bem avaliadas sem alterações. O modo abstrativo, por sua vez, lê todo o texto e o reescreve com palavras novas, como uma pessoa faria.
Como a inferência é no dispositivo, a ferramenta é adequada para rascunhos confidenciais, petições jurídicas, anotações médicas e relatórios internos que você não pode colar legalmente em uma API na nuvem. Veja também nosso Corretor Gramatical e Parafraseador e Extrator de palavras-chave IA.
O resumidor de IA roda inteiramente no meu navegador?
Sim. O modelo abstrativo é baixado uma única vez via Transformers.js e então roda localmente dentro da aba do seu navegador usando WebGPU ou WebAssembly. Após o download inicial (armazenado em cache no IndexedDB para visitas futuras), não há nenhuma ida ao servidor por resumo — cada token do seu texto e cada palavra do resumo gerado permanece no seu dispositivo. Nunca vemos seus documentos e nenhum registro é criado no servidor. Isso torna a ferramenta segura para rascunhos confidenciais, relatórios internos, petições jurídicas, anotações médicas ou qualquer texto que você não possa enviar legalmente a uma API externa como OpenAI ou Anthropic. O preço é o download inicial (cerca de 60 MB para o modelo INT8 padrão).
Qual modelo gera os resumos abstrativos?
O modelo abstrativo padrão é o Xenova/distilbart-cnn-6-6 — uma destilação em ONNX, quantizada em INT8, do BART-large-CNN da Facebook. O BART é um transformer encoder-decoder: um codificador bidirecional lê toda a origem e um decodificador da esquerda para a direita gera uma reescrita abstrativa. A variante DistilBART 6-6 mantém qualidade próxima ao BART-large em texto jornalístico, sendo de cerca de 60 MB e várias vezes mais rápida para carregar e executar, o que importa muito para a inferência no navegador. É carregada e executada via Transformers.js (ONNX Runtime Web).
Quais formatos e tamanhos de texto são suportados?
Você pode colar texto puro, Markdown ou conteúdo copiado de PDF, Word, artigos da web ou e-mail. O modelo aceita UTF-8 e funciona melhor em inglês (o domínio de treino CNN/DailyMail). O tamanho prático por passagem é limitado pela janela de contexto do modelo — cerca de 1024 tokens, aproximadamente 700 palavras em inglês. Para documentos mais longos, a ferramenta divide a entrada em janelas sobrepostas de ~700 palavras, resume cada bloco e depois resume a concatenação (resumo recursivo/hierárquico). Entradas muito longas (>20 páginas) podem levar 30-60 segundos.

Por que o primeiro resumo demora tanto mas os seguintes são rápidos?
A primeira execução precisa baixar os pesos do modelo (cerca de 60 MB para o modelo INT8 padrão), interpretá-los, construir o grafo de computação e compilar os kernels para sua CPU ou GPU. Esse início a frio pode levar 10-40 segundos em um desktop típico e mais no celular. Uma vez carregados, os pesos ficam na memória do navegador e no cache IndexedDB, então os resumos seguintes reutilizam o mesmo modelo compilado e terminam em 1-5 segundos para trechos curtos. Se você fechar a aba a memória é liberada, mas o cache IndexedDB sobrevive, então a próxima visita só recompila, não baixa de novo.
Quão precisos são os resumos e eles podem alucinar?
O DistilBART-CNN alcança pontuações ROUGE-L aproximadamente entre os 30 altos e os 40 baixos no benchmark CNN/DailyMail — competitivo com resumidores humanos não especialistas em conteúdo jornalístico, e alguns pontos abaixo do BART-large do qual foi destilado. A qualidade cai em textos muito técnicos, de domínio específico ou narrativos com os quais o modelo não foi treinado. Como todo modelo abstrativo, ele pode alucinar — introduzir fatos que não estão na origem — então sempre verifique números, nomes e citações contra o original antes de publicar. Para fidelidade exata, use o modo extrativo, que apenas reordena suas próprias frases.
WebGPU é mais rápido que WebAssembly para resumir?
Sim, muitas vezes drasticamente. O WebGPU transfere as multiplicações de matrizes que dominam a inferência do transformer para sua GPU integrada ou dedicada, com acelerações de várias vezes em relação ao backend SIMD-WebAssembly na CPU. Esta ferramenta tenta o WebGPU primeiro e mostra um selo 'Executando em WebGPU' quando consegue. O WebGPU exige um navegador recente (Chrome 113+, Edge, Safari 18+, Firefox recente) e um driver de GPU compatível. Se indisponível, a ferramenta recorre automaticamente ao WebAssembly com SIMD e multithreading (selo 'Executando em CPU (WASM)') — mais lento, mas funciona em qualquer navegador moderno e continua totalmente no dispositivo.
O que é a quantização INT8 e ela prejudica a qualidade?
A quantização armazena cada peso como inteiro de 8 bits (256 valores possíveis) em vez de ponto flutuante de 32 bits. Reduz o tamanho do download em cerca de 4x e acelera a inferência na CPU em 2-4x, porque a aritmética INT8 usa menos ciclos e cabe mais valores por registrador SIMD. Para resumir, INT8 normalmente custa apenas 1-3 pontos ROUGE em relação ao FP32 — geralmente invisível na saída. Por isso enviamos por padrão a versão INT8 ONNX do distilbart-cnn-6-6: cerca de 60 MB para baixar, rápida de executar e fácil de armazenar em cache para uso repetido. O ONNX Runtime Web cuida da dequantização INT8 em tempo real.
