Resumidor de Texto IA
Resumidor de texto IA 100% privado que se ejecuta en tu dispositivo, dentro del navegador. Sin subir nada, sin registro ni clave API. Resume artículos y documentos sin conexión.
Acerca del Resumidor de Texto IA
Nuestro Resumidor de Texto IA ejecuta un modelo real de aprendizaje automático totalmente dentro de tu navegador. El modo abstractivo carga Xenova/distilbart-cnn-6-6 (una destilación de BART en ONNX, cuantizada en INT8) vía Transformers.js y genera el resumen en tu propio dispositivo usando WebGPU, con un repliegue automático a WebAssembly. Tu texto nunca se sube a ningún servidor, no hay clave API y no se requiere cuenta.
El modo extractivo es una heurística local y rápida que puntúa cada oración por posición, longitud y palabras clave, y devuelve sin cambios las mejor valoradas. El modo abstractivo, en cambio, lee todo el texto y lo reescribe con palabras nuevas, como haría una persona.
Como la inferencia es en el dispositivo, la herramienta es adecuada para borradores confidenciales, escritos legales, notas médicas e informes internos que no puedes pegar legalmente en una API en la nube. Consulta también nuestro Corrector y Parafraseador IA y Extractor de palabras clave IA.
¿El resumidor de IA se ejecuta totalmente en mi navegador?
Sí. El modelo abstractivo se descarga una sola vez vía Transformers.js y luego se ejecuta localmente dentro de la pestaña de tu navegador usando WebGPU o WebAssembly. Tras la descarga inicial (almacenada en caché en IndexedDB para futuras visitas), no hay ninguna llamada al servidor por cada resumen — cada token de tu texto y cada palabra del resumen generado permanece en tu dispositivo. Nunca vemos tus documentos y no se crea ningún registro en el servidor. Esto lo hace seguro para borradores confidenciales, informes internos, escritos legales, notas médicas o cualquier texto que no puedas subir legalmente a una API externa como OpenAI o Anthropic. El precio es la descarga inicial (unos 60 MB para el modelo INT8 por defecto).
¿Qué modelo impulsa los resúmenes abstractivos?
El modelo abstractivo por defecto es Xenova/distilbart-cnn-6-6 — una destilación en ONNX, cuantizada en INT8, del BART-large-CNN de Facebook. BART es un transformer encoder-decoder: un codificador bidireccional lee todo el origen y un decodificador de izquierda a derecha genera una reescritura abstractiva. La variante DistilBART 6-6 mantiene una calidad cercana a BART-large en texto noticioso siendo de unos 60 MB y varias veces más rápida de cargar y ejecutar, algo clave para la inferencia en el navegador. Se carga y ejecuta mediante Transformers.js (ONNX Runtime Web).
¿Qué formatos y longitudes de texto se admiten?
Puedes pegar texto plano, Markdown o contenido copiado desde PDF, Word, artículos web o correo electrónico. El modelo acepta UTF-8 y funciona mejor en inglés (el dominio de entrenamiento CNN/DailyMail). La longitud práctica por pase está limitada por la ventana de contexto del modelo — unos 1024 tokens, aproximadamente 700 palabras en inglés. Para documentos más largos, la herramienta divide la entrada en ventanas solapadas de ~700 palabras, resume cada bloque y luego resume la concatenación (resumen recursivo/jerárquico). Las entradas muy largas (>20 páginas) pueden tardar 30-60 segundos.

¿Por qué el primer resumen tarda tanto pero los siguientes son rápidos?
La primera ejecución debe descargar los pesos del modelo (unos 60 MB para el modelo INT8 por defecto), interpretarlos, construir el grafo de cómputo y compilar los núcleos para tu CPU o GPU. Este arranque en frío puede llevar 10-40 segundos en un escritorio típico y más en móvil. Una vez cargados, los pesos viven en memoria del navegador y en la caché IndexedDB, de modo que los resúmenes siguientes reutilizan el mismo modelo compilado y se completan en 1-5 segundos para pasajes cortos. Si cierras la pestaña la memoria se libera, pero la caché IndexedDB sobrevive, así que la próxima visita solo recompila, no vuelve a descargar.
¿Qué tan precisos son los resúmenes y pueden alucinar?
DistilBART-CNN alcanza puntuaciones ROUGE-L de aproximadamente entre los 30 altos y los 40 bajos en el benchmark CNN/DailyMail — competitivo con resumidores humanos no expertos en contenido noticioso, y unos puntos por debajo del BART-large del que se destiló. La calidad baja en textos muy técnicos, de dominio específico o narrativos con los que el modelo no se entrenó. Como todo modelo abstractivo, puede alucinar — introducir hechos que no están en el origen — así que verifica siempre cifras, nombres y citas contra el original antes de publicar. Para fidelidad exacta, usa el modo extractivo, que solo reordena tus propias oraciones.
¿Es WebGPU más rápido que WebAssembly para resumir?
Sí, a menudo de forma drástica. WebGPU delega las multiplicaciones de matrices que dominan la inferencia del transformer a tu GPU integrada o discreta, con aceleraciones de varias veces frente al backend SIMD-WebAssembly en CPU. Esta herramienta prueba WebGPU primero y muestra una insignia 'Ejecutando en WebGPU' cuando lo consigue. WebGPU requiere un navegador reciente (Chrome 113+, Edge, Safari 18+, Firefox reciente) y un driver de GPU compatible. Si no está disponible, la herramienta recurre automáticamente a WebAssembly con SIMD y multihilo (insignia 'Ejecutando en CPU (WASM)') — más lento pero funciona en todo navegador moderno y sigue siendo totalmente en el dispositivo.
¿Qué es la cuantización INT8 y daña la calidad?
La cuantización almacena cada peso como entero de 8 bits (256 valores posibles) en lugar de flotante de 32 bits. Reduce el tamaño de descarga unas 4x y acelera la inferencia en CPU 2-4x porque la aritmética INT8 usa menos ciclos y cabe más valores por registro SIMD. Para resumir, INT8 normalmente cuesta solo 1-3 puntos ROUGE frente a FP32 — generalmente invisible en la salida. Por eso enviamos por defecto la versión INT8 ONNX de distilbart-cnn-6-6: unos 60 MB de descarga, rápida de ejecutar y fácil de cachear para uso repetido. ONNX Runtime Web maneja la decuantización INT8 al vuelo.
