Extraer Imágenes de PDF

Herramienta online gratuita para extraer todas las imágenes de un PDF. Salida PNG, JPEG o WebP, tamaño mínimo, deduplicación, descarga ZIP. Sin subida.

Upload
Arrastra y suelta un PDF aquí, o haz clic para examinar
Acepta .pdf
Suelta un archivo PDF (hasta ~200 MB)

Acerca de Extraer Imágenes de PDF

Extraer Imágenes de PDF es una herramienta exclusivamente del navegador que saca toda imagen ráster incrustada en un documento PDF y permite guardarlas individualmente o como un único archivo ZIP. El extractor usa PDF.js de Mozilla para analizar cada página, recorre la lista de operadores de la página en busca de los comandos paintImageXObject y paintJpegXObject, resuelve esas referencias contra el almacén de objetos de la página y reconstruye cada imagen sobre un canvas HTML en el formato PNG, JPEG o WebP que elijas. Como toda la canalización corre localmente en tu pestaña del navegador, los PDF sensibles (contratos, DNI escaneados, informes internos, historias clínicas) jamás salen del dispositivo, no se hace ninguna subida y ningún servidor almacena tu archivo. El control deslizante de tamaño mínimo permite ignorar iconos decorativos pequeños y encabezados; el interruptor de deduplicación hashea cada imagen con SHA-256 para que el mismo logo repetido en cada página se guarde una sola vez. Los formatos de salida son un compromiso entre calidad y tamaño: PNG preserva transparencia y calidad sin pérdida (bueno para capturas, diagramas, líneas); JPEG produce archivos 2-5 veces más pequeños para fotos a costa de algo de calidad; WebP suele superar a ambos gracias a códecs modernos. La mayoría de los usuarios obtiene extracciones limpias a resolución completa de PDFs estándar; el único caso en que la extracción es imposible es cuando las imágenes de un PDF están cifradas con JBIG2 o filtros de stream propietarios, algo raro en documentos cotidianos.

¿Cómo encuentra esta herramienta las imágenes dentro de un PDF?

Los PDF guardan imágenes como streams XObject referenciados desde el stream de contenido de cada página. Usamos PDF.js para analizar el documento y llamamos page.getOperatorList(), que devuelve la secuencia de comandos de dibujo. Recorremos esa lista buscando opcodes paintImageXObject, paintImageXObjectRepeat, paintJpegXObject y paintInlineImageXObject; cada uno lleva el nombre de un objeto imagen. Luego buscamos ese nombre en page.objs, que devuelve un ImageBitmap ya decodificado o un buffer de píxeles crudo con su etiqueta de espacio de color. El buffer se pinta en un canvas HTML a la resolución nativa de la imagen y se exporta vía canvas.toBlob() a PNG, JPEG o WebP. Este enfoque captura toda imagen inline y XObject estándar usada por un PDF; no captura gráficos vectoriales dibujados con operadores de path porque no son imágenes ráster.

¿Las imágenes extraídas están a la resolución original completa?

Sí. Decodificamos cada imagen en sus dimensiones nativas de píxel tal como están incrustadas en el PDF, no al tamaño renderizado en página. Así una fotografía de 3000x2000 metida en un cuarto de una A4 dentro del PDF se extrae al completo 3000x2000 píxeles. Si un JPEG se guardó a calidad 70 dentro del PDF, no se puede recuperar el detalle ya comprimido fuera, pero sí obtienes exactamente los bytes que llevaba el PDF. Para PDFs donde la misma foto está submuestreada a múltiples resoluciones (miniatura vs. página completa), la herramienta extrae cada variante y puedes ver dos o tres casi duplicadas; el interruptor de deduplicación las puede colapsar por hash SHA-256 si son idénticas byte a byte, pero no si difieren en resolución.

¿Por qué la herramienta omite algunas imágenes y cómo funciona el tamaño mínimo?

El control deslizante de tamaño mínimo permite ignorar imágenes ráster por debajo de un umbral de ancho o alto (por defecto 32 píxeles). Es útil porque los PDF están llenos de gráficos decorativos diminutos: viñetas, bordes de página, rásters de subconjuntos de fuente, marcas de agua. Poner el umbral en 100 o 200 filtra normalmente todo lo que no sea una foto, diagrama, gráfico o página escaneada real. Pon 0 si quieres absolutamente cada imagen incluso los espaciadores invisibles y los píxeles de antialiasing 1x1. La comprobación usa las dimensiones nativas de la imagen, no las de visualización, así que un logo incrustado a 400x400 pasará aunque se vea diminuto en una esquina.

Extraer Imágenes de PDF — Herramienta online gratuita para extraer todas las imágenes de un PDF. Salida PNG, JPEG o WebP, tamaño mínimo, deduplica
Extraer Imágenes de PDF

¿Funciona con PDF cifrados o protegidos con contraseña?

Con PDF protegidos por contraseña de propietario (que restringen edición pero permiten ver), sí — PDF.js los abre transparentemente. Con PDF protegidos por contraseña de usuario que requieren clave para ver, el documento fallará al analizarse y verás un error; primero desbloquéalo con la herramienta Desbloquear PDF de WuTools usando la contraseña correcta. Muchos PDF escaneados no son imagen por página sino que contienen XObject ráster reales que sí podemos extraer; en cambio, los PDF con escaneos codificados en JBIG2 (común en archivos comprimidos) pueden mostrarse bien en visores pero PDF.js no siempre puede decodificar JBIG2 a un buffer de píxeles, y esas imágenes concretas se perderán. Los documentos modernos de Word, LibreOffice, InDesign, imprimir-a-PDF desde el navegador y la mayoría de apps de escaneo usan formatos que manejamos por completo.

¿Mi PDF se sube a un servidor?

No. El PDF se lee a un ArrayBuffer de JavaScript dentro de tu pestaña del navegador y se analiza por completo en el cliente con PDF.js. La decodificación de imágenes, la exportación al canvas, el hashing para deduplicación y el empaquetado ZIP corren en tu CPU. El único tráfico de red es la carga inicial de la librería PDF.js y su worker desde una CDN pública (luego cacheados). Puedes verificarlo viendo la pestaña Network de DevTools antes de pulsar Extraer: no se hará ninguna petición de subida. Esto hace la herramienta segura para PDF confidenciales (informes financieros, NDA, contratos legales, historias clínicas, presentaciones internas) donde subir a un SaaS externo no es aceptable.

¿Cuál es el tamaño máximo de PDF que puedo procesar?

En la práctica puedes extraer de PDF de hasta unos 200 MB en un equipo de escritorio moderno con 8 GB de RAM, y hasta 50 MB en la mayoría de teléfonos. El cuello de botella es la memoria del navegador, no el disco: PDF.js debe mantener el documento parseado más los buffers de píxeles decodificados de cada imagen mientras procesa páginas. Si tienes un PDF muy grande (por ejemplo un archivo de imágenes de 1 GB), divídelo primero con la herramienta Dividir PDF, ejecuta la extracción en cada parte y combina los ZIPs resultantes. La herramienta procesa las páginas en orden estricto y libera memoria de cada página al terminar, por lo que el pico de memoria es aproximadamente proporcional a la imagen individual más grande, no al tamaño total del documento.