Extrair Imagens de PDF

Ferramenta online grátis para extrair todas as imagens de um PDF. Saída PNG, JPEG ou WebP, tamanho mínimo, deduplicação, download em ZIP. Sem upload.

Tem feedback? Reporte bugs, sugira recursos ou compartilhe suas ideias — lemos todos

Sobre Extrair Imagens de PDF

Extrair Imagens de PDF é uma ferramenta exclusiva do navegador que retira toda imagem raster incorporada em um documento PDF e permite salvá-las individualmente ou como um único arquivo ZIP. O extrator usa o PDF.js da Mozilla para analisar cada página, percorre a lista de operadores da página em busca dos comandos paintImageXObject e paintJpegXObject, resolve essas referências contra o armazenamento de objetos da página e reconstrói cada imagem em um canvas HTML no formato PNG, JPEG ou WebP escolhido. Como todo o pipeline roda localmente na aba do navegador, PDFs sensíveis (contratos, RGs digitalizados, relatórios internos, prontuários médicos) nunca saem do dispositivo, nenhum upload é realizado e nenhum servidor armazena seu arquivo. O controle deslizante de tamanho mínimo permite ignorar ícones decorativos pequenos e cabeçalhos; o interruptor de deduplicação faz hash de cada imagem com SHA-256 para que o mesmo logotipo repetido em cada página seja salvo apenas uma vez. Os formatos de saída são um compromisso entre qualidade e tamanho: PNG preserva transparência e qualidade sem perdas (bom para capturas, diagramas, arte de linha); JPEG produz arquivos 2-5x menores para fotos ao custo de alguma qualidade; WebP costuma superar ambos com codecs modernos. A maioria dos usuários obtém extrações limpas em resolução total de PDFs padrão; o único caso em que a extração é impossível é quando as imagens estão cifradas em JBIG2 ou filtros de stream proprietários, raro em documentos do dia a dia.

Como esta ferramenta encontra imagens dentro de um PDF?

Os PDFs guardam imagens como streams XObject referenciados pelo stream de conteúdo de cada página. Usamos o PDF.js para analisar o documento e chamamos page.getOperatorList(), que retorna a sequência de comandos de desenho. Varremos essa lista atrás dos opcodes paintImageXObject, paintImageXObjectRepeat, paintJpegXObject e paintInlineImageXObject; cada um carrega o nome de um objeto de imagem. Em seguida, consultamos esse nome em page.objs, que retorna um ImageBitmap já decodificado ou um buffer de pixels bruto com sua tag de espaço de cor. O buffer é pintado em um canvas HTML na resolução nativa da imagem e exportado via canvas.toBlob() para PNG, JPEG ou WebP. Essa abordagem captura toda imagem inline e XObject padrão usada por um PDF; não captura gráficos vetoriais desenhados com operadores de path, pois não são imagens raster.

As imagens extraídas estão na resolução original completa?

Sim. Decodificamos cada imagem em suas dimensões nativas em pixels como incorporadas no PDF, não no tamanho renderizado na página. Assim uma fotografia 3000x2000 colocada em um quarto de uma A4 dentro do PDF é extraída em 3000x2000 pixels completos. Se um JPEG foi salvo em qualidade 70 dentro do PDF, você não recupera o detalhe já comprimido fora, mas obtém exatamente os bytes que o PDF carregava. Para PDFs em que a mesma foto é subamostrada em múltiplas resoluções (miniatura vs. página inteira), a ferramenta extrai cada variante e você pode ver duas ou três quase duplicatas; o interruptor de deduplicação consegue colapsá-las por hash SHA-256 se forem idênticas byte a byte, mas não se diferirem em resolução.

Por que a ferramenta ignora algumas imagens e como funciona o tamanho mínimo?

O controle deslizante de tamanho mínimo permite ignorar imagens raster abaixo de um limiar de largura ou altura (padrão 32 pixels). Isso é útil porque PDFs estão cheios de gráficos decorativos minúsculos: marcadores, bordas de página, rasters de subconjuntos de fonte, marcas d'água. Definir o limiar para 100 ou 200 normalmente filtra tudo que não seja uma foto, diagrama, gráfico ou página digitalizada real. Defina 0 se quiser absolutamente toda imagem, incluindo espaçadores invisíveis e pixels 1x1 de antialiasing. A verificação usa as dimensões nativas da imagem, não as de exibição, então um logotipo incorporado a 400x400 passará mesmo que renderize pequeno em um canto.

Extrair Imagens de PDF — Ferramenta online grátis para extrair todas as imagens de um PDF. Saída PNG, JPEG ou WebP, tamanho mínimo, deduplicação, — **Extrair Imagens de PDF**

Funciona com PDFs criptografados ou protegidos por senha?

Para PDFs protegidos por senha de proprietário (que restringem edição mas permitem visualização), sim — o PDF.js os abre de forma transparente. Para PDFs protegidos por senha de usuário que exigem senha para visualizar, o documento falhará ao ser analisado e você verá um erro; primeiro desbloqueie o PDF com a ferramenta Desbloquear PDF do WuTools usando a senha correta. Muitos PDFs digitalizados não são imagens por página, mas contêm XObjects raster reais que podemos extrair; por outro lado, PDFs com digitalizações codificadas em JBIG2 (comum em arquivos comprimidos) podem renderizar bem em visualizadores, mas o PDF.js nem sempre consegue decodificar JBIG2 para um buffer de pixels e essas imagens serão perdidas. Documentos modernos do Word, LibreOffice, InDesign, imprimir-para-PDF do navegador e a maioria dos apps de digitalização usam formatos que tratamos plenamente.

Meu PDF é enviado para um servidor?

Não. O PDF é lido em um ArrayBuffer JavaScript dentro da aba do navegador e analisado inteiramente no cliente pelo PDF.js. A decodificação de imagens, a exportação para canvas, o hashing para deduplicação e o empacotamento ZIP rodam na sua CPU. O único tráfego de rede é a busca da biblioteca PDF.js e do worker em uma CDN pública no primeiro carregamento (depois cacheados). Você pode verificar observando a aba Network do DevTools antes de clicar em Extrair: nenhuma requisição de upload será feita. Isso torna a ferramenta segura para PDFs confidenciais (relatórios financeiros, NDAs, contratos legais, prontuários médicos, apresentações internas) onde o upload para SaaS de terceiros é inaceitável.

Qual é o tamanho máximo de PDF que posso processar?

Na prática você pode extrair de PDFs de até cerca de 200 MB em um desktop moderno com 8 GB de RAM, e até 50 MB na maioria dos celulares. O gargalo é a memória do navegador, não o disco: o PDF.js precisa manter o documento parseado mais os buffers de pixels decodificados de cada imagem enquanto processa páginas. Se você tiver um PDF muito grande (por exemplo, um arquivo de imagens de 1 GB), divida-o primeiro com a ferramenta Dividir PDF, execute a extração em cada fatia e combine os ZIPs resultantes. A ferramenta processa páginas estritamente em ordem e libera memória por página ao terminar, então o pico de memória é proporcional à maior imagem isolada, não ao tamanho total do documento.

Veja também

FERRAMENTAS PDF35

WUTOOLS