Gerador de Prompt a partir de Imagem

Solte uma imagem para construir um prompt estruturado para Midjourney v6, Flux, SDXL, ComfyUI e DALL-E 3. Extrai cores, proporção, brilho; escolha estilo com chips.

upload
Clique ou arraste uma imagem aqui
JPG, PNG, WebP, GIF
Dimensões
Proporção detectada
Brilho

Sobre o Gerador de Prompt a partir de Imagem

Engenharia reversa de um bom prompt de IA costuma exigir 10-30 minutos de tentativa e erro: extrair cores dominantes manualmente, estimar iluminação e atmosfera, achar a sintaxe certa de parâmetros Midjourney, escrever um prompt negativo limpo e colar-iterar. Esta ferramenta faz o trabalho mecânico em menos de um segundo: solte uma foto de referência ou imagem gerada por IA, o navegador extrai a paleta dominante via clustering k-means em uma grade reduzida, mede a luminância média, detecta a proporção (com snap para 1:1, 16:9, 9:16, 4:3, 3:2, 21:9) e monta um prompt estruturado no dialeto exato que seu motor espera (Midjourney 6/v7 --ar --v --stylize, tags ponderadas SDXL, frases naturais Flux, JSON ComfyUI com sampler/scheduler ou inglês simples do DALL-E 3).

Adicione chips de estilo, iluminação, atmosfera e câmera com um clique e o prompt se reescreve em tempo real. Tudo roda no seu navegador — imagem nunca é enviada, extração de paleta é instantânea, nenhum modelo de captioning IA é necessário.

Por que um construtor heurístico em vez de captioning CLIP/BLIP?

Captioning real imagem-para-texto precisa de um modelo neural de 200-700 MB (BLIP-2, BLIP-3, LLaVA, MoonDream) carregado via transformers.js, mais um dispositivo com WebGPU, mais 10-40 segundos de primeira carga e 2-5 segundos por imagem. É tecnicamente possível e podemos lançar como upgrade opcional em Web Worker, mas na prática 80% da qualidade do prompt vem de proporção precisa + paleta + tags estilo/iluminação/atmosfera/câmera, todas extraídas em menos de 100ms sem download. A paleta de chips permite adicionar as palavras de alta informação que um modelo de visão teria chutado, e você normalmente conhece seu sujeito melhor do que o CLIP.

Como as cores dominantes são extraídas?

Clustering k-means padrão com k=5. Reduzimos a imagem para uma grade de 64 pixels de largura (64×36 a 64×85 conforme proporção), descartamos pixels totalmente transparentes e agrupamos iterativamente os tripletos RGB restantes em 5 grupos por 8 rodadas. O centroide de cada cluster é a cor dominante e o tamanho do cluster é sua frequência. Cada centroide é encaixado na cor nomeada mais próxima (vermelho, laranja, amarelo, verde, verde-azulado, azul, roxo, rosa, marrom, preto, branco, cinza, bege) para o prompt e mostramos o valor hex bruto na linha de amostras. O pass inteiro é um tick rAF em um celular moderno.

Por que o formato do prompt muda por motor?

Cada sistema texto-para-imagem tem sua sintaxe que afeta qualidade. Midjourney v6/v7 usa flags (--ar 16:9 --v 6 --style raw --stylize 250) e trata vírgulas como separadores suaves. SDXL e SD 1.5 respondem a parênteses ponderados (obra-prima:1.2) e preferem tags separadas por vírgula. Flux Dev/Pro é treinado com legendas em linguagem natural e prefere frases completas com pontos, não tags. ComfyUI é um grafo de nós — exportamos um trecho JSON que entra no nó CLIP-Text-Encode com sampler padrão (dpmpp_2m), scheduler (karras), passos (28) e CFG (4.5). DALL-E 3 prefere inglês conversacional simples. Escolha o motor antes de construir e pule a etapa de tradução de sintaxe.

O que a medição de brilho me diz?

Luminância média via fórmula Rec.709 (0,2126·R + 0,7152·G + 0,0722·B) sobre a cor mais dominante. Abaixo de 60 rotula 'low-key / escuro' (Caravaggio, film noir, terror). 60-110 é 'atmosférico' (fotografia urbana nublada, drama). 110-160 'equilibrado' (luz diurna típica). 160-200 'brilhante' (fotografia de produto limpa, praia). Acima de 200 é 'high-key / superexposto' (editorial de moda, casamento). Se você não escolheu chip de iluminação, esse rótulo é adicionado ao prompt como ponto de partida — sobrescreva com um chip específico como 'golden hour' ou 'raios volumétricos' para direcionamento mais forte.

Gerador de Prompt a partir de Imagem — Solte uma imagem para construir um prompt estruturado para Midjourney v6, Flux, SDXL, ComfyUI e DALL-E 3. Extrai cores,
Gerador de Prompt a partir de Imagem

Por que a proporção importa tanto em prompts?

Modelos de difusão integram proporção no treinamento: um prompt 9:16 ganha composição de retrato móvel (sujeito único, enquadramento fechado, fundo cai), 16:9 ganha paisagem cinematográfica (sujeito amplo, detalhe ambiental, horizonte distante), 1:1 ganha tomadas de produto centralizadas, 21:9 cinemascope extremo. Enviar prompt 1:1 a um sampler 9:16 padrão 512×512 pode produzir rostos esticados ou sujeitos cortados. A ferramenta auto-detecta a proporção da sua imagem e encaixa na proporção padrão mais próxima do motor; substitua o encaixe se quiser recompor.

Posso usar isso para fluxos de upscale ou img2img?

Indiretamente. O prompt gerado é a entrada textual para uma rodada img2img: pegue este prompt, envie junto com sua imagem ao Midjourney com --iw (peso da imagem) ou ao SDXL/Flux com a mesma imagem como init_image em força de denoise 0,4-0,7. A extração de paleta é especialmente útil para upscale — colar a paleta no prompt durante upscale por tile evita que o upscaler derive para tons quentes genéricos. Para fluxos ComfyUI img2img, o trecho JSON entra direto no nó CLIP-Text-Encode conectado ao seu stack VAEEncodeForInpaint.

A ferramenta suporta metadados EXIF de câmera e lente?

Ainda não nesta versão — parsing EXIF é meta futura. Quando adicionado, a ferramenta extrairá distância focal (auto-sugerindo chip '85mm retrato' ou '24mm grande angular'), abertura (sugerindo 'profundidade de campo rasa' para f/1.4-f/2.8 ou 'foco profundo' para f/8+), ISO (sugerindo 'grão de filme' para ISO 1600+) e marca/modelo de câmera (alguns prompts respondem a 'shot on Hasselblad' ou 'Leica Q3' como booster). Por enquanto você pode ler EXIF no app da câmera ou em qualquer visualizador EXIF deste site e clicar manualmente no chip correspondente.

Minha imagem é enviada a algum lugar?

Não. Todo o pipeline — leitura de arquivo, extração de paleta, detecção de proporção, cálculo de brilho, montagem de prompt — roda no seu navegador via JavaScript padrão e APIs Canvas. Os bytes da imagem nunca chegam aos nossos servidores, nunca chegam a um CDN, nunca chegam a uma API de IA de terceiros. Você pode desconectar a rede após a página carregar e a ferramenta continua funcionando. Para trabalho fotográfico comercial, painéis de referência sob NDA ou imagens de produto não lançadas, esta ferramenta é segura. A única chamada de rede após o carregamento é analítica padrão (respeita do-not-track).