Gerador de Prompt a partir de Imagem

100% no navegador, a imagem não é enviada. Reverta imagens em prompt estruturado para Midjourney v7, Flux, SDXL, ComfyUI e DALL-E 3 com paleta e negativo.

Tem feedback? Reporte bugs, sugira recursos ou compartilhe suas ideias — lemos todos

Sobre o Gerador de Prompt a partir de Imagem

Engenharia reversa de um bom prompt de IA costuma exigir 10-30 minutos de tentativa e erro: extrair cores dominantes manualmente, estimar iluminação e atmosfera, achar a sintaxe certa de parâmetros Midjourney, escrever um prompt negativo limpo e colar-iterar. Esta ferramenta faz o trabalho mecânico em menos de um segundo: solte uma foto de referência ou imagem gerada por IA, o navegador extrai a paleta dominante via clustering k-means em uma grade reduzida, mede a luminância média, detecta a proporção (com snap para 1:1, 16:9, 9:16, 4:3, 3:2, 21:9) e monta um prompt estruturado no dialeto exato que seu motor espera (Midjourney 6/v7 --ar --v --stylize, tags ponderadas SDXL, frases naturais Flux, JSON ComfyUI com sampler/scheduler ou inglês simples do DALL-E 3).

Adicione chips de estilo, iluminação, atmosfera e câmera com um clique e o prompt se reescreve em tempo real. Tudo roda no seu navegador — imagem nunca é enviada, extração de paleta é instantânea, nenhum modelo de captioning IA é necessário.

Minha imagem é privada e a ferramenta funciona offline?

Sim para ambos. Todo o pipeline — leitura de arquivo, extração de paleta, detecção de proporção, brilho, montagem do prompt e exportação JSON — roda 100% no seu navegador via JavaScript padrão e APIs Canvas. Os bytes da imagem nunca chegam aos nossos servidores, a um CDN ou a uma API de IA de terceiros. Você pode desconectar a rede após a página carregar e a ferramenta continua funcionando. Para trabalho fotográfico comercial, painéis de referência sob NDA ou imagens de produto não lançadas, é seguro. Nota de honestidade importante: a paleta e o brilho são estimativas heurísticas (clustering de cor k-means e luminância Rec.709 ponderada), não reconhecimento semântico — a ferramenta não 'entende' o sujeito como um modelo de visão, então escreva ou escolha o sujeito com chips para melhores resultados.

Posso exportar o prompt, a paleta e os ajustes como JSON para meu pipeline?

Sim — esse é o bloco Pacote de prompt (JSON). Um clique copia ou baixa um pacote estruturado com o prompt positivo, o prompt negativo, as dimensões de origem, a proporção detectada e encaixada, o brilho de toda a imagem ponderado por frequência, a paleta dominante completa (hex + nome de cor mais próximo + % de frequência), cada chip de estilo/iluminação/atmosfera/câmera selecionado, o motor de destino e os padrões de sampler/scheduler/passos/CFG do ComfyUI. Por ser JSON parseável, você pode versioná-lo, comparar duas execuções, alimentá-lo num nó ComfyUI ou num script de automação e rederivar prompts idênticos depois — reprodutibilidade que o fluxo de copiar a caixa de texto perde. A exportação do motor ComfyUI agora também embute o prompt negativo, entrando completa nos dois nós CLIP-Text-Encode sem mesclagem manual.

Por que um construtor heurístico em vez de captioning CLIP/BLIP?

Captioning real imagem-para-texto precisa de um modelo neural de 200-700 MB (BLIP-2, BLIP-3, LLaVA, MoonDream) carregado via transformers.js, mais um dispositivo com WebGPU, mais 10-40 segundos de primeira carga e 2-5 segundos por imagem. É tecnicamente possível e podemos lançar como upgrade opcional em Web Worker, mas na prática 80% da qualidade do prompt vem de proporção precisa + paleta + tags estilo/iluminação/atmosfera/câmera, todas extraídas em menos de 100ms sem download. A paleta de chips permite adicionar as palavras de alta informação que um modelo de visão teria chutado, e você normalmente conhece seu sujeito melhor do que o CLIP.

Como as cores dominantes são extraídas?

Clustering k-means padrão com k=5. Reduzimos a imagem para uma grade de 64 pixels de largura (64×36 a 64×85 conforme proporção), descartamos pixels totalmente transparentes e agrupamos iterativamente os tripletos RGB restantes em 5 grupos por 8 rodadas. O centroide de cada cluster é a cor dominante e o tamanho do cluster é sua frequência. Cada centroide é encaixado na cor nomeada mais próxima (vermelho, laranja, amarelo, verde, verde-azulado, azul, roxo, rosa, marrom, preto, branco, cinza, bege) para o prompt e mostramos o valor hex bruto na linha de amostras. O pass inteiro é um tick rAF em um celular moderno.

Por que o formato do prompt muda por motor?

Cada sistema texto-para-imagem tem sua sintaxe que afeta qualidade. Midjourney v6/v7 usa flags (--ar 16:9 --v 6 --style raw --stylize 250) e trata vírgulas como separadores suaves. SDXL e SD 1.5 respondem a parênteses ponderados (obra-prima:1.2) e preferem tags separadas por vírgula. Flux Dev/Pro é treinado com legendas em linguagem natural e prefere frases completas com pontos, não tags. ComfyUI é um grafo de nós — exportamos um trecho JSON que entra no nó CLIP-Text-Encode com sampler padrão (dpmpp_2m), scheduler (karras), passos (28) e CFG (4.5). DALL-E 3 prefere inglês conversacional simples. Escolha o motor antes de construir e pule a etapa de tradução de sintaxe.

Gerador de Prompt a partir de Imagem — 100% no navegador, a imagem não é enviada. Reverta imagens em prompt estruturado para Midjourney v7, Flux, SDXL, ComfyUI — **Gerador de Prompt a partir de Imagem**

O que a medição de brilho me diz?

Luminância média ponderada por frequência via fórmula Rec.709 (0,2126·R + 0,7152·G + 0,0722·B) calculada sobre todos os clusters de cor dominantes conforme sua contagem de pixels — então reflete o brilho de toda a imagem, não apenas a cor mais dominante (um fundo escuro atrás de um sujeito claro não rotula mais errado a imagem). Abaixo de 60 rotula 'low-key / escuro' (Caravaggio, film noir, terror). 60-110 'atmosférico'. 110-160 'equilibrado' (luz diurna típica). 160-200 'brilhante' (fotografia de produto limpa, praia). Acima de 200 'high-key / superexposto' (editorial de moda, casamento). Se você não escolheu chip de iluminação, a ferramenta adiciona uma frase de iluminação real mapeada deste intervalo (ex. 'low-key dramatic lighting', 'soft natural daylight', 'bright high-key lighting') — uma dica utilizável, não um rótulo solto — que você pode sobrescrever com um chip específico como 'golden hour' para direcionamento mais forte.

Por que a proporção importa tanto em prompts?

Modelos de difusão integram proporção no treinamento: um prompt 9:16 ganha composição de retrato móvel (sujeito único, enquadramento fechado, fundo cai), 16:9 ganha paisagem cinematográfica (sujeito amplo, detalhe ambiental, horizonte distante), 1:1 ganha tomadas de produto centralizadas, 21:9 cinemascope extremo. Enviar prompt 1:1 a um sampler 9:16 padrão 512×512 pode produzir rostos esticados ou sujeitos cortados. A ferramenta auto-detecta a proporção da sua imagem e encaixa na proporção padrão mais próxima do motor; substitua o encaixe se quiser recompor.

Posso usar isso para fluxos de upscale ou img2img?

Indiretamente. O prompt gerado é a entrada textual para uma rodada img2img: pegue este prompt, envie junto com sua imagem ao Midjourney com --iw (peso da imagem) ou ao SDXL/Flux com a mesma imagem como init_image em força de denoise 0,4-0,7. A extração de paleta é especialmente útil para upscale — colar a paleta no prompt durante upscale por tile evita que o upscaler derive para tons quentes genéricos. Para fluxos ComfyUI img2img, o trecho JSON entra direto no nó CLIP-Text-Encode conectado ao seu stack VAEEncodeForInpaint.

A ferramenta suporta metadados EXIF de câmera e lente?

Ainda não nesta versão — parsing EXIF é meta futura. Quando adicionado, a ferramenta extrairá distância focal (auto-sugerindo chip '85mm retrato' ou '24mm grande angular'), abertura (sugerindo 'profundidade de campo rasa' para f/1.4-f/2.8 ou 'foco profundo' para f/8+), ISO (sugerindo 'grão de filme' para ISO 1600+) e marca/modelo de câmera (alguns prompts respondem a 'shot on Hasselblad' ou 'Leica Q3' como booster). Por enquanto você pode ler EXIF no app da câmera ou em qualquer visualizador EXIF deste site e clicar manualmente no chip correspondente.

Minha imagem é enviada a algum lugar?

Não. Todo o pipeline — leitura de arquivo, extração de paleta, detecção de proporção, cálculo de brilho, montagem de prompt — roda no seu navegador via JavaScript padrão e APIs Canvas. Os bytes da imagem nunca chegam aos nossos servidores, nunca chegam a um CDN, nunca chegam a uma API de IA de terceiros. Você pode desconectar a rede após a página carregar e a ferramenta continua funcionando. Para trabalho fotográfico comercial, painéis de referência sob NDA ou imagens de produto não lançadas, esta ferramenta é segura. A única chamada de rede após o carregamento é analítica padrão (respeita do-not-track).

Veja também

FERRAMENTAS DE IA33

WUTOOLS