Générateur de Prompt depuis Image
Déposez une image pour construire un prompt structuré pour Midjourney v6, Flux, SDXL, ComfyUI et DALL-E 3. Extrait couleurs, ratio, luminosité ; choisissez le style en chips.
À propos du Générateur de Prompt depuis Image
Rétroconcevoir un bon prompt IA prend généralement 10-30 minutes d'essais : extraire les couleurs dominantes à la main, estimer l'éclairage et l'ambiance, trouver la bonne syntaxe de paramètres Midjourney, écrire un prompt négatif propre puis coller-itérer. Cet outil fait le travail mécanique en moins d'une seconde : déposez une photo de référence ou une image générée par IA, le navigateur extrait la palette dominante par clustering k-means sur une grille réduite, mesure la luminance moyenne, détecte le format (snap vers 1:1, 16:9, 9:16, 4:3, 3:2, 21:9) et assemble un prompt structuré dans le dialecte exact attendu par votre moteur (Midjourney 6/v7 --ar --v --stylize, tags pondérés SDXL, phrases naturelles Flux, JSON ComfyUI avec sampler/scheduler ou anglais simple DALL-E 3).
Ajoutez des chips de style, éclairage, ambiance et caméra d'un clic et le prompt se réécrit en temps réel. Tout s'exécute dans votre navigateur — l'image n'est jamais téléversée, l'extraction de palette est instantanée, aucun modèle de captioning IA requis.
Pourquoi un constructeur heuristique au lieu de captioning CLIP/BLIP ?
Le vrai captioning image-vers-texte nécessite un modèle neuronal de 200-700 Mo (BLIP-2, BLIP-3, LLaVA, MoonDream) chargé via transformers.js, plus un appareil compatible WebGPU, plus 10-40 secondes de premier chargement et 2-5 secondes par image. C'est techniquement possible et nous pourrions le proposer en upgrade optionnel via Web Worker, mais en pratique 80% de la qualité du prompt vient du format précis + palette + tags style/éclairage/ambiance/caméra, tous extraits en moins de 100ms sans téléchargement. La palette de chips vous permet d'ajouter les mots à haute valeur d'information qu'un modèle vision aurait devinés, et vous connaissez généralement votre sujet mieux que CLIP.
Comment les couleurs dominantes sont-elles extraites ?
Clustering k-means standard avec k=5. Nous réduisons l'image à une grille de 64 pixels de large (64×36 à 64×85 selon le format), écartons les pixels totalement transparents, puis groupons itérativement les triplets RGB restants en 5 groupes pendant 8 tours. Le centroïde de chaque cluster est la couleur dominante et la taille du cluster est sa fréquence. Chaque centroïde est calé sur la couleur nommée la plus proche (rouge, orange, jaune, vert, sarcelle, bleu, violet, rose, brun, noir, blanc, gris, beige) pour le prompt et nous affichons la valeur hex brute dans la rangée d'échantillons. Toute la passe est un tick rAF sur un téléphone moderne.
Pourquoi le format de prompt change-t-il selon le moteur ?
Chaque système texte-vers-image a sa syntaxe qui influence la qualité. Midjourney v6/v7 utilise des flags (--ar 16:9 --v 6 --style raw --stylize 250) et traite les virgules comme séparateurs souples. SDXL et SD 1.5 répondent aux parenthèses pondérées (chef-d'œuvre:1.2) et préfèrent les tags séparés par virgule. Flux Dev/Pro est entraîné sur des légendes en langage naturel et préfère des phrases complètes avec des points, pas des tags. ComfyUI est un graphe de nœuds — nous exportons un extrait JSON qui s'intègre au nœud CLIP-Text-Encode avec un sampler par défaut (dpmpp_2m), scheduler (karras), pas (28) et CFG (4.5). DALL-E 3 préfère l'anglais conversationnel simple. Choisissez le moteur avant de construire et vous sautez l'étape de traduction de syntaxe.
Que m'indique la mesure de luminosité ?
Luminance moyenne via la formule Rec.709 (0,2126·R + 0,7152·G + 0,0722·B) sur la couleur la plus dominante. Sous 60 elle étiquette 'low-key / sombre' (Caravage, film noir, horreur). 60-110 est 'atmosphérique' (photographie urbaine nuageuse, drame). 110-160 'équilibré' (lumière du jour typique). 160-200 'lumineux' (photographie de produit nette, plage). Au-dessus de 200 est 'high-key / surexposé' (éditorial de mode, mariage). Si vous n'avez pas choisi de chip d'éclairage, cette étiquette est auto-ajoutée au prompt comme point de départ — remplacez-la par un chip spécifique comme 'golden hour' ou 'rayons volumétriques' pour un guidage plus fort.

Pourquoi le format d'image compte-t-il autant dans les prompts ?
Les modèles de diffusion intègrent le format dans l'entraînement : un prompt 9:16 obtient une composition portrait mobile (sujet unique, cadrage serré, arrière-plan tombe), 16:9 obtient un paysage cinématographique (sujet large, détail environnemental, horizon lointain), 1:1 obtient des plans produit centrés, 21:9 cinemascope extrême. Envoyer un prompt 1:1 à un sampler 9:16 par défaut 512×512 peut produire des visages étirés ou des sujets coupés. L'outil détecte automatiquement le format de votre image de référence et l'aligne sur le ratio standard le plus proche du moteur ; remplacez l'alignement si vous voulez recomposer.
Puis-je utiliser ceci pour les flux upscale ou img2img ?
Indirectement. Le prompt généré est l'entrée textuelle pour un passage img2img : prenez ce prompt, envoyez-le avec votre image à Midjourney avec --iw (poids image) ou à SDXL/Flux avec la même image comme init_image à une force de denoise 0,4-0,7. L'extraction de palette est particulièrement utile pour l'upscale — coller la palette dans le prompt pendant un upscale par tuile empêche l'upscaleur de dériver vers des tons chauds génériques. Pour les flux img2img ComfyUI, l'extrait JSON entre directement dans le nœud CLIP-Text-Encode connecté à votre pile VAEEncodeForInpaint.
L'outil supporte-t-il les métadonnées EXIF caméra et objectif ?
Pas encore dans cette version — le parsing EXIF est un objectif futur. Quand ajouté, l'outil extraira la focale (auto-suggérant chip '85mm portrait' ou '24mm grand angle'), l'ouverture (suggérant 'profondeur de champ courte' pour f/1.4-f/2.8 ou 'mise au point profonde' pour f/8+), l'ISO (suggérant 'grain pellicule' pour ISO 1600+) et la marque/modèle (certains prompts répondent à 'shot on Hasselblad' ou 'Leica Q3' comme booster). En attendant vous pouvez lire l'EXIF dans votre app appareil photo ou dans tout visualiseur EXIF de ce site puis cliquer manuellement le chip correspondant.
Mon image est-elle téléversée quelque part ?
Non. Tout le pipeline — lecture du fichier, extraction de palette, détection de format, calcul de luminosité, assemblage de prompt — s'exécute dans votre navigateur via JavaScript standard et les APIs Canvas. Les octets de l'image n'atteignent jamais nos serveurs, ni un CDN, ni une API IA tierce. Vous pouvez déconnecter le réseau après le chargement de la page et l'outil continue de fonctionner. Pour le travail photo commercial, les planches de référence sous NDA ou les images de produit non publiées, cet outil est sûr. Le seul appel réseau après chargement est l'analytique standard du site (respecte do-not-track).
