Générateur de Prompt depuis Image

100% navigateur, l'image n'est pas téléversée. Convertissez une image en prompt structuré pour Midjourney v7, Flux, SDXL, ComfyUI et DALL-E 3 avec palette.

Vous avez des commentaires ? Signalez des bugs, suggérez des fonctionnalités ou partagez vos idées — nous lisons tout

À propos du Générateur de Prompt depuis Image

Rétroconcevoir un bon prompt IA prend généralement 10-30 minutes d'essais : extraire les couleurs dominantes à la main, estimer l'éclairage et l'ambiance, trouver la bonne syntaxe de paramètres Midjourney, écrire un prompt négatif propre puis coller-itérer. Cet outil fait le travail mécanique en moins d'une seconde : déposez une photo de référence ou une image générée par IA, le navigateur extrait la palette dominante par clustering k-means sur une grille réduite, mesure la luminance moyenne, détecte le format (snap vers 1:1, 16:9, 9:16, 4:3, 3:2, 21:9) et assemble un prompt structuré dans le dialecte exact attendu par votre moteur (Midjourney 6/v7 --ar --v --stylize, tags pondérés SDXL, phrases naturelles Flux, JSON ComfyUI avec sampler/scheduler ou anglais simple DALL-E 3).

Ajoutez des chips de style, éclairage, ambiance et caméra d'un clic et le prompt se réécrit en temps réel. Tout s'exécute dans votre navigateur — l'image n'est jamais téléversée, l'extraction de palette est instantanée, aucun modèle de captioning IA requis.

Mon image est-elle privée et l'outil fonctionne-t-il hors-ligne ?

Oui aux deux. Tout le pipeline — lecture du fichier, extraction de palette, détection de format, luminosité, assemblage du prompt et export JSON — s'exécute à 100% dans votre navigateur via JavaScript standard et les APIs Canvas. Les octets de l'image n'atteignent jamais nos serveurs, ni un CDN, ni une API IA tierce. Vous pouvez déconnecter le réseau après le chargement de la page et l'outil continue de fonctionner. Pour le travail photo commercial, les planches de référence sous NDA ou les images de produit non publiées, c'est sûr. Note d'honnêteté importante : la palette et la luminosité sont des estimations heuristiques (clustering de couleur k-means et luminance Rec.709 pondérée), pas de la reconnaissance sémantique — l'outil ne 'comprend' pas le sujet comme un modèle de vision, alors écrivez ou choisissez le sujet via chips pour de meilleurs résultats.

Puis-je exporter le prompt, la palette et les réglages en JSON pour mon pipeline ?

Oui — c'est le bloc Pack de prompt (JSON). Un clic copie ou télécharge un pack structuré contenant le prompt positif, le prompt négatif, les dimensions source, le ratio détecté et aligné, la luminosité de toute l'image pondérée par fréquence, la palette dominante complète (hex + nom de couleur le plus proche + % de fréquence), chaque chip de style/éclairage/ambiance/caméra sélectionné, le moteur cible et les valeurs par défaut sampler/scheduler/pas/CFG de ComfyUI. Comme c'est du JSON analysable, vous pouvez le versionner, comparer deux exécutions, l'injecter dans un nœud ComfyUI ou un script d'automatisation et redériver des prompts identiques plus tard — une reproductibilité que le flux copier-la-zone-de-texte perd. L'export du moteur ComfyUI intègre désormais aussi le prompt négatif, il entre donc complet dans les deux nœuds CLIP-Text-Encode sans fusion manuelle.

Pourquoi un constructeur heuristique au lieu de captioning CLIP/BLIP ?

Le vrai captioning image-vers-texte nécessite un modèle neuronal de 200-700 Mo (BLIP-2, BLIP-3, LLaVA, MoonDream) chargé via transformers.js, plus un appareil compatible WebGPU, plus 10-40 secondes de premier chargement et 2-5 secondes par image. C'est techniquement possible et nous pourrions le proposer en upgrade optionnel via Web Worker, mais en pratique 80% de la qualité du prompt vient du format précis + palette + tags style/éclairage/ambiance/caméra, tous extraits en moins de 100ms sans téléchargement. La palette de chips vous permet d'ajouter les mots à haute valeur d'information qu'un modèle vision aurait devinés, et vous connaissez généralement votre sujet mieux que CLIP.

Comment les couleurs dominantes sont-elles extraites ?

Clustering k-means standard avec k=5. Nous réduisons l'image à une grille de 64 pixels de large (64×36 à 64×85 selon le format), écartons les pixels totalement transparents, puis groupons itérativement les triplets RGB restants en 5 groupes pendant 8 tours. Le centroïde de chaque cluster est la couleur dominante et la taille du cluster est sa fréquence. Chaque centroïde est calé sur la couleur nommée la plus proche (rouge, orange, jaune, vert, sarcelle, bleu, violet, rose, brun, noir, blanc, gris, beige) pour le prompt et nous affichons la valeur hex brute dans la rangée d'échantillons. Toute la passe est un tick rAF sur un téléphone moderne.

Pourquoi le format de prompt change-t-il selon le moteur ?

Chaque système texte-vers-image a sa syntaxe qui influence la qualité. Midjourney v6/v7 utilise des flags (--ar 16:9 --v 6 --style raw --stylize 250) et traite les virgules comme séparateurs souples. SDXL et SD 1.5 répondent aux parenthèses pondérées (chef-d'œuvre:1.2) et préfèrent les tags séparés par virgule. Flux Dev/Pro est entraîné sur des légendes en langage naturel et préfère des phrases complètes avec des points, pas des tags. ComfyUI est un graphe de nœuds — nous exportons un extrait JSON qui s'intègre au nœud CLIP-Text-Encode avec un sampler par défaut (dpmpp_2m), scheduler (karras), pas (28) et CFG (4.5). DALL-E 3 préfère l'anglais conversationnel simple. Choisissez le moteur avant de construire et vous sautez l'étape de traduction de syntaxe.

Générateur de Prompt depuis Image — 100% navigateur, l'image n'est pas téléversée. Convertissez une image en prompt structuré pour Midjourney v7, Flux, SDXL — **Générateur de Prompt depuis Image**

Que m'indique la mesure de luminosité ?

Luminance moyenne pondérée par fréquence via la formule Rec.709 (0,2126·R + 0,7152·G + 0,0722·B) moyennée sur tous les clusters de couleur dominants selon leur nombre de pixels — elle reflète donc la luminosité de toute l'image, pas seulement la couleur la plus dominante (un fond sombre derrière un sujet clair n'étiquette plus mal l'image). Sous 60 elle étiquette 'low-key / sombre' (Caravage, film noir, horreur). 60-110 'atmosphérique'. 110-160 'équilibré' (lumière du jour typique). 160-200 'lumineux' (photographie de produit nette, plage). Au-dessus de 200 'high-key / surexposé' (éditorial de mode, mariage). Si vous n'avez pas choisi de chip d'éclairage, l'outil ajoute une vraie phrase d'éclairage mappée depuis cette plage (ex. 'low-key dramatic lighting', 'soft natural daylight', 'bright high-key lighting') — un indice utilisable, pas une étiquette nue — que vous pouvez remplacer par un chip spécifique comme 'golden hour' pour un guidage plus fort.

Pourquoi le format d'image compte-t-il autant dans les prompts ?

Les modèles de diffusion intègrent le format dans l'entraînement : un prompt 9:16 obtient une composition portrait mobile (sujet unique, cadrage serré, arrière-plan tombe), 16:9 obtient un paysage cinématographique (sujet large, détail environnemental, horizon lointain), 1:1 obtient des plans produit centrés, 21:9 cinemascope extrême. Envoyer un prompt 1:1 à un sampler 9:16 par défaut 512×512 peut produire des visages étirés ou des sujets coupés. L'outil détecte automatiquement le format de votre image de référence et l'aligne sur le ratio standard le plus proche du moteur ; remplacez l'alignement si vous voulez recomposer.

Puis-je utiliser ceci pour les flux upscale ou img2img ?

Indirectement. Le prompt généré est l'entrée textuelle pour un passage img2img : prenez ce prompt, envoyez-le avec votre image à Midjourney avec --iw (poids image) ou à SDXL/Flux avec la même image comme init_image à une force de denoise 0,4-0,7. L'extraction de palette est particulièrement utile pour l'upscale — coller la palette dans le prompt pendant un upscale par tuile empêche l'upscaleur de dériver vers des tons chauds génériques. Pour les flux img2img ComfyUI, l'extrait JSON entre directement dans le nœud CLIP-Text-Encode connecté à votre pile VAEEncodeForInpaint.

L'outil supporte-t-il les métadonnées EXIF caméra et objectif ?

Pas encore dans cette version — le parsing EXIF est un objectif futur. Quand ajouté, l'outil extraira la focale (auto-suggérant chip '85mm portrait' ou '24mm grand angle'), l'ouverture (suggérant 'profondeur de champ courte' pour f/1.4-f/2.8 ou 'mise au point profonde' pour f/8+), l'ISO (suggérant 'grain pellicule' pour ISO 1600+) et la marque/modèle (certains prompts répondent à 'shot on Hasselblad' ou 'Leica Q3' comme booster). En attendant vous pouvez lire l'EXIF dans votre app appareil photo ou dans tout visualiseur EXIF de ce site puis cliquer manuellement le chip correspondant.

Mon image est-elle téléversée quelque part ?

Non. Tout le pipeline — lecture du fichier, extraction de palette, détection de format, calcul de luminosité, assemblage de prompt — s'exécute dans votre navigateur via JavaScript standard et les APIs Canvas. Les octets de l'image n'atteignent jamais nos serveurs, ni un CDN, ni une API IA tierce. Vous pouvez déconnecter le réseau après le chargement de la page et l'outil continue de fonctionner. Pour le travail photo commercial, les planches de référence sous NDA ou les images de produit non publiées, cet outil est sûr. Le seul appel réseau après chargement est l'analytique standard du site (respecte do-not-track).

Voir aussi

OUTILS IA33

WUTOOLS