Générateur de Légendes d'Image par IA

Générateur gratuit de légendes par IA, hors ligne, avec le modèle vit-gpt2-image-captioning. Texte alternatif et 3 suggestions, sans aucun envoi.

Vous avez des commentaires ? Signalez des bugs, suggérez des fonctionnalités ou partagez vos idées — nous lisons tout

À propos du Générateur de Légendes d'Image par IA

Le Générateur de Légendes d'Image par IA regarde une photographie et rédige une phrase en anglais naturel décrivant ce qu'il voit, par exemple « a brown dog running through tall grass » ou « a plate of pasta with red sauce on a wooden table ». Il s'appuie sur le modèle vision-langage open source vit-gpt2-image-captioning (un encodeur d'image ViT avec un décodeur de texte GPT-2), entraîné sur des millions de paires image-légende, qui apprend la correspondance entre les caractéristiques visuelles (contours, couleurs, objets, scènes) et la manière dont les humains décrivent une image. Le modèle s'exécute intégralement dans votre onglet de navigateur grâce au runtime Transformers.js de Hugging Face, avec un backend WebGPU quand il est disponible et un repli WebAssembly sinon, ce qui veut dire que votre image n'est jamais envoyée à un serveur. Les usages typiques sont la rédaction de texte alternatif pour l'accessibilité et le SEO, le nommage et l'étiquetage de grandes photothèques, la création de brouillons de légendes pour les réseaux sociaux, l'aide aux personnes malvoyantes pour explorer une image et l'assistance aux modérateurs de contenu qui veulent un indice textuel rapide sur le contenu d'une photo. Le premier appel télécharge les poids du modèle (environ 250 Mo) dans le cache du navigateur, les légendes suivantes ne prennent plus que quelques secondes. La qualité est meilleure sur les scènes du quotidien, les animaux, la nourriture, les objets et les photos en extérieur ; l'art abstrait, les graphiques et les images riches en texte sont plus difficiles et peuvent produire des descriptions génériques. Voir aussi notre Extracteur de mots-clés IA et notre Traducteur IA.

Que fait exactement le Générateur de Légendes d'Image par IA ?

L'outil lit l'image que vous chargez, la passe dans un réseau de neurones profond qui combine un encodeur visuel ViT et un décodeur de langue GPT-2 (le modèle vit-gpt2-image-captioning), puis renvoie une description d'une phrase. Le modèle a été entraîné sur des millions de paires image-légende issues du web public, donc il a appris des concepts visuels (chien, plage, pizza, ordinateur) et les schémas de phrase typiques utilisés par les humains pour décrire une scène (« a X doing Y in/on Z »). Le résultat est court, factuel et convient comme texte alternatif, comme description SEO ou comme point de départ d'une légende plus longue. Le modèle n'invente pas d'histoires, ne nomme pas de personnes précises et ne lit pas le texte présent dans l'image.

Quels formats d'image sont acceptés et quelle est la taille maximale ?

Tout format que votre navigateur sait décoder : JPG, JPEG, PNG, GIF (la première image seulement), BMP, WebP et la plupart des HEIC sur macOS / iOS Safari. Il n'y a pas de limite stricte côté serveur puisque rien n'est envoyé, mais en pratique des fichiers de plus de 20 Mo ou des photos de plus de 4000 pixels de côté peuvent ralentir le décodage sur mobile. Le modèle redimensionne en interne l'entrée à 224 x 224 ou 384 x 384 avant la génération, donc une source en plus haute résolution n'améliore pas la qualité. Pour de meilleurs résultats, utilisez une image bien éclairée, nette, avec le sujet principal occupant au moins 20% du cadre.

Mon image est-elle envoyée à un serveur ? Quelle confidentialité ?

Votre image n'est jamais envoyée à aucun serveur. La photo est décodée dans un élément Canvas à l'intérieur de la page, les poids du modèle sont téléchargés une seule fois depuis une CDN publique (jsDelivr / Hugging Face) et l'inférence tourne entièrement sur votre CPU ou GPU via WebAssembly ou WebGPU. Vous pouvez le vérifier dans l'onglet Réseau des DevTools du navigateur : une fois les fichiers du modèle chargés, générer de nouvelles légendes n'émet aucune nouvelle requête. L'outil est donc adapté aux photos personnelles, images médicales, photos de famille avec des enfants et captures d'écran d'entreprise confidentielles. Une fois le modèle en cache, il fonctionne aussi totalement hors ligne.

Combien de temps prend la première légende et pourquoi ?

La toute première fois que vous cliquez sur Générer, le navigateur doit télécharger environ 250 Mo de poids depuis la CDN et les compiler pour WebGPU ou WebAssembly. Sur une connexion domestique rapide cela prend 30 à 90 secondes ; sur un réseau mobile lent, 2 à 3 minutes. Ensuite, les poids restent dans le cache du navigateur et le modèle reste en mémoire, donc les légendes suivantes se terminent en 1 à 4 secondes sur un ordinateur récent avec WebGPU et en 5 à 15 secondes en repli WebAssembly CPU. Recharger la page réutilise le cache ; un profil neuf ou un cache vidé déclenchent un nouveau téléchargement.

Générateur de Légendes d'Image par IA — Générateur gratuit de légendes par IA, hors ligne, avec le modèle vit-gpt2-image-captioning. Texte alternatif et 3 sugge — **Générateur de Légendes d'Image par IA**

Quels navigateurs et appareils fonctionnent le mieux ?

L'outil fonctionne sur tous les navigateurs modernes : Chrome 113+, Edge 113+, Firefox (uniquement WASM pour l'instant) et Safari 17+. L'accélération WebGPU est aujourd'hui mieux prise en charge dans Chrome et Edge sur ordinateur ainsi que sur les téléphones Android récents ; Safari propose un support expérimental qu'il faut activer dans Développement > Fonctionnalités expérimentales. Sur iOS et les Android plus anciens, l'outil bascule vers WebAssembly, qui marche toujours mais plus lentement. Un ordinateur portable ou de bureau avec au moins 8 Go de RAM offre la meilleure expérience, le modèle et les tenseurs intermédiaires utilisant ensemble près de 1 Go. Les téléphones anciens à faible RAM peuvent ne pas charger le modèle.

Pourquoi ai-je obtenu une légende vague et comment l'améliorer ?

Les modèles de légendage sont plus performants sur des scènes communes et bien photographiées : extérieurs, nourriture, animaux, sports, véhicules, personnes faisant des activités quotidiennes. Ils peinent sur l'art abstrait, les captures de graphiques ou de texte, les collages très retouchés et les angles inhabituels. Si vous obtenez une légende générique du type « a picture of something », essayez un recadrage plus clair où le sujet principal remplit le cadre, améliorez l'éclairage ou réduisez l'encombrement visuel. Le modèle ne lit pas les mots dans l'image (pour cela, utilisez l'outil OCR / Image vers Texte) et n'identifie pas les personnes ou marques précises, par conception et confidentialité. Pour des légendes multilingues, traduisez la sortie anglaise ; les poids d'origine de vit-gpt2-image-captioning sont uniquement anglais.

Quelle est sa précision et quand dois-je modifier la légende avant de l'utiliser ?

Le modèle vit-gpt2-image-captioning, exécuté sur votre appareil, produit une seule phrase courte et générique en anglais, souvent correcte mais pas toujours. Considérez sa sortie comme un brouillon, pas comme une réponse définitive. Limites concrètes : il ne fait pas d'OCR, il ne transcrit donc ni texte, ni panneaux, ni logos, ni chiffres présents dans l'image ; il n'identifie pas les personnes, marques ou lieux précis ; il est uniquement anglophone et tend à produire une seule phrase descriptive simple plutôt qu'un texte riche et contextualisé. Pour les travaux d'accessibilité et de conformité (texte alternatif WCAG, exigences gouvernementales ou e-commerce), relisez et modifiez toujours la suggestion : ajoutez l'objectif de l'image, tout texte qu'elle contient et le contexte que le modèle ne peut pas voir. L'outil accélère la rédaction de texte alternatif et de descriptions SEO, mais ne remplace pas un humain dans des contextes réglementés ou à enjeux élevés.

Puis-je obtenir plusieurs suggestions de légende ou régler la longueur ?

Oui. Avant de cliquer sur Générer, vous pouvez choisir le nombre de suggestions à produire (1, 3 ou 5) et un préréglage de longueur : Courte pour un texte alternatif compact, Moyenne pour une légende équilibrée ou Longue pour une phrase plus descriptive. Demander plusieurs suggestions lance une recherche par faisceaux (beam search) sur le même modèle, renvoie plusieurs formulations distinctes et les affiche sous forme de lignes cliquables ; un clic sur une ligne la charge dans le champ de légende modifiable pour la copier, la télécharger ou l'affiner. C'est idéal pour les professionnels qui étiquettent des photothèques ou rédigent du texte alternatif et veulent choisir la meilleure formulation en une seule passe plutôt que de relancer. Tout continue de s'exécuter localement sur le modèle vit-gpt2 du navigateur : générer des suggestions supplémentaires ne télécharge aucun poids additionnel et n'envoie rien à un serveur.

Voir aussi

OUTILS IA33

WUTOOLS