Générateur de Légendes d'Image par IA

Générateur gratuit de descriptions d'images par IA. Envoyez une photo et obtenez une description en langage naturel. Tout reste dans votre navigateur.

AI Utilise un modèle vision-langage open source qui tourne 100% dans votre navigateur. Le premier lancement télécharge environ 250 Mo (puis mis en cache).
Détection du matériel...
Upload
Glissez-déposez une image ici, ou cliquez pour parcourir
Prend en charge JPG, PNG, GIF, BMP, WebP
Déposez un fichier JPG, PNG, GIF, BMP ou WebP (jusqu'à ~20 Mo)

À propos du Générateur de Légendes d'Image par IA

Le Générateur de Légendes d'Image par IA regarde une photographie et rédige une phrase en anglais naturel décrivant ce qu'il voit, par exemple « a brown dog running through tall grass » ou « a plate of pasta with red sauce on a wooden table ». Il s'appuie sur un modèle vision-langage open source de la famille BLIP / ViT-GPT2, entraîné sur des millions de paires image-légende, qui apprend la correspondance entre les caractéristiques visuelles (contours, couleurs, objets, scènes) et la manière dont les humains décrivent une image. Le modèle s'exécute intégralement dans votre onglet de navigateur grâce au runtime Transformers.js de Hugging Face, avec un backend WebGPU quand il est disponible et un repli WebAssembly sinon, ce qui veut dire que votre image n'est jamais envoyée à un serveur. Les usages typiques sont la rédaction de texte alternatif pour l'accessibilité et le SEO, le nommage et l'étiquetage de grandes photothèques, la création de brouillons de légendes pour les réseaux sociaux, l'aide aux personnes malvoyantes pour explorer une image et l'assistance aux modérateurs de contenu qui veulent un indice textuel rapide sur le contenu d'une photo. Le premier appel télécharge les poids du modèle (environ 250 Mo) dans le cache du navigateur, les légendes suivantes ne prennent plus que quelques secondes. La qualité est meilleure sur les scènes du quotidien, les animaux, la nourriture, les objets et les photos en extérieur ; l'art abstrait, les graphiques et les images riches en texte sont plus difficiles et peuvent produire des descriptions génériques.

Que fait exactement le Générateur de Légendes d'Image par IA ?

L'outil lit l'image que vous chargez, la passe dans un réseau de neurones profond qui combine un encodeur visuel (ViT ou BLIP) et un décodeur de langue (style GPT-2), puis renvoie une description d'une phrase. Le modèle a été entraîné sur des millions de paires image-légende issues du web public, donc il a appris des concepts visuels (chien, plage, pizza, ordinateur) et les schémas de phrase typiques utilisés par les humains pour décrire une scène (« a X doing Y in/on Z »). Le résultat est court, factuel et convient comme texte alternatif, comme description SEO ou comme point de départ d'une légende plus longue. Le modèle n'invente pas d'histoires, ne nomme pas de personnes précises et ne lit pas le texte présent dans l'image.

Quels formats d'image sont acceptés et quelle est la taille maximale ?

Tout format que votre navigateur sait décoder : JPG, JPEG, PNG, GIF (la première image seulement), BMP, WebP et la plupart des HEIC sur macOS / iOS Safari. Il n'y a pas de limite stricte côté serveur puisque rien n'est envoyé, mais en pratique des fichiers de plus de 20 Mo ou des photos de plus de 4000 pixels de côté peuvent ralentir le décodage sur mobile. Le modèle redimensionne en interne l'entrée à 224 x 224 ou 384 x 384 avant la génération, donc une source en plus haute résolution n'améliore pas la qualité. Pour de meilleurs résultats, utilisez une image bien éclairée, nette, avec le sujet principal occupant au moins 20% du cadre.

Mon image est-elle envoyée à un serveur ? Quelle confidentialité ?

Votre image n'est jamais envoyée à aucun serveur. La photo est décodée dans un élément Canvas à l'intérieur de la page, les poids du modèle sont téléchargés une seule fois depuis une CDN publique (jsDelivr / Hugging Face) et l'inférence tourne entièrement sur votre CPU ou GPU via WebAssembly ou WebGPU. Vous pouvez le vérifier dans l'onglet Réseau des DevTools du navigateur : une fois les fichiers du modèle chargés, générer de nouvelles légendes n'émet aucune nouvelle requête. L'outil est donc adapté aux photos personnelles, images médicales, photos de famille avec des enfants et captures d'écran d'entreprise confidentielles. Une fois le modèle en cache, il fonctionne aussi totalement hors ligne.

Générateur de Légendes d'Image par IA — Générateur gratuit de descriptions d'images par IA. Envoyez une photo et obtenez une description en langage naturel. Tou
Générateur de Légendes d'Image par IA

Combien de temps prend la première légende et pourquoi ?

La toute première fois que vous cliquez sur Générer, le navigateur doit télécharger environ 250 Mo de poids depuis la CDN et les compiler pour WebGPU ou WebAssembly. Sur une connexion domestique rapide cela prend 30 à 90 secondes ; sur un réseau mobile lent, 2 à 3 minutes. Ensuite, les poids restent dans le cache du navigateur et le modèle reste en mémoire, donc les légendes suivantes se terminent en 1 à 4 secondes sur un ordinateur récent avec WebGPU et en 5 à 15 secondes en repli WebAssembly CPU. Recharger la page réutilise le cache ; un profil neuf ou un cache vidé déclenchent un nouveau téléchargement.

Quels navigateurs et appareils fonctionnent le mieux ?

L'outil fonctionne sur tous les navigateurs modernes : Chrome 113+, Edge 113+, Firefox (uniquement WASM pour l'instant) et Safari 17+. L'accélération WebGPU est aujourd'hui mieux prise en charge dans Chrome et Edge sur ordinateur ainsi que sur les téléphones Android récents ; Safari propose un support expérimental qu'il faut activer dans Développement > Fonctionnalités expérimentales. Sur iOS et les Android plus anciens, l'outil bascule vers WebAssembly, qui marche toujours mais plus lentement. Un ordinateur portable ou de bureau avec au moins 8 Go de RAM offre la meilleure expérience, le modèle et les tenseurs intermédiaires utilisant ensemble près de 1 Go. Les téléphones anciens à faible RAM peuvent ne pas charger le modèle.

Pourquoi ai-je obtenu une légende vague et comment l'améliorer ?

Les modèles de légendage sont plus performants sur des scènes communes et bien photographiées : extérieurs, nourriture, animaux, sports, véhicules, personnes faisant des activités quotidiennes. Ils peinent sur l'art abstrait, les captures de graphiques ou de texte, les collages très retouchés et les angles inhabituels. Si vous obtenez une légende générique du type « a picture of something », essayez un recadrage plus clair où le sujet principal remplit le cadre, améliorez l'éclairage ou réduisez l'encombrement visuel. Le modèle ne lit pas les mots dans l'image (pour cela, utilisez l'outil OCR / Image vers Texte) et n'identifie pas les personnes ou marques précises, par conception et confidentialité. Pour des légendes multilingues, traduisez la sortie anglaise ; les poids BLIP / ViT-GPT2 d'origine sont uniquement anglais.