Plus de jeux sur WuGames.ioSponsoriséDécouvrez des jeux de navigateur gratuits — jouez aussitôt, sans téléchargement ni inscription.Jouer

Estimateur de Profondeur AI

Créez des cartes de profondeur depuis vos images 2D avec le modèle IA MiDaS. Estimez distance et profondeur de n'importe quelle photo.

AI Utilise le modèle AI MiDaS pour l'estimation de profondeur monoculaire. Le modèle se télécharge automatiquement lors de votre première estimation (~66MB).
Upload
Glissez et déposez une image ici
ou cliquez pour parcourir (JPG, PNG, WebP)

À Propos de l'Estimateur de Profondeur AI

L'Estimateur de Profondeur AI utilise MiDaS (Monocular Depth Estimation in the Wild), un modèle d'apprentissage profond de pointe qui peut estimer la profondeur à partir d'une seule image 2D. Il crée une carte de profondeur montrant les distances relatives des objets dans la scène. Tout le traitement se fait directement dans votre navigateur - aucune image n'est envoyée à un serveur.

Mes photos sont-elles téléversées quand je lance l'estimation de profondeur ?

Non. L'Estimateur de Profondeur AI traite les images entièrement dans votre navigateur via Transformers.js et ONNX Runtime Web. Votre photo est décodée dans un Canvas en mémoire, passée à un modèle de profondeur exécuté sur votre CPU ou GPU, et la carte de profondeur résultante est affichée sans que l'image quitte l'appareil. Pas d'upload, pas de log, pas d'appel backend — vérifiez dans l'onglet Network des DevTools : aucune XHR ne transporte les octets de votre image. Essentiel pour les photos personnelles, scènes sensibles, images de surveillance, tests d'imagerie médicale ou tout contenu visuel pour lequel vous voulez une profondeur monoculaire sans confier à une API cloud. Les poids sont mis en cache au premier chargement, donc les estimations suivantes sont entièrement hors ligne.

Quel modèle d'estimation de profondeur est utilisé par défaut ?

Par défaut Intel MiDaS-small ou Depth-Anything-small, deux modèles monoculaires de pointe distillés et quantifiés pour l'inférence navigateur. MiDaS (Multi-Image Dataset for Depth) a été présenté par Intel en 2019-2020 et entraîné sur un mélange de plus de 10 jeux de données pour généraliser entre scènes intérieures et extérieures. Depth-Anything (Yang et al., 2024) utilise un backbone ViT pré-entraîné DINOv2 et 1,5M images étiquetées + 62M non étiquetées, et mène les benchmarks zero-shot. Les variantes small font 25-40 Mo après quantification INT8 et tournent à 5-15 images par seconde sur WebGPU. La sortie est une carte de profondeur relative — pixels clairs plus près, sombres plus loin — pas métrique en mètres.

Quelle est la différence entre profondeur relative et profondeur métrique ?

La profondeur relative indique quels pixels sont plus près ou plus loin que d'autres, mais ne donne pas de distances absolues en mètres. La sortie est généralement normalisée à [0, 1] ou rééchelonnée pour remplir une plage de gris. La profondeur métrique exige que le modèle produise des distances réelles calibrées par la focale et le capteur de la caméra, ce qui est bien plus difficile à partir d'une seule image en raison de l'ambiguïté d'échelle inhérente à la vision monoculaire. Des modèles comme Depth-Anything V2 Metric, ZoeDepth ou Marigold peuvent produire une profondeur métrique approximative, mais la précision dépend de la similarité de la scène avec la distribution d'entraînement. Cet outil renvoie de la profondeur relative ; pour des distances absolues il faut une caméra stéréo, du LiDAR ou un modèle fine-tuné pour la métrique.

Puis-je utiliser la carte de profondeur pour créer un effet 3D ou de parallaxe ?

Oui — les cartes relatives sont parfaites pour les effets 2,5D de parallaxe, les fausses photos 3D (que Facebook a popularisées en 2018) ou l'édition générative consciente de la 3D. Le pipeline standard : alimenter l'image RGB et la carte dans un fragment shader qui déplace les coordonnées de texture par la profondeur, puis animer la position caméra. WebGL ou Three.js le font en temps réel. Pour des maillages 3D de meilleure qualité, vous pouvez élever la carte en nuage de points (chaque pixel devient un sommet 3D à la profondeur z) et reconstruire un maillage texturé. La profondeur de cet outil est assez cohérente pour la parallaxe et les effets de faible profondeur de champ, mais peut produire des zones plates ou déformées sur des surfaces sans texture comme ciel bleu ou murs blancs.

Estimateur de Profondeur AI — Créez des cartes de profondeur depuis vos images 2D avec le modèle IA MiDaS. Estimez distance et profondeur de n'importe
Estimateur de Profondeur AI

Pourquoi les bords des objets sont-ils parfois flous sur la carte ?

Les modèles de profondeur peinent aux frontières d'objet car le champ réceptif effectif du réseau flou les discontinuités franches. Cheveux, clôtures, verre, reflets d'eau et structures fines comme des fils sont souvent fondus au fond ou au premier plan. Depth-Anything atténue cela avec un pipeline professeur-élève qui utilise 62M images non étiquetées pour superviser des bords plus nets, et il surpasse nettement MiDaS sur les structures fines. Pour la fidélité maximale des bords, lancez l'entrée en résolution plus élevée (518x518 ou 1036x1036) et appliquez un filtrage guidé préservant les bords en post-traitement. L'outil propose un curseur de résolution — au prix d'une inférence plus lente, une résolution plus haute donne en général des bords plus nets.

Comment se compare la vitesse d'inférence entre WebGPU et WebAssembly ?

MiDaS-small en 384x384 prend environ 150-250 ms en WebAssembly avec SIMD sur un portable milieu de gamme (4 cœurs), soit 4-6 fps. En WebGPU avec un GPU intégré récent (Intel Iris Xe ou Apple série M), le même modèle tourne en 25-50 ms (20-40 fps), un gain de 5 à 8x. Depth-Anything-small est plus lourd (vision transformer) et profite encore davantage de WebGPU car les couches d'attention sont dominées par les multiplications de matrices. Pour de la profondeur webcam temps réel à 30 fps, WebGPU est de fait nécessaire. L'outil choisit le backend automatiquement ; regardez le badge dans la barre d'outils pour voir lequel est actif. Sur Safari avant 18.0, WebGPU est désactivé par défaut et il faut parfois l'activer via Develop → Experimental Features.

Faut-il préférer un modèle CNN (MiDaS) ou un transformer (Depth-Anything) ?

Les deux architectures ont leurs mérites. MiDaS-small utilise un backbone EfficientNet/MobileNet avec décodeur CNN multi-échelle, ce qui le rend extrêmement rapide sur CPU et assez petit pour les appareils à mémoire limitée (~25 Mo INT8). Depth-Anything utilise un backbone ViT DINOv2, qui offre une précision zero-shot bien meilleure sur des scènes nouvelles — l'article original rapporte une RMSE inférieure de 10 à 15% sur NYU intérieur et KITTI extérieur — mais le ViT est plus lourd et lent sur CPU. Règle pratique : utilisez MiDaS-small pour les navigateurs sans GPU, le mobile ou les flux webcam sous 480p ; utilisez Depth-Anything-small pour le traitement d'image unique haute qualité sur un navigateur desktop avec WebGPU.

Puis-je exporter la carte de profondeur en PNG 16 bits pour Blender ou Photoshop ?

Oui — un PNG gris 8 bits est pratique pour la prévisualisation mais ne donne que 256 niveaux, ce qui produit des bandes visibles dans les dégradés doux (sols plats, ciel). Le PNG 16 bits donne 65536 niveaux, suffisants pour des effets 3D de qualité, le displacement mapping dans Blender et les filtres de flou par profondeur dans Photoshop. L'outil offre les deux formats : 8 bits pour le partage rapide, 16 bits quand vous prévoyez d'utiliser la carte dans un logiciel 3D. La plupart des bibliothèques (Photoshop, GIMP, Blender, Krita) chargent le PNG 16 bits nativement. Pour plus de précision encore, exportez en EXR float 32 bits, mais cela nécessite un codec à part ; la majorité des pipelines de profondeur s'en sortent bien en PNG 16 bits.