Estimateur de Poses AI
Détectez les poses du corps humain dans les images avec MoveNet AI. Identifiez 17 points clés incluant les articulations et traits du visage. Outil en ligne gratuit.
À Propos de l'Estimateur de Poses AI
L'Estimateur de Poses AI utilise MoveNet, un modèle de détection de poses de pointe de TensorFlow, pour identifier les poses du corps humain dans les images. Il détecte 17 points clés incluant les traits du visage (yeux, oreilles, nez) et les articulations du corps (épaules, coudes, poignets, hanches, genoux, chevilles). Tout le traitement se fait directement dans votre navigateur - aucune image n'est envoyée à un serveur.
Cet estimateur de pose envoie-t-il ma webcam ou ma photo à un serveur ?
Non. L'Estimateur de Poses AI exécute tout le pipeline de détection de pose dans votre navigateur via MediaPipe Pose ou MoveNet avec TensorFlow.js. Votre flux webcam ou photo téléversée est décodé dans un Canvas/VideoFrame en mémoire, le détecteur de keypoints tourne sur votre CPU ou GPU, et les 33 (ou 17) landmarks corporels résultants sont redessinés sur le canvas — le tout sans qu'un seul octet ne quitte l'appareil. Aucun upload, aucune télémétrie, aucune inférence cloud. C'est essentiel pour les applis de fitness qui ne doivent pas diffuser vos vidéos d'entraînement à un tiers, pour le dépistage postural médical où la vie privée du patient est régulée et pour toute expérience AR/VR exigeant une latence sous 50 ms uniquement atteignable en local.
Quel modèle de pose est utilisé et combien de landmarks corporels détecte-t-il ?
Le défaut est Google MediaPipe Pose (Pose Landmarker), qui détecte 33 landmarks 3D couvrant tout le corps — contour du visage, épaules, coudes, poignets, hanches, genoux, chevilles, plus des keypoints de main et de pied. Les variantes lite/full/heavy offrent un compromis vitesse/précision : lite (~6 Mo, 60+ fps) excellent pour mobile, full (~25 Mo) précision standard à 30 fps sur la plupart des portables, heavy (~50 Mo) pour analyse fitness hors ligne. En alternative, l'outil prend en charge MoveNet (Lightning/Thunder) de TensorFlow.js, qui détecte 17 keypoints au format COCO et est encore plus rapide que MediaPipe-lite sur CPU. Les deux fournissent aussi un score de confiance par keypoint pour filtrer les articulations peu sûres.
Quelle précision pour la pose côté navigateur en fitness ou en kiné ?
MediaPipe Pose-full atteint un [email protected] (Percent of Detected Keypoints) d'environ 92% sur COCO val, à parité avec les API de pose cloud de 2022. Pour la plupart des usages fitness — compter les répétitions de squats, pompes, fentes, chronométrer la planche, alertes posturales — la précision est largement suffisante. Pour la kiné, mesurer les angles articulaires (flexion du genou, abduction de l'épaule) est fiable à ±5 degrés en bonne lumière avec la caméra à hauteur de hanche. Limites principales : perception de profondeur approximative (2,5D, pas vrai 3D), l'occlusion des articulations derrière le corps ou des membres réduit nettement la précision, et les vues latérales sont plus difficiles que les vues frontales car hanche et épaule s'alignent en 2D.
Peut-il suivre plusieurs personnes dans le même cadre ?
MediaPipe Pose ne détecte qu'une seule personne par image par conception — il est optimisé pour le corps le plus saillant et offre une latence extrêmement basse. Pour le suivi multi-personne, passez à MoveNet MultiPose (aussi TensorFlow.js, ~12 Mo), qui détecte jusqu'à 6 personnes simultanément en exécutant d'abord un détecteur de personne puis une tête de keypoints par instance. Le compromis : MoveNet MultiPose tourne à environ 15 fps sur un portable typique au lieu de 60+ pour une seule personne, et la précision keypoints par individu baisse légèrement. Pour studios de danse, fitness en groupe ou analyse sportive multi-athlètes, MultiPose est le bon choix ; pour des entraînements solos ou des applis de yoga, restez sur MediaPipe.

En quoi MediaPipe Pose diffère-t-il d'OpenPose ou YOLOv8-Pose ?
OpenPose (CMU, 2017) est le pionnier historique multi-personne avec des part-affinity fields bottom-up, mais le modèle est énorme (~200 Mo) et lent sans GPU CUDA — impraticable en navigateur. YOLOv8-Pose est un modèle unifié détection+keypoints qui tourne bien sur GPU et donne d'excellents résultats multi-personne au format COCO 17 points. MediaPipe Pose utilise une approche top-down en deux étapes : un détecteur de personne localise le corps, puis un régresseur de keypoints affine 33 landmarks en 3D. Cette conception en deux étapes est bien plus rapide sur CPU (mobile-first) et donne un suivi temporel plus fluide car la seconde étape s'initialise depuis l'image précédente. Pour le navigateur, MediaPipe gagne en pratique ; YOLOv8-Pose gagne quand vous avez un serveur GPU.
Puis-je faire de l'estimation de pose en temps réel depuis ma webcam ?
Oui — c'est exactement ce pour quoi MediaPipe Pose est conçu. L'outil utilise navigator.mediaDevices.getUserMedia pour demander l'accès à la webcam (le navigateur demande votre autorisation), envoie les images au modèle via WebGL/WebGPU et superpose le squelette en temps réel. Sur un portable de 2020+ avec GPU intégré, comptez 30-60 fps avec MediaPipe-lite une personne ou 15-25 fps avec MoveNet MultiPose. Le flux webcam ne quitte jamais votre ordinateur. Pour minimiser la latence, l'outil utilise requestVideoFrameCallback quand c'est disponible (Chrome 83+), qui offre une précision de planification sous-trame — important pour des applis live comme des filtres AR miroir, l'interprétation en langue des signes ou la mocap pour le jeu indé.
L'outil prend-il en charge la pose 3D ou uniquement 2D ?
MediaPipe Pose émet à la fois en 2D (x, y en pixels image) et en coordonnées 3D monde approximatives (x, y, z en mètres relatifs au centre des hanches). La coordonnée z 3D est estimée à partir des proportions corporelles 2D et est raisonnablement précise quand la caméra est à peu près perpendiculaire au sujet, mais ce n'est pas du 3D de qualité métrique. Pour du vrai 3D, il faudrait un capteur de profondeur (LiDAR, Kinect, lumière structurée) ou de la triangulation multi-vues avec deux caméras synchronisées ou plus. La sortie 3D de MediaPipe suffit pour des effets AR, l'analyse basique de mouvement et l'animation d'avatars 3D (c'est ce qu'utilisent les outils VTuber), mais pas pour de la mesure biomécanique de niveau recherche.
Quelle différence entre MediaPipe (BlazePose) et MoveNet — lequel choisir ?
BlazePose / MediaPipe Pose a été développé par Google Research pour l'AR et le fitness, avec 33 landmarks et estimation 3D intégrée. Il est implémenté en C++ avec des bindings WebAssembly et étroitement intégré à l'API JS MediaPipe Solutions. MoveNet a été développé par l'équipe TensorFlow de Google pour le fitness avec 17 keypoints COCO, en deux tailles : Lightning (le plus rapide, mobile) et Thunder (plus précis). MoveNet est bâti sur TFJS et TFLite, ce qui facilite le fine-tuning dans la pile d'entraînement standard TF. Règle pratique : utilisez MediaPipe Pose pour des applis AR/avatar nécessitant la couverture 33 points incluant visage et pieds ; utilisez MoveNet quand vous n'avez besoin que des 17 articulations COCO standard et voulez la vitesse CPU maximale.
