Estimador de Poses AI
Detecta poses del cuerpo humano en imágenes usando MoveNet AI. Identifica 17 puntos clave incluyendo articulaciones y rasgos faciales. Herramienta gratuita online.
Acerca del Estimador de Poses AI
El Estimador de Poses AI utiliza MoveNet, un modelo de detección de poses de última generación de TensorFlow, para identificar poses del cuerpo humano en imágenes. Detecta 17 puntos clave incluyendo rasgos faciales (ojos, orejas, nariz) y articulaciones del cuerpo (hombros, codos, muñecas, caderas, rodillas, tobillos). Todo el procesamiento ocurre directamente en tu navegador - no se suben imágenes a ningún servidor.
¿Este estimador de poses envía mi webcam o foto a un servidor?
No. El Estimador de Poses AI ejecuta todo el pipeline de detección en tu navegador usando MediaPipe Pose o MoveNet vía TensorFlow.js. Tu stream de webcam o foto subida se decodifica en un Canvas/VideoFrame en memoria, el detector de keypoints corre en tu CPU o GPU, y los 33 (o 17) puntos de referencia corporales se dibujan de vuelta en el canvas — todo sin que un solo byte salga del dispositivo. No hay subidas, ni telemetría, ni inferencia en la nube. Es esencial para apps de fitness que no deben enviar tus vídeos de entrenamiento a terceros, para detección postural médica donde la privacidad está regulada, y para cualquier experiencia AR/VR que requiera latencia sub-50ms solo lograble con inferencia local.
¿Qué modelo de pose se usa y cuántos puntos detecta?
Por defecto Google MediaPipe Pose (Pose Landmarker), que detecta 33 landmarks 3D que cubren cuerpo completo — contorno facial, hombros, codos, muñecas, caderas, rodillas, tobillos, más puntos de mano y pie. Las variantes lite/full/heavy ofrecen compromisos entre velocidad y precisión: lite (~6 MB, 60+ fps) ideal móvil, full (~25 MB) precisión estándar a 30 fps en la mayoría de portátiles, heavy (~50 MB) para análisis fitness offline. Como alternativa la herramienta soporta MoveNet (Lightning/Thunder) de TensorFlow.js, que detecta 17 keypoints formato COCO y es aún más rápido que MediaPipe-lite en CPU. Ambos también dan una puntuación de confianza por keypoint para filtrar articulaciones con baja confianza.
¿Qué tan precisa es la estimación de pose en el navegador para fitness o fisioterapia?
MediaPipe Pose-full alcanza un [email protected] (Porcentaje de Keypoints Detectados) de ~92% en COCO val, a la par con APIs de pose en la nube de 2022. Para la mayoría de casos fitness — contar repeticiones de sentadillas, flexiones, zancadas, cronometrar plancha, alertas posturales — la precisión es más que suficiente. Para fisioterapia, medir ángulos articulares (flexión de rodilla, abducción de hombro) es fiable dentro de ±5 grados con buena iluminación y cámara a altura de cadera. Las limitaciones principales: la percepción de profundidad es aproximada (2,5D, no 3D real), la oclusión de articulaciones detrás del cuerpo o extremidades reduce mucho la precisión, y las vistas laterales son más difíciles que las frontales porque cadera y hombro se alinean en 2D.
¿Puede seguir varias personas en el mismo cuadro?
MediaPipe Pose detecta una sola persona por cuadro por diseño — está optimizado para el cuerpo más prominente y ofrece latencia muy baja. Para seguimiento multi-persona puedes cambiar a MoveNet MultiPose (también TensorFlow.js, ~12 MB), que detecta hasta 6 personas simultáneamente ejecutando primero un detector de personas y luego una cabeza de keypoints por instancia. El compromiso es que MoveNet MultiPose corre a ~15 fps en un portátil típico en vez de 60+ para una persona, y la precisión de keypoints en cada uno baja ligeramente. Para estudios de baile, fitness grupal o análisis deportivo con varios atletas, MultiPose es la opción correcta; para entrenamientos en solitario o yoga, quédate con MediaPipe.

¿En qué se diferencia MediaPipe Pose de OpenPose o YOLOv8-Pose?
OpenPose (CMU, 2017) fue el pionero histórico multi-persona usando part-affinity fields bottom-up, pero el modelo es enorme (~200 MB) y lento sin GPU CUDA — impracticable para el navegador. YOLOv8-Pose es un modelo unificado detección+keypoints que corre bien en GPU y da resultados sólidos multi-persona en formato COCO de 17 puntos. MediaPipe Pose usa un enfoque top-down de dos etapas: un detector de personas localiza el cuerpo y un regresor de keypoints refina 33 landmarks en 3D. Este diseño en dos etapas es mucho más rápido en CPU (mobile-first) y da seguimiento temporal más suave porque la segunda etapa se inicializa desde el cuadro anterior. Para navegadores, MediaPipe es el ganador práctico; YOLOv8-Pose gana cuando tienes un servidor con GPU.
¿Puedo ejecutar estimación de pose en tiempo real desde mi webcam?
Sí — para eso está diseñado MediaPipe Pose. La herramienta usa navigator.mediaDevices.getUserMedia para pedir acceso a la webcam (el navegador pide tu permiso), envía los cuadros al modelo de pose vía WebGL/WebGPU y superpone el esqueleto en tiempo real. En un portátil de 2020 o posterior con GPU integrada puedes esperar 30-60 fps con MediaPipe-lite una persona o 15-25 fps con MoveNet MultiPose. El feed de webcam nunca sale de tu equipo. Para minimizar latencia, la herramienta usa requestVideoFrameCallback cuando está disponible (Chrome 83+), que da precisión de planificación por debajo del frame — importante para aplicaciones en vivo como filtros AR de espejo, interpretación de lengua de signos o captura de movimiento para desarrollo de juegos indie.
¿La herramienta soporta pose 3D o solo 2D?
MediaPipe Pose emite ambos: 2D (x, y en píxeles de imagen) y coordenadas 3D mundo aproximadas (x, y, z en metros relativos al centro de la cadera). La coordenada z 3D se estima a partir de las proporciones corporales 2D y es razonablemente precisa cuando la cámara está aproximadamente perpendicular al sujeto, pero no es 3D de calidad métrica. Para 3D genuino necesitarías un sensor de profundidad (LiDAR, Kinect, luz estructurada) o triangulación multi-vista con dos o más cámaras sincronizadas. La salida 3D de MediaPipe es suficiente para efectos AR, análisis básico de movimiento y animar avatares 3D (esto usan las herramientas VTuber), pero no para medición biomecánica de nivel investigación.
¿Diferencia entre MediaPipe (BlazePose) y MoveNet — cuál escojo?
BlazePose / MediaPipe Pose fue desarrollado por Google Research para AR y fitness con 33 landmarks y estimación 3D integrada. Está implementado en C++ con enlaces WebAssembly y muy integrado con la API JS de MediaPipe Solutions. MoveNet fue desarrollado por el equipo TensorFlow de Google para fitness con 17 keypoints COCO, en dos tamaños: Lightning (más rápido, móvil) y Thunder (más preciso). MoveNet está construido sobre TFJS y TFLite, lo que facilita el fine-tuning con el stack estándar de entrenamiento TF. Regla práctica: usa MediaPipe Pose para apps AR/avatar que necesiten 33 puntos incluyendo cara y pies; usa MoveNet cuando solo necesites las 17 articulaciones COCO estándar y quieras máxima velocidad CPU.
