Mais jogos no WuGames.ioPatrocinadoDescubra jogos de navegador grátis — jogue na hora, sem download nem cadastro.Jogar

Estimador de Poses AI

Detecte poses do corpo humano em imagens usando MoveNet AI. Identifique 17 pontos-chave incluindo articulações e características faciais. Ferramenta online gratuita.

AI Usa o modelo AI MoveNet para detecção de poses em tempo real. O modelo é baixado automaticamente quando você detecta uma pose pela primeira vez (~5MB).
Upload
Arraste e solte uma imagem aqui
ou clique para procurar (JPG, PNG, WebP)

Sobre o Estimador de Poses AI

O Estimador de Poses AI usa MoveNet, um modelo de detecção de poses de última geração do TensorFlow, para identificar poses do corpo humano em imagens. Ele detecta 17 pontos-chave incluindo características faciais (olhos, orelhas, nariz) e articulações do corpo (ombros, cotovelos, pulsos, quadris, joelhos, tornozelos). Todo o processamento acontece diretamente no seu navegador - nenhuma imagem é enviada para qualquer servidor.

Este estimador de poses envia minha webcam ou foto para um servidor?

Não. O Estimador de Poses AI roda todo o pipeline de detecção de pose no seu navegador usando MediaPipe Pose ou MoveNet via TensorFlow.js. Seu stream de webcam ou foto enviada é decodificado em um Canvas/VideoFrame em memória, o detector de keypoints roda no seu CPU ou GPU, e os 33 (ou 17) landmarks corporais resultantes são desenhados de volta no canvas — tudo sem um único byte sair do dispositivo. Sem upload, sem telemetria, sem inferência na nuvem. Isso é essencial para apps de fitness que não devem transmitir seus vídeos de treino a terceiros, para triagem de postura médica em que a privacidade do paciente é regulada e para qualquer experiência AR/VR que precise de latência sub-50ms só alcançável com inferência local.

Qual modelo de pose é usado e quantos pontos do corpo ele detecta?

O padrão é o Google MediaPipe Pose (Pose Landmarker), que detecta 33 landmarks 3D cobrindo o corpo inteiro — contorno do rosto, ombros, cotovelos, pulsos, quadris, joelhos, tornozelos, mais keypoints de mão e pé. As variantes lite/full/heavy oferecem trade-offs entre velocidade e precisão: lite (~6 MB, 60+ fps) ótimo para mobile, full (~25 MB) precisão padrão a 30 fps na maioria dos notebooks, heavy (~50 MB) para análise fitness offline. Como alternativa, a ferramenta suporta MoveNet (Lightning/Thunder) do TensorFlow.js, que detecta 17 keypoints no formato COCO e é ainda mais rápido que MediaPipe-lite no CPU. Ambos também emitem um escore de confiança por keypoint para você filtrar articulações de baixa confiança.

Qual a precisão da estimativa de pose no navegador para fitness ou fisioterapia?

O MediaPipe Pose-full atinge um [email protected] (Percentual de Keypoints Detectados) de ~92% no COCO val, comparável a APIs de pose em nuvem de 2022. Para a maioria dos casos de fitness — contar repetições de agachamento, flexão, avanço, cronometrar prancha, alertas posturais — a precisão é mais que suficiente. Para fisioterapia, medir ângulos articulares (flexão de joelho, abdução de ombro) é confiável dentro de ±5 graus com boa iluminação e câmera na altura do quadril. Limitações principais: a percepção de profundidade é aproximada (2,5D, não 3D real), a oclusão de articulações atrás do corpo ou membros derruba muito a precisão, e vistas laterais são mais difíceis que frontais porque quadril e ombro ficam alinhados em 2D.

Ele rastreia várias pessoas no mesmo quadro de uma vez?

O MediaPipe Pose detecta uma única pessoa por quadro por design — é otimizado para o corpo mais proeminente e oferece latência extremamente baixa. Para rastreamento multi-pessoa você pode trocar para MoveNet MultiPose (também TensorFlow.js, ~12 MB), que detecta até 6 pessoas simultaneamente rodando primeiro um detector de pessoa e depois uma cabeça de keypoint por instância. O trade-off é que MoveNet MultiPose roda a ~15 fps num notebook típico em vez de 60+ para uma pessoa, e a precisão dos keypoints em cada um cai um pouco. Para estúdios de dança, fitness em grupo ou análise esportiva com vários atletas, MultiPose é a escolha; para treinos solo ou apps de yoga, fique com MediaPipe.

Estimador de Poses AI — Detecte poses do corpo humano em imagens usando MoveNet AI. Identifique 17 pontos-chave incluindo articulações e caracte
Estimador de Poses AI

Como o MediaPipe Pose difere do OpenPose ou YOLOv8-Pose?

O OpenPose (CMU, 2017) é o pioneiro histórico de pose multi-pessoa, usando part-affinity fields bottom-up, mas o modelo é enorme (~200 MB) e lento sem GPU CUDA — impraticável para implantar em navegador. O YOLOv8-Pose é um modelo unificado detecção+keypoint que roda bem em GPU e dá resultados multi-pessoa fortes no formato COCO de 17 pontos. O MediaPipe Pose usa abordagem top-down em duas etapas: um detector de pessoa localiza o corpo, então um regressor de keypoints refina 33 landmarks em 3D. Esse desenho em duas etapas é bem mais rápido no CPU (mobile-first) e dá rastreamento temporal mais suave porque a segunda etapa é inicializada do quadro anterior. Para navegadores, MediaPipe vence na prática; YOLOv8-Pose vence quando você tem servidor com GPU.

Posso rodar estimativa de pose em tempo real a partir da minha webcam?

Sim — é exatamente para isso que o MediaPipe Pose foi feito. A ferramenta usa navigator.mediaDevices.getUserMedia para pedir acesso à webcam (o navegador pede sua permissão), envia os quadros ao modelo de pose via WebGL/WebGPU e sobrepõe o esqueleto em tempo real. Em um notebook a partir de 2020 com GPU integrada, espere 30-60 fps com MediaPipe-lite uma pessoa ou 15-25 fps com MoveNet MultiPose. O feed da webcam nunca sai do computador. Para minimizar latência, a ferramenta usa requestVideoFrameCallback quando disponível (Chrome 83+), que dá precisão de agendamento abaixo do frame — importante para aplicações ao vivo como filtros AR de espelho, interpretação de língua de sinais ou motion capture para dev de jogos indie.

A ferramenta suporta pose 3D ou só 2D?

O MediaPipe Pose emite tanto 2D (x, y em pixels da imagem) quanto coordenadas 3D mundo aproximadas (x, y, z em metros relativos ao centro do quadril). A coordenada z 3D é estimada a partir das proporções corporais 2D e é razoavelmente precisa quando a câmera está mais ou menos perpendicular ao sujeito, mas não é 3D de qualidade métrica. Para 3D genuíno você precisaria de um sensor de profundidade (LiDAR, Kinect, luz estruturada) ou triangulação multi-vista com duas ou mais câmeras sincronizadas. A saída 3D do MediaPipe basta para efeitos AR, análise básica de movimento e animar avatares 3D (é o que ferramentas VTuber usam), mas não para medição biomecânica de nível pesquisa.

Qual a diferença entre MediaPipe (BlazePose) e MoveNet — qual escolher?

BlazePose / MediaPipe Pose foi desenvolvido pela Google Research para AR e fitness, com 33 landmarks e estimativa 3D embutida. É implementado em C++ com bindings WebAssembly e fortemente integrado à API JS do MediaPipe Solutions. O MoveNet foi desenvolvido pelo time TensorFlow do Google para fitness com 17 keypoints COCO, em dois tamanhos: Lightning (mais rápido, mobile) e Thunder (mais preciso). O MoveNet é construído sobre TFJS e TFLite, o que facilita o fine-tuning no stack padrão de treino do TF. Regra prática: use MediaPipe Pose para apps AR/avatar que precisam de cobertura de 33 pontos incluindo rosto e pés; use MoveNet quando só precisar das 17 articulações COCO padrão e quiser máxima velocidade no CPU.