Nhận Dạng Tư Thế AI
Nhận dạng tư thế AI ngay trên trình duyệt. MoveNet phát hiện 17 điểm khớp COCO trên thiết bị (không tải lên, riêng tư), tính góc khớp và xuất JSON hoặc CSV.
Giới Thiệu Nhận Dạng Tư Thế AI
Nhận Dạng Tư Thế AI chạy MoveNet (Lightning và Thunder) từ TensorFlow.js hoàn toàn trong trình duyệt trên backend WebGL. Nó phát hiện một người và trả về 17 điểm khớp 2D định dạng COCO — mũi, mắt, tai, vai, khuỷu tay, cổ tay, hông, đầu gối và mắt cá chân — mỗi điểm có điểm độ tin cậy. Mô hình (~5MB cho Lightning, ~12MB cho Thunder) tải xuống một lần và được lưu cache. Ngoài các điểm khớp, công cụ còn tính góc gập của các khớp chính (khuỷu tay, vai, hông, đầu gối) và cho phép xuất tất cả ra JSON hoặc CSV, với tọa độ cả của canvas đã thu nhỏ lẫn của độ phân giải gốc. Mọi xử lý diễn ra cục bộ - không bao giờ tải ảnh, video hay dữ liệu tư thế lên máy chủ.
Công cụ ước tính tư thế này có gửi webcam hay ảnh của tôi lên máy chủ không?
Không. Nhận Dạng Tư Thế AI chạy toàn bộ pipeline phát hiện tư thế trong trình duyệt bằng MoveNet qua TensorFlow.js. Luồng webcam hoặc ảnh tải lên được giải mã vào canvas trong bộ nhớ, bộ phát hiện keypoint MoveNet chạy trên GPU (backend WebGL) hoặc CPU của chính bạn, và 17 điểm khớp kết quả được vẽ lại lên canvas — không một byte nào rời khỏi thiết bị. Không tải lên, không telemetry, không suy luận đám mây. Điều này rất cần cho ứng dụng thể hình không nên truyền video tập luyện cho bên thứ ba, sàng lọc tư thế nơi quyền riêng tư quan trọng, và lớp phủ trực tiếp độ trễ thấp.
MoveNet phát hiện 17 keypoint nào?
MoveNet trả về 17 keypoint định dạng COCO: mũi, mắt trái/phải, tai trái/phải, vai trái/phải, khuỷu tay trái/phải, cổ tay trái/phải, hông trái/phải, đầu gối trái/phải và mắt cá chân trái/phải. Mỗi keypoint có tọa độ x/y theo pixel và điểm độ tin cậy từ 0 đến 1. Không có điểm bàn tay, bàn chân hay lưới khuôn mặt, và không có giá trị z/độ sâu — đầu ra là một người và chỉ 2D. Thanh trượt độ tin cậy cho phép ẩn các khớp tin cậy thấp khỏi bộ xương và khỏi phép tính góc khớp.
Lightning vs Thunder — khác nhau ở đâu?
Cả hai đều là bộ phát hiện MoveNet một người xuất cùng 17 keypoint. Lightning (~5MB) được tối ưu cho tốc độ và là mặc định — lý tưởng cho theo dõi webcam thời gian thực và thiết bị di động, thường 30-60 fps trên GPU laptop đời mới. Thunder (~12MB) là mô hình lớn hơn, chính xác hơn, tốt hơn cho phân tích ảnh tĩnh khi cần độ chính xác, đổi lại tốc độ. Bạn có thể chuyển giữa chúng trong Cài Đặt Nhận Dạng; bộ phát hiện tải lại ở lần nhận dạng kế tiếp.

MoveNet chính xác đến đâu và cần lưu ý gì?
MoveNet chính xác và đáng tin với ảnh rõ nét, đủ sáng, phần lớn chính diện của một người, vì thế nó phổ biến cho đếm số lần, kiểm tra tư thế và việc về tư thế. Các lưu ý quan trọng với người dùng chuyên nghiệp: nó chỉ MỘT NGƯỜI — định vị một cơ thể mỗi khung và không trả về nhiều người; chỉ 2D — không có độ sâu 3D thật, nên không đo được trục z; và độ chính xác giảm khi bị che khuất (chi giấu sau thân), nhòe chuyển động, góc camera cực đoan, quần áo rộng và ánh sáng kém. Góc nhìn nghiêng khó hơn chính diện vì hông và vai chồng nhau trong 2D. Luôn kiểm tra lại các khớp tin cậy thấp.
Phân tích góc khớp hoạt động thế nào?
Sau khi nhận dạng, công cụ tính góc gập của các khớp chính hoàn toàn trên thiết bị từ các keypoint MoveNet bằng toán vector 3 điểm (atan2): khuỷu tay trái/phải (vai–khuỷu–cổ tay), vai (khuỷu–vai–hông), hông (vai–hông–đầu gối) và đầu gối (hông–đầu gối–mắt cá). Một góc chỉ được báo khi cả ba keypoint của nó vượt ngưỡng độ tin cậy, nên khớp không đáng tin bị bỏ qua thay vì đoán. Vì góc được đo trong không gian ảnh, hãy giữ camera vuông góc với mặt phẳng chuyển động để có số liệu có ý nghĩa nhất — lý tưởng để theo dõi độ sâu squat, độ duỗi khuỷu hay độ gập đầu gối theo thời gian.
Tôi có thể xuất keypoint và góc khớp ra JSON hoặc CSV không?
Có. Khi đã phát hiện tư thế, bạn có thể tải ảnh đã chú thích dạng PNG, sao chép dữ liệu có cấu trúc vào bộ nhớ tạm, hoặc tải tệp JSON hay CSV. Mỗi bản xuất chứa 17 keypoint với điểm độ tin cậy, các góc khớp đã tính theo độ, mô hình đã dùng và ngưỡng độ tin cậy. Quan trọng nhất, tọa độ được cung cấp CẢ trong không gian canvas đã thu nhỏ lẫn không gian độ phân giải gốc (công cụ lưu hệ số tỷ lệ khi ảnh lớn được thu nhỏ để hiển thị), nên quy trình chuyển động hay sinh cơ học chuyên nghiệp có thể ánh xạ kết quả thẳng lên ảnh nguồn.
Có hoạt động trên di động không và mô hình tải về lớn cỡ nào?
Có — hoạt động trên bất kỳ trình duyệt di động hiện đại nào hỗ trợ WebGL. Mô hình MoveNet tải xuống một lần (khoảng 5MB cho Lightning hoặc 12MB cho Thunder) rồi được trình duyệt lưu cache, nên các lần nhận dạng sau là tức thì và vẫn chạy được ngoại tuyến. Trên điện thoại, nên dùng Lightning để có tốc độ khung hình webcam mượt nhất. Nếu WebGL không khả dụng, công cụ chuyển sang backend CPU chậm hơn và hiện lỗi rõ ràng nếu mô hình không thể tải.
