Dự Đoán Tuổi & Giới Tính

Ước lượng tuổi và giới tính từ ảnh bằng face-api.js chạy ngay trong trình duyệt — không gửi ảnh, không cần đăng ký. Nhận diện nhiều khuôn mặt, xuất kết quả.

Có góp ý? Báo lỗi, đề xuất tính năng, hoặc chia sẻ suy nghĩ — chúng tôi đọc tất cả

Giới thiệu công cụ AI dự đoán tuổi & giới tính

Công cụ Dự Đoán Tuổi & Giới Tính ước lượng tuổi biểu kiến (theo năm) và giới tính dự đoán cho mọi khuôn mặt trong ảnh bạn tải lên. Toàn bộ quá trình chạy trong thiết bị của bạn nhờ face-api.js — bản port mã nguồn mở TensorFlow.js của các mô hình deep learning đã được thiết lập cho phát hiện khuôn mặt và ước lượng thuộc tính. Không có dữ liệu ảnh nào được tải lên server: phát hiện, embedding, regression tuổi và phân loại giới tính đều thực thi dưới dạng JavaScript trong trình duyệt. Sau lần truy cập đầu (cache ~5 MB trọng số mô hình), công cụ hoạt động offline.

Dùng để khám phá vui — đoán xem khuôn mặt trông bao nhiêu tuổi, demo computer vision trong lớp học, prototype tính năng cho dự án cá nhân, hoặc kiểm tra dataset ảnh có demographic cân đối hay không. Đây là công cụ vui và nhanh để có được con số. Đây KHÔNG phải hệ thống xác thực sinh trắc, không phải bộ xác minh danh tính, không phải cổng kiểm tra tuổi cho nội dung người lớn, và không phải bằng chứng cho quyết định pháp lý, y tế, tuyển dụng hay bảo hiểm. Hãy coi đầu ra là ước lượng xác suất từ một mô hình huấn luyện trên tập dữ liệu hữu hạn, mang theo các thiên kiến của tập dữ liệu đó.

Công cụ phát hiện nhiều khuôn mặt trong một ảnh và báo cáo từng khuôn mặt với bounding box, ước lượng tuổi theo năm, và nhãn giới tính dự đoán (Nam / Nữ) kèm điểm độ tin cậy. Kết quả tốt nhất cần ảnh chân dung chính diện sáng đều, khuôn mặt chiếm phần đáng kể trong khung hình. Trang điểm đậm, râu ria, kính râm, khẩu trang, góc nghiêng, mờ chuyển động, độ phân giải rất thấp, hoặc bóng đậm đều làm giảm độ chính xác. Em bé và trẻ nhỏ thường bị các mô hình công khai dự đoán quá tuổi vì tập huấn luyện thiên về người lớn. Người cao tuổi (70+) thường bị dự đoán thiếu tuổi vì cùng lý do.

Về đạo đức và thiên kiến: face-api.js kế thừa giới hạn dữ liệu huấn luyện — chủ yếu là IMDB-WIKI cho tuổi và giới tính — vốn quá đại diện cho người lớn da sáng, Bắc Mỹ/Châu Âu được chụp chuyên nghiệp. NIST FRVT, MIT Media Lab Gender Shades và nhiều nghiên cứu học thuật đã ghi nhận tỉ lệ lỗi cao hơn có hệ thống cho người da tối màu hơn và biểu đạt giới phi nhị nguyên. Phân loại nhị phân nam/nữ tự nó là sự đơn giản hóa thô của bản dạng giới thực tế. Chúng tôi cung cấp công cụ này để làm cho phân tích khuôn mặt bớt huyền bí, không phải để cấp phép cho các quyết định nhạy cảm về người thật. Đừng dùng đầu ra để cho phép hay từ chối ai đó tiếp cận dịch vụ, địa điểm, nội dung, hay quyền lợi.

Quyền riêng tư là theo thiết kế chứ không phải lời hứa: vì toàn bộ code mô hình được gửi đến trình duyệt và toàn bộ inference chạy cục bộ, byte ảnh của bạn không bao giờ đi qua mạng. Trang được phục vụ qua HTTPS; analytics tiêu chuẩn chỉ ghi URL được truy cập, không phải nội dung ảnh. Chúng tôi không lưu, log, bán hay chia sẻ ảnh bạn phân tích. Đóng tab xóa toàn bộ dữ liệu trong bộ nhớ.

Cách dự đoán hoạt động

Inference thực hiện qua ba giai đoạn. Thứ nhất, phát hiện khuôn mặt: face-api.js dùng SSD MobileNetV1 detector huấn luyện trên dataset WIDER FACE (và tùy chọn Tiny Face Detector cho thiết bị tài nguyên thấp). Detector xuất danh sách bounding box kèm độ tin cậy; bước non-maximum-suppression loại bỏ trùng lặp. Thư viện cũng hỗ trợ MTCNN — cascade ba tầng (P-Net, R-Net, O-Net) do Zhang và cộng sự (2016) giới thiệu — chính xác hơn nhưng chậm hơn; mô hình mặc định cân bằng độ chính xác và tốc độ cho thực thi trong trình duyệt.

Thứ hai, alignment: mỗi khuôn mặt phát hiện được crop, tùy chọn căn chỉnh bằng cách dự đoán 68 landmark khuôn mặt (mắt, đầu mũi, khóe miệng, đường hàm) sao cho hai mắt nằm ngang. Căn chỉnh khuôn mặt cải thiện dự đoán thuộc tính vì regression network được huấn luyện trên crop đã căn chỉnh. Landmark detector là ConvNet nhỏ huấn luyện trên dataset iBUG 300-W.

Thứ ba, ước lượng thuộc tính: crop đã căn chỉnh đi qua backbone trích đặc trưng dùng chung (kiến trúc kiểu ResNet) tiếp nối hai head. Head tuổi là regression — xuất trực tiếp một số floating-point theo năm, huấn luyện với mean-squared error so với label IMDB-WIKI (Rothe, Timofte & Van Gool, 2015–2018). Head giới tính là classifier nhị phân xuất xác suất là nữ; chúng tôi báo cáo nhãn xác suất cao hơn và softmax score là độ tin cậy. Cả hai head dùng chung backbone lấy cảm hứng từ SSR-Net (Yang và cộng sự, 2018) đủ nhỏ để chạy mượt trên điện thoại.

Cả ba mạng được lượng tử hóa thành float 32-bit cho TensorFlow.js runtime trong trình duyệt. Chúng chạy trên WebGL khi có sẵn (tăng tốc GPU) hoặc fallback về CPU qua WebAssembly. Tổng dung lượng trọng số khoảng 5–10 MB; trình duyệt cache trọng số nên các lần truy cập sau là tức thì. Inference mỗi khuôn mặt mất 50–300 ms trên laptop hiện đại, lâu hơn trên di động. Toàn bộ pipeline — phát hiện, landmark, thuộc tính — là tuần tự, nhưng nhiều khuôn mặt trong một ảnh được xử lý trong vòng lặp chặt, không song song.

Bounding box trả về theo tọa độ ảnh gốc, nên chúng tôi vẽ trực tiếp lên canvas đè trên ảnh đầu vào. Giá trị regression tuổi được làm tròn đến số nguyên gần nhất để hiển thị. Độ tin cậy giới tính báo cáo dưới dạng phần trăm; giá trị gần 50% nghĩa là mô hình rất kém tự tin và nhãn nên được bỏ qua hoặc xem là 'không xác định'.

Độ chính xác, giới hạn và sử dụng có đạo đức

Trên ảnh chân dung người lớn chính diện sáng đều ở độ phân giải khá, ước lượng tuổi thường trong khoảng ±5 đến ±8 năm so với tuổi thật, và độ tin cậy phân loại giới tính trên 90% là đáng tin theo nghĩa nam/nữ mà mô hình được huấn luyện. Các con số này giảm rõ rệt ngoài envelope vận hành đó. Bài đánh giá IMDB-WIKI báo cáo Mean Absolute Error khoảng 3,5 năm cho mạng DEX (Deep EXpectation) gốc trên tập test in-distribution; hiệu năng in-the-wild kém hơn. Hãy coi mỗi dự đoán đơn lẻ là ước lượng, không phải đo lường.

Quan trọng hơn, độ chính xác thay đổi theo nhân khẩu. Nhiều bài đánh giá peer-review — Gender Shades của Buolamwini & Gebru (2018), NIST FRVT 1:1 (đang triển khai), Raji và cộng sự (2020) — đã chỉ ra rằng các mô hình phân tích khuôn mặt huấn luyện trên dataset Phương Tây, da sáng cho tỉ lệ lỗi cao hơn đáng kể với phụ nữ, người da tối màu, và những người có biểu đạt giới không khớp chuẩn nam/nữ nhị phân. Đây không phải chênh lệch nhỏ: tỉ lệ lỗi 35% trên nhóm thiếu đại diện so với 1% trên nhóm được đại diện tốt là phổ biến trong một số hệ thống thương mại. face-api.js không miễn nhiễm với những vấn đề này.

Đừng dùng công cụ này cho bất kỳ quyết định nào ảnh hưởng đến quyền lợi, cơ hội, tiền bạc hay an toàn của một người. Bao gồm — nhưng không giới hạn — xác minh tuổi mua rượu bia, thuốc lá, hay nội dung người lớn; cổng kiểm soát truy cập dịch vụ giới hạn tuổi; sàng lọc ứng viên việc làm; xác minh danh tính cho giao dịch tài chính hay pháp lý; chẩn đoán hay phân loại y tế; nhập cư hay kiểm soát biên giới; giám sát, profiling, hay thực thi pháp luật; quảng cáo nhắm mục tiêu dựa trên giới tính suy luận. Cho bất kỳ use case nào như vậy bạn cần hệ thống có hiệu chuẩn, có trách nhiệm giải trình, được audit — không phải demo miễn phí. Tác giả face-api.js, các bài báo mô hình gốc, và WuTools đều minh thị từ chối tính phù hợp cho các sử dụng đó.

Ước lượng tuổi thường ±5 đến ±10 năm trên người lớn; rộng hơn nhiều ở trẻ em và người cao tuổi vốn thiếu đại diện trong dữ liệu huấn luyện.
Mô hình xuất nhãn nhị phân nam/nữ và không thể đại diện cho phi nhị nguyên, intersex, người chuyển giới hay bản dạng giới linh hoạt.
Độ chính xác giảm trên tông da tối, góc không chính diện, khuôn mặt bị che (kính râm, khẩu trang, tay), và ảnh độ phân giải thấp hoặc thiếu sáng.
Trang điểm đậm, râu, hijab, phẫu thuật hay điều trị chống lão hóa có thể làm thay đổi lớn dự đoán tuổi và giới tính.
Trẻ em dưới 5 tuổi thường bị ước lượng 8–12 tuổi; người lớn trên 70 thường bị thiếu 5–15 tuổi.
Ảnh khuôn mặt đeo VR headset, che một phần, góc nghiêng hoàn toàn, hay biểu cảm cực đoan có thể không được phát hiện.
Công cụ không thể khớp cùng một người qua nhiều ảnh — cho việc đó xem Face Similarity Meter của chúng tôi.
Đầu ra không phù hợp cho xác minh tuổi pháp lý, danh tính sinh trắc, sàng lọc tuyển dụng, chẩn đoán y tế, hay sử dụng thực thi pháp luật.

Thuật ngữ

Phát hiện khuôn mặt (face detection): Định vị nơi khuôn mặt xuất hiện trong ảnh, thường báo cáo dưới dạng bounding box trục thẳng kèm độ tin cậy. Khác với nhận dạng khuôn mặt (xác định đó là ai).
Bounding box: Hình chữ nhật cho dưới dạng (x, y, rộng, cao) bao quanh khuôn mặt phát hiện được, theo tọa độ pixel ảnh.
Landmark khuôn mặt: Điểm giải phẫu cụ thể trên khuôn mặt — khóe mắt ngoài, đầu mũi, khóe miệng, điểm trên đường hàm. Công cụ dùng schema 68 điểm iBUG để căn chỉnh khuôn mặt trước khi dự đoán thuộc tính.
Mô hình regression: Mạng nơ-ron xuất số liên tục (ở đây là tuổi theo năm) thay vì nhãn lớp. Huấn luyện bằng cực tiểu mean-squared error so với tuổi ground-truth.
Mô hình classification: Mạng nơ-ron xuất xác suất trên tập danh mục cố định (ở đây là hai: nam và nữ). Confidence là softmax score trên lớp dự đoán.
Model inference: Chạy mạng nơ-ron đã huấn luyện trên đầu vào mới để tạo dự đoán. Khác với training là pha học offline. Công cụ chỉ làm inference; mô hình được huấn luyện ở nơi khác trên IMDB-WIKI.
ONNX / TensorFlow.js: Runtime để thực thi mạng nơ-ron. ONNX là định dạng trao đổi mở; TensorFlow.js chạy mô hình trong JavaScript, tùy chọn tăng tốc GPU qua WebGL hoặc WebGPU. face-api.js dùng TensorFlow.js.
MTCNN: Multi-task Cascaded Convolutional Network. Thuật toán phát hiện khuôn mặt của Zhang và cộng sự (2016) chạy ba mạng nhỏ tuần tự (P-Net, R-Net, O-Net) và đồng thời dự đoán bounding box cộng năm landmark khuôn mặt.

Câu Hỏi Thường Gặp

AI ước lượng tuổi tôi như thế nào?

Chạy face-api.js (port TensorFlow.js) trong trình duyệt. Sau khi định vị khuôn mặt bằng SSD-MobileNet detector, căn chỉnh crop bằng 68 landmark khuôn mặt và đưa qua mạng regression huấn luyện trên IMDB-WIKI để xuất một con số — tuổi biểu kiến theo năm. Cả pipeline chạy offline trong JavaScript; không có gì được tải lên.

Ước lượng tuổi chính xác đến đâu?

Trên chân dung người lớn sáng đều chính diện, Mean Absolute Error đã công bố của DEX/IMDB-WIKI khoảng 3,5 năm trên tập benchmark, và ±5 đến ±10 năm là thực tế in-the-wild. Trẻ em, người cao tuổi, góc nghiêng, ảnh độ phân giải thấp, trang điểm đậm và người da tối màu thường có lỗi lớn hơn vì thiên kiến dữ liệu huấn luyện.

Có phát hiện được nhiều khuôn mặt không?

Có. Detector trả mọi khuôn mặt trên ngưỡng độ tin cậy có thể cấu hình; mỗi khuôn mặt được xử lý độc lập và có bounding box, ước lượng tuổi, nhãn giới tính riêng. Không có giới hạn cứng, nhưng khuôn mặt rất nhỏ có thể bị bỏ sót.

Ảnh của tôi có riêng tư không?

Có. Tất cả inference diễn ra trong trình duyệt qua TensorFlow.js. Trọng số mạng nơ-ron được tải về một lần (~5 MB, được cache) và inference chạy cục bộ trên JPEG bạn chọn. Byte ảnh không bao giờ rời thiết bị. Chúng tôi không lưu, log hay chia sẻ ảnh.

Sao mô hình chỉ xuất 'Nam' hoặc 'Nữ'?

Vì nó được huấn luyện như vậy — IMDB-WIKI gán nhãn giới tính là thuộc tính nhị phân. Chúng tôi thừa nhận đây là sự đơn giản hóa thô của bản dạng giới thực, và không thể phát hiện chính xác phi nhị nguyên, chuyển giới hay biểu đạt giới linh hoạt. Hãy coi đầu ra nhị phân là phỏng đoán của mô hình dựa trên thống kê tập huấn luyện, không phải sự thật về người đó.

Có an toàn để xác minh tuổi không?

Không. Đừng dùng công cụ này để kiểm soát rượu, thuốc lá, cờ bạc, hay nội dung người lớn. Ngay cả khi tốt nhất, mô hình lệch ±5–10 năm, và xác minh tuổi theo luật thường yêu cầu hệ thống có hiệu chuẩn, được audit, được cơ quan quản lý phê duyệt. NIST FRVT, hướng dẫn ICO/UK và EU AI Act đều cảnh báo không dùng phân tích khuôn mặt off-the-shelf cho mục đích tuân thủ.

Sao mô hình sai trên ảnh của tôi?

Nguyên nhân thường gặp: (1) tông da tối thiếu đại diện trong IMDB-WIKI; (2) ảnh không chính diện, mờ hay độ phân giải thấp; (3) khuôn mặt bị che một phần bởi kính, khẩu trang, tay hay tóc; (4) trang điểm đậm, râu, phẫu thuật thẩm mỹ; (5) trẻ em và người rất già lệch một cách hệ thống. Thử ảnh khác và kiểm tra bounding box trên đúng khuôn mặt.

Có nhận dạng người đó là ai không?

Không. Mô hình chỉ xuất ước lượng tuổi số và nhãn nam/nữ. Không khớp khuôn mặt với cơ sở dữ liệu, không tra cứu danh tính, không nhận dạng cá nhân cụ thể. Để khớp khuôn mặt xem Face Similarity Meter — cũng hoàn toàn offline.

Kiến trúc mô hình nào được dùng?

Phát hiện khuôn mặt: SSD MobileNetV1 (hoặc tùy chọn Tiny Face Detector / MTCNN). Phát hiện landmark: ConvNet 68 điểm. Regression tuổi và phân loại giới tính: backbone đặc trưng chung trong họ SSR-Net, huấn luyện trên IMDB-WIKI cộng UTKFace. Tất cả trọng số được lượng tử cho TensorFlow.js trong trình duyệt.

Dự Đoán Tuổi & Giới Tính — Ước lượng tuổi và giới tính từ ảnh bằng face-api.js chạy ngay trong trình duyệt — không gửi ảnh, không cần đăng ký. Nhận — **Dự Đoán Tuổi & Giới Tính**

Có dùng thương mại được không?

Bản thân công cụ miễn phí, nhưng face-api.js cấp phép MIT và các bài báo mô hình gốc có ghi chú sử dụng riêng. Quan trọng hơn, triển khai bất kỳ hệ thống phân tích khuôn mặt nào trong sản phẩm hầu như luôn kích hoạt GDPR (EU), CCPA (California) và Illinois BIPA — luật sinh trắc học. Hãy tham vấn pháp lý trước khi đưa sản phẩm dựa trên cái này ra thị trường.

Tài liệu tham khảo & nguồn học thuật

Zhang, K., Zhang, Z., Li, Z., & Qiao, Y.. (2016). Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks (MTCNN) IEEE Signal Processing Letters.
Rothe, R., Timofte, R., & Van Gool, L.. (2018). DEX: Deep EXpectation of Apparent Age from a Single Image (IMDB-WIKI dataset) International Journal of Computer Vision.
Yang, T.-Y., Huang, Y.-H., Lin, Y.-Y., Hsiu, P.-C., & Chuang, Y.-Y.. (2018). SSR-Net: A Compact Soft Stagewise Regression Network for Age Estimation IJCAI.
Buolamwini, J., & Gebru, T.. (2018). Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification Proceedings of Machine Learning Research.
Grother, P., Ngan, M., & Hanaoka, K.. (2024). NIST Face Recognition Vendor Test (FRVT) U.S. National Institute of Standards and Technology.
Mühler, V.. (2020). face-api.js: JavaScript API for Face Detection and Recognition in the Browser Open-source library, MIT licence.

Last reviewed: 2026-05-08· Reviewed by Đội Đạo Đức & Kỹ Thuật AI WuTools

Câu Hỏi Thường Gặp

Việc dự đoán tuổi và giới tính có chạy trong trình duyệt hay ảnh được gửi lên máy chủ?

Mọi thứ chạy cục bộ trong trình duyệt của bạn. Bộ phát hiện khuôn mặt (SSD-MobileNet), căn chỉnh 68 điểm mốc, và các đầu hồi quy tuổi/giới tính (face-api.js trên TensorFlow.js) được tải xuống một lần rồi mỗi dự đoán được tính trên thiết bị bằng WebGL, WebGPU hoặc WebAssembly. Ảnh và nhãn tuổi/giới tính dự đoán không bao giờ rời thiết bị. Điều này thiết yếu vì nhân khẩu học dự đoán kết hợp với ảnh có thể được coi là dữ liệu cá nhân nhạy cảm theo GDPR. Chúng tôi không ghi, lưu hay truyền bất kỳ ảnh hay dự đoán nào — bạn có thể kiểm tra bằng DevTools rằng không có POST nào kích hoạt sau khi tải file mô hình.

Điều kiện ảnh nào cho ước lượng tuổi chính xác nhất?

Để ước lượng tuổi biểu kiến tốt nhất, dùng ảnh chính diện với ánh sáng ban ngày đều, khuôn mặt lấp ít nhất vùng 200x200 pixel, không kính râm, không trang điểm đậm, không bộ lọc làm đẹp, biểu cảm trung tính và đầu không nghiêng. Ảnh nghiêng, bóng gắt, khẩu trang, mũ che trán, cười rộng và bộ lọc làm đẹp Snapchat/Instagram có thể đẩy tuổi dự đoán lệch 5-15 năm. Mô hình được huấn luyện trên IMDB-WIKI, tập ảnh người nổi tiếng thiên về người lớn 20-60 tuổi trong ánh sáng dàn dựng, nên trẻ em, người rất cao tuổi và ảnh chụp ngẫu nhiên thường có lỗi cao hơn.

Tuổi dự đoán chính xác đến đâu so với tuổi thật của tôi?

Trên benchmark công bố DEX/IMDB-WIKI, các CNN hồi quy tuổi đạt Mean Absolute Error khoảng 3.5-5 năm cho tuổi biểu kiến ở người lớn 20-60 tuổi trong ảnh chính diện đủ sáng. Hiệu suất giảm với trẻ em (dữ liệu huấn luyện thưa dưới 15 tuổi) và người cao tuổi (thưa trên 80 tuổi), nơi lỗi 8-15 năm là phổ biến. Mô hình dự đoán tuổi biểu kiến — bạn trông bao nhiêu tuổi — không phải tuổi sinh học, nên trang điểm, ánh sáng, kiểu tóc và chất lượng ảnh quan trọng ngang với ngày sinh thực. Hai ảnh cùng một người chụp cách nhau vài phút trong điều kiện khác nhau có thể dễ dàng khác 5+ năm trong dự đoán.

Dự đoán giới tính hoạt động thế nào và có nhị phân không?

Đầu giới tính là bộ phân loại softmax nhỏ hai đầu ra trả xác suất cho "nam" và "nữ" dựa trên cùng embedding khuôn mặt đã căn chỉnh 64 chiều dùng cho tuổi. Đầu ra là nhị phân do thiết kế dữ liệu huấn luyện (nhãn IMDB-WIKI) — không có lớp phi nhị phân hay "không xác định". Bộ phân loại biểu thị bất định qua xác suất: khuôn mặt mà mô hình không chắc có thể trả 0.52 nam / 0.48 nữ. Chúng tôi khuyên coi các dự đoán dưới khoảng 0.7 độ tin cậy là mơ hồ và không hiển thị như nhãn. Mô hình này nắm bắt biểu hiện giới tính biểu kiến trong ảnh, không phải giới tính tự nhận của đối tượng.

WebGPU có nhanh hơn WebAssembly cho dự đoán tuổi/giới tính không?

Thường là có, khi WebGPU khả dụng. Quy trình phát hiện + điểm mốc + tuổi + giới tính gồm nhiều mạng tích chập. Trên backend tăng tốc GPU, toàn bộ quy trình hoàn tất trong khoảng 50-300 ms mỗi khuôn mặt trên laptop thông thường; trên WebAssembly có SIMD mất 300-1500 ms; trên WebAssembly thuần (trình duyệt cũ, không SIMD) có thể mất 2-5 giây. Công cụ này khởi tạo TensorFlow.js khi khởi động và chọn backend nhanh nhất có thể — WebGL nếu có, nếu không thì WebAssembly, cuối cùng là CPU — rồi ghi backend đang hoạt động (faceapi.tf.getBackend()) ra console trình duyệt để bạn kiểm chứng trong DevTools.

Tôi có thể dùng cái này theo thời gian thực trên luồng webcam không?

Có, với điều kiện. Trên WebGPU với đầu vào detector nhỏ (320x240) công cụ duy trì 15-30 FPS trên laptop điển hình, mượt cho xem trực tiếp. Trên WebAssembly-CPU dự kiến 2-10 FPS — dùng được như trình chiếu nhưng giật cho video. Để cải thiện tốc độ khung hình: giảm độ phân giải đầu vào detector, giới hạn dự đoán mỗi N khung hình, chỉ chạy dự đoán khi khuôn mặt di chuyển (phát hiện chuyển động qua chênh lệch khung) hoặc dùng detector nhẹ hơn như BlazeFace của MediaPipe. Hãy nhớ rằng dự đoán nhân khẩu học trực tiếp đặt ra câu hỏi riêng tư mạnh hơn dự đoán đơn lẻ — dù mọi thứ đều chạy cục bộ.

Kiến trúc nào được dùng — face-api.js, MediaPipe hay DeepFace?

Pipeline mặc định là face-api.js / @vladmandic/face-api (port TensorFlow.js), kết hợp bộ phát hiện khuôn mặt SSD-MobileNet v1, bộ hồi quy 68 điểm mốc, và hai đầu hồi quy nhỏ trên backbone đặc trưng khuôn mặt chung cho tuổi và giới tính. Đầu tuổi là mạng hồi quy một đầu ra tinh chỉnh từ bộ phân loại DEX; đầu giới tính là softmax hai đầu ra. MediaPipe Face Mesh + bộ phân loại nhân khẩu tùy chỉnh là con đường thay thế mà một số app dùng; DeepFace (thư viện Python) bao bọc nhiều kiến trúc gồm VGG-Face, Facenet và OpenFace — đa số quá lớn cho trình duyệt nhưng tồn tại như chuẩn nghiên cứu. Stack face-api.js là chuẩn de-facto của trình duyệt nhờ cân bằng độ chính xác/kích thước.

Vì sao cùng một ảnh cho tuổi khác nhau khi tôi chạy lại, có phải lỗi không?

Với tuổi và giới tính, dự đoán hoàn toàn xác định: cùng pixel đầu vào, cùng căn chỉnh và cùng trọng số sẽ cho cùng kết quả mỗi lần. Mỗi lần Dự Đoán đều vẽ lại ảnh gốc lên canvas trước, nên các khung xanh được vẽ sau khi chạy không bao giờ bị đưa ngược vào mạng — chạy lại cùng một ảnh cho con số y hệt. Nếu thỉnh thoảng bạn thấy chênh lệch nhỏ, nguyên nhân thường là ảnh nguồn khác đi: mã hóa lại có mất mát (PNG so với JPEG), dán từ clipboard ở kích thước khác, hoặc tải bản đã đổi tỷ lệ. Mô hình vẫn tính cùng phép toán; chỉ đầu vào thay đổi.

Tôi có thể xuất tuổi, giới tính và độ tin cậy đã phát hiện cho từng khuôn mặt không?

Có. Sau khi dự đoán, dùng Sao chép JSON để chép bản ghi có cấu trúc vào clipboard, hoặc Tải CSV để lưu file sẵn sàng cho bảng tính. Mỗi hàng mang chỉ số khuôn mặt, khung bao (x, y, rộng, cao tính theo pixel ảnh gốc), tuổi ước lượng, giới tính dự đoán và phần trăm độ tin cậy giới tính lấy trực tiếp từ mô hình. Điều này hữu ích để kiểm tra cân bằng nhân khẩu trong tập dữ liệu, kiểm thử chất lượng, hoặc đưa kết quả vào quy trình xử lý. Việc xuất chạy hoàn toàn trên thiết bị — như chính phần suy luận, không có gì được tải lên. Hãy coi mọi giá trị là ước lượng bề ngoài, không phải khẳng định danh tính.

Xem thêm

CôNG Cụ AI33

WUTOOLS