Nhận Dạng Đối Tượng AI
Phát hiện 80 loại đối tượng trong ảnh bằng mô hình AI COCO-SSD, chạy hoàn toàn trên thiết bị. Webcam thời gian thực, xuất bounding box JSON/CSV và độ tin cậy.
Giới Thiệu Nhận Dạng Đối Tượng AI
Nhận Dạng Đối Tượng AI sử dụng COCO-SSD, một mô hình phát hiện đối tượng đã được huấn luyện có thể nhận dạng 80 loại đối tượng khác nhau bao gồm người, phương tiện, động vật, đồ nội thất, điện tử và nhiều hơn nữa. Tất cả quá trình xử lý diễn ra trực tiếp trong trình duyệt bằng TensorFlow.js - không có ảnh nào được tải lên máy chủ.
Việc nhận diện đối tượng diễn ra trong trình duyệt của tôi hay ảnh sẽ được tải lên?
Toàn bộ nhận diện chạy cục bộ trong trình duyệt của bạn. Mô hình COCO-SSD (trọng số SSD-MobileNet v2, khoảng 6 MB) được tải xuống một lần từ CDN qua TensorFlow.js, được trình duyệt lưu cache, sau đó mỗi lần suy luận diễn ra phía client trên backend WebGL (GPU), dự phòng sang WebAssembly hoặc CPU nếu WebGL không khả dụng. Ảnh của bạn không bao giờ rời thiết bị — không tải lên, không xử lý phía máy chủ, không nhật ký. Điều này quan trọng với cảnh quay giám sát, ảnh giấy tờ tùy thân, tài liệu nội bộ, hoặc bất kỳ hình ảnh nào thuộc phạm vi GDPR hay quy định bảo mật nơi làm việc. Lưu lượng mạng duy nhất sau khi tải mô hình ban đầu là HTML/CSS/JS tĩnh; bạn có thể kiểm tra trong DevTools > Network: sẽ thấy coco-ssd và tfjs được tải, và không có POST nào khi nhận diện.
Công cụ này thực sự chạy mô hình và kiến trúc nào?
Nó chạy COCO-SSD đúng như nhóm TensorFlow.js công bố: một Single-Shot Detector (SSD) với backbone MobileNet v2, huấn luyện trên tập dữ liệu COCO. Đây là detector tích chập một lần, dự đoán xác suất lớp và tọa độ hộp trong một lượt xuôi, nên đủ nhanh cho webcam thời gian thực trên phần cứng tầm trung. Công cụ này không dùng YOLO, ONNX Runtime, DETR hay EfficientDet — nếu mở DevTools > Network bạn sẽ thấy @tensorflow-models/coco-ssd và @tensorflow/tfjs, không gì khác. Mô hình khoảng 6 MB và được lưu cache sau lần tải đầu, nên các lần ghé sau khởi động tức thì.
Tôi dùng được định dạng ảnh nào, và ảnh được đưa vào mô hình ra sao?
Công cụ nhận mọi định dạng mà trình duyệt có thể giải mã: JPEG, PNG, WebP, AVIF, GIF (khung đầu), BMP và nhiều định dạng khác. Bạn có thể tải tệp lên, nạp ảnh bằng URL, hoặc chụp khung hình trực tiếp từ webcam. Bên trong, ảnh được vẽ vào canvas và truyền thẳng vào lệnh detect() của COCO-SSD; SSD-MobileNet v2 tự đổi kích thước về đầu vào cố định của nó bên trong, nên bạn không cần resize trước. HEIC từ iPhone thường chạy trên Safari và Chrome mới; trình duyệt cũ có thể cần xuất sang JPEG trước.
Mô hình có thể nhận diện bao nhiêu lớp đối tượng?
COCO-SSD nhận diện 80 danh mục COCO: người, xe đạp, ô tô, xe máy, máy bay, xe buýt, tàu hỏa, xe tải, thuyền, đèn giao thông, trụ cứu hỏa, biển dừng, đồng hồ đỗ xe, ghế băng, chim, mèo, chó, ngựa, cừu, bò, voi, gấu, ngựa vằn, hươu cao cổ, ba lô, ô, túi xách, cà vạt, vali, frisbee, ván trượt tuyết, snowboard, bóng thể thao, diều, gậy bóng chày, găng bóng chày, ván trượt, ván lướt, vợt tennis, chai, ly rượu, cốc, nĩa, dao, thìa, bát, chuối, táo, sandwich, cam, bông cải xanh, cà rốt, xúc xích, pizza, donut, bánh ngọt, ghế, sô-pha, cây cảnh, giường, bàn ăn, bồn cầu, TV, laptop, chuột, điều khiển, bàn phím, điện thoại, lò vi sóng, lò nướng, máy nướng bánh, bồn rửa, tủ lạnh, sách, đồng hồ, lọ hoa, kéo, gấu bông, máy sấy tóc và bàn chải đánh răng. Với chuyên ngành (y tế, bán lẻ, sản xuất, loài hoang dã) bạn cần mô hình tinh chỉnh trên tập dữ liệu chuyên ngành — công cụ này chỉ phủ 80 lớp đời thường đó.

Vì sao trình nhận diện bỏ sót vật nhỏ hoặc bị che một phần?
Nhận diện vật nhỏ là điểm yếu nổi tiếng của các detector một lần như SSD. SSD-MobileNet v2 làm việc trên bản đồ đặc trưng nội bộ khá nhỏ, nên một khuôn mặt nhỏ trong ảnh độ phân giải cao có thể thấp hơn độ phân giải mạng có thể xử lý. Che khuất (vật ẩn sau vật khác) cũng khó vì đặc trưng tích chập bị trộn lẫn. Giải pháp thực tế: cắt rồi nhận diện lại trên vùng quan tâm, hạ ngưỡng tin cậy để lộ ca cận biên (đổi lại nhiều dương tính giả), hoặc chụp đối tượng lớn hơn trong khung. Với công việc đòi hỏi vật nhỏ hay chuyên sâu, một detector lớn hơn phía máy chủ sẽ chính xác hơn, nhưng đó không phải mục tiêu của công cụ chạy trong trình duyệt này.
Điểm tin cậy nghĩa là gì và nên đặt ngưỡng thế nào?
Mỗi phát hiện mang một điểm tin cậy từ 0 đến 1: xác suất ước lượng mà mô hình tin đối tượng tồn tại tại hộp dự đoán. Thanh trượt ngưỡng tin cậy lọc kết quả — nâng lên (ví dụ 0.6) cho đầu ra sạch, độ chính xác cao, hoặc hạ xuống (0.2) để bắt ca cận biên với cái giá là nhiều dương tính giả. COCO-SSD đã áp dụng non-maximum suppression bên trong để loại các hộp trùng chồng lấp, nên bạn điều khiển kết quả thuần túy qua ngưỡng tin cậy và giới hạn số lượng tối đa. Độ tin cậy là ước lượng, không phải sự thật tuyệt đối.
Có lưu ý gì về độ chính xác — tôi có thể dựa vào nó cho quyết định quan trọng không?
Hãy coi mọi kết quả là ước lượng, không phải sự thật đã kiểm chứng. COCO-SSD là detector đa dụng giới hạn ở 80 lớp đời thường; nó không phải hệ thống xác minh danh tính, y tế, pháp lý hay an toàn, và không nhận diện người cụ thể, thương hiệu, chữ viết hay loài chi tiết. Nó có thể bỏ sót vật nhỏ hoặc bị che, gán nhầm các lớp trông giống nhau, và tạo dương tính giả ở ngưỡng thấp. Hãy dùng cho phân loại sơ bộ, gắn nhãn, dựng tập dữ liệu, QA và prototype tích hợp — và luôn để con người kiểm tra trước bất kỳ quyết định quan trọng nào.
Lược đồ xuất cho các hộp bao (JSON/CSV) là gì?
Tải JSON, Sao Chép JSON và Tải CSV đều xuất cùng dữ liệu, phản ánh các phát hiện đang hiển thị (đã lọc theo lớp). Tọa độ tính bằng pixel của ảnh gốc, gốc tọa độ ở góc trên bên trái: x và y là góc trên bên trái của hộp, rộng và cao là kích thước hộp tính bằng pixel. JSON cho một mảng các phát hiện, mỗi phát hiện có class (chuỗi), confidence (0-1, làm tròn 3 chữ số) và boundingBox { x, y, width, height }, kèm ghi chú coordinateSystem và dấu thời gian ISO. CSV dùng các cột index, class, confidence, x, y, width, height. Bảng Phát Hiện trên màn hình hiển thị cùng các trường (độ tin cậy ở dạng phần trăm) để bạn quét nhanh, sắp xếp, hoặc dán kết quả thẳng vào code hay bảng tính mà không cần tải về.
