Ước Tính Độ Sâu AI
Trình tạo bản đồ độ sâu miễn phí chạy trên trình duyệt. AI MiDaS ước tính độ sâu tương đối từ ảnh. Bảng màu, biểu đồ, xuất PNG 16-bit, không tải lên.
Giới Thiệu Ước Tính Độ Sâu AI
Ước Tính Độ Sâu AI sử dụng MiDaS (Monocular Depth Estimation in the Wild), một mô hình học sâu tiên tiến có thể ước tính độ sâu từ một ảnh 2D duy nhất. Nó tạo ra bản đồ độ sâu hiển thị khoảng cách tương đối của các đối tượng trong cảnh. Tất cả quá trình xử lý diễn ra trực tiếp trong trình duyệt - không có ảnh nào được tải lên máy chủ.
Ảnh của tôi có bị tải lên khi tôi ước tính độ sâu không?
Không. Ước Tính Độ Sâu AI chạy hoàn toàn trong trình duyệt bằng ONNX Runtime Web (không dùng transformers.js, không backend). Ảnh được giải mã vào Canvas trong bộ nhớ, thu nhỏ về 256x256, rồi đưa qua mô hình MiDaS chạy trên CPU (WebAssembly) hoặc GPU (WebGPU). Bản đồ độ sâu được dựng cục bộ và không bao giờ rời thiết bị — bạn có thể kiểm tra trong DevTools Network: không yêu cầu nào mang byte ảnh của bạn. Điều này quan trọng với ảnh cá nhân, cảnh nhạy cảm hoặc bất kỳ nội dung nào bạn không muốn gửi lên API đám mây. Trọng số mô hình (~66MB) được trình duyệt cache ở lần chạy đầu, nên các lần sau nhanh hơn và hoạt động ngoại tuyến.
Công cụ dùng mô hình và độ phân giải đầu vào nào?
Công cụ dùng MiDaS v2.1 small (midas_v21_small_256.onnx), mạng độ sâu đơn mắt lâu đời của Intel được huấn luyện trên nhiều bộ dữ liệu để tổng quát hóa cảnh trong nhà và ngoài trời. Mô hình nhận đầu vào RGB cố định 256x256 được chuẩn hóa theo thống kê ImageNet (trừ trung bình, chia độ lệch chuẩn) trước khi suy luận, sau đó bản đồ dự đoán được co dãn về kích thước ảnh của bạn để hiển thị và xuất. Đây là một mô hình cố định duy nhất — không có bộ chọn mô hình, thanh trượt độ phân giải hay chế độ webcam. Đánh đổi là tốc độ và dung lượng tải nhỏ để lấy độ phân giải cố định vừa phải; chi tiết tinh ở biên có thể bị mềm.
Đầu ra là độ sâu tương đối hay độ sâu mét (khoảng cách thực)?
Chỉ là độ sâu tương đối. MiDaS dự đoán độ sâu nghịch đảo (chênh lệch/disparity), nên công cụ cho biết pixel nào gần hoặc xa hơn pixel khác, chứ không phải khoảng cách tuyệt đối theo mét. Sau suy luận, các giá trị được chuẩn hóa mín-máx về [0,1] theo quy ước 1,0 = gần nhất (tiền cảnh) và 0,0 = xa nhất (hậu cảnh). Độ sâu mét thực sự cần camera stereo, LiDAR hoặc mô hình tinh chỉnh theo mét, và phụ thuộc nhiều vào việc cảnh có giống phân bố huấn luyện không. Hãy xem phần trăm vùng Gần/Giữa/Xa và biểu đồ như ước lượng tương đối, không phải số đo.

Bảng màu, biểu đồ và chế độ song song/phủ giúp gì?
Bạn có thể dựng bản đồ độ sâu với sáu bảng màu tri giác (inferno, viridis, plasma, magma, thang xám, turbo) để đọc cấu trúc trong nháy mắt, và chuyển giữa Chỉ Bản Đồ Độ Sâu, Song Song với ảnh gốc, hoặc Phủ bán trong suốt với độ mờ tùy chỉnh. Nút Đảo Ngược lật độ sáng để Gần=tối nếu bạn thích quy ước đó. Bảng thống kê báo cáo độ sâu chuẩn hóa nhỏ nhất/trung bình/lớn nhất, chia cảnh thành vùng Gần/Giữa/Xa và vẽ biểu đồ 32 cột phân bố độ sâu — hữu ích để kiểm tra phân tách tiền cảnh/hậu cảnh trước khi dùng bản đồ cho bokeh hay ghép cảnh.
Tôi có thể xuất PNG 16-bit và JSON cho Blender, Photoshop hay Nuke không?
Có. Ngoài PNG bản đồ độ sâu có màu và PNG xám 8-bit, bạn có thể xuất PNG xám 16-bit thực sự. 8-bit chỉ có 256 mức và gây dải nhìn thấy ở gradient mượt (mặt đất, bầu trời); 16-bit cho 65.536 mức, đúng là thứ cần cho displacement mapping trong Blender, làm mờ theo độ sâu trong Photoshop và ghép DOF/parallax trong Nuke. Photoshop, GIMP, Blender và Krita đều đọc PNG 16-bit nguyên bản. Một tệp JSON đi kèm cũng được xuất với tên mô hình, độ phân giải đầu vào 256x256, bảng màu, cờ đảo ngược, thống kê nhỏ nhất/trung bình/lớn nhất và phần trăm vùng Gần/Giữa/Xa, giúp kết quả của bạn tái lập và kiểm chứng được.
Vì sao công cụ hiển thị huy hiệu WebGPU hay WASM, và cái nào nhanh hơn?
Khi tải, công cụ thử nhà cung cấp thực thi WebGPU trước và quay về WebAssembly (có SIMD và tối đa 4 luồng) nếu không có WebGPU, rồi hiển thị huy hiệu cho biết backend đang dùng. WebGPU đẩy phép tính ma trận sang GPU và thường nhanh hơn vài lần so với WASM chỉ-CPU, nhất là với ảnh lớn. Trên trình duyệt không có WebGPU (Safari cũ, một số thiết bị di động), công cụ tự động dùng WASM để vẫn chạy được mọi nơi — chỉ khác về tốc độ, không khác kết quả.
Vì sao mép vật thể trên bản đồ độ sâu đôi khi bị mềm?
Vì MiDaS v2.1 small chạy ở đầu vào cố định 256x256, các cấu trúc tinh như tóc, hàng rào, dây, kính và phản chiếu có thể hòa vào tiền cảnh hoặc hậu cảnh, và bản đồ co dãn kế thừa sự mềm đó. Đây là điều bình thường với mô hình đơn mắt nhỏ, nhanh. Với hiệu ứng parallax và độ sâu trường ảnh nông, kết quả thường đủ nhất quán; muốn biên rõ hơn, bạn có thể hậu xử lý bản đồ 16-bit đã xuất bằng lọc bảo toàn biên (guided/bilateral) trong phần mềm 3D hoặc ghép cảnh.
