Estimador de Profundidad AI
Generador gratuito de mapas de profundidad en el navegador. MiDaS AI estima profundidad relativa de cualquier foto. Mapas de color, histograma, PNG 16 bits.
Acerca del Estimador de Profundidad AI
El Estimador de Profundidad AI utiliza MiDaS (Monocular Depth Estimation in the Wild), un modelo de aprendizaje profundo de última generación que puede estimar la profundidad desde una sola imagen 2D. Crea un mapa de profundidad que muestra las distancias relativas de los objetos en la escena. Todo el procesamiento ocurre directamente en tu navegador - no se suben imágenes a ningún servidor.
¿Se suben mis fotos cuando ejecuto la estimación de profundidad?
No. El Estimador de Profundidad AI funciona íntegramente en tu navegador con ONNX Runtime Web (sin transformers.js ni backend). La foto se decodifica en un Canvas en memoria, se redimensiona a 256x256 y se pasa al modelo MiDaS que corre en tu CPU (WebAssembly) o GPU (WebGPU). El mapa de profundidad se renderiza localmente y nunca abandona el dispositivo — puedes confirmarlo en DevTools Network: ninguna petición lleva los bytes de tu imagen. Esto importa para fotos personales, escenas sensibles o cualquier contenido que no quieras enviar a una API en la nube. Los pesos del modelo (~66MB) se cachean en la primera ejecución, así las estimaciones posteriores son más rápidas y funcionan sin conexión.
¿Qué modelo y resolución de entrada usa esta herramienta?
Usa MiDaS v2.1 small (midas_v21_small_256.onnx), la consolidada red de profundidad monocular de Intel entrenada con muchos conjuntos de datos para generalizar entre escenas interiores y exteriores. El modelo toma una entrada RGB fija de 256x256 que se normaliza con estadísticas ImageNet (resta de media, división por desviación) antes de la inferencia, y luego el mapa predicho se reescala a las dimensiones de tu imagen para mostrarlo y exportarlo. Es un único modelo fijo — no hay selector de modelo, control de resolución ni modo webcam. La contrapartida es velocidad y descarga pequeña a cambio de una resolución fija modesta; los detalles finos en los bordes pueden quedar suaves.
¿La salida es profundidad relativa o métrica (distancia real)?
Solo profundidad relativa. MiDaS predice profundidad inversa (disparidad), así que la herramienta indica qué píxeles están más cerca o lejos que otros, pero no distancias absolutas en metros. Tras la inferencia los valores se normalizan por mín-máx a [0,1] con el convenio de que 1,0 = más cerca (primer plano) y 0,0 = más lejos (fondo). La profundidad métrica real necesitaría cámara estéreo, LiDAR o un modelo afinado a métrica, y depende mucho de que la escena coincida con la distribución de entrenamiento. Trata los porcentajes de zona Cerca/Media/Lejos y el histograma como estimaciones relativas, no mediciones.

¿Cómo ayudan los mapas de color, el histograma y las vistas lado a lado/superpuesta?
Puedes renderizar el mapa con seis mapas de color perceptuales (inferno, viridis, plasma, magma, escala de grises, turbo) para leer la estructura de un vistazo, y alternar entre Solo Mapa de Profundidad, Lado a Lado con el original o una Superposición semitransparente con opacidad ajustable. El conmutador Invertir cambia el brillo para que Cerca=oscuro si prefieres ese convenio. El panel de estadísticas reporta profundidad mín./media/máx. normalizada, divide la escena en zonas Cerca/Media/Lejos y dibuja un histograma de 32 contenedores — útil para comprobar la separación primer plano/fondo antes de usar el mapa para bokeh o composición.
¿Puedo exportar un PNG de 16 bits y JSON para Blender, Photoshop o Nuke?
Sí. Además del PNG de color y del PNG en escala de grises de 8 bits, puedes exportar un verdadero PNG en escala de grises de 16 bits. Los 8 bits solo tienen 256 niveles y provocan bandas visibles en gradientes suaves (suelos, cielo); los 16 bits dan 65.536 niveles, el verdadero entregable para displacement mapping en Blender, desenfoque por profundidad en Photoshop y composición DOF/paralaje en Nuke. Photoshop, GIMP, Blender y Krita cargan PNG de 16 bits de forma nativa. También se exporta un JSON asociado con el nombre del modelo, la resolución de entrada 256x256, el mapa de color, el indicador de inversión, las estadísticas mín./media/máx. y los porcentajes de zona Cerca/Media/Lejos, para que tus resultados sean reproducibles y auditables.
¿Por qué la herramienta muestra una insignia WebGPU o WASM, y cuál es más rápida?
Al cargar, la herramienta intenta primero el proveedor de ejecución WebGPU y recurre a WebAssembly (con SIMD y hasta 4 hilos) si WebGPU no está disponible, y luego muestra una insignia con el backend activo. WebGPU descarga el cálculo matricial en tu GPU y suele ser varias veces más rápido que el WASM solo de CPU, especialmente en imágenes grandes. En navegadores sin WebGPU (Safari antiguo, algunos móviles) la herramienta usa WASM automáticamente para que funcione en todas partes — solo cambia la velocidad, no el resultado.
¿Por qué los bordes de los objetos a veces salen suaves en el mapa?
Porque MiDaS v2.1 small corre a una entrada fija de 256x256, las estructuras finas como pelo, vallas, cables, vidrio y reflejos pueden mezclarse con el primer plano o el fondo, y el mapa reescalado hereda esa suavidad. Es esperable en un modelo monocular pequeño y rápido. Para paralaje y efectos de profundidad de campo reducida el resultado suele ser lo bastante consistente; para bordes más definidos puedes postprocesar el mapa de 16 bits exportado con filtrado que preserve bordes (guiado/bilateral) en tu software 3D o de composición.
