Estimador de Profundidad AI
Crea mapas de profundidad desde imágenes 2D usando el modelo AI MiDaS. Estima distancia e información de profundidad de cualquier foto. Herramienta gratuita online.
Acerca del Estimador de Profundidad AI
El Estimador de Profundidad AI utiliza MiDaS (Monocular Depth Estimation in the Wild), un modelo de aprendizaje profundo de última generación que puede estimar la profundidad desde una sola imagen 2D. Crea un mapa de profundidad que muestra las distancias relativas de los objetos en la escena. Todo el procesamiento ocurre directamente en tu navegador - no se suben imágenes a ningún servidor.
¿Se suben mis fotos cuando ejecuto la estimación de profundidad?
No. El Estimador de Profundidad AI procesa imágenes íntegramente en tu navegador usando Transformers.js con ONNX Runtime Web. La foto se decodifica en un Canvas en memoria, se pasa a un modelo de profundidad que corre en tu CPU o GPU, y el mapa de profundidad resultante se muestra sin que la imagen abandone el dispositivo. No hay subida, ni registros, ni llamadas a backend — puedes confirmarlo en DevTools Network: ninguna XHR lleva los bytes de tu imagen. Esto es esencial para fotos personales, escenas sensibles, fotogramas de vigilancia, pruebas de imagen médica o cualquier contenido visual donde quieras profundidad monocular sin confiar en una API en la nube. Los pesos se cachean en la primera carga para que las estimaciones posteriores sean totalmente sin conexión.
¿Qué modelo de estimación de profundidad se usa por defecto?
Por defecto Intel MiDaS-small o Depth-Anything-small, dos modelos punteros de profundidad monocular destilados y cuantizados para inferencia en navegador. MiDaS (Multi-Image Dataset for Depth) fue presentado por Intel en 2019-2020 y se entrenó con una mezcla de más de 10 conjuntos de datos para generalizar entre escenas interiores y exteriores. Depth-Anything (Yang et al., 2024) usa un backbone ViT preentrenado con DINOv2 y 1,5M imágenes etiquetadas + 62M sin etiquetar, y lidera los benchmarks zero-shot de profundidad monocular. Las variantes small ocupan 25-40 MB tras cuantización INT8 y corren a 5-15 fps en WebGPU. La salida es un mapa de profundidad relativa — píxeles claros más cerca, oscuros más lejos — no métrica en metros.
¿Cuál es la diferencia entre profundidad relativa y métrica?
La profundidad relativa dice qué píxeles están más cerca o lejos que otros, pero no da distancias absolutas en metros. La salida suele normalizarse a [0, 1] o escalarse para llenar un rango de gris. La profundidad métrica requiere que el modelo emita distancias reales calibradas por la distancia focal y el sensor de la cámara, algo mucho más difícil con una sola imagen por la ambigüedad de escala inherente a la visión monocular. Modelos como Depth-Anything V2 Metric, ZoeDepth o Marigold pueden producir profundidad métrica aproximada, pero la precisión depende de si la escena se parece a la distribución de entrenamiento. Esta herramienta devuelve profundidad relativa; para distancias absolutas necesitarías cámara estéreo, LiDAR o un modelo fino-ajustado a métrica.
¿Puedo usar el mapa de profundidad para crear un efecto 3D o paralaje?
Sí — los mapas relativos son perfectos para efectos 2,5D de paralaje, fotos 3D falsas (las que popularizó Facebook en 2018) o edición 3D generativa. El pipeline estándar es: enviar la imagen RGB y el mapa a un fragment shader que desplaza coordenadas de textura por profundidad y luego animar la cámara. WebGL o Three.js lo hacen en tiempo real. Para mallas 3D de mayor calidad puedes elevar el mapa a una nube de puntos (cada píxel se vuelve un vértice 3D con profundidad z) y reconstruir una malla texturizada. La profundidad de esta herramienta es lo bastante consistente para paralaje y efectos de DOF reducido, pero puede producir regiones planas o deformadas en superficies sin textura como cielo azul o paredes blancas.

¿Por qué los bordes de los objetos a veces salen borrosos en el mapa?
Los modelos de profundidad sufren en los límites porque el campo receptivo efectivo de la red difumina las discontinuidades agudas. Pelo, vallas, vidrio, reflejos de agua y estructuras finas como cables suelen mezclarse con el fondo o el primer plano. Depth-Anything mitiga esto con un pipeline maestro-alumno que usa 62M imágenes sin etiquetar para supervisar bordes más nítidos y es significativamente mejor que MiDaS en estructuras finas. Para máxima fidelidad de borde, corre la entrada a mayor resolución (518x518 o 1036x1036) y aplica filtrado guiado que preserve bordes como postproceso. La herramienta expone un control de resolución — a coste de inferencia más lenta, mayor resolución suele dar bordes más definidos.
¿Cómo compara la velocidad de inferencia entre WebGPU y WebAssembly?
MiDaS-small a 384x384 tarda unos 150-250 ms en WebAssembly con SIMD en un portátil medio (4 núcleos), o unos 4-6 fps. En WebGPU con un GPU integrado reciente (Intel Iris Xe o Apple serie M) el mismo modelo corre en 25-50 ms (20-40 fps), 5-8x más rápido. Depth-Anything-small es más pesado (vision transformer) y se beneficia aún más de WebGPU porque las capas de atención están dominadas por multiplicación de matrices. Para profundidad de webcam en tiempo real a 30 fps, WebGPU es prácticamente necesario. La herramienta elige el backend automáticamente; mira la insignia en la barra para ver cuál está activo. En Safari anterior a 18.0, WebGPU está deshabilitado por defecto y puede que tengas que activarlo en Desarrollo → Experimental Features.
¿Debería preferir un modelo CNN (MiDaS) o un transformer (Depth-Anything)?
Ambas arquitecturas tienen méritos. MiDaS-small usa un backbone EfficientNet/MobileNet con decodificador CNN multiescala, muy rápido en CPU y pequeño para dispositivos con poca memoria (~25 MB INT8). Depth-Anything usa backbone ViT DINOv2, que da precisión zero-shot sustancialmente mejor en escenas nuevas — el paper original reporta 10-15% menos RMSE en NYU interior y KITTI exterior frente a MiDaS — pero el ViT es más pesado y lento en CPU. Regla práctica: usa MiDaS-small para navegadores solo CPU, móviles o streams de webcam bajo 480p; usa Depth-Anything-small para procesamiento de imagen única de alta calidad en escritorio con WebGPU.
¿Puedo exportar el mapa de profundidad como PNG de 16 bits para Blender o Photoshop?
Sí — PNG gris de 8 bits es cómodo para previsualizar pero solo da 256 niveles, lo que provoca bandas visibles en gradientes suaves (suelos planos, cielo). PNG de 16 bits da 65536 niveles, suficiente para efectos 3D de calidad, displacement mapping en Blender y filtros de desenfoque por profundidad en Photoshop. La herramienta ofrece ambos formatos: 8 bits para compartir rápido, 16 bits cuando vayas a usar el mapa en software 3D. Casi todas las librerías (Photoshop, GIMP, Blender, Krita) cargan PNG de 16 bits de forma nativa. Para aún más precisión puedes exportar a EXR float de 32 bits, pero requiere un códec aparte; la mayoría de pipelines van bien con PNG de 16 bits.
