Mais jogos no WuGames.ioPatrocinadoDescubra jogos de navegador grátis — jogue na hora, sem download nem cadastro.Jogar

Estimador de Profundidade AI

Crie mapas de profundidade a partir de imagens 2D usando o modelo AI MiDaS. Estime distância e informação de profundidade de qualquer foto. Ferramenta online gratuita.

AI Usa o modelo AI MiDaS para estimação de profundidade monocular. O modelo é baixado automaticamente quando você estima profundidade pela primeira vez (~66MB).
Upload
Arraste e solte uma imagem aqui
ou clique para procurar (JPG, PNG, WebP)

Sobre o Estimador de Profundidade AI

O Estimador de Profundidade AI usa MiDaS (Monocular Depth Estimation in the Wild), um modelo de aprendizado profundo de última geração que pode estimar profundidade a partir de uma única imagem 2D. Ele cria um mapa de profundidade mostrando distâncias relativas dos objetos na cena. Todo o processamento acontece diretamente no seu navegador - nenhuma imagem é enviada para qualquer servidor.

Minhas fotos são enviadas quando eu rodo a estimativa de profundidade?

Não. O Estimador de Profundidade AI processa imagens inteiramente no seu navegador usando Transformers.js com ONNX Runtime Web. Sua foto é decodificada em um Canvas na memória, passada a um modelo de profundidade rodando no CPU ou GPU, e o mapa de profundidade resultante é exibido sem a imagem sair do dispositivo. Não há upload, nem logs, nem chamadas a backend — você confirma na aba Network do DevTools que nenhuma XHR carrega os bytes da imagem. Isso é essencial para fotos pessoais, cenas sensíveis, quadros de vigilância, testes de imagem médica ou qualquer conteúdo visual em que você queira profundidade monocular sem confiar em uma API na nuvem. Os pesos ficam em cache na primeira carga, então estimativas seguintes são totalmente offline.

Qual modelo de estimativa de profundidade é usado por padrão?

Por padrão Intel MiDaS-small ou Depth-Anything-small, dois modelos monoculares de ponta destilados e quantizados para inferência no navegador. O MiDaS (Multi-Image Dataset for Depth) foi apresentado pela Intel em 2019-2020 e treinado em uma mistura de 10+ datasets para generalizar entre cenas internas e externas. O Depth-Anything (Yang et al., 2024) usa um backbone ViT pré-treinado com DINOv2 e 1,5M imagens rotuladas + 62M não rotuladas, e lidera os benchmarks zero-shot. As variantes small têm 25-40 MB após quantização INT8 e rodam a 5-15 quadros por segundo no WebGPU. A saída é um mapa de profundidade relativa — pixels mais claros estão mais perto, mais escuros mais longe — não em metros.

Qual a diferença entre profundidade relativa e métrica?

Profundidade relativa diz quais pixels estão mais perto ou longe que outros, mas não dá distâncias absolutas em metros. A saída geralmente é normalizada para [0, 1] ou escalonada para preencher uma faixa de cinza. Profundidade métrica exige que o modelo emita distâncias reais calibradas pela distância focal e sensor da câmera, o que é muito mais difícil com uma única imagem devido à ambiguidade de escala inerente à visão monocular. Modelos como Depth-Anything V2 Metric, ZoeDepth ou Marigold podem produzir profundidade métrica aproximada, mas a precisão depende de a cena se assemelhar à distribuição de treinamento. Esta ferramenta devolve profundidade relativa; para distâncias absolutas você precisaria de câmera estéreo, LiDAR ou um modelo ajustado a métrica.

Posso usar o mapa de profundidade para criar efeito 3D ou parallax?

Sim — mapas relativos são perfeitos para efeitos 2,5D de parallax, fotos 3D falsas (do tipo que o Facebook popularizou em 2018) ou edição generativa com noção de 3D. O pipeline padrão é: alimentar a imagem RGB e o mapa em um fragment shader que desloca coordenadas de textura pela profundidade, e então animar a posição da câmera. WebGL ou Three.js fazem isso em tempo real. Para malhas 3D de maior qualidade, você pode levantar o mapa em uma nuvem de pontos (cada pixel vira um vértice 3D com profundidade z) e reconstruir uma malha texturizada. A profundidade desta ferramenta é consistente o suficiente para parallax e efeitos de DOF raso, mas pode produzir regiões planas ou tortas em superfícies sem textura como céu azul ou paredes brancas.

Estimador de Profundidade AI — Crie mapas de profundidade a partir de imagens 2D usando o modelo AI MiDaS. Estime distância e informação de profundidad
Estimador de Profundidade AI

Por que as bordas dos objetos às vezes ficam borradas no mapa de profundidade?

Modelos de profundidade sofrem em limites de objeto porque o campo receptivo efetivo da rede borra descontinuidades agudas. Cabelo, cercas, vidro, reflexos d'água e estruturas finas como fios costumam ser misturados ao fundo ou ao primeiro plano. O Depth-Anything reduz isso com um pipeline professor-aluno que usa 62M imagens não rotuladas para supervisionar bordas mais nítidas e é significativamente melhor que MiDaS em estruturas finas. Para máxima fidelidade de borda, rode a entrada em resolução maior (518x518 ou 1036x1036) e aplique filtragem guiada que preserve bordas como pós-processo. A ferramenta tem um controle de resolução — ao custo de inferência mais lenta, resolução maior costuma dar bordas mais nítidas.

Como compara a velocidade de inferência entre WebGPU e WebAssembly?

MiDaS-small em 384x384 leva cerca de 150-250 ms em WebAssembly com SIMD num notebook intermediário (4 núcleos), ou seja 4-6 fps. Em WebGPU com GPU integrada recente (Intel Iris Xe ou Apple série M), o mesmo modelo roda em 25-50 ms (20-40 fps), 5-8x mais rápido. Depth-Anything-small é mais pesado (vision transformer) e se beneficia ainda mais do WebGPU porque as camadas de atenção são dominadas por multiplicação de matrizes. Para profundidade em webcam em tempo real a 30 fps, WebGPU é praticamente necessário. A ferramenta escolhe o backend automaticamente; veja a etiqueta na barra de ferramentas para saber qual está ativo. No Safari antes do 18.0, WebGPU vem desativado e você pode precisar habilitar em Develop → Experimental Features.

Devo preferir um modelo CNN (MiDaS) ou um transformer (Depth-Anything)?

Ambas as arquiteturas têm méritos. MiDaS-small usa backbone EfficientNet/MobileNet com decodificador CNN multiescala, extremamente rápido no CPU e pequeno o bastante para dispositivos com pouca memória (~25 MB INT8). Depth-Anything usa backbone ViT DINOv2, que dá precisão zero-shot substancialmente melhor em cenas novas — o artigo original relata RMSE 10-15% menor em NYU interno e KITTI externo comparado a MiDaS — mas o ViT é mais pesado e lento na CPU. Regra prática: use MiDaS-small para navegadores só-CPU, móveis ou streams de webcam abaixo de 480p; use Depth-Anything-small para processamento de imagem única de alta qualidade em navegador desktop com WebGPU.

Posso exportar o mapa como PNG 16-bit para Blender ou Photoshop?

Sim — PNG cinza de 8 bits é conveniente para visualizar mas só dá 256 níveis, causando bandas visíveis em gradientes suaves (chão plano, céu). PNG de 16 bits dá 65536 níveis, suficiente para efeitos 3D de qualidade, displacement mapping no Blender e filtros de desfoque por profundidade no Photoshop. A ferramenta oferece os dois formatos: 8-bit para compartilhamento rápido, 16-bit quando você for usar o mapa em software 3D. A maioria das bibliotecas (Photoshop, GIMP, Blender, Krita) carrega PNG 16-bit nativamente. Para mais precisão você pode exportar como EXR float de 32 bits, mas isso exige um codec separado; a maioria dos pipelines vai bem com PNG 16-bit.