Detector de Objetos AI
Detecte e identifique mais de 80 tipos de objetos em imagens usando o modelo AI COCO-SSD. Detecção em tempo real com webcam, caixas delimitadoras e pontuações de confiança.
Sobre o Detector de Objetos AI
O Detector de Objetos AI usa COCO-SSD, um modelo de detecção de objetos pré-treinado que pode identificar 80 categorias diferentes de objetos incluindo pessoas, veículos, animais, móveis, eletrônicos e mais. Todo o processamento acontece diretamente no seu navegador usando TensorFlow.js - nenhuma imagem é enviada para qualquer servidor.
A detecção de objetos acontece no meu navegador ou minhas imagens são enviadas?
Toda a detecção roda localmente no seu navegador. Os pesos YOLO/MobileNet são baixados uma vez via Transformers.js ou TensorFlow.js, depois cada inferência ocorre no lado do cliente usando WebGPU ou WebAssembly. Suas fotos nunca deixam seu dispositivo — sem uploads, sem processamento de servidor, sem logs. Isso é crítico para imagens de vigilância, médicas, fotos de identidade ou qualquer imagem coberta por LGPD, HIPAA ou regras de confidencialidade. O único tráfego de rede após o download inicial do modelo é o HTML/CSS/JS estático; você pode verificar abrindo DevTools > Network, soltando uma imagem e confirmando que nenhuma requisição POST é enviada.
Quais formatos de imagem posso soltar no detector?
A ferramenta aceita todos os formatos que um navegador moderno consegue decodificar: JPEG, PNG, WebP, AVIF, GIF (primeiro quadro), BMP e SVG (após rasterização). Também lida com capturas de tela da área de transferência e quadros capturados ao vivo da sua webcam. Internamente, a imagem é renderizada em um canvas oculto, redimensionada para o tamanho esperado pelo modelo (tipicamente 640x640 para YOLO, 300x300 para SSD-MobileNet, 320x320 para EfficientDet-Lite), normalizada para floats em 0-1 ou -1 a 1 conforme o pré-processamento e entregue como tensor. HEIC do iPhone geralmente funciona no Safari e Chrome recente.
Quantas classes de objetos o modelo consegue reconhecer?
O checkpoint padrão é treinado no COCO, que contém 80 categorias do dia a dia: pessoa, bicicleta, carro, motocicleta, avião, ônibus, trem, caminhão, barco, semáforo, hidrante, placa de pare, cachorro, gato, pássaro, cavalo, ovelha, vaca, elefante, urso, zebra, girafa, mochila, guarda-chuva, bolsa, gravata, mala, frisbee, esquis, snowboard, bola, taco/luva de beisebol, skate, prancha de surfe, raquete de tênis, garrafa, taça de vinho, xícara, garfo, faca, colher, tigela, frutas e comida, cadeira, sofá, cama, mesa de jantar, vaso sanitário, TV, laptop, mouse, controle, teclado, celular, micro-ondas, forno, pia, geladeira, livros, relógio, vaso, tesoura, ursinho de pelúcia, secador, escova de dentes. Para domínios especializados (médico, varejo, manufatura, fauna) você precisa de um modelo ajustado.
Por que o detector perde objetos pequenos ou parcialmente ocultos?
A detecção de objetos pequenos é a fraqueza histórica de detectores de tiro único como YOLO e SSD. A imagem é reduzida para um tamanho fixo de entrada (640x640 para YOLOv8), então um rosto de 30 pixels em uma foto 4K vira cerca de 5 pixels após o redimensionamento — abaixo da resolução que a rede consegue resolver. Oclusão (objetos ocultos atrás de outros) também é difícil porque as features convolucionais se misturam. Soluções: usar entrada de maior resolução (YOLOv8x em 1280x1280 ajuda mas dobra o cálculo), recortar e re-detectar em regiões de interesse, rodar inferência em mosaicos 640x640 sobrepostos ou trocar para detector de duas etapas como Faster R-CNN, mais preciso porém muito mais lento.

O que realmente significam a pontuação de confiança e o limiar IoU?
Cada detecção tem dois números-chave. Confiança (0-1) é a probabilidade estimada pelo modelo de que o objeto exista na caixa prevista. O limiar padrão de cerca de 0.25 mantém detecções das quais o modelo está pelo menos um pouco certo; suba para 0.5 para saída mais limpa, baixe para 0.1 para pegar casos difíceis ao custo de falsos positivos. O IoU (Intersection-over-Union) controla a Supressão Não-Máxima: quando o modelo propõe duas caixas sobrepostas para o mesmo objeto, NMS mantém a de maior confiança e descarta a outra se o IoU exceder o limiar (padrão ~0.45). Reduzir IoU é mais agressivo (menos duplicatas), aumentar deixa passar mais detecções sobrepostas — útil para multidões.
Quão preciso é o YOLO no navegador em relação à versão de servidor?
Numericamente idêntico para um dado nível de quantização. O navegador usa a mesma exportação ONNX ou TensorFlow.js dos pesos oficiais do Ultralytics ou PyTorch, então um YOLOv8n quantizado em INT8 produzirá caixas e confianças idênticas seja no Chrome, Node.js ou servidor Python. O que muda é a vazão: um servidor com NVIDIA A100 alcança 1000+ FPS a 640x640, enquanto WebGPU em um MacBook M2 atinge 30-60 FPS e WebAssembly em um notebook de 5 anos cai para 2-5 FPS. Para detecção em tempo real via webcam, prefira variante YOLO "n" ou "s" no WebGPU.
Qual arquitetura de detecção é usada — YOLO, SSD, EfficientDet ou DETR?
O padrão é YOLOv8 (nano ou small) em formato ONNX, um detector CNN anchor-free de tiro único que prevê probabilidades de classe e coordenadas de caixa em uma passagem por imagem. YOLO troca um pouco de precisão por enorme velocidade, essencial no navegador. SSD-MobileNet está disponível como alternativa mais leve (menor mAP, mais rápido em mobile fraco). EfficientDet-Lite é uma opção TensorFlow.js com melhor curva precisão/computação no COCO. DETR (DEtection TRansformer) é nível de pesquisa e ainda não prático no navegador por causa do tamanho do modelo. Para a maioria dos casos, YOLOv8n a 640x640 com WebGPU é o ponto ótimo — cerca de 6 MB INT8, tempo real, 37+ mAP no COCO.
O que é quantização INT8 para um detector e afeta a precisão?
A quantização converte pesos do modelo de floats 32 bits para inteiros 8 bits, encolhendo o arquivo 4x (um YOLOv8n cai de cerca de 12 MB FP32 para aproximadamente 3 MB INT8) e dobrando a velocidade de inferência na CPU. Para detecção no COCO, INT8 dinâmico tipicamente perde 0.5-1.5 mAP — invisível em imagens cotidianas mas mensurável em suites de benchmark. INT8 por canal com calibração perde ainda menos. INT8 também habilita aceleração WebNN/NPU em dispositivos suportados (Snapdragon recente, Apple Neural Engine via ponte Core ML web). O backend ONNX Runtime Web wasm-simd lida com a dequantização em tempo de execução.
