Detector de Objetos AI
Detecte 80 tipos de objetos em imagens com o modelo AI COCO-SSD, tudo no dispositivo. Webcam em tempo real, exportação JSON/CSV de caixas e confiança.
Sobre o Detector de Objetos AI
O Detector de Objetos AI usa COCO-SSD, um modelo de detecção de objetos pré-treinado que pode identificar 80 categorias diferentes de objetos incluindo pessoas, veículos, animais, móveis, eletrônicos e mais. Todo o processamento acontece diretamente no seu navegador usando TensorFlow.js - nenhuma imagem é enviada para qualquer servidor.
A detecção de objetos acontece no meu navegador ou minhas imagens são enviadas?
Toda a detecção roda localmente no seu navegador. O modelo COCO-SSD (pesos SSD-MobileNet v2, cerca de 6 MB) é baixado uma única vez de uma CDN via TensorFlow.js, fica em cache do navegador e depois cada inferência ocorre no cliente no backend WebGL (GPU), com fallback para WebAssembly ou CPU se o WebGL não estiver disponível. Suas fotos nunca deixam seu dispositivo: sem uploads, sem processamento de servidor, sem logs. Isso importa para imagens de vigilância, fotos de identidade, documentos internos ou qualquer imagem coberta pela LGPD ou regras de confidencialidade. O único tráfego de rede após o download inicial é o HTML/CSS/JS estático da página; você pode verificar em DevTools > Network: verá coco-ssd e tfjs serem carregados e nenhuma requisição POST ao detectar.
Qual modelo e arquitetura esta ferramenta realmente executa?
Ela executa o COCO-SSD como publicado pela equipe do TensorFlow.js: um Single-Shot Detector (SSD) com backbone MobileNet v2, treinado no dataset COCO. É um detector convolucional de tiro único que prevê probabilidades de classe e coordenadas de caixa em uma única passagem, por isso é rápido o suficiente para webcam em tempo real em hardware modesto. Esta ferramenta não usa YOLO, ONNX Runtime, DETR nem EfficientDet — se você inspecionar DevTools > Network verá @tensorflow-models/coco-ssd e @tensorflow/tfjs, nada mais. O modelo tem cerca de 6 MB e fica em cache após o primeiro carregamento, então as visitas seguintes iniciam instantaneamente.
Quais formatos de imagem posso usar e como a imagem é entregue ao modelo?
A ferramenta aceita qualquer formato que seu navegador consiga decodificar: JPEG, PNG, WebP, AVIF, GIF (primeiro quadro), BMP e muitos outros. Você pode enviar um arquivo, carregar uma imagem por URL ou capturar um quadro ao vivo da sua webcam. Internamente a imagem é desenhada em um canvas e passada diretamente para a chamada detect() do COCO-SSD; o SSD-MobileNet v2 a redimensiona para sua própria entrada fixa internamente, então você não precisa redimensionar antes. HEIC do iPhone geralmente funciona no Safari e Chrome recente; navegadores antigos podem exigir exportar para JPEG primeiro.
Quantas classes de objetos o modelo consegue reconhecer?
O COCO-SSD reconhece as 80 categorias do COCO: pessoa, bicicleta, carro, motocicleta, avião, ônibus, trem, caminhão, barco, semáforo, hidrante, placa de pare, parquímetro, banco, pássaro, gato, cachorro, cavalo, ovelha, vaca, elefante, urso, zebra, girafa, mochila, guarda-chuva, bolsa, gravata, mala, frisbee, esquis, snowboard, bola esportiva, pipa, taco de beisebol, luva de beisebol, skate, prancha de surfe, raquete de tênis, garrafa, taça de vinho, xícara, garfo, faca, colher, tigela, banana, maçã, sanduíche, laranja, brócolis, cenoura, cachorro-quente, pizza, rosquinha, bolo, cadeira, sofá, planta em vaso, cama, mesa de jantar, vaso sanitário, TV, laptop, mouse, controle, teclado, celular, micro-ondas, forno, torradeira, pia, geladeira, livro, relógio, vaso, tesoura, ursinho de pelúcia, secador e escova de dentes. Para domínios especializados (médico, varejo, manufatura, espécies de fauna) seria preciso um modelo ajustado a um dataset de domínio — esta ferramenta cobre apenas essas 80 classes do dia a dia.

Por que o detector perde objetos pequenos ou parcialmente ocultos?
A detecção de objetos pequenos é a fraqueza conhecida dos detectores de tiro único como o SSD. O SSD-MobileNet v2 trabalha sobre um mapa de features interno relativamente pequeno, então um rosto minúsculo em uma foto de alta resolução pode ficar abaixo da resolução que a rede consegue resolver. Oclusão (objetos ocultos atrás de outros) também é difícil porque as features convolucionais se misturam. Soluções práticas: recortar e re-detectar na região de interesse, baixar o limite de confiança para mostrar casos limítrofes (ao custo de falsos positivos) ou fotografar o objeto maior no enquadramento. Para trabalho exigente de objetos pequenos ou especializado, um detector maior no lado do servidor seria mais preciso, mas não é o objetivo desta ferramenta no navegador.
O que significa a pontuação de confiança e como ajustar o limite?
Cada detecção carrega uma pontuação de confiança de 0 a 1: a probabilidade estimada pelo modelo de que o objeto exista na caixa prevista. O controle de limite de confiança filtra os resultados — aumente-o (por exemplo para 0.6) para saída mais limpa e de alta precisão, ou diminua-o (para 0.2) para pegar casos limítrofes ao custo de mais falsos positivos. O COCO-SSD já aplica supressão não-máxima internamente para remover caixas duplicadas sobrepostas, então você controla o resultado puramente pelo limite de confiança e pelo limite máximo de detecções. A confiança é uma estimativa, não uma verdade absoluta.
Quais as ressalvas de precisão — posso confiar nisto para decisões críticas?
Trate todo resultado como uma estimativa, não um fato verificado. O COCO-SSD é um detector de propósito geral limitado a 80 classes do dia a dia; não é um sistema de verificação de identidade, médico, jurídico ou de segurança, e não reconhece pessoas específicas, marcas, texto ou espécies detalhadas. Pode perder objetos pequenos ou ocultos, rotular errado classes visualmente semelhantes e produzir falsos positivos em limites baixos. Use-o para triagem, marcação, preparação de datasets, QA e prototipagem de integração — e sempre deixe um humano verificar antes de qualquer decisão que importe.
Qual é o esquema de exportação das caixas (JSON/CSV)?
Baixar JSON, Copiar JSON e Baixar CSV exportam os mesmos dados, refletindo as detecções visíveis atuais (filtradas por classe). As coordenadas estão no espaço de pixels da imagem original com origem no canto superior esquerdo: x e y são o canto superior esquerdo da caixa, largura e altura são seu tamanho em pixels. O JSON traz um array de detecções, cada uma com class (texto), confidence (0-1, arredondada a 3 casas) e boundingBox { x, y, width, height }, além de uma nota coordinateSystem e um timestamp ISO. O CSV usa as colunas index, class, confidence, x, y, width, height. A Tabela de Detecções na tela mostra os mesmos campos (a confiança em porcentagem) para você escanear, ordenar ou colar os resultados direto no código ou em uma planilha sem precisar baixar.
