Detector de Objetos AI
Detecta 80 tipos de objetos en imágenes con el modelo AI COCO-SSD, todo en tu dispositivo. Webcam en tiempo real, exportación JSON/CSV de cajas y confianza.
Acerca del Detector de Objetos AI
El Detector de Objetos AI utiliza COCO-SSD, un modelo de detección de objetos pre-entrenado que puede identificar 80 categorías diferentes de objetos incluyendo personas, vehículos, animales, muebles, electrónicos y más. Todo el procesamiento ocurre directamente en tu navegador usando TensorFlow.js - no se suben imágenes a ningún servidor.
¿La detección de objetos ocurre en mi navegador o se suben mis imágenes?
Toda la detección se ejecuta localmente en tu navegador. El modelo COCO-SSD (pesos SSD-MobileNet v2, unos 6 MB) se descarga una sola vez desde un CDN mediante TensorFlow.js, queda en caché del navegador y luego cada inferencia ocurre en el cliente sobre el backend WebGL (GPU), con respaldo en WebAssembly o CPU si WebGL no está disponible. Tus fotos nunca salen de tu dispositivo: sin subidas, sin procesamiento del servidor, sin registros. Esto importa para grabaciones de seguridad, fotos de identificación, documentos internos o cualquier imagen cubierta por el RGPD o normas de confidencialidad laboral. El único tráfico de red tras la descarga inicial es el HTML/CSS/JS estático de la página; puedes verificarlo en DevTools > Red: verás cargar coco-ssd y tfjs, y ninguna petición POST al detectar.
¿Qué modelo y arquitectura ejecuta realmente esta herramienta?
Ejecuta COCO-SSD tal como lo publica el equipo de TensorFlow.js: un detector de un solo disparo (SSD) con backbone MobileNet v2, entrenado con el dataset COCO. Es un detector convolucional de un disparo que predice probabilidades de clase y coordenadas del cuadro en un único pase, por lo que es lo bastante rápido para webcam en tiempo real en hardware modesto. Esta herramienta no usa YOLO, ONNX Runtime, DETR ni EfficientDet: si inspeccionas DevTools > Red verás @tensorflow-models/coco-ssd y @tensorflow/tfjs, nada más. El modelo pesa unos 6 MB y queda en caché tras la primera carga, así que las visitas siguientes arrancan al instante.
¿Qué formatos de imagen puedo usar y cómo se entrega la imagen al modelo?
La herramienta acepta cualquier formato que tu navegador pueda decodificar: JPEG, PNG, WebP, AVIF, GIF (primer fotograma), BMP y muchos más. Puedes subir un archivo, cargar una imagen por URL o capturar un fotograma en vivo desde tu webcam. Internamente la imagen se dibuja en un canvas y se pasa directamente a la llamada detect() de COCO-SSD; SSD-MobileNet v2 la redimensiona a su propia entrada fija internamente, así que no necesitas redimensionar antes. HEIC de iPhone suele funcionar en Safari y Chrome reciente; los navegadores antiguos pueden requerir exportar a JPEG primero.
¿Cuántas clases de objetos puede reconocer el modelo?
COCO-SSD reconoce las 80 categorías de COCO: persona, bicicleta, coche, moto, avión, autobús, tren, camión, barco, semáforo, hidrante, señal de stop, parquímetro, banco, pájaro, gato, perro, caballo, oveja, vaca, elefante, oso, cebra, jirafa, mochila, paraguas, bolso, corbata, maleta, frisbee, esquís, snowboard, pelota deportiva, cometa, bate de béisbol, guante de béisbol, monopatín, tabla de surf, raqueta de tenis, botella, copa de vino, taza, tenedor, cuchillo, cuchara, cuenco, plátano, manzana, sándwich, naranja, brócoli, zanahoria, hot dog, pizza, dona, pastel, silla, sofá, planta en maceta, cama, mesa de comedor, inodoro, TV, portátil, ratón, mando, teclado, móvil, microondas, horno, tostadora, fregadero, nevera, libro, reloj, jarrón, tijeras, oso de peluche, secador y cepillo de dientes. Para dominios especializados (médico, retail, fabricación, especies de fauna) necesitarías un modelo afinado con un dataset de dominio: esta herramienta solo cubre esas 80 clases cotidianas.

¿Por qué el detector se pierde objetos pequeños o parcialmente ocultos?
La detección de objetos pequeños es la conocida debilidad de los detectores de un disparo como SSD. SSD-MobileNet v2 trabaja sobre un mapa de características interno relativamente pequeño, de modo que un rostro diminuto en una foto de alta resolución puede quedar por debajo de la resolución que la red puede resolver. La oclusión (objetos ocultos tras otros) también es difícil porque las características convolucionales se mezclan. Soluciones prácticas: recortar y volver a detectar en la región de interés, bajar el umbral de confianza para mostrar casos límite (a costa de falsos positivos) o fotografiar al sujeto más grande en el encuadre. Para trabajo exigente de objetos pequeños o especializado, un detector mayor del lado del servidor sería más preciso, pero no es el objetivo de esta herramienta en navegador.
¿Qué significa la puntuación de confianza y cómo ajusto el umbral?
Cada detección lleva una puntuación de confianza de 0 a 1: la probabilidad estimada por el modelo de que el objeto exista en el cuadro predicho. El control de umbral de confianza filtra los resultados: súbelo (por ejemplo a 0.6) para una salida más limpia y de alta precisión, o bájalo (a 0.2) para capturar casos límite a costa de más falsos positivos. COCO-SSD ya aplica supresión no máxima internamente para eliminar cuadros duplicados solapados, así que controlas el resultado puramente con el umbral de confianza y el límite máximo de detecciones. La confianza es una estimación, no una verdad absoluta.
¿Qué precauciones de precisión hay — puedo confiar en esto para decisiones críticas?
Trata cada resultado como una estimación, no como un hecho verificado. COCO-SSD es un detector de propósito general limitado a 80 clases cotidianas; no es un sistema de verificación de identidad, médico, legal ni de seguridad, y no reconoce personas concretas, marcas, texto ni especies específicas. Puede perderse objetos pequeños u ocultos, confundir clases visualmente similares y producir falsos positivos con umbrales bajos. Úsalo para triaje, etiquetado, preparación de datasets, control de calidad y prototipos de integración, y deja siempre que una persona verifique antes de cualquier decisión importante.
¿Cuál es el esquema de exportación de las cajas (JSON/CSV)?
Descargar JSON, Copiar JSON y Descargar CSV exportan los mismos datos, reflejando las detecciones visibles actuales (filtradas por clase). Las coordenadas están en el espacio de píxeles de la imagen original con origen en la esquina superior izquierda: x e y son la esquina superior izquierda del cuadro, y ancho y alto su tamaño en píxeles. JSON da un array de detecciones, cada una con class (texto), confidence (0-1, redondeada a 3 decimales) y boundingBox { x, y, width, height }, más una nota de coordinateSystem y una marca de tiempo ISO. CSV usa las columnas index, class, confidence, x, y, width, height. La Tabla de Detecciones en pantalla muestra los mismos campos (la confianza en porcentaje) para que puedas escanear, ordenar o pegar los resultados directamente en código o una hoja de cálculo sin descargar.
