Detector de Objetos AI
Detecta e identifica más de 80 tipos de objetos en imágenes usando el modelo AI COCO-SSD. Detección en tiempo real con webcam, cajas delimitadoras y puntuaciones de confianza.
Acerca del Detector de Objetos AI
El Detector de Objetos AI utiliza COCO-SSD, un modelo de detección de objetos pre-entrenado que puede identificar 80 categorías diferentes de objetos incluyendo personas, vehículos, animales, muebles, electrónicos y más. Todo el procesamiento ocurre directamente en tu navegador usando TensorFlow.js - no se suben imágenes a ningún servidor.
¿La detección de objetos ocurre en mi navegador o se suben mis imágenes?
Toda la detección se ejecuta localmente en tu navegador. Los pesos YOLO/MobileNet se descargan una vez vía Transformers.js o TensorFlow.js, y luego cada inferencia ocurre en el lado del cliente usando WebGPU o WebAssembly. Tus fotos nunca salen de tu dispositivo — sin subidas, sin procesamiento del servidor, sin registros. Esto es crítico para grabaciones de seguridad, imágenes médicas, fotos de identificación o cualquier imagen cubierta por RGPD, HIPAA o normas de confidencialidad laboral. El único tráfico de red tras la descarga inicial del modelo es el HTML/CSS/JS estático de la página; puedes verificarlo abriendo DevTools > Red, soltando una imagen y comprobando que no se envía ninguna petición POST.
¿Qué formatos de imagen puedo soltar en el detector?
La herramienta acepta cualquier formato que un navegador moderno pueda decodificar: JPEG, PNG, WebP, AVIF, GIF (primer fotograma), BMP y SVG (tras rasterizar). También maneja capturas desde el portapapeles y fotogramas capturados en vivo desde tu webcam. Internamente, la imagen se renderiza en un canvas oculto, se redimensiona al tamaño que espera el modelo (típicamente 640x640 para YOLO, 300x300 para SSD-MobileNet, 320x320 para EfficientDet-Lite), se normaliza a flotantes en 0-1 o -1 a 1 según el preprocesamiento del modelo y se entrega como tensor. HEIC de iPhone normalmente funciona en Safari y Chrome reciente.
¿Cuántas clases de objetos puede reconocer el modelo?
El checkpoint por defecto está entrenado con COCO, que contiene 80 categorías cotidianas: persona, bicicleta, coche, moto, avión, autobús, tren, camión, barco, semáforo, hidrante, señal de stop, perro, gato, pájaro, caballo, oveja, vaca, elefante, oso, cebra, jirafa, mochila, paraguas, bolso, corbata, maleta, frisbee, esquís, snowboard, pelota, bate/guante de béisbol, monopatín, tabla de surf, raqueta de tenis, botella, copa, taza, tenedor, cuchillo, cuchara, cuenco, frutas y comida, silla, sofá, cama, mesa, inodoro, TV, portátil, ratón, mando, teclado, móvil, microondas, horno, fregadero, nevera, libros, reloj, jarrón, tijeras, oso de peluche, secador, cepillo de dientes. Para dominios especializados (médico, retail, fabricación, fauna) necesitas un modelo afinado con datasets de dominio como Open Images, LVIS o un corpus privado.
¿Por qué el detector se pierde objetos pequeños o parcialmente ocultos?
La detección de objetos pequeños es la debilidad histórica de detectores de un disparo como YOLO y SSD. La imagen se reduce a un tamaño fijo de entrada (640x640 para YOLOv8), de modo que un rostro de 30 píxeles en una foto 4K queda en unos 5 píxeles tras el redimensionado — por debajo de la resolución que la red puede resolver. La oclusión (objetos ocultos detrás de otros) también es difícil porque las características convolucionales se mezclan. Soluciones: usar entrada de mayor resolución (YOLOv8x a 1280x1280 ayuda pero duplica el cómputo), recortar y volver a detectar en regiones de interés, ejecutar inferencia por mosaicos solapados de 640x640 o cambiar a un detector de dos etapas como Faster R-CNN, más preciso pero mucho más lento y rara vez disponible en navegadores.

¿Qué significan realmente la puntuación de confianza y el umbral IoU?
Cada detección tiene dos números clave. La confianza (0-1) es la probabilidad estimada por el modelo de que el objeto exista en el cuadro predicho. El umbral por defecto de unos 0.25 conserva detecciones de las que el modelo está al menos algo seguro; súbelo a 0.5 para una salida más limpia, bájalo a 0.1 para capturar casos difíciles al coste de falsos positivos. El IoU (Intersección sobre Unión) controla la supresión no máxima: cuando el modelo propone dos cuadros solapados para el mismo objeto, NMS conserva el de mayor confianza y descarta el otro si su IoU supera el umbral (por defecto ~0.45). Reducir IoU es más agresivo (menos duplicados); subirlo deja pasar más detecciones solapadas — útil para multitudes donde las personas se solapan físicamente.
¿Qué tan preciso es YOLO en el navegador frente a la versión del servidor?
Numéricamente idéntico para un nivel de cuantización dado. El navegador usa la misma exportación ONNX o TensorFlow.js de los pesos oficiales de Ultralytics o PyTorch, así que un YOLOv8n cuantizado a INT8 producirá cuadros y puntuaciones de confianza idénticos ya sea en Chrome, Node.js o un servidor Python. Lo que cambia es el rendimiento: un servidor con NVIDIA A100 alcanza más de 1000 FPS a 640x640, mientras que WebGPU en un MacBook M2 logra 30-60 FPS y WebAssembly en un portátil de hace 5 años cae a 2-5 FPS. Para detección webcam en tiempo real, prefiere una variante YOLO pequeña "n" o "s" sobre WebGPU.
¿Qué arquitectura de detección se usa — YOLO, SSD, EfficientDet o DETR?
El predeterminado es YOLOv8 (nano o small) en formato ONNX, un detector CNN sin anclas de un solo disparo que predice probabilidades de clase y coordenadas del cuadro en un único pase hacia adelante por imagen. YOLO sacrifica un poco de precisión por gran velocidad, esencial en el navegador. SSD-MobileNet está disponible como alternativa más ligera (menor mAP, más rápido en móviles modestos). EfficientDet-Lite es una opción TensorFlow.js con mejor curva precisión/cómputo en COCO. DETR (DEtection TRansformer) es de nivel investigación y aún no práctico en navegador por tamaño del modelo y latencia. Para la mayoría de usos, YOLOv8n a 640x640 con WebGPU es el punto dulce — unos 6 MB en INT8, tiempo real, 37+ mAP en COCO.
¿Qué es la cuantización INT8 para un detector y afecta a la precisión?
La cuantización convierte los pesos de flotantes de 32 bits a enteros de 8 bits, encogiendo el archivo 4x (un YOLOv8n baja de unos 12 MB FP32 a aproximadamente 3 MB INT8) y duplicando la velocidad de inferencia en CPU. Para detección en COCO, INT8 dinámico normalmente pierde 0.5-1.5 mAP — invisible en imágenes cotidianas pero medible en suites de benchmark. INT8 por canal con calibración pierde aún menos. INT8 también habilita aceleración WebNN/NPU en dispositivos compatibles (Snapdragon reciente, Neural Engine de Apple). El backend ONNX Runtime Web wasm-simd maneja la decuantización en tiempo de ejecución.
