Generador de Subtítulos de Imagen con IA

Generador gratuito de descripciones de imágenes con IA. Sube cualquier foto y obtén una descripción en lenguaje natural. Funciona localmente en tu navegador.

AI Funciona con un modelo de visión-lenguaje de código abierto 100% en tu navegador. La primera ejecución descarga unos 250 MB (luego en caché).
Detectando hardware...
Upload
Arrastra y suelta una imagen aquí, o haz clic para buscar
Acepta JPG, PNG, GIF, BMP, WebP
Suelta un archivo JPG, PNG, GIF, BMP o WebP (hasta ~20 MB)

Acerca del Generador de Subtítulos de Imagen con IA

El Generador de Subtítulos de Imagen con IA mira una fotografía y escribe una frase en español natural que describe lo que ve, como "un perro marrón corriendo por la hierba" o "un plato de pasta con salsa roja sobre una mesa de madera". Utiliza un modelo de visión-lenguaje de código abierto de la familia BLIP / ViT-GPT2 que fue entrenado con millones de pares de imagen y descripción, de modo que aprendió la relación entre las características visuales (bordes, colores, objetos, escenas) y las descripciones que escriben las personas. El modelo se ejecuta completamente dentro de tu pestaña del navegador gracias al runtime Transformers.js de Hugging Face, con backend WebGPU cuando está disponible y un respaldo WebAssembly en otros casos, lo que significa que tu imagen nunca se sube a ningún servidor. Los usos típicos incluyen redactar texto alternativo para accesibilidad y SEO, nombrar y etiquetar grandes bibliotecas de fotos, crear subtítulos iniciales para redes sociales, ayudar a personas con baja visión a explorar imágenes y asistir a moderadores de contenido que necesitan una pista textual rápida sobre lo que muestra una foto. La primera llamada descarga los pesos del modelo (alrededor de 250 MB) en la caché del navegador, por lo que las descripciones siguientes tardan solo un par de segundos. La calidad es mejor en escenas cotidianas, animales, comida, objetos y exteriores; el arte abstracto, los gráficos y las imágenes con mucho texto son más difíciles y pueden producir descripciones genéricas.

¿Qué hace exactamente el Generador de Subtítulos de Imagen con IA?

La herramienta lee una imagen que tú subes, la pasa por una red neuronal profunda que combina un codificador de visión (ViT o BLIP) con un decodificador de lenguaje (estilo GPT-2) y devuelve una descripción de una frase de la imagen. El modelo se entrenó con millones de pares de imagen y descripción extraídos de la web pública, así que aprendió conceptos visuales (perro, playa, pizza, computadora) y los patrones de frase típicos que las personas usan para describir escenas ("un X haciendo Y en/sobre Z"). El resultado es corto, factual y funciona bien como texto alternativo, como descripción SEO o como punto de partida para una descripción más larga. No inventa historias, no nombra a personas específicas ni lee el texto que aparece dentro de la imagen.

¿Qué tipos de archivo se aceptan y cuál es el tamaño máximo?

Se acepta cualquier formato que tu navegador pueda decodificar: JPG, JPEG, PNG, GIF (el primer fotograma), BMP, WebP y la mayoría de archivos HEIC en macOS / iOS Safari. No hay límite fijo de servidor porque nada se sube, pero en la práctica archivos superiores a 20 MB o fotos de más de 4000 píxeles por lado pueden ralentizar la decodificación en móviles. El modelo redimensiona internamente la entrada a 224 x 224 o 384 x 384 antes de generar la descripción, así que una fuente de mayor resolución no mejora la calidad. Para mejores resultados, usa una imagen bien iluminada, enfocada y con el sujeto principal ocupando al menos el 20% del cuadro.

¿Mi imagen se sube a un servidor? ¿Qué tan privada es esta herramienta?

Tu imagen nunca se envía a ningún servidor. La foto se decodifica en un elemento Canvas dentro de la página, los pesos del modelo se descargan una vez desde una CDN pública (jsDelivr / Hugging Face) y la inferencia se ejecuta totalmente en tu CPU o GPU mediante WebAssembly o WebGPU. Puedes verificarlo en la pestaña Red de las DevTools del navegador: una vez cargados los archivos del modelo, generar más descripciones no produce ninguna petición nueva. Esto hace que la herramienta sea segura para fotos personales, imágenes médicas, fotos familiares de niños y capturas confidenciales de empresa. Cuando el modelo está en la caché del navegador, la herramienta también funciona totalmente sin conexión.

Generador de Subtítulos de Imagen con IA — Generador gratuito de descripciones de imágenes con IA. Sube cualquier foto y obtén una descripción en lenguaje natural.
Generador de Subtítulos de Imagen con IA

¿Cuánto tarda la primera descripción y por qué?

La primera vez que pulses Generar, el navegador debe descargar unos 250 MB de pesos del modelo desde la CDN y compilarlos para WebGPU o WebAssembly. En una conexión doméstica rápida esto tarda entre 30 y 90 segundos; en redes móviles más lentas puede ser de 2 a 3 minutos. Después los pesos viven en la caché del navegador y el modelo permanece en memoria, así que las siguientes descripciones suelen terminar en 1 a 4 segundos en un portátil moderno con WebGPU y en 5 a 15 segundos con el respaldo WebAssembly solo CPU. Si recargas la página la caché se reutiliza, pero un perfil de navegador nuevo o una caché borrada provocarán una descarga fresca.

¿Qué navegadores y dispositivos funcionan mejor?

La herramienta funciona en todos los navegadores modernos: Chrome 113+, Edge 113+, Firefox (solo WASM por ahora) y Safari 17+. La aceleración WebGPU está mejor soportada hoy en Chrome y Edge en escritorio y en teléfonos Android recientes; Safari tiene soporte experimental que debes activar en Develop > Funciones Experimentales. En iOS y Android antiguos la herramienta cae a WebAssembly, que sigue funcionando pero es más lento. Un portátil o sobremesa con al menos 8 GB de RAM ofrece la mejor experiencia, ya que el modelo y los tensores intermedios usan en conjunto cerca de 1 GB. Móviles antiguos con poca RAM pueden no ser capaces de cargar el modelo.

¿Por qué obtuve una descripción vaga y cómo mejorarla?

Los modelos de subtitulado funcionan mejor en escenas comunes y bien fotografiadas: exteriores, comida, animales, deportes, vehículos y personas haciendo actividades cotidianas. Tienen dificultades con arte abstracto, capturas de gráficos o texto, collages muy editados y ángulos inusuales. Si obtienes una descripción genérica como "una foto de algo", intenta un recorte más claro donde el sujeto principal llene el cuadro, mejora la iluminación o reduce el desorden visual. El modelo tampoco puede leer las palabras que aparecen dentro de una imagen (para eso usa la herramienta OCR / Imagen a Texto) ni identificar a personas o marcas concretas, por diseño y privacidad. Para descripciones multilingües, traduce el resultado en inglés; los pesos BLIP / ViT-GPT2 originales son solo en inglés.