Generador de Subtítulos de Imagen con IA
Generador gratuito de descripciones con IA, sin conexión, con el modelo vit-gpt2-image-captioning. Texto alternativo y 3 sugerencias, sin subir nada.
Acerca del Generador de Subtítulos de Imagen con IA
El Generador de Subtítulos de Imagen con IA mira una fotografía y escribe una frase en español natural que describe lo que ve, como "un perro marrón corriendo por la hierba" o "un plato de pasta con salsa roja sobre una mesa de madera". Utiliza el modelo de visión-lenguaje de código abierto vit-gpt2-image-captioning (un codificador de imagen ViT con un decodificador de texto GPT-2) entrenado con millones de pares de imagen y descripción, de modo que aprendió la relación entre las características visuales (bordes, colores, objetos, escenas) y las descripciones que escriben las personas. El modelo se ejecuta completamente dentro de tu pestaña del navegador gracias al runtime Transformers.js de Hugging Face, con backend WebGPU cuando está disponible y un respaldo WebAssembly en otros casos, lo que significa que tu imagen nunca se sube a ningún servidor. Los usos típicos incluyen redactar texto alternativo para accesibilidad y SEO, nombrar y etiquetar grandes bibliotecas de fotos, crear subtítulos iniciales para redes sociales, ayudar a personas con baja visión a explorar imágenes y asistir a moderadores de contenido que necesitan una pista textual rápida sobre lo que muestra una foto. La primera llamada descarga los pesos del modelo (alrededor de 250 MB) en la caché del navegador, por lo que las descripciones siguientes tardan solo un par de segundos. La calidad es mejor en escenas cotidianas, animales, comida, objetos y exteriores; el arte abstracto, los gráficos y las imágenes con mucho texto son más difíciles y pueden producir descripciones genéricas. Consulta también nuestro Extractor de palabras clave IA y Traductor IA.
¿Qué hace exactamente el Generador de Subtítulos de Imagen con IA?
La herramienta lee una imagen que tú subes, la pasa por una red neuronal profunda que combina un codificador de visión ViT con un decodificador de lenguaje GPT-2 (el modelo vit-gpt2-image-captioning) y devuelve una descripción de una frase de la imagen. El modelo se entrenó con millones de pares de imagen y descripción extraídos de la web pública, así que aprendió conceptos visuales (perro, playa, pizza, computadora) y los patrones de frase típicos que las personas usan para describir escenas ("un X haciendo Y en/sobre Z"). El resultado es corto, factual y funciona bien como texto alternativo, como descripción SEO o como punto de partida para una descripción más larga. No inventa historias, no nombra a personas específicas ni lee el texto que aparece dentro de la imagen.
¿Qué tipos de archivo se aceptan y cuál es el tamaño máximo?
Se acepta cualquier formato que tu navegador pueda decodificar: JPG, JPEG, PNG, GIF (el primer fotograma), BMP, WebP y la mayoría de archivos HEIC en macOS / iOS Safari. No hay límite fijo de servidor porque nada se sube, pero en la práctica archivos superiores a 20 MB o fotos de más de 4000 píxeles por lado pueden ralentizar la decodificación en móviles. El modelo redimensiona internamente la entrada a 224 x 224 o 384 x 384 antes de generar la descripción, así que una fuente de mayor resolución no mejora la calidad. Para mejores resultados, usa una imagen bien iluminada, enfocada y con el sujeto principal ocupando al menos el 20% del cuadro.
¿Mi imagen se sube a un servidor? ¿Qué tan privada es esta herramienta?
Tu imagen nunca se envía a ningún servidor. La foto se decodifica en un elemento Canvas dentro de la página, los pesos del modelo se descargan una vez desde una CDN pública (jsDelivr / Hugging Face) y la inferencia se ejecuta totalmente en tu CPU o GPU mediante WebAssembly o WebGPU. Puedes verificarlo en la pestaña Red de las DevTools del navegador: una vez cargados los archivos del modelo, generar más descripciones no produce ninguna petición nueva. Esto hace que la herramienta sea segura para fotos personales, imágenes médicas, fotos familiares de niños y capturas confidenciales de empresa. Cuando el modelo está en la caché del navegador, la herramienta también funciona totalmente sin conexión.
¿Cuánto tarda la primera descripción y por qué?
La primera vez que pulses Generar, el navegador debe descargar unos 250 MB de pesos del modelo desde la CDN y compilarlos para WebGPU o WebAssembly. En una conexión doméstica rápida esto tarda entre 30 y 90 segundos; en redes móviles más lentas puede ser de 2 a 3 minutos. Después los pesos viven en la caché del navegador y el modelo permanece en memoria, así que las siguientes descripciones suelen terminar en 1 a 4 segundos en un portátil moderno con WebGPU y en 5 a 15 segundos con el respaldo WebAssembly solo CPU. Si recargas la página la caché se reutiliza, pero un perfil de navegador nuevo o una caché borrada provocarán una descarga fresca.

¿Qué navegadores y dispositivos funcionan mejor?
La herramienta funciona en todos los navegadores modernos: Chrome 113+, Edge 113+, Firefox (solo WASM por ahora) y Safari 17+. La aceleración WebGPU está mejor soportada hoy en Chrome y Edge en escritorio y en teléfonos Android recientes; Safari tiene soporte experimental que debes activar en Develop > Funciones Experimentales. En iOS y Android antiguos la herramienta cae a WebAssembly, que sigue funcionando pero es más lento. Un portátil o sobremesa con al menos 8 GB de RAM ofrece la mejor experiencia, ya que el modelo y los tensores intermedios usan en conjunto cerca de 1 GB. Móviles antiguos con poca RAM pueden no ser capaces de cargar el modelo.
¿Por qué obtuve una descripción vaga y cómo mejorarla?
Los modelos de subtitulado funcionan mejor en escenas comunes y bien fotografiadas: exteriores, comida, animales, deportes, vehículos y personas haciendo actividades cotidianas. Tienen dificultades con arte abstracto, capturas de gráficos o texto, collages muy editados y ángulos inusuales. Si obtienes una descripción genérica como "una foto de algo", intenta un recorte más claro donde el sujeto principal llene el cuadro, mejora la iluminación o reduce el desorden visual. El modelo tampoco puede leer las palabras que aparecen dentro de una imagen (para eso usa la herramienta OCR / Imagen a Texto) ni identificar a personas o marcas concretas, por diseño y privacidad. Para descripciones multilingües, traduce el resultado en inglés; los pesos originales de vit-gpt2-image-captioning son solo en inglés.
¿Qué tan preciso es y cuándo debo editar la descripción antes de usarla?
El modelo vit-gpt2-image-captioning, que se ejecuta en tu dispositivo, produce una sola frase corta y genérica en inglés que suele ser correcta, pero no siempre. Trata su salida como un borrador, no como una respuesta final. Limitaciones concretas: no hace OCR, así que no transcribe texto, carteles, logotipos ni números de la imagen; no identifica personas, marcas ni lugares concretos; es solo en inglés y tiende a producir una única frase descriptiva sencilla en lugar de un texto rico y con contexto. Para trabajos de accesibilidad y cumplimiento (texto alternativo WCAG, requisitos gubernamentales o de comercio electrónico), revisa y edita siempre la sugerencia: añade el propósito de la imagen, cualquier texto que contenga y el contexto que el modelo no puede ver. La herramienta acelera la redacción de texto alternativo y descripciones SEO, pero no sustituye a una persona en contextos regulados o de alto riesgo.
¿Puedo obtener varias sugerencias de descripción o controlar su longitud?
Sí. Antes de pulsar Generar puedes elegir cuántas sugerencias producir (1, 3 o 5) y un preajuste de longitud: Corta para un texto alternativo compacto, Media para una descripción equilibrada o Larga para una frase más descriptiva. Pedir más de una sugerencia ejecuta búsqueda por haces (beam search) en el mismo modelo, devuelve varias redacciones distintas y las muestra como filas en las que puedes hacer clic; al pulsar cualquiera se carga en el cuadro de descripción editable para que puedas copiarla, descargarla o refinarla. Es ideal para profesionales que etiquetan bibliotecas de fotos o redactan texto alternativo y quieren elegir la mejor redacción en una sola pasada en lugar de repetir el proceso. Todo sigue ejecutándose localmente en el modelo vit-gpt2 del navegador, así que generar sugerencias extra no descarga pesos adicionales ni envía nada a un servidor.
