Gerador de Legendas de Imagem com IA
Gerador grátis de legendas com IA, offline e no navegador, com o modelo vit-gpt2-image-captioning. Receba texto alternativo e 3 sugestões, sem upload.
Sobre o Gerador de Legendas de Imagem com IA
O Gerador de Legendas de Imagem com IA olha para uma fotografia e escreve uma frase em inglês natural descrevendo o que vê, como "a brown dog running through tall grass" ou "a plate of pasta with red sauce on a wooden table". Ele utiliza o modelo de visão-linguagem de código aberto vit-gpt2-image-captioning (um codificador de imagem ViT com um decodificador de texto GPT-2) treinado em milhões de pares de imagem e legenda, aprendendo a relação entre características visuais (arestas, cores, objetos, cenas) e as descrições típicas escritas por humanos. O modelo é executado totalmente dentro da aba do navegador através do runtime Transformers.js da Hugging Face, com backend WebGPU quando disponível e WebAssembly em outros casos, o que significa que sua imagem nunca é enviada para nenhum servidor. Usos comuns incluem redigir texto alternativo para acessibilidade e SEO, nomear e marcar grandes bibliotecas de fotos, criar rascunhos de legendas para redes sociais, ajudar pessoas com baixa visão a explorar imagens e auxiliar moderadores de conteúdo que precisam de uma pista textual rápida sobre o que uma foto contém. A primeira chamada baixa os pesos do modelo (cerca de 250 MB) para o cache do navegador, então as legendas seguintes levam apenas alguns segundos. A qualidade é melhor em cenas cotidianas, animais, comida, objetos e fotos externas; arte abstrata, gráficos e imagens com muito texto são mais difíceis e podem gerar legendas genéricas. Veja também nosso Extrator de palavras-chave IA e Tradutor IA.
O que o Gerador de Legendas de Imagem com IA realmente faz?
A ferramenta lê uma imagem que você envia, passa por uma rede neural profunda que combina um codificador de visão ViT com um decodificador de linguagem GPT-2 (o modelo vit-gpt2-image-captioning) e retorna uma descrição de uma frase. O modelo foi treinado em milhões de pares imagem-legenda extraídos da web pública, então aprendeu conceitos visuais (cachorro, praia, pizza, computador) e os padrões de frase típicos que humanos usam para descrever cenas ("a X doing Y in/on Z"). O resultado é curto, factual e funciona bem como texto alternativo, descrição SEO ou ponto de partida para uma legenda mais longa. Não inventa histórias, não nomeia pessoas específicas e não lê o texto dentro da imagem.
Quais tipos de arquivo são aceitos e qual o tamanho máximo?
Qualquer formato que seu navegador consiga decodificar: JPG, JPEG, PNG, GIF (apenas o primeiro quadro), BMP, WebP e a maior parte dos HEIC no macOS / iOS Safari. Não há limite fixo de servidor porque nada é enviado, mas na prática arquivos acima de 20 MB ou fotos com mais de 4000 px em um lado podem deixar a decodificação lenta no celular. O modelo redimensiona internamente para 224 x 224 ou 384 x 384 antes de gerar a legenda, então uma fonte de maior resolução não melhora a qualidade. Para melhores resultados, use uma imagem bem iluminada, em foco e com o assunto principal ocupando ao menos 20% do enquadramento.
Minha imagem é enviada a algum servidor? Qual a privacidade?
Sua imagem nunca é enviada para nenhum servidor. A foto é decodificada em um elemento Canvas dentro da página, os pesos do modelo são baixados uma única vez de uma CDN pública (jsDelivr / Hugging Face) e a inferência roda inteiramente na sua CPU ou GPU através de WebAssembly ou WebGPU. Você pode verificar isso na aba Rede do DevTools do navegador: depois que os arquivos do modelo carregam, gerar mais legendas não cria nenhuma nova requisição. Isso torna a ferramenta segura para fotos pessoais, imagens médicas, fotos de família com crianças e capturas confidenciais de empresa. Com o modelo no cache, a ferramenta também funciona totalmente offline.
Quanto demora a primeira legenda e por quê?
Na primeira vez que você clicar em Gerar, o navegador precisa baixar cerca de 250 MB de pesos do modelo da CDN e compilar para WebGPU ou WebAssembly. Em uma conexão doméstica rápida isso leva 30 a 90 segundos; em redes móveis mais lentas, 2 a 3 minutos. Depois disso os pesos ficam no cache do navegador e o modelo em memória, então as legendas seguintes terminam em 1 a 4 segundos em um laptop moderno com WebGPU e em 5 a 15 segundos no modo WebAssembly apenas com CPU. Recarregar a página reaproveita o cache, mas um perfil novo ou cache limpo provocam novo download.

Quais navegadores e dispositivos funcionam melhor?
A ferramenta roda em todos os navegadores modernos: Chrome 113+, Edge 113+, Firefox (somente WASM por enquanto) e Safari 17+. A aceleração WebGPU é melhor suportada hoje em Chrome e Edge no desktop e em celulares Android recentes; o Safari tem suporte experimental que precisa ser ativado em Develop > Recursos Experimentais. Em iOS e Android antigos, a ferramenta cai para WebAssembly, que ainda funciona, mas é mais lento. Um laptop ou desktop com ao menos 8 GB de RAM dá a melhor experiência, pois o modelo e os tensores intermediários juntos usam cerca de 1 GB. Celulares antigos com pouca RAM podem não conseguir carregar o modelo.
Por que recebi uma legenda vaga e como melhorar?
Modelos de legendagem funcionam melhor em cenas comuns e bem fotografadas: ambientes externos, comida, animais, esportes, veículos e pessoas em atividades cotidianas. Eles têm dificuldade com arte abstrata, capturas de gráficos ou texto, colagens muito editadas e ângulos incomuns. Se receber uma legenda genérica como "a picture of something", tente um corte mais claro onde o assunto principal preencha o quadro, melhore a iluminação ou reduza a poluição visual. O modelo também não lê palavras dentro da imagem (use a ferramenta OCR / Imagem para Texto para isso) e não identifica pessoas ou marcas específicas, por design e privacidade. Para legendas multilíngues, traduza a saída em inglês; os pesos originais do vit-gpt2-image-captioning são apenas em inglês.
Qual a precisão e quando devo editar a legenda antes de usá-la?
O modelo vit-gpt2-image-captioning, que roda no seu dispositivo, produz uma única frase curta e genérica em inglês, muitas vezes correta, mas nem sempre. Trate a saída como um rascunho, não como resposta final. Limitações concretas: não faz OCR, então não transcreve texto, placas, logotipos ou números na imagem; não identifica pessoas, marcas ou lugares específicos; é apenas em inglês e tende a gerar uma frase descritiva simples em vez de um texto rico e contextual. Para trabalhos de acessibilidade e conformidade (texto alternativo WCAG, exigências governamentais ou de comércio eletrônico), sempre revise e edite a sugestão: acrescente o propósito da imagem, qualquer texto que ela contenha e o contexto que o modelo não consegue ver. A ferramenta acelera a escrita de texto alternativo e descrições SEO, mas não substitui uma pessoa em contextos regulados ou de alto risco.
Posso obter várias sugestões de legenda ou controlar o comprimento?
Sim. Antes de clicar em Gerar, você pode escolher quantas sugestões produzir (1, 3 ou 5) e uma predefinição de comprimento: Curta para texto alternativo compacto, Média para uma legenda equilibrada ou Longa para uma frase mais descritiva. Pedir mais de uma sugestão executa busca em feixe (beam search) no mesmo modelo, retorna várias formulações distintas e as lista como linhas clicáveis; clicar em qualquer linha a carrega na caixa de legenda editável para você copiar, baixar ou refinar. É ideal para profissionais que marcam bibliotecas de fotos ou escrevem texto alternativo e querem escolher a melhor formulação em uma única passada, em vez de repetir o processo. Tudo continua rodando localmente no modelo vit-gpt2 do navegador, então gerar sugestões extras não baixa pesos adicionais nem envia nada a um servidor.
