Gerador de Legendas de Imagem com IA

Gerador grátis de descrições de imagem com IA. Envie qualquer foto e receba uma descrição em linguagem natural. Roda localmente no navegador, sem upload.

AI Usa um modelo de visão-linguagem de código aberto rodando 100% no seu navegador. A primeira execução baixa cerca de 250 MB (depois fica em cache).
Detectando hardware...
Upload
Arraste e solte uma imagem aqui, ou clique para procurar
Aceita JPG, PNG, GIF, BMP, WebP
Solte um arquivo JPG, PNG, GIF, BMP ou WebP (até ~20 MB)

Sobre o Gerador de Legendas de Imagem com IA

O Gerador de Legendas de Imagem com IA olha para uma fotografia e escreve uma frase em inglês natural descrevendo o que vê, como "a brown dog running through tall grass" ou "a plate of pasta with red sauce on a wooden table". Ele utiliza um modelo de visão-linguagem de código aberto da família BLIP / ViT-GPT2 treinado em milhões de pares de imagem e legenda, aprendendo a relação entre características visuais (arestas, cores, objetos, cenas) e as descrições típicas escritas por humanos. O modelo é executado totalmente dentro da aba do navegador através do runtime Transformers.js da Hugging Face, com backend WebGPU quando disponível e WebAssembly em outros casos, o que significa que sua imagem nunca é enviada para nenhum servidor. Usos comuns incluem redigir texto alternativo para acessibilidade e SEO, nomear e marcar grandes bibliotecas de fotos, criar rascunhos de legendas para redes sociais, ajudar pessoas com baixa visão a explorar imagens e auxiliar moderadores de conteúdo que precisam de uma pista textual rápida sobre o que uma foto contém. A primeira chamada baixa os pesos do modelo (cerca de 250 MB) para o cache do navegador, então as legendas seguintes levam apenas alguns segundos. A qualidade é melhor em cenas cotidianas, animais, comida, objetos e fotos externas; arte abstrata, gráficos e imagens com muito texto são mais difíceis e podem gerar legendas genéricas.

O que o Gerador de Legendas de Imagem com IA realmente faz?

A ferramenta lê uma imagem que você envia, passa por uma rede neural profunda que combina um codificador de visão (ViT ou BLIP) com um decodificador de linguagem (estilo GPT-2) e retorna uma descrição de uma frase. O modelo foi treinado em milhões de pares imagem-legenda extraídos da web pública, então aprendeu conceitos visuais (cachorro, praia, pizza, computador) e os padrões de frase típicos que humanos usam para descrever cenas ("a X doing Y in/on Z"). O resultado é curto, factual e funciona bem como texto alternativo, descrição SEO ou ponto de partida para uma legenda mais longa. Não inventa histórias, não nomeia pessoas específicas e não lê o texto dentro da imagem.

Quais tipos de arquivo são aceitos e qual o tamanho máximo?

Qualquer formato que seu navegador consiga decodificar: JPG, JPEG, PNG, GIF (apenas o primeiro quadro), BMP, WebP e a maior parte dos HEIC no macOS / iOS Safari. Não há limite fixo de servidor porque nada é enviado, mas na prática arquivos acima de 20 MB ou fotos com mais de 4000 px em um lado podem deixar a decodificação lenta no celular. O modelo redimensiona internamente para 224 x 224 ou 384 x 384 antes de gerar a legenda, então uma fonte de maior resolução não melhora a qualidade. Para melhores resultados, use uma imagem bem iluminada, em foco e com o assunto principal ocupando ao menos 20% do enquadramento.

Minha imagem é enviada a algum servidor? Qual a privacidade?

Sua imagem nunca é enviada para nenhum servidor. A foto é decodificada em um elemento Canvas dentro da página, os pesos do modelo são baixados uma única vez de uma CDN pública (jsDelivr / Hugging Face) e a inferência roda inteiramente na sua CPU ou GPU através de WebAssembly ou WebGPU. Você pode verificar isso na aba Rede do DevTools do navegador: depois que os arquivos do modelo carregam, gerar mais legendas não cria nenhuma nova requisição. Isso torna a ferramenta segura para fotos pessoais, imagens médicas, fotos de família com crianças e capturas confidenciais de empresa. Com o modelo no cache, a ferramenta também funciona totalmente offline.

Gerador de Legendas de Imagem com IA — Gerador grátis de descrições de imagem com IA. Envie qualquer foto e receba uma descrição em linguagem natural. Roda loc
Gerador de Legendas de Imagem com IA

Quanto demora a primeira legenda e por quê?

Na primeira vez que você clicar em Gerar, o navegador precisa baixar cerca de 250 MB de pesos do modelo da CDN e compilar para WebGPU ou WebAssembly. Em uma conexão doméstica rápida isso leva 30 a 90 segundos; em redes móveis mais lentas, 2 a 3 minutos. Depois disso os pesos ficam no cache do navegador e o modelo em memória, então as legendas seguintes terminam em 1 a 4 segundos em um laptop moderno com WebGPU e em 5 a 15 segundos no modo WebAssembly apenas com CPU. Recarregar a página reaproveita o cache, mas um perfil novo ou cache limpo provocam novo download.

Quais navegadores e dispositivos funcionam melhor?

A ferramenta roda em todos os navegadores modernos: Chrome 113+, Edge 113+, Firefox (somente WASM por enquanto) e Safari 17+. A aceleração WebGPU é melhor suportada hoje em Chrome e Edge no desktop e em celulares Android recentes; o Safari tem suporte experimental que precisa ser ativado em Develop > Recursos Experimentais. Em iOS e Android antigos, a ferramenta cai para WebAssembly, que ainda funciona, mas é mais lento. Um laptop ou desktop com ao menos 8 GB de RAM dá a melhor experiência, pois o modelo e os tensores intermediários juntos usam cerca de 1 GB. Celulares antigos com pouca RAM podem não conseguir carregar o modelo.

Por que recebi uma legenda vaga e como melhorar?

Modelos de legendagem funcionam melhor em cenas comuns e bem fotografadas: ambientes externos, comida, animais, esportes, veículos e pessoas em atividades cotidianas. Eles têm dificuldade com arte abstrata, capturas de gráficos ou texto, colagens muito editadas e ângulos incomuns. Se receber uma legenda genérica como "a picture of something", tente um corte mais claro onde o assunto principal preencha o quadro, melhore a iluminação ou reduza a poluição visual. O modelo também não lê palavras dentro da imagem (use a ferramenta OCR / Imagem para Texto para isso) e não identifica pessoas ou marcas específicas, por design e privacidade. Para legendas multilíngues, traduza a saída em inglês; os pesos originais BLIP / ViT-GPT2 são apenas em inglês.