Detector de Idioma

Detector de idioma instantâneo no navegador. Identifique o idioma de qualquer texto com códigos ISO 639-3, pontuações e exportação JSON/CSV. Sem enviar nada.

Tem feedback? Reporte bugs, sugira recursos ou compartilhe suas ideias — lemos todos

Sobre o Detector de Idioma

Este Detector de Idioma identifica o idioma de qualquer texto usando o franc, um algoritmo estatístico leve baseado em trigramas de caracteres que roda inteiramente no seu navegador. Ele compara a distribuição das sequências de três caracteres (trigramas) do seu texto com perfis de trigramas de cerca de 80+ idiomas e retorna uma lista ordenada com pontuações de correspondência normalizadas.

Não há rede neural, download de modelo ou requisição ao servidor — o franc é uma biblioteca de JavaScript puro de ~40KB que carrega uma vez com a página e roda na hora e offline. A ferramenta retorna códigos padrão ISO 639-3 (mais ISO 639-1 quando existe), mostra uma barra de confiança por candidato e permite copiar os resultados ordenados como JSON ou baixá-los como CSV para alimentar pipelines de localização e outras ferramentas.

Como este detector de idioma funciona por dentro?

Ele usa o franc, um detector estatístico por trigramas (n-gramas) de caracteres. O texto é dividido em sequências sobrepostas de três caracteres, e o perfil de frequências resultante é comparado a perfis pré-calculados de cada idioma suportado. O perfil mais próximo vence. É um método puramente estatístico, sem dicionário — rápido, minúsculo e independente de idioma — não uma rede neural ou modelo de IA. Tudo roda de forma síncrona no navegador, sem downloads e sem dependência de WebGPU/WASM.

Este detector envia meu texto para algum servidor?

Não. O franc é uma biblioteca de JavaScript puro de ~40KB que carrega uma vez com a página e roda localmente; não há chamada ao servidor nem download de modelo na detecção. Você pode verificar abrindo o DevTools, indo na aba Network e confirmando que clicar em Detectar não dispara nenhuma requisição. Isso torna a ferramenta segura para e-mails confidenciais, rascunhos, provas jurídicas ou qualquer conteúdo privado em que você só precisa saber qual o idioma.

O que a pontuação de correspondência / porcentagem de confiança significa de fato?

O franc retorna uma pontuação normalizada entre 0 e 1 para cada candidato, onde 1 é a melhor correspondência possível e o valor mais alto é o idioma mais provável. A ferramenta renomeia e exibe isso como porcentagem com uma barra — maior é melhor. O primeiro resultado é o idioma mais provável. Quando as duas primeiras pontuações estão próximas (menos de ~10 pontos), trate o resultado como ambíguo; ocorre com idiomas aparentados como espanhol vs português, norueguês vs dinamarquês ou indonésio vs malaio, e com entradas muito curtas.

Qual o tamanho mínimo do texto para uma detecção precisa?

A detecção por trigramas precisa de caracteres suficientes para formar um perfil estável. O franc ignora entradas menores que seu comprimento mínimo e retorna um resultado 'indeterminado', que esta ferramenta mostra como um aviso claro em vez de um palpite falsamente confiante. Para resultados confiáveis, cole ao menos uma frase inteira (cerca de 30 a 100+ caracteres). Strings muito curtas, nomes próprios ou palavras isoladas são ambíguas até para humanos e podem ser marcadas como indeterminadas ou com pontuações baixas e próximas — então observe a lista ordenada, não só o primeiro palpite.

Detector de Idioma — Detector de idioma instantâneo no navegador. Identifique o idioma de qualquer texto com códigos ISO 639-3, pontuações e — **Detector de Idioma**

Por que os resultados usam códigos ISO 639-3 de três letras como 'eng' e 'cmn'?

O franc identifica idiomas usando o ISO 639-3, o padrão de três letras capaz de nomear muito mais idiomas que o de duas letras ISO 639-1. Inglês é 'eng', chinês mandarim é 'cmn', vietnamita é 'vie'. Onde existe um equivalente de duas letras ISO 639-1 (en, zh, vi), a ferramenta também o mostra, para você escolher o código que seu framework de i18n ou banco de dados espera. O JSON exportado inclui iso639_3 e iso639_1 mais o nome legível, sem mapeamento manual.

Quantos idiomas o franc-min suporta aqui?

Esta ferramenta carrega o franc-min, a build compacta que cobre cerca dos 80+ idiomas mais comuns (o pacote completo franc suporta 400+). Ele lida com todos os idiomas europeus amplamente usados, CJK (chinês, japonês, coreano), árabe, hindi, bengali, tâmil, telugo, tailandês, vietnamita, indonésio, turco, persa, hebraico e muitos idiomas regionais. Cada candidato é retornado com seu código ISO, nome nativo e pontuação normalizada, para você resolver casos ambíguos ou mistos.

Posso exportar o ranking para um pipeline ou planilha?

Sim — esse é o principal recurso profissional. Após a detecção, a ferramenta mostra o detalhamento completo ordenado com barras de confiança e oferece Copiar JSON e Baixar CSV. O objeto JSON inclui input_length, word_count, um carimbo ISO generated_at e um array detected de {rank, iso639_3, iso639_1, name, score, confidence_pct}. O CSV usa o cabeçalho rank,iso639_3,iso639_1,name,confidence_pct. Ambos são produzidos inteiramente no navegador via download Blob, então nada é enviado.

Por que às vezes confunde chinês, japonês e coreano?

A detecção CJK é complicada porque kanji japoneses e hanzi chineses compartilham milhares de caracteres, e uma frase japonesa curta escrita só com kanji pode se parecer estatisticamente com chinês. Hiragana, katakana e hangul são exclusivos de um idioma cada, então até um único caractere inclina o franc decisivamente para o japonês ou coreano. Entradas mais longas e de escrita mista quase sempre são resolvidas corretamente. Em strings muito curtas só com kanji, verifique se os dois primeiros candidatos (cmn vs jpn) estão próximos em pontuação antes de confiar no melhor palpite.

Veja também

FERRAMENTAS DE IA33

WUTOOLS