Détecteur de Langue

Détecteur de langue instantané dans le navigateur. Identifiez la langue de tout texte avec codes ISO 639-3, scores et export JSON/CSV. Sans envoi de données.

Vous avez des commentaires ? Signalez des bugs, suggérez des fonctionnalités ou partagez vos idées — nous lisons tout

À propos du Détecteur de Langue

Ce Détecteur de Langue identifie la langue de tout texte avec franc, un algorithme statistique léger basé sur les trigrammes de caractères, qui s'exécute entièrement dans votre navigateur. Il compare la distribution des séquences de trois caractères (trigrammes) de votre texte à des profils de trigrammes d'environ 80+ langues et renvoie une liste classée avec des scores de correspondance normalisés.

Il n'y a ni réseau de neurones, ni téléchargement de modèle, ni requête serveur — franc est une bibliothèque JavaScript pur de ~40Ko qui se charge une fois avec la page et s'exécute instantanément et hors ligne. L'outil renvoie des codes standard ISO 639-3 (plus ISO 639-1 quand il existe), affiche une barre de confiance par candidat et vous permet de copier les résultats classés en JSON ou de les télécharger en CSV pour alimenter vos pipelines de localisation et autres outils.

Comment ce détecteur de langue fonctionne-t-il en interne ?

Il utilise franc, un détecteur statistique par trigrammes (n-grammes) de caractères. Le texte est découpé en séquences chevauchantes de trois caractères, et le profil de fréquences obtenu est comparé à des profils précalculés pour chaque langue prise en charge. Le profil le plus proche l'emporte. C'est une méthode purement statistique, sans dictionnaire — rapide, minuscule et indépendante de la langue — pas un réseau de neurones ni un modèle d'IA. Tout s'exécute de façon synchrone dans le navigateur, sans téléchargement et sans dépendance WebGPU/WASM.

Ce détecteur envoie-t-il mon texte à un serveur ?

Non. franc est une bibliothèque JavaScript pur de ~40Ko qui se charge une fois avec la page et s'exécute localement ; il n'y a ni appel serveur ni téléchargement de modèle lors de la détection. Vous pouvez le vérifier en ouvrant les DevTools, en passant dans l'onglet Network et en confirmant qu'aucune requête ne part lorsque vous cliquez sur Détecter. L'outil est ainsi sûr pour des e-mails confidentiels, des brouillons, des preuves juridiques ou tout contenu privé dont vous voulez seulement connaître la langue.

Que signifie réellement le score de correspondance / pourcentage de confiance ?

franc renvoie un score normalisé entre 0 et 1 pour chaque candidat, où 1 est la meilleure correspondance possible et la valeur la plus élevée est la langue la plus probable. L'outil le renomme et l'affiche en pourcentage avec une barre — plus c'est haut, mieux c'est. Le premier résultat est la langue la plus probable. Quand les deux premiers scores sont proches (à moins d'environ 10 points), considérez le résultat comme ambigu ; cela arrive avec des langues apparentées comme espagnol vs portugais, norvégien vs danois ou indonésien vs malais, et avec des entrées très courtes.

À quel point mon texte peut-il être court tout en obtenant une détection précise ?

La détection par trigrammes a besoin d'assez de caractères pour former un profil stable. franc ignore les entrées plus courtes que sa longueur minimale et renvoie un résultat « indéterminé », que cet outil affiche comme un avis clair plutôt qu'une supposition faussement confiante. Pour des résultats fiables, collez au moins une phrase complète (environ 30 à 100+ caractères). Les chaînes très courtes, noms propres ou mots isolés sont ambigus même pour des humains et peuvent être signalés comme indéterminés ou avec des scores faibles et proches — surveillez donc la liste classée, pas seulement le premier choix.

Détecteur de Langue — Détecteur de langue instantané dans le navigateur. Identifiez la langue de tout texte avec codes ISO 639-3, scores et ex — **Détecteur de Langue**

Pourquoi les résultats utilisent-ils des codes ISO 639-3 à trois lettres comme « eng » et « cmn » ?

franc identifie les langues avec l'ISO 639-3, la norme à trois lettres capable de nommer bien plus de langues que l'ensemble à deux lettres ISO 639-1. Anglais est « eng », chinois mandarin est « cmn », vietnamien est « vie ». Lorsqu'un équivalent à deux lettres ISO 639-1 existe (en, zh, vi), l'outil l'affiche aussi, pour que vous choisissiez le code attendu par votre framework i18n ou votre base de données. Le JSON exporté inclut iso639_3 et iso639_1 ainsi que le nom lisible, sans mappage manuel.

Combien de langues franc-min prend-il en charge ici ?

Cet outil charge franc-min, la version compacte qui couvre environ les 80+ langues les plus courantes (le paquet complet franc en gère 400+). Il traite toutes les langues européennes largement utilisées, le CJK (chinois, japonais, coréen), l'arabe, l'hindi, le bengali, le tamoul, le télougou, le thaï, le vietnamien, l'indonésien, le turc, le persan, l'hébreu et de nombreuses langues régionales. Chaque candidat est renvoyé avec son code ISO, son nom natif et son score normalisé, pour que vous résolviez les cas ambigus ou mixtes.

Puis-je exporter le classement pour un pipeline ou un tableur ?

Oui — c'est la principale fonctionnalité pro. Après la détection, l'outil affiche le détail complet classé avec des barres de confiance puis propose Copier le JSON et Télécharger le CSV. L'objet JSON inclut input_length, word_count, un horodatage ISO generated_at et un tableau detected de {rank, iso639_3, iso639_1, name, score, confidence_pct}. Le CSV utilise l'en-tête rank,iso639_3,iso639_1,name,confidence_pct. Les deux sont produits entièrement dans le navigateur via un téléchargement Blob, donc rien n'est envoyé.

Pourquoi confond-il parfois le chinois, le japonais et le coréen ?

La détection CJK est délicate parce que les kanji japonais et les hanzi chinois partagent des milliers de caractères, et qu'une courte phrase japonaise écrite uniquement en kanji peut ressembler statistiquement au chinois. Hiragana, katakana et hangul sont propres à une seule langue chacun, donc même un seul caractère incline résolument franc vers le japonais ou le coréen. Les entrées plus longues et à écriture mixte sont presque toujours bien résolues. Pour des chaînes très courtes uniquement en kanji, vérifiez si les deux premiers candidats (cmn vs jpn) sont proches en score avant de vous fier au meilleur choix.

Voir aussi

OUTILS IA33

WUTOOLS