Prédicteur d'Âge et de Genre

Estimez l'âge et le genre d'une photo avec face-api.js exécuté dans votre navigateur — sans téléversement ni inscription. Détecte plusieurs visages, export.

Vous avez des commentaires ? Signalez des bugs, suggérez des fonctionnalités ou partagez vos idées — nous lisons tout

À propos du Prédicteur d'Âge et de Genre par IA

Ce Prédicteur d'Âge et de Genre estime l'âge apparent (en années) et le genre prédit de chaque visage dans une photo téléchargée. Il fonctionne entièrement sur votre appareil via face-api.js, un portage open source vers TensorFlow.js de modèles d'apprentissage profond établis pour la détection faciale et l'estimation d'attributs. Aucune donnée d'image n'est envoyée à un serveur : détection, embedding, régression d'âge et classification de genre s'exécutent en JavaScript dans votre navigateur. Après la première visite (~5 Mo de poids du modèle sont mis en cache), l'outil fonctionne hors ligne.

Utilisez-le pour de l'exploration ludique — deviner quel âge a un visage, démontrer la vision par ordinateur en classe, prototyper une fonctionnalité pour un projet personnel, ou vérifier qu'un dataset de photos a une démographie à peu près équilibrée. C'est un outil amusant et rapide qui vous donne un chiffre vite. Ce n'est pas un système d'authentification biométrique, ni un vérificateur d'identité, ni un contrôle d'âge pour contenu adulte, ni une preuve pour des décisions juridiques, médicales, d'emploi ou d'assurance. Considérez la sortie comme une estimation probabiliste d'un modèle entraîné sur un dataset fini qui hérite des biais de ce dataset.

L'outil détecte plusieurs visages dans une seule image et signale chacun avec une boîte englobante, un âge estimé en années et un libellé de genre prédit (homme / femme) accompagné d'un score de confiance. Les meilleurs résultats nécessitent des portraits frontaux bien éclairés où le visage occupe une part significative du cadre. Maquillage marqué, barbe, lunettes de soleil, masques, angles de profil, flou de mouvement, très basse résolution ou ombres prononcées dégradent la précision. Les bébés et jeunes enfants sont systématiquement surestimés par la plupart des modèles publics car les corpus d'entraînement penchent vers les adultes. Les personnes âgées (70+) sont souvent sous-estimées pour la même raison.

Sur l'éthique et les biais : face-api.js hérite des limites de ses données d'entraînement — principalement IMDB-WIKI pour l'âge et le genre — qui sur-représentent les adultes à peau claire, nord-américains/européens et photographiés professionnellement. NIST FRVT, MIT Media Lab Gender Shades et de nombreuses études académiques ont documenté des taux d'erreur systématiquement plus élevés pour les peaux foncées et les expressions de genre non binaires. La classification binaire homme/femme est elle-même une simplification grossière du genre humain réel. Nous proposons cet outil pour démystifier l'analyse faciale, pas pour autoriser des décisions sensibles concernant des personnes réelles. N'utilisez pas la sortie pour permettre ou refuser à quiconque l'accès à un service, des locaux, du contenu ou un droit.

La confidentialité est par conception et non par promesse : comme tout le code du modèle est livré au navigateur et que toute l'inférence s'exécute localement, les octets de votre image ne traversent jamais le réseau. La page est servie en HTTPS ; l'analyse standard n'enregistre que l'URL visitée, pas le contenu des photos. Nous ne stockons, ne journalisons, ne vendons ni ne partageons les images analysées. Fermer l'onglet efface toutes les données en mémoire.

Comment fonctionne la prédiction

L'inférence se déroule en trois étapes. Premièrement, détection faciale : face-api.js utilise un détecteur SSD MobileNetV1 entraîné sur WIDER FACE (et optionnellement un Tiny Face Detector pour les appareils à faibles ressources). Le détecteur produit des boîtes englobantes avec des scores de confiance ; une étape de non-maximum-suppression supprime les chevauchements. La bibliothèque prend aussi en charge MTCNN — une cascade à trois étages (P-Net, R-Net, O-Net) introduite par Zhang et al. (2016) — plus précise mais plus lente ; le modèle par défaut équilibre précision et vitesse pour l'exécution dans le navigateur.

Deuxièmement, alignement : chaque visage détecté est recadré et optionnellement aligné en prédisant 68 landmarks faciaux (yeux, bout du nez, coins de la bouche, mâchoire) afin que les yeux soient horizontaux. Aligner le visage améliore la prédiction d'attributs car le réseau de régression a été entraîné sur des recadrages alignés. Le détecteur de landmarks est un petit ConvNet entraîné sur iBUG 300-W.

Troisièmement, estimation d'attributs : le recadrage aligné passe par une dorsale d'extraction de caractéristiques partagée (style ResNet) suivie de deux têtes. La tête d'âge est une régression — elle produit directement un nombre en années, entraînée avec une erreur quadratique moyenne contre les étiquettes IMDB-WIKI (Rothe, Timofte & Van Gool, 2015–2018). La tête de genre est un classificateur binaire produisant la probabilité d'être femme ; nous indiquons l'étiquette la plus probable et son score softmax comme confiance. Les deux têtes partagent une dorsale inspirée de SSR-Net (Yang et al., 2018) suffisamment petite pour tourner couramment sur téléphone.

Les trois réseaux sont quantifiés en flottant 32 bits pour le runtime TensorFlow.js du navigateur. Ils tournent sur WebGL quand disponible (accéléré GPU) ou retombent sur CPU via WebAssembly. La taille totale des poids est de 5 à 10 Mo ; le navigateur met en cache les poids donc les visites répétées sont instantanées. L'inférence par visage prend 50 à 300 ms sur un ordinateur portable moderne, plus sur mobile. Tout le pipeline — détection, landmarks, attributs — est séquentiel, mais plusieurs visages dans une image sont traités dans une boucle serrée, pas en parallèle.

La boîte englobante renvoyée est en coordonnées de l'image originale, donc nous la dessinons directement sur un canvas superposé à l'image d'entrée. La valeur de régression d'âge est arrondie à l'entier le plus proche pour l'affichage. La confiance de genre est indiquée en pourcentage ; des valeurs proches de 50 % indiquent que le modèle est très peu sûr et que l'étiquette devrait être ignorée ou traitée comme « inconnue ».

Précision, limites et utilisation éthique

Sur des portraits adultes frontaux bien éclairés à résolution correcte, les estimations d'âge sont typiquement à ±5 à ±8 ans de l'âge réel, et la confiance de classification de genre au-dessus de 90 % est fiable au sens homme/femme pour lequel le modèle a été entraîné. Ces chiffres se dégradent nettement hors de cette enveloppe opérationnelle. L'article d'évaluation IMDB-WIKI rapporte une erreur absolue moyenne d'environ 3,5 ans pour le réseau DEX (Deep EXpectation) original sur son ensemble de test in-distribution ; les performances en conditions réelles sont moins bonnes. Considérez chaque prédiction individuelle comme une estimation, pas une mesure.

Plus important, la précision varie selon la démographie. Plusieurs audits évalués par des pairs — Gender Shades de Buolamwini & Gebru (2018), NIST FRVT 1:1 (en cours), Raji et al. (2020) — ont montré que les modèles d'analyse faciale entraînés sur des datasets occidentaux à peau claire produisent des taux d'erreur sensiblement plus élevés pour les femmes, les sujets à peau foncée, et les personnes dont la présentation de genre ne correspond pas à la norme binaire homme/femme. Ce ne sont pas de petites différences : des taux d'erreur de 35 % sont courants sur les groupes sous-représentés contre 1 % sur les groupes bien représentés dans certains systèmes commerciaux. face-api.js n'échappe pas à ces problèmes.

N'utilisez pas cet outil pour toute décision affectant les droits, opportunités, finances ou la sécurité d'une personne. Cela inclut — sans s'y limiter — la vérification d'âge pour l'achat d'alcool, de tabac ou de contenu adulte ; le contrôle d'accès à des services à restriction d'âge ; le filtrage de candidats à l'emploi ; la vérification d'identité pour des transactions financières ou juridiques ; le diagnostic ou triage médical ; le contrôle frontalier ; la surveillance, le profilage ou le maintien de l'ordre ; la publicité ciblée basée sur un genre inféré. Pour tout cas d'usage de ce type, vous avez besoin d'un système calibré, responsable et audité, pas d'une démo gratuite. Les auteurs de face-api.js, les articles originaux des modèles et WuTools déclinons explicitement toute pertinence pour ces usages.

Les estimations d'âge sont typiquement à ±5 à ±10 ans chez l'adulte ; bien plus large chez les enfants et seniors sous-représentés dans les données d'entraînement.
Le modèle produit une étiquette binaire homme/femme et ne peut représenter les identités non binaires, intersexes, transgenres ou fluides.
La précision se dégrade sur les peaux foncées, angles non frontaux, visages occultés (lunettes, masques, mains) et images en basse résolution ou mal éclairées.
Maquillage marqué, barbe, hijab, chirurgie ou traitements anti-âge peuvent décaler fortement les prédictions d'âge et de genre.
Les enfants de moins de 5 ans sont souvent estimés à 8–12 ans ; les adultes de plus de 70 ans souvent sous-estimés de 5 à 15 ans.
Les photos avec casques VR, occlusion partielle, vues de profil ou expressions extrêmes peuvent ne pas être détectées du tout.
L'outil ne peut pas faire correspondre la même personne sur deux photos — pour cela voyez notre Mètre de Similarité Faciale.
Les sorties ne conviennent pas à la vérification légale d'âge, l'identité biométrique, le filtrage d'emploi, le diagnostic médical ou les forces de l'ordre.

Glossaire

Détection faciale: Localiser où apparaissent les visages dans une image, généralement signalé par des boîtes englobantes avec scores de confiance. Distinct de la reconnaissance faciale, qui identifierait à qui appartient le visage.
Boîte englobante (bounding box): Rectangle donné comme (x, y, largeur, hauteur) qui entoure un visage détecté en coordonnées pixel d'image.
Landmark facial: Point anatomique précis sur le visage — coin externe de l'œil, bout du nez, coin de la bouche, point de la mâchoire. Cet outil utilise le schéma iBUG à 68 points pour aligner les visages avant la prédiction d'attributs.
Modèle de régression: Réseau de neurones produisant un nombre continu (ici, âge en années) plutôt qu'une étiquette de classe. Entraîné en minimisant l'erreur quadratique moyenne contre les âges de référence.
Modèle de classification: Réseau de neurones produisant une probabilité sur un ensemble fixe de catégories (ici deux : homme et femme). La confiance est le score softmax de la classe prédite.
Inférence du modèle: Faire tourner un réseau entraîné sur de nouvelles entrées pour produire des prédictions. Distinct de l'entraînement, qui est la phase d'apprentissage hors ligne. Cet outil ne fait que de l'inférence ; le modèle a été entraîné ailleurs sur IMDB-WIKI.
ONNX / TensorFlow.js: Runtimes pour exécuter des réseaux de neurones. ONNX est un format d'échange ouvert ; TensorFlow.js exécute des modèles en JavaScript, optionnellement accéléré par GPU via WebGL ou WebGPU. face-api.js utilise TensorFlow.js.
MTCNN: Multi-task Cascaded Convolutional Network. Algorithme de détection faciale de Zhang et al. (2016) qui exécute trois petits réseaux en séquence (P-Net, R-Net, O-Net) et prédit conjointement boîtes englobantes et cinq landmarks faciaux.

Foire aux Questions

Comment l'IA estime-t-elle mon âge ?

Elle exécute face-api.js (portage TensorFlow.js) dans votre navigateur. Après avoir localisé votre visage avec un détecteur SSD-MobileNet, elle aligne le recadrage à l'aide de 68 landmarks faciaux et le passe par un réseau de régression entraîné sur IMDB-WIKI pour produire un nombre — l'âge apparent en années. Tout le pipeline tourne hors ligne en JavaScript ; rien n'est téléversé.

Quelle est la précision de l'estimation d'âge ?

Sur des portraits adultes frontaux bien éclairés, l'erreur absolue moyenne publiée pour DEX/IMDB-WIKI est d'environ 3,5 ans sur les jeux de référence, et ±5 à ±10 ans est réaliste en conditions réelles. Enfants, seniors, angles de profil, basse résolution, maquillage marqué et personnes à peau plus foncée tendent à voir des erreurs plus grandes en raison du biais des données d'entraînement.

Peut-il détecter plusieurs visages ?

Oui. Le détecteur renvoie tous les visages au-dessus d'un seuil de confiance configurable ; chacun est traité indépendamment et reçoit sa propre boîte englobante, son estimation d'âge et son étiquette de genre. Pas de limite stricte, mais les très petits visages peuvent être manqués.

Mes photos sont-elles privées ?

Oui. Toute l'inférence se fait dans votre navigateur via TensorFlow.js. Les poids du réseau sont téléchargés une fois (~5 Mo, mis en cache) et l'inférence tourne localement sur le JPEG sélectionné. Les octets de votre image ne quittent jamais l'appareil. Nous ne stockons, ne journalisons ni ne partageons les photos.

Pourquoi le modèle ne renvoie-t-il que « homme » ou « femme » ?

Parce qu'il a été entraîné comme cela — IMDB-WIKI étiquette le genre comme attribut binaire. Nous reconnaissons que c'est une simplification grossière de l'identité de genre humaine et que nous ne pouvons pas détecter avec précision l'expression de genre non binaire, transgenre ou fluide. Considérez la sortie binaire comme une supposition du modèle basée sur les statistiques du jeu d'entraînement, pas comme un fait sur la personne.

Est-ce sûr pour la vérification d'âge ?

Non. N'utilisez pas cet outil pour contrôler l'accès à l'alcool, au tabac, aux jeux d'argent ou aux contenus pour adultes. Même au mieux, le modèle est à ±5–10 ans, et la vérification légale d'âge nécessite typiquement un système calibré, audité et approuvé par les régulateurs. NIST FRVT, ICO/UK et les orientations de l'EU AI Act mettent en garde contre l'utilisation d'analyse faciale clé-en-main pour la conformité.

Pourquoi le modèle se trompe sur ma photo ?

Causes courantes : (1) peaux foncées sous-représentées dans IMDB-WIKI ; (2) photo non frontale, floue ou en basse résolution ; (3) visage partiellement caché par des lunettes, un masque, des mains ou les cheveux ; (4) maquillage marqué, barbe, chirurgie esthétique ; (5) enfants et personnes très âgées s'écartent systématiquement. Essayez une autre photo et vérifiez que la boîte englobante est sur le bon visage.

Identifie-t-il qui est la personne ?

Non. Le modèle ne renvoie qu'une estimation numérique d'âge et une étiquette homme/femme. Il ne fait pas correspondre le visage à une base de données, ne recherche pas d'identité, ne reconnaît pas d'individus précis. Pour la mise en correspondance de visages voyez notre Mètre de Similarité Faciale — également entièrement hors ligne.

Quelle architecture de modèle est utilisée ?

Détection faciale : SSD MobileNetV1 (ou optionnellement Tiny Face Detector / MTCNN). Détection de landmarks : ConvNet à 68 points. Régression d'âge et classification de genre : dorsale partagée de la famille SSR-Net, entraînée sur IMDB-WIKI plus UTKFace. Tous les poids sont quantifiés pour TensorFlow.js dans le navigateur.

Prédicteur d'Âge et de Genre — Estimez l'âge et le genre d'une photo avec face-api.js exécuté dans votre navigateur — sans téléversement ni inscription — **Prédicteur d'Âge et de Genre**

Puis-je l'utiliser commercialement ?

L'outil est gratuit, mais face-api.js est sous licence MIT et les articles originaux des modèles ont leurs propres notes d'usage. Plus important, déployer un système d'analyse faciale dans un produit déclenche presque toujours le RGPD (UE), la CCPA (Californie) et l'Illinois BIPA — lois biométriques — même si tout est local. Consultez un conseil juridique avant de lancer un produit basé sur cela.

Références et sources académiques

Zhang, K., Zhang, Z., Li, Z., & Qiao, Y.. (2016). Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks (MTCNN) IEEE Signal Processing Letters.
Rothe, R., Timofte, R., & Van Gool, L.. (2018). DEX: Deep EXpectation of Apparent Age from a Single Image (jeu de données IMDB-WIKI) International Journal of Computer Vision.
Yang, T.-Y., Huang, Y.-H., Lin, Y.-Y., Hsiu, P.-C., & Chuang, Y.-Y.. (2018). SSR-Net: A Compact Soft Stagewise Regression Network for Age Estimation IJCAI.
Buolamwini, J., & Gebru, T.. (2018). Gender Shades : Disparités de précision intersectionnelle dans la classification de genre commerciale Proceedings of Machine Learning Research.
Grother, P., Ngan, M., & Hanaoka, K.. (2024). NIST Face Recognition Vendor Test (FRVT) Institut national américain des normes et technologies.
Mühler, V.. (2020). face-api.js : API JavaScript pour la détection et la reconnaissance faciales dans le navigateur Bibliothèque open source, licence MIT.

Last reviewed: 2026-05-08· Reviewed by Équipe Éthique et Ingénierie IA WuTools

Questions Fréquentes

La prédiction d'âge et de genre fonctionne-t-elle dans mon navigateur ou mes photos sont-elles envoyées à un serveur ?

Tout s'exécute localement dans votre navigateur. La détection faciale (SSD-MobileNet), l'alignement à 68 points et les têtes de régression âge/genre (face-api.js sur TensorFlow.js) sont téléchargés une fois puis chaque prédiction est calculée sur l'appareil via WebGL, WebGPU ou WebAssembly. Vos photos et les étiquettes âge/genre prédites ne quittent jamais votre appareil. C'est essentiel car les données démographiques prédites combinées à une photo peuvent être considérées comme données personnelles sensibles sous le RGPD. Nous ne journalisons, stockons ni transmettons aucune image ou prédiction — vous pouvez vérifier avec DevTools qu'aucune requête POST ne se déclenche après le chargement des fichiers de modèle.

Quelles conditions d'image donnent l'estimation d'âge la plus précise ?

Pour la meilleure estimation d'âge apparent, utilisez une photo frontale avec un éclairage diurne uniforme, le visage remplissant au moins une région de 200x200 pixels, sans lunettes de soleil, sans maquillage lourd, sans filtres ni embellissement, expression neutre et tête non inclinée. Profils latéraux, ombres dures, masques, chapeaux couvrant le front, larges sourires et filtres de beauté Snapchat/Instagram peuvent décaler l'âge prédit de 5-15 ans. Le modèle a été entraîné sur IMDB-WIKI, un ensemble de photos de célébrités biaisé vers les adultes de 20-60 ans en éclairage posé, donc les enfants, les personnes très âgées et les clichés occasionnels ont tendance à avoir plus d'erreur.

Quelle est la précision de l'âge prédit par rapport à mon âge réel ?

Sur le benchmark publié DEX/IMDB-WIKI, les CNN de régression d'âge atteignent une Erreur Absolue Moyenne d'environ 3.5-5 ans pour l'âge apparent chez les adultes de 20-60 ans en photos frontales bien éclairées. Les performances chutent pour les enfants (données d'entraînement clairsemées sous 15 ans) et les personnes âgées (clairsemées au-dessus de 80 ans), où des erreurs de 8-15 ans sont courantes. Le modèle prédit l'âge apparent — l'âge que vous paraissez — pas l'âge biologique, donc le maquillage, l'éclairage, la coiffure et la qualité d'image comptent autant que votre vraie date de naissance. Deux photos de la même personne prises à quelques minutes d'intervalle dans des conditions différentes peuvent facilement différer de 5+ ans dans la prédiction.

Comment fonctionne la prédiction de genre et est-elle binaire ?

La tête de genre est un petit classifieur softmax à deux sorties qui retourne une probabilité pour "masculin" et "féminin" basé sur le même embedding facial aligné de 64 dimensions utilisé pour l'âge. La sortie est binaire par conception des données d'entraînement (étiquettes IMDB-WIKI) — il n'y a pas de classe non-binaire ou "inconnue". Le classifieur exprime l'incertitude via la probabilité : un visage dont le modèle n'est pas sûr peut retourner 0.52 masculin / 0.48 féminin. Nous recommandons de traiter les prédictions en-dessous d'environ 0.7 de confiance comme ambiguës et de ne pas les faire apparaître comme étiquettes. Ce modèle capture la présentation de genre apparente dans la photo, pas le genre auto-identifié du sujet.

WebGPU est-il plus rapide que WebAssembly pour la prédiction âge/genre ?

Généralement oui, lorsque WebGPU est disponible. Le pipeline détection + points de repère + âge + genre implique plusieurs réseaux convolutifs. Sur un backend accéléré par GPU, le pipeline complet se termine en environ 50-300 ms par visage sur un ordinateur portable typique ; sur WebAssembly avec SIMD il prend 300-1500 ms ; sur WebAssembly pur (anciens navigateurs, sans SIMD) il peut prendre 2-5 secondes. Cet outil initialise TensorFlow.js au démarrage et choisit le backend le plus rapide possible — WebGL si disponible, sinon WebAssembly, sinon le CPU — et journalise le backend actif (faceapi.tf.getBackend()) dans la console du navigateur pour que vous puissiez le vérifier dans les DevTools.

Puis-je utiliser ceci en temps réel sur un flux webcam ?

Oui, avec des réserves. Sur WebGPU avec une petite entrée de détecteur (320x240), l'outil soutient 15-30 FPS sur un portable typique, ce qui est fluide pour un aperçu en direct. Sur WebAssembly-CPU attendez-vous à 2-10 FPS — utilisable comme diaporama mais saccadé pour la vidéo. Pour améliorer la fréquence d'images : réduisez la résolution d'entrée du détecteur, limitez les prédictions à chaque N-ième image, n'exécutez la prédiction que quand le visage bouge (détection de mouvement par différences d'images) ou utilisez un détecteur plus léger comme BlazeFace de MediaPipe. Gardez à l'esprit que la prédiction démographique en direct soulève des questions de vie privée plus fortes que la prédiction one-shot — même si tout s'exécute localement.

Quelle architecture est utilisée — face-api.js, MediaPipe ou DeepFace ?

Le pipeline par défaut est face-api.js / @vladmandic/face-api (portage TensorFlow.js), combinant un détecteur de visage SSD-MobileNet v1, un régresseur de 68 landmarks et deux petites têtes de régression sur un backbone de features faciales partagé pour l'âge et le genre. La tête d'âge est un réseau de régression à sortie unique affiné depuis un classifieur DEX ; la tête de genre est un softmax à deux sorties. MediaPipe Face Mesh + classifieur démographique sur mesure est une voie alternative utilisée par certaines applis ; DeepFace (la bibliothèque Python) enveloppe plusieurs architectures dont VGG-Face, Facenet et OpenFace — la plupart sont trop grandes pour les navigateurs mais existent comme références de recherche. La pile face-api.js est le standard de facto du navigateur.

Pourquoi la même photo donne-t-elle un âge différent quand je la rejoue, est-ce un bug ?

Pour l'âge et le genre, la prédiction est totalement déterministe : les mêmes pixels d'entrée, le même alignement et les mêmes poids produisent la même sortie à chaque fois. Chaque exécution de Prédire repeint d'abord l'image originale sur le canvas, si bien que les cadres verts dessinés après une exécution ne sont jamais réinjectés dans le réseau — relancer la même photo donne des chiffres identiques. Si vous constatez parfois un petit écart, la cause habituelle est une image source différente : réencodage avec perte (PNG vs JPEG), collage du presse-papiers à une autre taille ou chargement d'une copie redimensionnée. Le modèle fait le même calcul ; seule l'entrée a changé.

Puis-je exporter l'âge, le genre et la confiance détectés pour chaque visage ?

Oui. Après une prédiction, utilisez Copier JSON pour copier un enregistrement structuré dans le presse-papiers, ou Télécharger CSV pour enregistrer un fichier prêt pour un tableur. Chaque ligne porte l'index du visage, le cadre englobant (x, y, largeur, hauteur en pixels de l'image originale), l'âge estimé, le genre prédit et le pourcentage de confiance du genre directement issu du modèle. C'est utile pour auditer l'équilibre démographique d'un jeu de données, le contrôle qualité ou alimenter un pipeline. L'export s'exécute entièrement sur l'appareil — comme l'inférence elle-même, rien n'est téléversé. Traitez chaque valeur comme une estimation apparente, jamais une affirmation d'identité.

Voir aussi

OUTILS IA33

WUTOOLS