Générateur de Sous-titres Automatique
Générez des sous-titres SRT/VTT depuis une vidéo avec OpenAI Whisper exécuté localement dans votre navigateur. Sans upload, sans inscription, multilingue. Alternative gratuite à Rev/Otter.
À propos du Générateur de Sous-titres Automatique
Transcrire manuellement une vidéo de 30 minutes en sous-titres prend environ 90 minutes à un sous-titreur entraîné ; les auto-captions YouTube y parviennent mais nécessitent un upload non listé et un raffinement uniquement en anglais ; Rev facture 1,50 $/minute et Otter plafonne le tier gratuit à 300 minutes/mois. Cet outil exécute Whisper d'OpenAI (le même modèle multilingue utilisé par les services de transcription professionnels) entièrement dans votre navigateur via WebAssembly — votre vidéo ne quitte jamais votre appareil, pas de quota, pas d'abonnement. Il extrait l'audio via ffmpeg.wasm, le passe à Whisper pour de la parole-en-texte en 99 langues avec horodatages à la milliseconde, puis formate en SRT standard (support universel des lecteurs) ou WebVTT (natif HTML5/YouTube). Critique pour la confidentialité de séquences sensibles, entretiens sous NDA, ou contenu juridique/médical.
Comment ça fonctionne?
L'outil extrait l'audio de votre vidéo, puis utilise le modèle Whisper d'OpenAI (fonctionnant localement dans votre navigateur via WebAssembly) pour transcrire la parole en texte avec horodatages. Enfin, il formate la transcription en fichiers de sous-titres standard SRT ou VTT.
Quels formats vidéo sont supportés?
Les formats MP4, WebM et MOV sont supportés. La taille maximale est de 500Mo pour assurer un traitement fluide dans le navigateur.
Quel modèle IA choisir?
Tiny est le plus rapide et fonctionne bien pour une parole claire. Base offre un bon équilibre entre vitesse et précision. Small est le plus précis mais plus lent et nécessite plus de mémoire. Commencez par Tiny pour tester.
Quelle est la différence entre SRT et VTT?
SRT (SubRip) est le format le plus largement supporté, compatible avec la plupart des lecteurs et plateformes. VTT (WebVTT) est le standard web, utilisé pour la vidéo HTML5 et supporte des styles avancés.
Ma vidéo est-elle envoyée à un serveur?
Non. Tout le traitement se fait localement dans votre navigateur via WebAssembly. Votre vidéo ne quitte jamais votre appareil, garantissant une confidentialité totale.

Quelle est la précision de Whisper comparée à une transcription humaine ?
Whisper Small atteint environ 95-97% de précision de mot sur de l'audio anglais propre, comparable à un transcripteur humain économique. Tiny tombe à environ 85-90% — bien pour des brouillons mais vous voudrez éditer. La précision chute avec : accents prononcés, plusieurs locuteurs qui se chevauchent, musique/bruit de fond, jargon technique, et micros silencieux/éloignés. Pour une qualité broadcast (99%+), utilisez Whisper comme première passe puis éditez humainement, ce qui économise toujours environ 70% du temps par rapport à taper depuis zéro.
Pourquoi est-ce si lent sur les longues vidéos ?
Whisper traite l'audio à environ 0,5-3x la vitesse temps réel selon votre CPU et le modèle choisi. Une vidéo de 10 minutes peut prendre 3-8 minutes avec Tiny sur un laptop moderne, ou 15-30 minutes avec Small. Il n'y a pas encore d'accélération GPU dans Whisper basé navigateur (le support WebGPU d'Apple mûrit encore). Pour les vidéos de 30+ minutes, prévoyez de laisser l'onglet ouvert un moment. Le modèle se télécharge une fois et est mis en cache, donc les exécutions suivantes sautent cette étape.
Gère-t-il plusieurs locuteurs ou la diarisation de locuteurs ?
Whisper en lui-même ne fait pas de diarisation (étiqueter 'Locuteur 1' vs 'Locuteur 2'). Il transcrit la parole séquentiellement sans identifier qui parle. Pour réunions, podcasts ou entretiens nécessitant des étiquettes de locuteurs, vous auriez besoin d'une étape de post-traitement utilisant pyannote ou AWS Transcribe. La sortie SRT/VTT ici est un flux continu de lignes horodatées — parfait pour le contenu à présentateur unique comme conférences, tutoriels, vlogs, documentaires narrés.
Comment gère-t-il les langues non anglaises ?
Whisper supporte 99 langues avec une précision variable. Top-tier (95%+ sur Small) : anglais, espagnol, français, allemand, italien, portugais, japonais. Bon (85-92%) : chinois, coréen, russe, arabe, hindi, vietnamien. Réglez 'Langue' sur votre langue spécifique pour de meilleurs résultats — 'Détection Automatique' ajoute une première passe probabiliste qui classifie parfois mal (surtout avec des clips très courts ou du code-switching). Pour du contenu multilingue, exécutez des passes séparées par section de langue.
Les sous-titres se synchroniseront-ils correctement lors de l'incrustation dans ma vidéo ?
Oui — SRT et VTT utilisent tous deux des horodatages absolus (HH:MM:SS,mmm) mesurés depuis le début de votre audio. Déposez le SRT dans HandBrake, DaVinci Resolve, Premiere, FFmpeg, ou n'importe quel lecteur vidéo et le timing sera exact à la milliseconde. Le seul piège : si vous éditez la vidéo source (coupez 30 secondes au début) après avoir généré les sous-titres, vous devrez décaler tous les horodatages de -30 secondes, ou regénérer. Des outils comme Aegisub ou Subtitle Edit gèrent les décalages en masse facilement.
