Générateur de Sous-titres Automatique

Sous-titres IA dans votre navigateur : vidéo en SRT et WebVTT, horodatages par mot, 99 langues, contrôle du CPS et de la longueur de ligne. Privé, hors ligne, sans upload.

Sélectionner une Vidéo

Glissez-déposez la vidéo ici ou cliquez pour parcourir

MP4, WebM, MOV, MKV, AVI, M4V et plus (max 200Mo)

Information

Vous avez des commentaires ? Signalez des bugs, suggérez des fonctionnalités ou partagez vos idées — nous lisons tout

À propos du Générateur de Sous-titres Automatique

Transcrire manuellement une vidéo de 30 minutes en sous-titres prend environ 90 minutes à un sous-titreur entraîné ; les auto-captions YouTube y parviennent mais nécessitent un upload non listé et un raffinement uniquement en anglais ; Rev facture 1,50 $/minute et Otter plafonne le tier gratuit à 300 minutes/mois. Cet outil exécute Whisper d'OpenAI (le même modèle multilingue utilisé par les services de transcription professionnels) entièrement dans votre navigateur via WebAssembly — votre vidéo ne quitte jamais votre appareil, pas de quota, pas d'abonnement. Il extrait l'audio via ffmpeg.wasm, le passe à Whisper pour de la parole-en-texte en 99 langues avec horodatages à la milliseconde, puis formate en SRT standard (support universel des lecteurs) ou WebVTT (natif HTML5/YouTube). Critique pour la confidentialité de séquences sensibles, entretiens sous NDA, ou contenu juridique/médical.

Comment ça fonctionne?

L'outil extrait l'audio de votre vidéo, puis utilise le modèle Whisper d'OpenAI (fonctionnant localement dans votre navigateur via WebAssembly) pour transcrire la parole en texte avec horodatages. Enfin, il formate la transcription en fichiers de sous-titres standard SRT ou VTT.

Quels formats vidéo sont supportés?

MP4, WebM, MOV, MKV, AVI, M4V, WMV, FLV, 3GP, OGV et MPEG/MPG sont supportés — ffmpeg.wasm les démuxe tous pour extraire la piste audio. La taille maximale est de 200Mo, ce qui maintient l'audio décodé confortablement sous la limite de mémoire WebAssembly du navigateur (les longs fichiers 4K peuvent la dépasser).

Quel modèle IA choisir?

Tiny est le plus rapide et fonctionne bien pour une parole claire. Base offre un bon équilibre entre vitesse et précision. Small est le plus précis mais plus lent et nécessite plus de mémoire. Commencez par Tiny pour tester.

Quelle est la différence entre SRT et VTT?

SRT (SubRip) est le format le plus largement supporté, compatible avec la plupart des lecteurs et plateformes. VTT (WebVTT) est le standard web pour la vidéo HTML5 et le format que YouTube préfère ; la spécification autorise aussi les cue settings et le style ::cue, bien que cet outil émette des cues simples sans style que vous pouvez styliser ensuite dans votre lecteur ou via CSS. Il y a aussi une option TXT en texte brut qui exporte uniquement la transcription sans codes temporels. Les trois partagent le même texte mis en forme ; seuls SRT et VTT portent la temporisation.

Ma vidéo est-elle envoyée à un serveur?

Non. Tout le traitement se fait localement dans votre navigateur via WebAssembly. Votre vidéo ne quitte jamais votre appareil, garantissant une confidentialité totale.

Quelle est la précision de Whisper comparée à une transcription humaine ?

Whisper Small atteint environ 95-97% de précision de mot sur de l'audio anglais propre, comparable à un transcripteur humain économique. Tiny tombe à environ 85-90% — bien pour des brouillons mais vous voudrez éditer. La précision chute avec : accents prononcés, plusieurs locuteurs qui se chevauchent, musique/bruit de fond, jargon technique, et micros silencieux/éloignés. Pour une qualité broadcast (99%+), utilisez Whisper comme première passe puis éditez humainement, ce qui économise toujours environ 70% du temps par rapport à taper depuis zéro.

Générateur de Sous-titres Automatique — Sous-titres IA dans votre navigateur : vidéo en SRT et WebVTT, horodatages par mot, 99 langues, contrôle du CPS et de la — **Générateur de Sous-titres Automatique**

Pourquoi est-ce si lent sur les longues vidéos ?

Whisper traite l'audio à environ 0,5-3x la vitesse temps réel selon votre CPU et le modèle choisi. Une vidéo de 10 minutes peut prendre 3-8 minutes avec Tiny sur un laptop moderne, ou 15-30 minutes avec Small. Il n'y a pas encore d'accélération GPU dans Whisper basé navigateur (le support WebGPU d'Apple mûrit encore). Pour les vidéos de 30+ minutes, prévoyez de laisser l'onglet ouvert un moment. Le modèle se télécharge une fois et est mis en cache, donc les exécutions suivantes sautent cette étape.

Gère-t-il plusieurs locuteurs ou la diarisation de locuteurs ?

Whisper en lui-même ne fait pas de diarisation (étiqueter 'Locuteur 1' vs 'Locuteur 2'). Il transcrit la parole séquentiellement sans identifier qui parle. Pour réunions, podcasts ou entretiens nécessitant des étiquettes de locuteurs, vous auriez besoin d'une étape de post-traitement utilisant pyannote ou AWS Transcribe. La sortie SRT/VTT ici est un flux continu de lignes horodatées — parfait pour le contenu à présentateur unique comme conférences, tutoriels, vlogs, documentaires narrés.

Comment gère-t-il les langues non anglaises ?

Whisper supporte 99 langues avec une précision variable. Top-tier (95%+ sur Small) : anglais, espagnol, français, allemand, italien, portugais, japonais. Bon (85-92%) : chinois, coréen, russe, arabe, hindi, vietnamien. Réglez 'Langue' sur votre langue spécifique pour de meilleurs résultats — 'Détection Automatique' ajoute une première passe probabiliste qui classifie parfois mal (surtout avec des clips très courts ou du code-switching). Pour du contenu multilingue, exécutez des passes séparées par section de langue.

Les sous-titres se synchroniseront-ils correctement lors de l'incrustation dans ma vidéo ?

Oui — SRT et VTT utilisent tous deux des horodatages absolus (HH:MM:SS,mmm) mesurés depuis le début de votre audio. Déposez le SRT dans HandBrake, DaVinci Resolve, Premiere, FFmpeg, ou n'importe quel lecteur vidéo et le timing sera exact à la milliseconde. Pour incruster des sous-titres ouverts avec FFmpeg, utilisez le filtre subtitles : ffmpeg -i in.mp4 -vf "subtitles=subs.srt" out.mp4. Pour les multiplexer en sous-titres codés souples dans un MP4, utilisez -c:s mov_text (-c:s webvtt pour WebM/HLS). Un piège : les horodatages sont des secondes d'horloge, donc sur des timelines drop-frame 29,97/59,94 le timecode SMPTE et l'horloge du SRT divergent sur de longues durées — alignez la fréquence d'images de votre NLE sur la source avant de vous fier à des débuts de cue exacts à l'image.

Comment garder les sous-titres conformes au broadcast (caractères par ligne / CPS) ?

Whisper brut déverse une phrase entière dans un seul cue, ce que le QC rejette. Les recommandations de la BBC, Netflix et l'EBU plafonnent chaque ligne à environ 37-42 caractères, autorisent au plus deux lignes, et maintiennent la vitesse de lecture sous environ 17-20 caractères par seconde (CPS). Réglez 'Caractères Maximum par Ligne' (par défaut 42) et l'outil découpe chaque long chunk de Whisper en un cue conforme d'une ou deux lignes aux limites de mots — sans coupure au milieu d'un mot. Il limite aussi la fin de chaque cue à la durée réelle du média afin qu'aucun sous-titre ne dépasse l'EOF, ce que les validateurs stricts et certains lecteurs rejettent. Pour le CEA-608/708 (les sous-titres de ligne 21 intégrés aux flux broadcast) il vous faut encore un encodeur comme CCExtractor, mais SRT/VTT est le format d'échange que tout pipeline de sous-titrage ingère.

Comment resynchroniser les sous-titres après avoir coupé la vidéo ?

Utilisez le champ 'Décalage Initial'. Après que votre monteur a coupé, disons, 5 secondes au début de la timeline, réglez le décalage sur -5 et regénérez (ou +3 si vous avez ajouté un carton d'intro de 3 secondes). Chaque horodatage se décale de cette valeur et est limité à 0 pour que rien ne devienne négatif, et la fin est limitée à la durée du média. C'est le décalage en masse que vous feriez sinon dans Aegisub ou Subtitle Edit, effectué dans l'outil avant même d'exporter — sans aller-retour vers un éditeur de sous-titres séparé.

Voir aussi

OUTILS VIDéO36

WUTOOLS