Audio

Conversion

Texte

Convertisseur Voix en Texte

Voix en texte avec Whisper IA dans le navigateur. Transcrivez audio et vidéo en SRT, VTT, JSON. Tourne sur l'appareil via WebGPU/WASM, sans upload.

Transcription IA avec OpenAI Whisper. Tout le traitement se fait dans votre navigateur - votre audio ne quitte jamais votre appareil.

Détection...

Sélectionner un Fichier Audio ou Vidéo

Glissez-déposez un fichier audio ou vidéo ici

Prend en charge MP3, WAV, M4A, MP4, WebM et plus

Transcription

Select

Copy

Download text

La transcription est modifiable — vos corrections sont incluses dans chaque export (TXT, SRT, VTT, JSON, MD, CSV).

Segments avec Horodatages

Copy

Download text

Cliquez sur le texte d'un segment pour le modifier. Les modifications mettent à jour la transcription et tous les sous-titres exportés.

Vous avez des commentaires ? Signalez des bugs, suggérez des fonctionnalités ou partagez vos idées — nous lisons tout

À Propos du Convertisseur Voix en Texte IA

Cet outil de transcription IA utilise le modèle Whisper d'OpenAI pour convertir la parole en texte avec une grande précision. Contrairement aux services cloud, tout le traitement se fait directement dans votre navigateur en utilisant WebGPU/WebAssembly - vos fichiers audio ne sont jamais téléversés sur aucun serveur, garantissant une confidentialité totale.

Comment fonctionne la transcription dans le navigateur ?

L'outil utilise Transformers.js pour exécuter le modèle Whisper d'OpenAI directement dans votre navigateur. Lors de votre première transcription, le modèle IA est téléchargé et mis en cache dans votre navigateur. Tout le traitement audio et la transcription se font localement sur votre appareil en utilisant votre CPU/GPU, sans envoyer de données à des serveurs externes.

Quelle taille de modèle dois-je choisir ?

Il existe trois options de modèle :
- Tiny (~40Mo) : Le plus rapide à charger et traiter. Idéal pour un audio clair avec peu de bruit de fond.
- Base (~75Mo) : Option équilibrée avec une meilleure précision que Tiny.
- Small (~250Mo) : Meilleure précision, surtout pour l'audio avec des accents ou du bruit de fond. Recommandé pour les transcriptions importantes.

Les modèles plus grands offrent une meilleure précision mais nécessitent plus de temps de téléchargement et de traitement.

Quelles langues sont prises en charge ?

Whisper prend en charge plus de 99 langues dont le français, l'anglais, l'espagnol, l'allemand, le chinois, le japonais, le coréen, l'arabe, l'hindi, le portugais, le russe, le vietnamien et bien d'autres. Vous pouvez sélectionner la langue manuellement pour une meilleure précision, ou laisser l'IA la détecter automatiquement.

Quels formats audio et vidéo sont pris en charge ?

Tous les formats audio courants sont pris en charge : MP3, WAV, M4A, AAC, FLAC, OGG, OPUS et WebA. Les fichiers vidéo sont également pris en charge - la piste audio est automatiquement extraite des formats MP4, WebM, MKV, AVI, MOV et autres formats vidéo.

Quelle est la précision de la transcription ?

Whisper offre une précision de pointe pour la reconnaissance vocale automatique. Les meilleurs résultats sont obtenus pour :
- Des enregistrements clairs avec peu de bruit de fond
- Des locuteurs natifs avec des accents standards
- Un audio avec un seul locuteur

La précision peut varier pour :
- Des accents ou dialectes marqués
- Plusieurs locuteurs qui se chevauchent
- Une qualité audio médiocre ou beaucoup de bruit
- Du jargon technique ou des mots peu courants

Puis-je obtenir des horodatages et des sous-titres ?

Oui ! Activez 'Inclure les horodatages' pour obtenir des segments horodatés parfaits pour créer des sous-titres. Vous pouvez télécharger la transcription sous forme de fichier SRT prêt pour le montage vidéo. Activez 'Horodatages par mot' pour un timing encore plus précis des mots individuels.

Pourquoi le traitement est-il lent sur mon appareil ?

La vitesse de transcription dépend de votre matériel. Les appareils modernes avec support WebGPU (Chrome 113+) seront nettement plus rapides. Pour améliorer les performances :
- Utilisez le navigateur Chrome ou Edge pour l'accélération WebGPU
- Fermez les autres onglets et applications
- Utilisez le modèle Tiny pour un traitement plus rapide
- Les ordinateurs de bureau/portables sont plus rapides que les appareils mobiles
- Les fichiers audio jusqu'à 10 minutes fonctionnent le mieux

Convertisseur Voix en Texte — Voix en texte avec Whisper IA dans le navigateur. Transcrivez audio et vidéo en SRT, VTT, JSON. Tourne sur l'appareil vi — **Convertisseur Voix en Texte**

Mes données audio sont-elles privées ?

Absolument. Contrairement aux services de transcription cloud, votre audio ne quitte jamais votre appareil. Tout le traitement IA se fait localement dans votre navigateur en utilisant WebGPU ou WebAssembly. Aucun audio n'est téléversé, stocké ou traité sur aucun serveur. Lorsque vous fermez la page, toutes les données sont effacées de la mémoire.

Quelle est la taille et la durée maximale de fichier ?

La taille maximale de fichier est de 100Mo. Pour des performances optimales, nous recommandons des fichiers audio de moins de 10 minutes. Les fichiers plus longs peuvent être traités mais nécessiteront beaucoup plus de temps et de mémoire. Si vous avez de longs enregistrements, envisagez de les diviser en segments plus courts.

Quel modèle et quels poids exactement sont exécutés ?

L'outil exécute le modèle Whisper d'OpenAI via Transformers.js en utilisant les poids ouverts d'ONNX-community : onnx-community/whisper-tiny, whisper-base et whisper-small. Sur WebGPU le modèle tourne en fp32 pour une précision maximale ; sur WebAssembly (CPU) il tourne en q8 (quantifié sur 8 bits) afin de se charger et fonctionner sur des appareils moins puissants. La version q8 sacrifie un peu de précision pour la vitesse et la mémoire, c'est pourquoi un modèle plus grand aide avec un audio bruyant ou accentué.

Puis-je modifier la transcription avant l'export ?

Oui. La zone de transcription et chaque segment horodaté sont entièrement modifiables. Corrigez directement les noms, le jargon et la ponctuation, et chaque export — TXT, SRT, VTT, JSON, Markdown et CSV, ainsi que le téléchargement des segments — reflétera vos modifications plutôt que la sortie brute du modèle. Modifier le texte met à jour les exports en texte intégral ; modifier un segment met à jour ce sous-titre et resynchronise la transcription complète.

Quels formats d'export et quel schéma de segments sont disponibles ?

Six formats : TXT (texte brut), SRT et WebVTT (sous-titres horodatés), Markdown (texte plus liste de segments horodatés), CSV (index, start_seconds, end_seconds, text) et JSON. Le schéma JSON est { language, text, segments: [{ start, end, text }], words: [{ start, end, text }] | null, exported_at, tool }. Les horodatages par mot remplissent le tableau 'words' du JSON et restent séparés de la liste des segments par phrase afin que SRT/VTT demeurent lisibles.

Fonctionne-t-il hors ligne et le modèle est-il mis en cache ?

La première transcription télécharge une fois le modèle Whisper choisi ; le navigateur le met en cache (cache HTTP / Cache Storage). Ensuite, la transcription fonctionne sans retélécharger le modèle et continue de s'exécuter entièrement sur votre appareil. Rien — ni votre audio ni votre transcription — n'est envoyé à un serveur ; toute l'inférence se fait localement dans votre navigateur via WebGPU ou WebAssembly.

Quelle est sa précision — puis-je publier le résultat directement ?

Considérez le résultat comme un premier brouillon rapide, pas un produit fini. Le taux d'erreur sur les mots varie selon la taille du modèle, le bruit de fond, les accents, les locuteurs qui se chevauchent et le jargon technique, et la version WASM est quantifiée (q8). Relisez et vérifiez toujours avant de publier des sous-titres ou des livrables — c'est précisément pourquoi la transcription et les segments sont modifiables et la version corrigée est celle qui est exportée.

Voir aussi

OUTILS IA33

WUTOOLS