Nettoyeur de Texte
Nettoyez le texte en ligne : supprimez HTML, Markdown, emojis et caractères invisibles, rejoignez les coupures PDF. Idéal pour la sortie ChatGPT/Claude.
Nettoyeur de Texte - Nettoyer et Formater le Texte en Ligne
Cet outil de nettoyage de texte vous aide à nettoyer le texte désordonné en supprimant les éléments indésirables comme les balises HTML, caractères spéciaux, espaces supplémentaires, URL, e-mails et nombres. Il est parfait pour nettoyer le texte copié de sites web, traitements de texte, PDF, sortie d'IA ChatGPT/Claude ou toute source incluant du formatage ou des caractères indésirables. Collez simplement votre texte, sélectionnez les options de nettoyage dont vous avez besoin et obtenez instantanément un texte propre et formaté. Voir aussi notre outil Supprimer les Accents, le Compteur de Mots, notre Markdown vers HTML et le Générateur Lorem Ipsum.
Qu'est-ce qu'un Nettoyeur de Texte ?
Un nettoyeur de texte est un outil qui supprime les caractères indésirables, le formatage et les éléments du texte pour le rendre propre et lisible. Il peut supprimer :
- Balises HTML comme <div>, <p>, <span>, <a>, etc.
- Caractères spéciaux et symboles
- Espaces supplémentaires (espaces multiples, tabulations, sauts de ligne)
- Lignes vides
- URL et liens
- Adresses e-mail
- Nombres
- Entités HTML comme , <, >
Ceci est particulièrement utile lors de la copie de texte depuis des sites web, documents ou e-mails contenant du formatage ou du code indésirable.
Quand dois-je utiliser un Nettoyeur de Texte ?
Vous devriez utiliser un nettoyeur de texte lorsque :
- Copie de texte depuis des sites web incluant du code HTML
- Collage de contenu de documents Word avec formatage supplémentaire
- Nettoyage de texte de PDF avec espacement bizarre
- Suppression d'URL et liens du contenu
- Se débarrasser d'adresses e-mail dans le texte
- Nettoyage de données scrapées ou contenu web
- Préparation de texte pour éditeurs de texte brut
- Suppression de caractères spéciaux du texte copié
- Formatage de texte avant téléchargement vers des bases de données
- Nettoyage de texte pour analyse ou traitement
En gros, à chaque fois que vous avez du texte désordonné nécessitant un nettoyage !
Que fait 'Supprimer les balises HTML' ?
L'option 'Supprimer les balises HTML' retire tout le balisage HTML de votre texte, incluant :
- Balises ouvrantes et fermantes : <div>, </div>, <p>, </p>
- Balises auto-fermantes : <br/>, <img/>
- Balises avec attributs : <a href="...">...</a>
- Balises style et script : <style>, <script>
- Tous les autres éléments HTML
Par exemple, le texte "<p>Bonjour <strong>Monde</strong></p>" devient "Bonjour Monde".
C'est l'option la plus couramment utilisée lors de la copie de texte depuis des pages web.
Que sont les caractères spéciaux et devrais-je les supprimer ?
Les caractères spéciaux sont des symboles non alphanumériques comme @, #, $, %, ^, &, *, etc. L'option 'Supprimer les caractères spéciaux' conserve uniquement :
- Lettres (A-Z, a-z)
- Nombres (0-9)
- Espaces
- Ponctuation de base : point (.), virgule (,), exclamation (!), question (?), tiret (-), apostrophe ('), guillemets (")
Vous devriez supprimer les caractères spéciaux lorsque :
- Vous voulez du texte brut et propre
- Préparation de texte pour des systèmes ne supportant pas les caractères spéciaux
- Nettoyage de texte pour traitement de données
- Suppression d'emoji, symboles et caractères inhabituels
Ne les supprimez pas si vous devez préserver la ponctuation au-delà des bases ou si les symboles spéciaux sont importants pour votre contenu.
Quelle est la différence entre 'Supprimer les lignes vides' et 'Rogner les lignes' ?
Ce sont deux opérations de nettoyage différentes :
'Supprimer les lignes vides' supprime les lignes qui ne contiennent pas de texte (lignes complètement vides).
Exemple :
Avant :
"Ligne 1
Ligne 2"
Après :
"Ligne 1
Ligne 2"
'Rogner les lignes' supprime les espaces et tabulations du début et de la fin de chaque ligne, mais conserve les lignes elles-mêmes.
Exemple :
Avant :
" Ligne 1
Ligne 2 "
Après :
"Ligne 1
Ligne 2"
Vous pouvez utiliser les deux ensemble pour un nettoyage maximal !

Que sont les entités HTML et comment les décoder ?
Les entités HTML sont des codes spéciaux utilisés en HTML pour représenter des caractères ayant une signification spéciale ou ne pouvant pas être tapés directement. Exemples courants :
- = espace insécable
- < = inférieur à (<)
- > = supérieur à (>)
- & = esperluette (&)
- " = guillemet (")
- ' = apostrophe (')
L'option 'Décoder les entités HTML' convertit ces codes en leurs caractères réels.
Par exemple : "Bonjour Monde<test>" devient "Bonjour Monde<test>"
Utilisez ceci lors de la copie de texte depuis le code source HTML ou lorsque vous voyez des codes étranges comme dans votre texte.
Comment obtenir les meilleurs résultats ?
Pour de meilleurs résultats, suivez ces conseils :
1. Commencez avec les options courantes : 'Supprimer les balises HTML' et 'Supprimer les espaces supplémentaires' sont activées par défaut et fonctionnent pour la plupart des cas.
2. Ajoutez plus d'options au besoin : Si vous voyez des URL, e-mails ou caractères spéciaux à supprimer, activez ces options.
3. L'ordre compte : L'outil applique les opérations de nettoyage dans un ordre spécifique pour des résultats optimaux. Vous n'avez pas à vous soucier de l'ordre - c'est géré automatiquement.
4. Utilisez 'Tout sélectionner' pour un nettoyage maximal : Si vous voulez le texte le plus propre possible, cliquez sur 'Tout sélectionner' pour activer toutes les options.
5. Prévisualisez avant d'utiliser : Vérifiez toujours le texte nettoyé pour vous assurer que vous n'avez pas supprimé quelque chose d'important.
6. Ajustez les options : Si trop ou trop peu a été supprimé, ajustez les options et cliquez à nouveau sur 'Nettoyer'.
Comment supprimer les caractères invisibles et de largeur nulle ?
Activez l'option 'Supprimer les caractères Unicode invisibles et de largeur nulle'. Les caractères de largeur nulle (espace sans chasse U+200B, liant sans chasse U+200D, liant de mots U+2060, BOM U+FEFF et autres) sont invisibles mais cassent la correspondance de chaînes, la recherche, les requêtes de base de données et la validation de formulaires.
Ils sont de plus en plus utilisés comme filigranes d'IA et dans les attaques par injection de prompt, et se glissent depuis le presse-papiers et la sortie des modèles de langage. Comme ils sont invisibles, vous ne pouvez ni les voir ni les supprimer manuellement : cette option les retire en un clic pour que votre texte corresponde octet par octet comme prévu.
Puis-je supprimer le Markdown et nettoyer la sortie de ChatGPT ou Claude ?
Oui. Activez 'Supprimer le formatage Markdown' pour éliminer **gras**, *italique*, ## titres, `code`, blocs de code ```, > citations, puces de liste et la syntaxe [texte](lien) tout en conservant le contenu lisible.
Pour la sortie d'IA en particulier, utilisez le préréglage en un clic 'Coller depuis l'IA' : il supprime le Markdown, normalise les guillemets typographiques et tirets en ASCII, retire les caractères invisibles de largeur nulle et nettoie les espaces. Il transforme les réponses de ChatGPT, Claude ou Gemini en texte brut propre, prêt pour les éditeurs simples, les champs de CMS, les commentaires de code ou tout endroit où les artefacts Markdown sont indésirables.
Que fait 'Normaliser l'Unicode (NFKC)' ?
Il applique la normalisation Unicode NFKC, qui corrige trois problèmes courants dans le texte issu de PDF, InDesign et documents en langues asiatiques :
1. Ligatures typographiques : l'extraction PDF émet souvent des glyphes uniques comme fi, fl ou ff. NFKC les reconvertit en 'fi', 'fl', 'ff' simples.
2. Formes pleine largeur / demi-largeur : les méthodes de saisie CJK produisent des lettres, chiffres et ponctuation pleine largeur (ABC, 123). NFKC les convertit en leurs équivalents ASCII normaux (ABC, 123).
3. Accents décomposés : le texte peut stocker 'é' comme un 'e' de base plus un accent combinant séparé (NFD). Cela paraît identique mais échoue à la correspondance exacte de chaînes, aux contraintes d'unicité de base de données et à la recherche. NFKC les compose en un seul caractère précomposé (é).
Activez ceci lors du collage depuis des PDF, des exports de mise en page ou des documents CJK pour obtenir un texte qui correspond et se recherche de façon fiable.
Cas d'Usage Courants
- Nettoyage de texte copié de sites web incluant code HTML et formatage
- Suppression de formatage de Word ou Google Docs lors du collage dans des éditeurs de texte brut
- Nettoyage de contenu web scrapé pour analyse de données
- Préparation de texte pour bases de données ou API ne supportant pas les caractères spéciaux
- Suppression d'URL et liens d'articles de blog
- Nettoyage de contenu e-mail en supprimant adresses et liens
- Formatage de texte de PDF ayant espacement et sauts de ligne bizarres
- Suppression de nombres du texte (utile pour analyse de texte)
- Conversion de code source HTML en texte lisible
- Nettoyage de texte avant traduction ou traitement
- Suppression de caractères spéciaux pour texte compatible avec noms de fichiers
- Préparation de texte pour publications réseaux sociaux en supprimant espaces supplémentaires
- Nettoyage de la sortie ChatGPT, Claude ou Gemini en supprimant le Markdown et les caractères invisibles
- Correction des collages PDF et InDesign en normalisant les ligatures (fi→fi) et caractères pleine largeur avec NFKC
