Diviseur de Texte

Découpez du texte par tokens, délimiteur, caractères, mots, lignes, phrase ou paragraphe. Chevauchement, numéroter, ajuster et copier dans le navigateur.

Vous avez des commentaires ? Signalez des bugs, suggérez des fonctionnalités ou partagez vos idées — nous lisons tout

À Propos du Diviseur de Texte

Diviseur de Texte découpe le texte d'entrée en morceaux ordonnés en utilisant l'une des sept stratégies : délimiteur littéral (toute chaîne que vous fournissez, y compris séquences d'échappement comme \t ou \n), nombre fixe de caractères, nombre fixe de mots (jetons séparés par espaces), nombre fixe de lignes, frontière de phrase (ponctuation de fin de phrase . ! ? suivie d'espace), frontière de paragraphe (une ou plusieurs lignes vides comme séparateurs) et chaîne personnalisée complète. Chaque stratégie est implémentée comme String.prototype.split() avec le séparateur approprié, ou une fenêtre glissante pour les divisions basées sur la taille. Les options s'appliquent à tous les modes : 'Supprimer les Espaces' appelle String.trim() sur chaque morceau avant la sortie, 'Supprimer les Morceaux Vides' filtre les résultats de longueur zéro (utile quand les délimiteurs apparaissent consécutivement comme ',,'), et 'Numéroter les Morceaux' préfixe chaque pièce de sortie avec '1. ', '2. '. Le séparateur de sortie contrôle comment les morceaux sont joints pour l'affichage — double saut de ligne donne une séparation visuelle claire, virgule-espace donne une sortie style CSV, tirets donnent un diviseur visible. Flux typiques : diviser les corps de messages SMS en morceaux de 160 caractères pour livraison multi-parties, découper un long article en fragments de 280 caractères pour les threads X/Twitter, fragmenter le texte pour les fenêtres de contexte LLM (par ex. limites de 4096 jetons via nombre de mots), diviser un CSV collé comme cellule unique en lignes, séparer les entrées de log concaténées par délimiteur d'horodatage, et traiter les imports en masse où une entrée représente plusieurs enregistrements.

Comment la division par nombre de caractères diffère-t-elle de celle par mots et laquelle utiliser pour SMS ou tweets ?

Le nombre de caractères divise aux frontières exactes d'octet/unité UTF-16 — le morceau 3 s'arrête au caractère 480 même s'il tombe au milieu d'un mot. Le nombre de mots divise sur les jetons séparés par espace, donc 'bonjour monde foo' avec morceau 2 donne 'bonjour monde' + 'foo'. Pour SMS (160 caractères GSM-7 ou 70 caractères UCS-2 pour emoji), utilisez le nombre de caractères pour éviter le débordement. Pour les tweets (280 caractères, mais Twitter compte les emoji comme 2), le nombre de caractères fonctionne mais vous devriez ajouter un marqueur 'suite (1/3)' via Numéroter les Morceaux. Pour les fenêtres de contexte LLM (basées sur jetons, ~4 caractères par jeton en anglais), le nombre de mots est plus proche de la réalité.

La division par phrases gère-t-elle correctement les abréviations comme 'Dr.' et 'M.' ?

Partiellement — le regex utilise une heuristique qui divise à '. ', '! ' ou '? ' suivi d'une majuscule. Cela gère correctement la plupart de la prose mais divise mal à 'Dr. Smith', 'U.S.A.', '3.14 est' et 'M. Brown a dit'. Pour une segmentation de phrases de niveau recherche utilisez un outil NLP dédié (spaCy, NLTK ou tokenizers HuggingFace). Pour la division occasionnelle de billets de blog, articles ou transcriptions, l'heuristique fonctionne ~95% du temps. Si vous avez un motif d'abréviation connu, remplacez-le d'abord par un placeholder ('Dr.' → 'Dr@') avec Remplacer les Mots, divisez, puis restaurez.

Que considère la division par paragraphes comme une rupture de paragraphe ?

Une ou plusieurs lignes vides (correspondance avec regex /\n\s*\n+/) agissent comme frontière de paragraphe. Donc 'paragraphe un\n\nparagraphe deux' donne deux morceaux. Les sauts de ligne simples dans un paragraphe sont préservés comme partie du même morceau. Cela correspond à la convention markdown et au comportement Entrée-Entrée de Word. Si votre entrée utilise '\r\n\r\n' style Windows, cela fonctionne toujours car \r est un espace. Si vous n'avez pas de lignes vides, le mode paragraphe renvoie toute l'entrée comme un seul morceau — utilisez plutôt la division par nombre de lignes.

Diviseur de Texte — Découpez du texte par tokens, délimiteur, caractères, mots, lignes, phrase ou paragraphe. Chevauchement, numéroter, ajus — **Diviseur de Texte**

Puis-je utiliser des caractères spéciaux comme tabulation ou saut de ligne comme délimiteur ?

Oui — tapez directement les séquences d'échappement : \t pour tabulation, \n pour saut de ligne, \r pour retour chariot, \u00A0 pour espace insécable. L'outil les interprète au moment de l'analyse. Pour une barre oblique inverse littérale tapez \\. Pour diviser sur un motif regex (pas une chaîne littérale), utilisez d'abord l'outil Remplacer les Mots pour substituer vos correspondances regex avec un marqueur unique comme '@@SPLIT@@', puis divisez ici sur '@@SPLIT@@'. Cette approche en deux étapes donne toute la puissance regex sans compliquer l'interface du diviseur.

Que fait réellement 'Supprimer les Espaces' sur les morceaux avec espaces internes ?

Il ne retire que les espaces de début et de fin de chaque morceau, préservant les espaces internes. Donc 'bonjour monde ' devient 'bonjour monde' (rogné aux extrémités, le double espace au milieu reste). Cela correspond au String.trim() de JavaScript et str.strip() de Python. Pour écraser aussi les espaces internes, passez la sortie par Nettoyeur de Texte ensuite. Le trim est particulièrement utile avec les divisions basées sur délimiteur où un caractère délimiteur peut inclure un espace final (', '), laissant des espaces parasites aux frontières des morceaux.

Pourquoi 'Supprimer les Morceaux Vides' peut-il renvoyer moins de morceaux que prévu ?

Les morceaux vides surviennent quand les délimiteurs apparaissent consécutivement (',,' donne '', '' entre eux), quand l'entrée commence ou se termine par un délimiteur (',a,b' donne '', 'a', 'b'), ou quand le mode taille fixe tombe sur des frontières exactement vides. Avec Supprimer les Vides activé, le filtre élimine tous les morceaux de longueur zéro avant la sortie. Si vous voulez les préserver (ex. représentant des colonnes CSV manquantes où vide signifie null), désactivez l'option. Le compteur Total de Morceaux montre le nombre post-filtre, pas le nombre brut de division.

La division s'effectue-t-elle dans le navigateur et mon texte est-il privé ?

Oui, toute division s'exécute en JavaScript via String.split() et map/filter d'array — pas de fetch() vers un serveur, pas d'analytique avec contenu, pas d'écriture localStorage. Ouvrez l'onglet Réseau de DevTools et cliquez sur Diviser pour vérifier zéro requête sortante. Cela rend l'outil sûr pour diviser du texte confidentiel comme documents internes, PII clients, code source avec logique propriétaire, ou brouillons pré-publication sous embargo. Même les entrées de 10 Mo se divisent côté client en bien moins d'une seconde.

Voir aussi

OUTILS TEXTE65

WUTOOLS