Contador de Caracteres

Contador em tempo real de caracteres, palavras, linhas, parágrafos e frases. Caracteres sem espaços, tokens LLM, título/meta SEO, limites de Twitter e SMS.

Tem feedback? Reporte bugs, sugira recursos ou compartilhe suas ideias — lemos todos

Sobre a Ferramenta Contador de Caracteres

Contar caracteres parece trivial — mas "quantos caracteres tem este texto?" tem quatro respostas legítimas dependendo da camada que você consulta: bytes (octetos UTF-8, o que o armazenamento em nuvem cobra), unidades de código (pedaços UTF-16, o que str.length do JavaScript retorna e o limite do NVARCHAR no SQL Server), codepoints (caracteres Unicode, o que a iteração de strings entrega no Python 3 e no JS moderno) ou clusters de grafemas (o que humanos percebem como um caractere). As quatro podem divergir drasticamente — o emoji de família 👨‍👩‍👧‍👦 é 1 grafema mas 7 codepoints, 11 unidades UTF-16 e 25 bytes UTF-8. Este contador reporta grafemas, então o número bate com o que você vê na tela, e expõe à parte palavras, linhas, parágrafos e frases via detecção de fronteiras Unicode (UAX #29). Como cada plataforma impõe limites em camadas diferentes — Twitter/X conta CJK como 2, SMS GSM-7 empacotam 160 ASCII em 140 bytes e caem para 70 quando aparece um emoji (UCS-2), títulos SEO do Google são limitados por pixels (~580 px) não por caracteres, e tokenizadores de LLM consomem ~4 caracteres por token em inglês mas 1-2 para português acentuado — use este contador para rascunhar e revalide no contador oficial da plataforma antes de publicar. A contagem roda localmente com debounce de 300 ms; nada é enviado. Veja também nosso Conversor de Caixa e o Gerador Lorem Ipsum.

Por que contagens de caracteres diferem entre esta ferramenta, Microsoft Word e Twitter?

Diferentes plataformas contam caracteres usando regras diferentes. Esta ferramenta conta cada codepoint Unicode, tratando cada glifo visível como uma unidade. "Caracteres" do Microsoft Word relata dois números — com e sem espaços — e pode excluir notas de rodapé por padrão. Twitter/X é o mais complexo: conta URLs como 23 caracteres independente do comprimento real (encapsulamento de link), conta a maioria dos emojis como 2 caracteres, trata os intervalos Han/Hangul/Hiragana como 2 caracteres cada, e aplica uma fórmula ponderada em sua API. Para se manter seguro abaixo dos limites de plataforma, sempre conte usando o contador oficial de cada plataforma para validação final; esta ferramenta é para drafting geral e é conservadora.

Como emojis, letras acentuadas e caracteres combinantes são contados?

Contagem ingênua de caracteres pode dar resultados surpreendentes porque o modelo Unicode subjacente é mais complexo que "um caractere = uma contagem." Um emoji simples como 😀 é um codepoint e um caractere percebido. Mas um emoji de família 👨‍👩‍👧‍👦 é tecnicamente quatro codepoints de emoji unidos por três zero-width joiners — sete codepoints, um glifo visível. Letras acentuadas podem ser um codepoint pré-composto (ã, NFC) ou dois combinados (a + ̃, NFD). Esta ferramenta conta caracteres percebidos (clusters de grafemas) quando possível, então 👨‍👩‍👧‍👦 lê como 1. A propriedade str.length de JavaScript ainda retorna contagem de codepoint — diferentes ferramentas podem discordar por design.

Qual a contagem ótima de caracteres para title tags e meta descriptions SEO em 2026?

A SERP do Google renderiza títulos em cerca de 580 pixels e descrições em cerca de 920 pixels de largura, não uma contagem fixa de caracteres — letras largas (W, M) ocupam mais espaço que estreitas (i, l). Como proxy prático, mire: títulos 50-60 caracteres (mobile trunca antes em 50), descrições 120-160 caracteres (mobile mostra ~120, desktop ~160). Google não penaliza texto mais longo; apenas trunca com reticências, o que pode prejudicar CTR. Coloque as palavras mais importantes no início. Para outras plataformas: títulos Open Graph 60-90, descrições ~200; cartões Twitter 70/200; compartilhamentos LinkedIn 150 títulos, 250 descrições.

O que diz WCAG 2.2 sobre contagem ideal de caracteres por linha para acessibilidade?

Critério de Sucesso 1.4.8 do WCAG 2.2 (Apresentação Visual, Nível AAA) recomenda comprimento máximo de linha de 80 caracteres (40 para chinês, japonês e coreano). Pesquisa de estudos de tipografia converge em 50-75 caracteres por linha como ótimo para velocidade de leitura e compreensão — linhas mais curtas (abaixo de 40) forçam saltos visuais demais; linhas mais longas (acima de 90) fazem leitores perderem o lugar ao retornar para começar nova linha. Para texto de corpo na web, defina CSS max-width em aproximadamente 65ch (a unidade ch equivale à largura do caractere 0). Esta ferramenta conta caracteres totais no texto inteiro, não por linha — para verificar contagens por linha, divida por quebras de linha e meça cada substring.

Contador de Caracteres — Contador em tempo real de caracteres, palavras, linhas, parágrafos e frases. Caracteres sem espaços, tokens LLM, título/ — **Contador de Caracteres**

Como segmentos de SMS funcionam e por que um emoji divide meu texto em múltiplas mensagens?

SMS usa duas codificações. GSM-7 (padrão) empacota 160 caracteres em um SMS de 140 bytes usando chars de 7 bits — funciona para ASCII mais acentos básicos. UCS-2 (Unicode) é usado no momento que qualquer caractere fora de GSM-7 aparece — incluindo emojis, aspas curvas, travessões ou muitos diacríticos vietnamitas — e reduz capacidade para 70 caracteres por segmento. Em português, ã, õ, ç são compatíveis com GSM-7, mas ç maiúsculo (Ç) e algumas vogais acentuadas (ó, ú) podem trigger UCS-2 dependendo do gateway. SMS multi-segmento usa 153 (GSM) ou 67 (UCS-2) por segmento porque cabeçalhos de roteamento consomem o resto. Twilio e outros gateways cobram por segmento, não por caractere. Remova aspas curvas e emojis para manter textos em segmentos GSM-7 únicos.

Qual a diferença entre bytes, codepoints, unidades de código e clusters de grafemas?

Essas quatro camadas são a fonte da maior confusão sobre contagem de caracteres. Bytes: os octetos brutos no arquivo codificado (UTF-8 usa 1-4 bytes por codepoint). Unidades de código: os pedaços de 16 bits em UTF-16 (strings JavaScript e Java, API do Windows) — emojis acima de U+FFFF usam 2 unidades de código. Codepoints: caracteres Unicode reais (U+1F600 para 😀) — o iterador de string em linguagens modernas retorna codepoints. Clusters de grafemas: o que humanos percebem como um caractere — 👨‍👩‍👧‍👦 é 1 grafema mas 7 codepoints, 14 unidades de código UTF-16, 25 bytes UTF-8. Esta ferramenta relata a contagem de grafemas percebida pelo usuário. Ao trabalhar com APIs que cobram por bytes (cloud storage), ou limitam por unidades de código (SQL VARCHAR), escolha a camada certa para seu caso de uso.

Como posso estimar tempo de leitura a partir de contagem de caracteres ou palavras para postagens de blog?

Velocidade média de leitura silenciosa de adultos em português é 210-260 palavras por minuto (WPM); em voz alta é mais lenta a 150-160 WPM. Conteúdo técnico desacelera leitores para 50-100 WPM. Para estimar tempo de leitura: divida a contagem de palavras por 235 (padrão do Medium para português) e arredonde para cima. Para outros: inglês 238, espanhol 220, francês 195, vietnamita 180 — idiomas asiáticos sem espaços são frequentemente medidos em caracteres por minuto (chinês ~300 cpm). Estimativas baseadas em caracteres são úteis quando limites de palavra não são claros: divida caracteres totais (com espaços) por 1.450 para obter minutos para português. Este contador mostra palavras e caracteres; multiplique ou divida para computar tempo de leitura e exibir crachás "5 min de leitura."

Como contagens de tokens LLM se relacionam com contagens de caracteres para estimativa de custo de prompts?

Grandes modelos de linguagem (GPT, Claude, Llama, Gemini) cobram por tokens, não caracteres. Como regra aproximada para texto inglês, 1 token ≈ 4 caracteres ≈ 0,75 palavras. Então um parágrafo de 1.000 caracteres é aproximadamente 250 tokens. Mas essa razão varia dramaticamente: código usa menos caracteres por token (~3) porque sintaxe é densa; não-inglês usa mais caracteres por token porque tokenizadores BPE foram treinados principalmente em inglês. Português média ~3,2 caracteres por token (melhor que vietnamita), mas til, cedilha e acentos ainda consomem mais. Para orçar custos de API com precisão, use o tokenizador oficial do modelo (tiktoken para OpenAI, anthropic-tokenizer para Claude). Este contador de caracteres dá uma primeira estimativa rápida: divida caracteres por 3,5 para prompts carregados de português.