Empacotador de Contexto IA

Supere a janela de contexto: divida código, documentos ou transcrições longos em fragmentos numerados para Claude, GPT, Gemini ou Llama e baixe tudo de uma vez.

Tem feedback? Reporte bugs, sugira recursos ou compartilhe suas ideias — lemos todos

O Que É o Empacotador de Contexto IA?

Quando você precisa que um LLM raciocine sobre um documento, base de código ou transcrição longa que excede sua janela de chat, você tem duas escolhas: atualizar seu modelo ou dividir a entrada em fragmentos conscientes de contexto e alimentá-los sequencialmente. Esta ferramenta faz a segunda — rápido, grátis e no seu navegador. Cole ou faça upload de texto, escolha seu modelo alvo (Claude, GPT-4o, GPT-5, Gemini, Llama ou um limite personalizado), e o empacotador emite blocos numerados '## Fragmento i de N' dimensionados para caber confortavelmente sob a janela de contexto do modelo.

Características Principais

Predefinições para Claude (200K e 1M), GPT-4o (128K), GPT-5 (256K), Gemini 2.5 (2M), Llama 3.3 (128K)
Limite de tokens personalizado para qualquer outro modelo ou implantação Llama/Mistral local
Divisor inteligente que respeita títulos markdown, depois parágrafos, depois linhas, antes de recorrer a cortes duros
Sobreposição configurável (0-50%) para que fragmentos consecutivos compartilhem contexto final — melhora coerência
Estimativa de tokens ao vivo (~3,7 caracteres/token, a heurística documentada da OpenAI precisa em ±10% para código e inglês)
Visualização de custo de entrada usando preços por milhão de tokens públicos atuais
Cópia de um clique por fragmento com cabeçalho markdown '## Fragmento i de N' auto-gerado
Exporta todos os fragmentos de uma vez: .md combinado (com preâmbulo) ou um .txt por fragmento (chunk-01.txt…) para scripts e pipelines
Carrega até 50MB de arquivo local — txt, md, json, csv, log, html, css, js, ts, py, go e mais

Empacotador de Contexto IA — Supere a janela de contexto: divida código, documentos ou transcrições longos em fragmentos numerados para Claude, GPT, — **Empacotador de Contexto IA**

Como Usar

Cole seu texto longo na caixa de origem (ou clique em Carregar Arquivo para fazer upload do disco)
Escolha o modelo alvo — o tamanho do fragmento é padronizado em 25% do contexto máximo do modelo
Ajuste o tamanho se quiser prompts menores e mais focados (fragmentos menores = mais turnos mas melhor recall)
Defina sobreposição para 5-15% para prosa, 0% para código (a sobreposição pode confundir em entrada estruturada)
Escolha uma estratégia — Inteligente funciona para 95% das entradas; use Linhas para arquivos de log, Parágrafos para prosa
Clique em Empacotar, depois copie cada um em ordem e cole no seu modelo com contexto breve

Perguntas Frequentes

Cada modelo usa um tokenizador diferente: GPT-4/5 usa cl100k_base, GPT-3.5 usava p50k, Claude usa o tokenizador proprietário da Anthropic, Gemini usa SentencePiece, e Llama 3 usa seu próprio vocabulário 128K. Executar todo tokenizador no lado cliente significaria enviar mais de 5MB de WebAssembly. A heurística de ~3,7 caracteres/token é o que a OpenAI publica nos documentos e é precisa dentro de ±10% para texto em inglês e código típico — bom o suficiente para planejamento de tamanho onde você geralmente deixa 10-20% de margem.

Regra prática: 0% para código ou dados estruturados (XML, JSON, CSV), 5-10% para documentos técnicos, 15-25% para prosa, transcrições e notas de reunião. A sobreposição ajuda o modelo a manter continuidade através dos limites de fragmentos. Mas sobreposição demais custa tokens E diz ao modelo coisas contraditórias se ele vir a mesma passagem duas vezes com contexto diferente. 10% é um padrão sensato.

Melhor prática: envie uma mensagem 'sistema' primeiro descrevendo o que vem, depois fragmentos em ordem. Exemplo: 'Vou enviar uma base de código longa dividida em 8 fragmentos. Leia cada um e só responda OK após cada. Quando eu disser PRONTO, resuma a arquitetura.' Depois cole cada fragmento literalmente (o cabeçalho ## Fragmento i de N diz ao modelo onde está). Após o último, envie sua pergunta real.

Principalmente sim. Ele divide em títulos markdown (#, ##, ###) primeiro, depois parágrafos de linha em branco, depois linhas individuais, depois cortes duros apenas como último recurso. Código cercado em ``` não será dividido no meio do bloco a menos que um único bloco exceda o tamanho do fragmento — caso em que cai para divisão linha a linha. Para funções únicas muito longas, considere pré-processar com uma ferramenta como ts-prune ou astgrep para extrair subgrafos relevantes.

O custo mostrado é APENAS custo de ENTRADA — enviar seu texto para o modelo uma vez. NÃO inclui: (1) tokens de saída do modelo (tipicamente 3-10× mais caros que entrada), (2) envios repetidos se você reenviar fragmentos para perguntas de acompanhamento, (3) descontos de cache de prompt (Claude e OpenAI agora oferecem 50-90% de desconto em prefixo cacheado), ou (4) descontos de API batch (50% off se puder esperar 24h).

Sim, mas com ressalvas. Para embeddings (text-embedding-3, voyage-3, etc.) os tamanhos de fragmento são tipicamente 500-1500 tokens — muito menores que o empacotamento de contexto de chat. Defina o tamanho para 1000 e sobreposição para 100 (10%) para um pipeline RAG padrão. O divisor inteligente consciente de parágrafos é adequado porque a recuperação RAG funciona melhor quando cada fragmento representa uma unidade semântica coerente.

50MB de texto bruto via o seletor de arquivos, que é aproximadamente 13 milhões de tokens — muito além do contexto de qualquer modelo atual. O navegador lida com até ~100MB de texto em um textarea sem travar em hardware moderno. Se você tem entradas maiores (bases de código inteiras, arquivos de log de vários GB), pré-processe com grep/ripgrep ou um script do lado do servidor para extrair o slice relevante antes de carregar.

Após empacotar, use os dois botões de download acima da lista de fragmentos. 'Baixar tudo (.md)' produz um único context-bundle.md contendo um breve preâmbulo de instruções mais cada bloco '## Fragmento i de N' em ordem — diretamente colável em um chat ou alimentável a um script. 'Baixar cada um (.txt)' salva chunk-01.txt, chunk-02.txt, … um arquivo por fragmento, que encaixam em ingestão baseada em arquivos, loops de API batch ou controle de versão. Isso substitui clicar em 'Copiar com cabeçalho' mais de 20 vezes para bases de código ou transcrições grandes e preserva a ordem, já que os nomes têm zero à esquerda e são sequenciais.

É o problema 'perdido no meio': LLMs lembram informações no início e no fim de um contexto longo muito melhor do que no meio, e a lembrança degrada conforme o número de fragmentos cresce. Orientação prática: mantenha o total abaixo de ~10-15 para uma única passagem de raciocínio; para mais, peça ao modelo que resuma cada fragmento em um esboço em andamento em vez de reter tudo literal. Coloque o material mais importante no início ou no fim, e após o último fragmento reformule sua pergunta real para que fique no fim do contexto. Para corpora de 30-50 fragmentos, uma abordagem de recuperação (RAG) que busca apenas os fragmentos relevantes supera enfiar todos de uma vez.

A heurística de 3,7 caracteres/token é ajustada ao cl100k_base da OpenAI e é mais precisa para GPT-4/5 em inglês e código (dentro de ±10%). O tokenizador do Claude é próximo do cl100k, então as estimativas ficam dentro de ±10-12%. O SentencePiece do Gemini tende a ser um pouco mais eficiente em prosa, então esta ferramenta pode contar a mais seus tokens (você ganha uma margem de segurança). O vocabulário 128K do Llama 3 também é eficiente em código e inglês, normalmente dentro de ±15%. Em todos os casos a estimativa é conservadora o suficiente para planejar fragmentos onde você deixa 10-20% de margem; para cobrança exata use tiktoken (OpenAI) ou os endpoints oficiais de contagem de tokens da Anthropic/Google.

Veja também