Empacotador de Contexto IA

Divida código, documentos ou transcrições longos em fragmentos numerados conscientes do modelo para Claude, GPT, Gemini ou Llama. Tokens e custo.

Até 50MB por upload. Tokens estimados em ~3,7 caracteres/token.

O Que É o Empacotador de Contexto IA?

Quando você precisa que um LLM raciocine sobre um documento, base de código ou transcrição longa que excede sua janela de chat, você tem duas escolhas: atualizar seu modelo ou dividir a entrada em fragmentos conscientes de contexto e alimentá-los sequencialmente. Esta ferramenta faz a segunda — rápido, grátis e no seu navegador. Cole ou faça upload de texto, escolha seu modelo alvo (Claude, GPT-4o, GPT-5, Gemini, Llama ou um limite personalizado), e o empacotador emite blocos numerados '## Fragmento i de N' dimensionados para caber confortavelmente sob a janela de contexto do modelo.

Características Principais

  • Predefinições para Claude (200K e 1M), GPT-4o (128K), GPT-5 (256K), Gemini 2.5 (2M), Llama 3.3 (128K)
  • Limite de tokens personalizado para qualquer outro modelo ou implantação Llama/Mistral local
  • Divisor inteligente que respeita títulos markdown, depois parágrafos, depois linhas, antes de recorrer a cortes duros
  • Sobreposição configurável (0-50%) para que fragmentos consecutivos compartilhem contexto final — melhora coerência
  • Estimativa de tokens ao vivo (~3,7 caracteres/token, a heurística documentada da OpenAI precisa em ±10% para código e inglês)
  • Visualização de custo de entrada usando preços por milhão de tokens públicos atuais
  • Cópia de um clique por fragmento com cabeçalho markdown '## Fragmento i de N' auto-gerado
  • Carrega até 50MB de arquivo local — txt, md, json, csv, log, html, css, js, ts, py, go e mais
Empacotador de Contexto IA — Divida código, documentos ou transcrições longos em fragmentos numerados conscientes do modelo para Claude, GPT, Gemini
Empacotador de Contexto IA

Como Usar

  1. Cole seu texto longo na caixa de origem (ou clique em Carregar Arquivo para fazer upload do disco)
  2. Escolha o modelo alvo — o tamanho do fragmento é padronizado em 25% do contexto máximo do modelo
  3. Ajuste o tamanho se quiser prompts menores e mais focados (fragmentos menores = mais turnos mas melhor recall)
  4. Defina sobreposição para 5-15% para prosa, 0% para código (a sobreposição pode confundir em entrada estruturada)
  5. Escolha uma estratégia — Inteligente funciona para 95% das entradas; use Linhas para arquivos de log, Parágrafos para prosa
  6. Clique em Empacotar, depois copie cada um em ordem e cole no seu modelo com contexto breve

Perguntas Frequentes

Cada modelo usa um tokenizador diferente: GPT-4/5 usa cl100k_base, GPT-3.5 usava p50k, Claude usa o tokenizador proprietário da Anthropic, Gemini usa SentencePiece, e Llama 3 usa seu próprio vocabulário 128K. Executar todo tokenizador no lado cliente significaria enviar mais de 5MB de WebAssembly. A heurística de ~3,7 caracteres/token é o que a OpenAI publica nos documentos e é precisa dentro de ±10% para texto em inglês e código típico — bom o suficiente para planejamento de tamanho onde você geralmente deixa 10-20% de margem.

Regra prática: 0% para código ou dados estruturados (XML, JSON, CSV), 5-10% para documentos técnicos, 15-25% para prosa, transcrições e notas de reunião. A sobreposição ajuda o modelo a manter continuidade através dos limites de fragmentos. Mas sobreposição demais custa tokens E diz ao modelo coisas contraditórias se ele vir a mesma passagem duas vezes com contexto diferente. 10% é um padrão sensato.

Melhor prática: envie uma mensagem 'sistema' primeiro descrevendo o que vem, depois fragmentos em ordem. Exemplo: 'Vou enviar uma base de código longa dividida em 8 fragmentos. Leia cada um e só responda OK após cada. Quando eu disser PRONTO, resuma a arquitetura.' Depois cole cada fragmento literalmente (o cabeçalho ## Fragmento i de N diz ao modelo onde está). Após o último, envie sua pergunta real.

Principalmente sim. Ele divide em títulos markdown (#, ##, ###) primeiro, depois parágrafos de linha em branco, depois linhas individuais, depois cortes duros apenas como último recurso. Código cercado em ``` não será dividido no meio do bloco a menos que um único bloco exceda o tamanho do fragmento — caso em que cai para divisão linha a linha. Para funções únicas muito longas, considere pré-processar com uma ferramenta como ts-prune ou astgrep para extrair subgrafos relevantes.

O custo mostrado é APENAS custo de ENTRADA — enviar seu texto para o modelo uma vez. NÃO inclui: (1) tokens de saída do modelo (tipicamente 3-10× mais caros que entrada), (2) envios repetidos se você reenviar fragmentos para perguntas de acompanhamento, (3) descontos de cache de prompt (Claude e OpenAI agora oferecem 50-90% de desconto em prefixo cacheado), ou (4) descontos de API batch (50% off se puder esperar 24h).

Sim, mas com ressalvas. Para embeddings (text-embedding-3, voyage-3, etc.) os tamanhos de fragmento são tipicamente 500-1500 tokens — muito menores que o empacotamento de contexto de chat. Defina o tamanho para 1000 e sobreposição para 100 (10%) para um pipeline RAG padrão. O divisor inteligente consciente de parágrafos é adequado porque a recuperação RAG funciona melhor quando cada fragmento representa uma unidade semântica coerente.

50MB de texto bruto via o seletor de arquivos, que é aproximadamente 13 milhões de tokens — muito além do contexto de qualquer modelo atual. O navegador lida com até ~100MB de texto em um textarea sem travar em hardware moderno. Se você tem entradas maiores (bases de código inteiras, arquivos de log de vários GB), pré-processe com grep/ripgrep ou um script do lado do servidor para extrair o slice relevante antes de carregar.