Empaquetador de Contexto IA

Divide código, documentos o transcripciones largas en fragmentos numerados conscientes del modelo para Claude, GPT, Gemini o Llama. Tokens y costo.

Hasta 50MB por carga de archivo. Tokens estimados a ~3,7 caracteres/token.

¿Qué es el Empaquetador de Contexto IA?

Cuando necesitas que un LLM razone sobre un documento, base de código o transcripción largo que excede tu ventana de chat, tienes dos opciones: actualizar tu modelo o dividir la entrada en fragmentos conscientes del contexto y alimentarlos secuencialmente. Esta herramienta hace lo segundo — rápido, gratis y en tu navegador. Pega o sube texto, elige tu modelo objetivo (Claude, GPT-4o, GPT-5, Gemini, Llama o un límite personalizado), y el empaquetador emite bloques numerados '## Fragmento i de N' dimensionados para caber cómodamente bajo la ventana de contexto del modelo.

Características Principales

  • Preajustes para Claude (200K y 1M), GPT-4o (128K), GPT-5 (256K), Gemini 2.5 (2M), Llama 3.3 (128K)
  • Límite de tokens personalizado para cualquier otro modelo o despliegue Llama/Mistral local
  • Divisor inteligente que respeta títulos markdown, luego párrafos, luego líneas, antes de recurrir a cortes duros
  • Superposición configurable (0-50%) para que fragmentos consecutivos compartan contexto final — mejora coherencia en resumen
  • Estimación de tokens en vivo (~3,7 caracteres/token, la heurística documentada de OpenAI con ±10% para código e inglés)
  • Vista previa de costo de entrada usando precios por millón de tokens públicos actuales
  • Copia con un clic por fragmento con encabezado markdown '## Fragmento i de N' auto-generado
  • Carga hasta 50MB desde archivo local — txt, md, json, csv, log, html, css, js, ts, py, go y más
Empaquetador de Contexto IA — Divide código, documentos o transcripciones largas en fragmentos numerados conscientes del modelo para Claude, GPT, Gemi
Empaquetador de Contexto IA

Cómo Usar

  1. Pega tu texto largo en la caja de origen (o haz clic en Cargar Archivo para subir desde disco)
  2. Elige el modelo objetivo — el tamaño de fragmento se ajusta por defecto a 25% del contexto máximo
  3. Ajusta el tamaño si quieres prompts más pequeños y enfocados (fragmentos más pequeños = más turnos pero mejor memoria)
  4. Establece superposición a 5-15% para prosa, 0% para código (la superposición puede confundir en entrada estructurada)
  5. Elige estrategia — Inteligente funciona para 95% de entradas; usa Líneas para logs, Párrafos para prosa
  6. Haz clic en Empaquetar, luego copia cada uno en orden y pega en tu modelo con contexto breve

Preguntas Frecuentes

Cada modelo usa un tokenizador diferente: GPT-4/5 usa cl100k_base, GPT-3.5 usaba p50k, Claude usa el tokenizador propietario de Anthropic, Gemini usa SentencePiece, y Llama 3 usa su propio vocabulario 128K. Ejecutar cada tokenizador del lado del cliente significaría enviar más de 5MB de WebAssembly. La heurística de ~3,7 caracteres/token es lo que OpenAI publica en los documentos y es precisa dentro de ±10% para texto en inglés y código típico — suficiente para planeación de tamaño donde sueles dejar 10-20% de margen.

Regla práctica: 0% para código o datos estructurados (XML, JSON, CSV), 5-10% para documentos técnicos, 15-25% para prosa, transcripciones y notas de reuniones. La superposición ayuda al modelo a mantener continuidad a través de límites de fragmentos. Pero demasiada superposición cuesta tokens Y le dice al modelo cosas contradictorias si ve el mismo pasaje dos veces con diferente contexto. 10% es un valor por defecto sensato.

Mejor práctica: envía un mensaje 'sistema' primero describiendo lo que viene, luego fragmentos en orden. Ejemplo: 'Voy a enviarte una base de código larga dividida en 8 fragmentos. Lee cada uno y solo responde OK después de cada uno. Cuando diga LISTO, resume la arquitectura.' Luego pega cada fragmento textualmente (el encabezado ## Fragmento i de N le dice al modelo dónde está). Después del último, envía tu pregunta real.

Mayormente sí. Divide en títulos markdown (#, ##, ###) primero, luego párrafos de línea en blanco, luego líneas individuales, luego cortes duros solo como último recurso. El código entre ``` no se dividirá a mitad de bloque a menos que un solo bloque exceda el tamaño del fragmento — en cuyo caso recurre a división línea por línea. Para funciones únicas muy largas, considera preprocesar con una herramienta como ts-prune o astgrep para extraer subgrafos relevantes.

El costo mostrado es solo el costo de ENTRADA — enviar tu texto al modelo una vez. NO incluye: (1) los tokens de salida del modelo (típicamente 3-10× más caros que entrada), (2) envíos repetidos si reenvías fragmentos para preguntas de seguimiento, (3) descuentos de caché de prompts (Claude y OpenAI ahora ofrecen 50-90% de descuento en prefijo cacheado), o (4) descuentos de API batch (50% menos si puedes esperar 24h).

Sí, pero con advertencias. Para embeddings (text-embedding-3, voyage-3, etc.) los tamaños de fragmento son típicamente 500-1500 tokens — mucho más pequeños que el empaquetado de contexto de chat. Establece tamaño a 1000 y superposición a 100 (10%) para una pipeline RAG estándar. El divisor inteligente consciente de párrafos es adecuado porque la recuperación RAG funciona mejor cuando cada fragmento representa una unidad semántica coherente.

50MB de texto crudo vía el selector de archivos, que es aproximadamente 13 millones de tokens — mucho más allá del contexto de cualquier modelo actual. El navegador maneja hasta ~100MB de texto en un textarea sin congelarse en hardware moderno. Si tienes entradas más grandes (bases de código completas, archivos log de varios GB), preprocesa con grep/ripgrep o un script del lado del servidor para extraer la sección relevante antes de cargar.