Empaquetador de Contexto IA

Supera la ventana de contexto: divide código, documentos o transcripciones largos en fragmentos numerados para Claude, GPT, Gemini o Llama y descárgalos juntos.

¿Tienes comentarios? Reporta errores, sugiere funciones o comparte tus ideas — leemos todos

¿Qué es el Empaquetador de Contexto IA?

Cuando necesitas que un LLM razone sobre un documento, base de código o transcripción largo que excede tu ventana de chat, tienes dos opciones: actualizar tu modelo o dividir la entrada en fragmentos conscientes del contexto y alimentarlos secuencialmente. Esta herramienta hace lo segundo — rápido, gratis y en tu navegador. Pega o sube texto, elige tu modelo objetivo (Claude, GPT-4o, GPT-5, Gemini, Llama o un límite personalizado), y el empaquetador emite bloques numerados '## Fragmento i de N' dimensionados para caber cómodamente bajo la ventana de contexto del modelo.

Características Principales

Preajustes para Claude (200K y 1M), GPT-4o (128K), GPT-5 (256K), Gemini 2.5 (2M), Llama 3.3 (128K)
Límite de tokens personalizado para cualquier otro modelo o despliegue Llama/Mistral local
Divisor inteligente que respeta títulos markdown, luego párrafos, luego líneas, antes de recurrir a cortes duros
Superposición configurable (0-50%) para que fragmentos consecutivos compartan contexto final — mejora coherencia en resumen
Estimación de tokens en vivo (~3,7 caracteres/token, la heurística documentada de OpenAI con ±10% para código e inglés)
Vista previa de costo de entrada usando precios por millón de tokens públicos actuales
Copia con un clic por fragmento con encabezado markdown '## Fragmento i de N' auto-generado
Exporta todos los fragmentos a la vez: .md combinado (con preámbulo) o un .txt por fragmento (chunk-01.txt…) para scripts y pipelines
Carga hasta 50MB desde archivo local — txt, md, json, csv, log, html, css, js, ts, py, go y más

Empaquetador de Contexto IA — Supera la ventana de contexto: divide código, documentos o transcripciones largos en fragmentos numerados para Claude, G — **Empaquetador de Contexto IA**

Cómo Usar

Pega tu texto largo en la caja de origen (o haz clic en Cargar Archivo para subir desde disco)
Elige el modelo objetivo — el tamaño de fragmento se ajusta por defecto a 25% del contexto máximo
Ajusta el tamaño si quieres prompts más pequeños y enfocados (fragmentos más pequeños = más turnos pero mejor memoria)
Establece superposición a 5-15% para prosa, 0% para código (la superposición puede confundir en entrada estructurada)
Elige estrategia — Inteligente funciona para 95% de entradas; usa Líneas para logs, Párrafos para prosa
Haz clic en Empaquetar, luego copia cada uno en orden y pega en tu modelo con contexto breve

Preguntas Frecuentes

Cada modelo usa un tokenizador diferente: GPT-4/5 usa cl100k_base, GPT-3.5 usaba p50k, Claude usa el tokenizador propietario de Anthropic, Gemini usa SentencePiece, y Llama 3 usa su propio vocabulario 128K. Ejecutar cada tokenizador del lado del cliente significaría enviar más de 5MB de WebAssembly. La heurística de ~3,7 caracteres/token es lo que OpenAI publica en los documentos y es precisa dentro de ±10% para texto en inglés y código típico — suficiente para planeación de tamaño donde sueles dejar 10-20% de margen.

Regla práctica: 0% para código o datos estructurados (XML, JSON, CSV), 5-10% para documentos técnicos, 15-25% para prosa, transcripciones y notas de reuniones. La superposición ayuda al modelo a mantener continuidad a través de límites de fragmentos. Pero demasiada superposición cuesta tokens Y le dice al modelo cosas contradictorias si ve el mismo pasaje dos veces con diferente contexto. 10% es un valor por defecto sensato.

Mejor práctica: envía un mensaje 'sistema' primero describiendo lo que viene, luego fragmentos en orden. Ejemplo: 'Voy a enviarte una base de código larga dividida en 8 fragmentos. Lee cada uno y solo responde OK después de cada uno. Cuando diga LISTO, resume la arquitectura.' Luego pega cada fragmento textualmente (el encabezado ## Fragmento i de N le dice al modelo dónde está). Después del último, envía tu pregunta real.

Mayormente sí. Divide en títulos markdown (#, ##, ###) primero, luego párrafos de línea en blanco, luego líneas individuales, luego cortes duros solo como último recurso. El código entre ``` no se dividirá a mitad de bloque a menos que un solo bloque exceda el tamaño del fragmento — en cuyo caso recurre a división línea por línea. Para funciones únicas muy largas, considera preprocesar con una herramienta como ts-prune o astgrep para extraer subgrafos relevantes.

El costo mostrado es solo el costo de ENTRADA — enviar tu texto al modelo una vez. NO incluye: (1) los tokens de salida del modelo (típicamente 3-10× más caros que entrada), (2) envíos repetidos si reenvías fragmentos para preguntas de seguimiento, (3) descuentos de caché de prompts (Claude y OpenAI ahora ofrecen 50-90% de descuento en prefijo cacheado), o (4) descuentos de API batch (50% menos si puedes esperar 24h).

Sí, pero con advertencias. Para embeddings (text-embedding-3, voyage-3, etc.) los tamaños de fragmento son típicamente 500-1500 tokens — mucho más pequeños que el empaquetado de contexto de chat. Establece tamaño a 1000 y superposición a 100 (10%) para una pipeline RAG estándar. El divisor inteligente consciente de párrafos es adecuado porque la recuperación RAG funciona mejor cuando cada fragmento representa una unidad semántica coherente.

50MB de texto crudo vía el selector de archivos, que es aproximadamente 13 millones de tokens — mucho más allá del contexto de cualquier modelo actual. El navegador maneja hasta ~100MB de texto en un textarea sin congelarse en hardware moderno. Si tienes entradas más grandes (bases de código completas, archivos log de varios GB), preprocesa con grep/ripgrep o un script del lado del servidor para extraer la sección relevante antes de cargar.

Tras empaquetar, usa los dos botones de descarga sobre la lista de fragmentos. 'Descargar todo (.md)' genera un único context-bundle.md con un breve preámbulo de instrucciones más cada bloque '## Fragmento i de N' en orden — directamente pegable en un chat o alimentable a un script. 'Descargar cada uno (.txt)' guarda chunk-01.txt, chunk-02.txt, … un archivo por fragmento, que encajan en ingesta basada en archivos, bucles de API batch o control de versiones. Esto reemplaza hacer clic en 'Copiar con encabezado' más de 20 veces para bases de código o transcripciones grandes y preserva el orden, ya que los nombres llevan cero a la izquierda y son secuenciales.

Es el problema de 'perdido en el medio': los LLM recuerdan mucho mejor la información al inicio y al final de un contexto largo que la del medio, y el recuerdo se degrada al crecer el número de fragmentos. Guía práctica: mantén el total bajo ~10-15 para un solo pase de razonamiento; para más, pide al modelo que resuma cada fragmento en un esquema en curso en vez de retener todo literal. Coloca el material más importante al principio o al final, y tras el último fragmento reformula tu pregunta real para que quede al final del contexto. Para corpus de 30-50 fragmentos, un enfoque de recuperación (RAG) que solo traiga los fragmentos relevantes supera meterlos todos a la vez.

La heurística de 3,7 caracteres/token está ajustada a cl100k_base de OpenAI y es más precisa para GPT-4/5 en inglés y código (dentro de ±10%). El tokenizador de Claude es cercano a cl100k, así que las estimaciones se mantienen dentro de ±10-12%. El SentencePiece de Gemini tiende a ser algo más eficiente en prosa, así que esta herramienta puede sobrecontar sus tokens (obtienes un margen de seguridad). El vocabulario 128K de Llama 3 también es eficiente en código e inglés, normalmente dentro de ±15%. En todos los casos el estimado es lo bastante conservador para planificar fragmentos donde dejas 10-20% de margen; para facturación exacta usa tiktoken (OpenAI) o los endpoints oficiales de conteo de tokens de Anthropic/Google.

Ver también