Trình Gộp Ngữ Cảnh AI

Chia mã, tài liệu hoặc bản ghi dài thành các đoạn đánh số phù hợp mô hình để dán vào Claude, GPT, Gemini hoặc Llama. Ước tính token và chi phí.

Tối đa 50MB qua tải file. Token ước tính ~3,7 ký tự/token.

Trình Gộp Ngữ Cảnh AI Là Gì?

Khi bạn cần LLM lý luận trên tài liệu, mã nguồn hoặc bản ghi dài vượt quá cửa sổ chat, bạn có hai lựa chọn: nâng cấp mô hình hoặc chia đầu vào thành các đoạn nhận biết ngữ cảnh và đưa vào theo thứ tự. Công cụ này làm việc thứ hai — nhanh, miễn phí và trong trình duyệt của bạn. Dán hoặc tải văn bản, chọn mô hình mục tiêu (Claude, GPT-4o, GPT-5, Gemini, Llama hoặc giới hạn tùy chỉnh), và trình gộp xuất ra các khối được đánh số '## Đoạn i / N' có kích thước phù hợp với cửa sổ ngữ cảnh của mô hình.

Tính Năng Chính

  • Cài đặt sẵn cho Claude (200K & 1M), GPT-4o (128K), GPT-5 (256K), Gemini 2.5 (2M), Llama 3.3 (128K)
  • Giới hạn token tùy chỉnh cho bất kỳ mô hình nào hoặc triển khai Llama/Mistral cục bộ
  • Bộ chia thông minh tôn trọng tiêu đề markdown, rồi đoạn văn, rồi dòng, trước khi rơi vào cắt cứng
  • Chồng lấp có thể cấu hình (0-50%) để các đoạn liên tiếp chia sẻ ngữ cảnh cuối — cải thiện mạch lạc trong tóm tắt
  • Ước tính token trực tiếp (~3,7 ký tự/token, heuristic được OpenAI tài liệu hóa chính xác ±10% cho mã và tiếng Anh)
  • Xem trước chi phí đầu vào dùng giá mỗi triệu token công khai hiện tại
  • Sao chép một cú nhấp mỗi đoạn với tiêu đề markdown '## Đoạn i / N' tự tạo
  • Tải tối đa 50MB từ file cục bộ — txt, md, json, csv, log, html, css, js, ts, py, go và nhiều hơn
Trình Gộp Ngữ Cảnh AI — Chia mã, tài liệu hoặc bản ghi dài thành các đoạn đánh số phù hợp mô hình để dán vào Claude, GPT, Gemini hoặc Llama. Ước
Trình Gộp Ngữ Cảnh AI

Cách Sử Dụng

  1. Dán văn bản dài vào hộp nguồn (hoặc nhấn Tải File để tải từ ổ đĩa)
  2. Chọn mô hình mục tiêu — kích thước đoạn mặc định là 25% ngữ cảnh tối đa của mô hình
  3. Điều chỉnh kích thước nếu muốn prompt nhỏ hơn, tập trung hơn (đoạn nhỏ hơn = nhiều lượt hơn nhưng nhớ tốt hơn)
  4. Đặt chồng lấp 5-15% cho văn xuôi, 0% cho mã (chồng lấp có thể gây nhầm lẫn trên đầu vào có cấu trúc)
  5. Chọn chiến lược — Thông minh hoạt động cho 95% đầu vào; dùng Dòng cho file log, Đoạn Văn cho văn xuôi
  6. Nhấn Gộp Thành Đoạn, rồi sao chép từng cái theo thứ tự và dán vào mô hình với ngữ cảnh ngắn

Câu Hỏi Thường Gặp

Mỗi mô hình dùng tokenizer khác nhau: GPT-4/5 dùng cl100k_base, GPT-3.5 dùng p50k, Claude dùng tokenizer độc quyền của Anthropic, Gemini dùng SentencePiece, và Llama 3 dùng từ vựng 128K riêng. Chạy mọi tokenizer phía máy khách có nghĩa gửi hơn 5MB WebAssembly. Heuristic ~3,7 ký tự/token là điều OpenAI công bố trong tài liệu và chính xác trong ±10% cho văn bản tiếng Anh và mã điển hình — đủ tốt cho lập kế hoạch kích thước đoạn nơi bạn thường để 10-20% biên độ.

Quy tắc thực hành: 0% cho mã hoặc dữ liệu có cấu trúc (XML, JSON, CSV), 5-10% cho tài liệu kỹ thuật, 15-25% cho văn xuôi, bản ghi và ghi chú họp. Chồng lấp giúp mô hình duy trì tính liên tục qua ranh giới đoạn. Nhưng quá nhiều chồng lấp tốn token VÀ nói với mô hình những điều mâu thuẫn nếu nó thấy cùng đoạn hai lần với ngữ cảnh khác nhau. 10% là mặc định hợp lý.

Thực hành tốt nhất: gửi tin nhắn 'hệ thống' trước mô tả những gì sắp tới, rồi đoạn theo thứ tự. Ví dụ: 'Tôi sẽ gửi bạn một mã nguồn dài chia thành 8 đoạn. Đọc từng đoạn và chỉ trả lời OK sau mỗi đoạn. Khi tôi nói XONG, tóm tắt kiến trúc.' Rồi dán từng đoạn nguyên văn (tiêu đề ## Đoạn i / N cho mô hình biết nó đang ở đâu). Sau đoạn cuối, gửi câu hỏi thực của bạn.

Phần lớn có. Nó chia theo tiêu đề markdown (#, ##, ###) trước, rồi đoạn dòng trống, rồi dòng đơn, rồi cắt cứng chỉ như phương án cuối. Mã đặt trong ``` sẽ không bị chia giữa khối trừ khi một khối đơn vượt quá kích thước đoạn — trong trường hợp đó rơi xuống chia từng dòng. Cho các hàm đơn rất dài, cân nhắc tiền xử lý với công cụ như ts-prune hoặc astgrep để trích xuất các đồ thị con liên quan.

Chi phí hiển thị chỉ là chi phí ĐẦU VÀO — gửi văn bản của bạn vào mô hình một lần. KHÔNG bao gồm: (1) token đầu ra của mô hình (thường đắt hơn 3-10× so với đầu vào), (2) gửi lặp lại nếu bạn gửi lại đoạn cho câu hỏi tiếp theo, (3) giảm giá cache prompt (Claude và OpenAI hiện cung cấp giảm giá 50-90% trên tiền tố đã cache), hoặc (4) giảm giá API batch (50% nếu bạn có thể đợi 24h).

Có, nhưng với điều kiện. Đối với embedding (text-embedding-3, voyage-3, v.v.) kích thước đoạn thường là 500-1500 token — nhỏ hơn nhiều so với gộp ngữ cảnh chat. Đặt kích thước thành 1000 và chồng lấp thành 100 (10%) cho pipeline RAG chuẩn. Bộ chia thông minh nhận biết đoạn rất phù hợp vì truy xuất RAG hoạt động tốt nhất khi mỗi đoạn đại diện cho một đơn vị ngữ nghĩa mạch lạc.

50MB văn bản thô qua bộ chọn file, khoảng 13 triệu token — vượt xa ngữ cảnh của bất kỳ mô hình hiện tại nào. Trình duyệt xử lý tới ~100MB văn bản trong textarea mà không treo trên phần cứng hiện đại. Nếu bạn có đầu vào lớn hơn (toàn bộ mã nguồn, file log nhiều GB), tiền xử lý với grep/ripgrep hoặc kịch bản phía máy chủ để trích xuất phần liên quan trước khi tải.