Trình Gộp Ngữ Cảnh AI

Vượt giới hạn ngữ cảnh: chia mã, tài liệu hoặc bản ghi dài thành các đoạn đánh số cho Claude, GPT, Gemini hoặc Llama rồi tải tất cả cùng lúc.

Có góp ý? Báo lỗi, đề xuất tính năng, hoặc chia sẻ suy nghĩ — chúng tôi đọc tất cả

Trình Gộp Ngữ Cảnh AI Là Gì?

Khi bạn cần LLM lý luận trên tài liệu, mã nguồn hoặc bản ghi dài vượt quá cửa sổ chat, bạn có hai lựa chọn: nâng cấp mô hình hoặc chia đầu vào thành các đoạn nhận biết ngữ cảnh và đưa vào theo thứ tự. Công cụ này làm việc thứ hai — nhanh, miễn phí và trong trình duyệt của bạn. Dán hoặc tải văn bản, chọn mô hình mục tiêu (Claude, GPT-4o, GPT-5, Gemini, Llama hoặc giới hạn tùy chỉnh), và trình gộp xuất ra các khối được đánh số '## Đoạn i / N' có kích thước phù hợp với cửa sổ ngữ cảnh của mô hình.

Tính Năng Chính

Cài đặt sẵn cho Claude (200K & 1M), GPT-4o (128K), GPT-5 (256K), Gemini 2.5 (2M), Llama 3.3 (128K)
Giới hạn token tùy chỉnh cho bất kỳ mô hình nào hoặc triển khai Llama/Mistral cục bộ
Bộ chia thông minh tôn trọng tiêu đề markdown, rồi đoạn văn, rồi dòng, trước khi rơi vào cắt cứng
Chồng lấp có thể cấu hình (0-50%) để các đoạn liên tiếp chia sẻ ngữ cảnh cuối — cải thiện mạch lạc trong tóm tắt
Ước tính token trực tiếp (~3,7 ký tự/token, heuristic được OpenAI tài liệu hóa chính xác ±10% cho mã và tiếng Anh)
Xem trước chi phí đầu vào dùng giá mỗi triệu token công khai hiện tại
Sao chép một cú nhấp mỗi đoạn với tiêu đề markdown '## Đoạn i / N' tự tạo
Xuất tất cả các đoạn cùng lúc: .md gộp (có lời dẫn) hoặc một .txt mỗi đoạn (chunk-01.txt…) cho script và pipeline
Tải tối đa 50MB từ file cục bộ — txt, md, json, csv, log, html, css, js, ts, py, go và nhiều hơn

Trình Gộp Ngữ Cảnh AI — Vượt giới hạn ngữ cảnh: chia mã, tài liệu hoặc bản ghi dài thành các đoạn đánh số cho Claude, GPT, Gemini hoặc Llama rồi — **Trình Gộp Ngữ Cảnh AI**

Cách Sử Dụng

Dán văn bản dài vào hộp nguồn (hoặc nhấn Tải File để tải từ ổ đĩa)
Chọn mô hình mục tiêu — kích thước đoạn mặc định là 25% ngữ cảnh tối đa của mô hình
Điều chỉnh kích thước nếu muốn prompt nhỏ hơn, tập trung hơn (đoạn nhỏ hơn = nhiều lượt hơn nhưng nhớ tốt hơn)
Đặt chồng lấp 5-15% cho văn xuôi, 0% cho mã (chồng lấp có thể gây nhầm lẫn trên đầu vào có cấu trúc)
Chọn chiến lược — Thông minh hoạt động cho 95% đầu vào; dùng Dòng cho file log, Đoạn Văn cho văn xuôi
Nhấn Gộp Thành Đoạn, rồi sao chép từng cái theo thứ tự và dán vào mô hình với ngữ cảnh ngắn

Câu Hỏi Thường Gặp

Mỗi mô hình dùng tokenizer khác nhau: GPT-4/5 dùng cl100k_base, GPT-3.5 dùng p50k, Claude dùng tokenizer độc quyền của Anthropic, Gemini dùng SentencePiece, và Llama 3 dùng từ vựng 128K riêng. Chạy mọi tokenizer phía máy khách có nghĩa gửi hơn 5MB WebAssembly. Heuristic ~3,7 ký tự/token là điều OpenAI công bố trong tài liệu và chính xác trong ±10% cho văn bản tiếng Anh và mã điển hình — đủ tốt cho lập kế hoạch kích thước đoạn nơi bạn thường để 10-20% biên độ.

Quy tắc thực hành: 0% cho mã hoặc dữ liệu có cấu trúc (XML, JSON, CSV), 5-10% cho tài liệu kỹ thuật, 15-25% cho văn xuôi, bản ghi và ghi chú họp. Chồng lấp giúp mô hình duy trì tính liên tục qua ranh giới đoạn. Nhưng quá nhiều chồng lấp tốn token VÀ nói với mô hình những điều mâu thuẫn nếu nó thấy cùng đoạn hai lần với ngữ cảnh khác nhau. 10% là mặc định hợp lý.

Thực hành tốt nhất: gửi tin nhắn 'hệ thống' trước mô tả những gì sắp tới, rồi đoạn theo thứ tự. Ví dụ: 'Tôi sẽ gửi bạn một mã nguồn dài chia thành 8 đoạn. Đọc từng đoạn và chỉ trả lời OK sau mỗi đoạn. Khi tôi nói XONG, tóm tắt kiến trúc.' Rồi dán từng đoạn nguyên văn (tiêu đề ## Đoạn i / N cho mô hình biết nó đang ở đâu). Sau đoạn cuối, gửi câu hỏi thực của bạn.

Phần lớn có. Nó chia theo tiêu đề markdown (#, ##, ###) trước, rồi đoạn dòng trống, rồi dòng đơn, rồi cắt cứng chỉ như phương án cuối. Mã đặt trong ``` sẽ không bị chia giữa khối trừ khi một khối đơn vượt quá kích thước đoạn — trong trường hợp đó rơi xuống chia từng dòng. Cho các hàm đơn rất dài, cân nhắc tiền xử lý với công cụ như ts-prune hoặc astgrep để trích xuất các đồ thị con liên quan.

Chi phí hiển thị chỉ là chi phí ĐẦU VÀO — gửi văn bản của bạn vào mô hình một lần. KHÔNG bao gồm: (1) token đầu ra của mô hình (thường đắt hơn 3-10× so với đầu vào), (2) gửi lặp lại nếu bạn gửi lại đoạn cho câu hỏi tiếp theo, (3) giảm giá cache prompt (Claude và OpenAI hiện cung cấp giảm giá 50-90% trên tiền tố đã cache), hoặc (4) giảm giá API batch (50% nếu bạn có thể đợi 24h).

Có, nhưng với điều kiện. Đối với embedding (text-embedding-3, voyage-3, v.v.) kích thước đoạn thường là 500-1500 token — nhỏ hơn nhiều so với gộp ngữ cảnh chat. Đặt kích thước thành 1000 và chồng lấp thành 100 (10%) cho pipeline RAG chuẩn. Bộ chia thông minh nhận biết đoạn rất phù hợp vì truy xuất RAG hoạt động tốt nhất khi mỗi đoạn đại diện cho một đơn vị ngữ nghĩa mạch lạc.

50MB văn bản thô qua bộ chọn file, khoảng 13 triệu token — vượt xa ngữ cảnh của bất kỳ mô hình hiện tại nào. Trình duyệt xử lý tới ~100MB văn bản trong textarea mà không treo trên phần cứng hiện đại. Nếu bạn có đầu vào lớn hơn (toàn bộ mã nguồn, file log nhiều GB), tiền xử lý với grep/ripgrep hoặc kịch bản phía máy chủ để trích xuất phần liên quan trước khi tải.

Sau khi gộp, dùng hai nút tải phía trên danh sách đoạn. 'Tải tất cả (.md)' tạo một file context-bundle.md duy nhất gồm lời dẫn hướng dẫn ngắn cùng mọi khối '## Đoạn i / N' theo thứ tự — có thể dán thẳng vào chat hoặc đưa vào script. 'Tải từng phần (.txt)' lưu chunk-01.txt, chunk-02.txt, … mỗi đoạn một file, gắn thẳng vào nạp dựa trên file, vòng lặp API batch hoặc kiểm soát phiên bản. Cách này thay cho việc nhấn 'Sao chép với tiêu đề' hơn 20 lần với mã nguồn hoặc bản ghi lớn và giữ đúng thứ tự, vì tên file có số 0 đứng đầu và liên tiếp.

Đây là vấn đề 'mất ở giữa': LLM nhớ thông tin ở đầu và cuối ngữ cảnh dài tốt hơn nhiều so với ở giữa, và khả năng nhớ giảm khi số đoạn tăng. Hướng dẫn thực tế: giữ tổng số đoạn dưới ~10-15 cho một lượt lý luận; nhiều hơn thế, hãy yêu cầu mô hình tóm tắt mỗi đoạn vào một dàn ý đang xây thay vì giữ tất cả nguyên văn. Đặt nội dung quan trọng nhất ở đầu hoặc cuối, và sau đoạn cuối hãy nhắc lại câu hỏi thực để nó nằm ở cuối ngữ cảnh. Với corpus 30-50 đoạn, cách truy xuất (RAG) chỉ lấy các đoạn liên quan hơn hẳn việc nhồi tất cả cùng lúc.

Heuristic 3,7 ký tự/token được điều chỉnh theo cl100k_base của OpenAI và chính xác nhất với GPT-4/5 cho tiếng Anh và mã (trong ±10%). Tokenizer của Claude gần với cl100k nên ước tính dao động khoảng ±10-12%. SentencePiece của Gemini thường hiệu quả hơn một chút với văn xuôi nên công cụ có thể đếm thừa token của nó (bạn được biên an toàn). Từ vựng 128K của Llama 3 cũng hiệu quả với mã và tiếng Anh, thường trong ±15%. Trong mọi trường hợp ước tính đủ thận trọng để lập kế hoạch đoạn nơi bạn để 10-20% biên độ; để tính phí chính xác hãy dùng tiktoken (OpenAI) hoặc các endpoint đếm token chính thức của Anthropic/Google.

Xem thêm