Tóm Tắt Văn Bản AI

Công cụ tóm tắt văn bản AI riêng tư 100%, chạy ngay trên thiết bị trong trình duyệt. Không tải lên, không đăng ký, không cần khóa API. Tóm tắt bài viết và tài liệu offline.

Văn Bản Cần Tóm Tắt

Mở file

Xóa

Sao chép

Dán

Yêu cầu tối thiểu 50 từ để có kết quả tốt nhất. Chế độ viết lại chạy mô hình AI thật ngay trên thiết bị của bạn; văn bản không bao giờ rời khỏi trình duyệt.

Độ Dài Tóm Tắt

Bản tóm tắt nên dài bao nhiêu?

Kiểu Tóm Tắt

Trích xuất: bộ chọn câu cục bộ nhanh. Viết lại: một mô hình AI thật chạy trong trình duyệt và viết lại văn bản.

Định Dạng Đầu Ra

Bản tóm tắt sẽ được trình bày như thế nào

Bản Tóm Tắt

Chọn

Sao chép

Tải về

Có góp ý? Báo lỗi, đề xuất tính năng, hoặc chia sẻ suy nghĩ — chúng tôi đọc tất cả

Về Công Cụ Tóm Tắt Văn Bản AI

Công cụ Tóm Tắt Văn Bản AI của chúng tôi chạy một mô hình machine learning thật hoàn toàn bên trong trình duyệt của bạn. Chế độ viết lại tải mô hình Xenova/distilbart-cnn-6-6 (bản chưng cất BART dạng ONNX, lượng tử hóa INT8) qua Transformers.js và tạo bản tóm tắt ngay trên thiết bị của bạn bằng WebGPU, tự động lùi về WebAssembly khi cần. Văn bản của bạn không bao giờ được tải lên máy chủ nào, không cần khóa API và không cần tài khoản.

Chế độ trích xuất là một thuật toán cục bộ nhanh, chấm điểm từng câu theo vị trí, độ dài và từ khóa rồi trả về các câu điểm cao nhất mà không sửa đổi. Chế độ viết lại thì đọc toàn bộ văn bản và viết lại bằng từ ngữ mới, như cách con người làm.

Vì suy luận chạy trên thiết bị, công cụ phù hợp cho bản nháp bí mật, văn bản pháp lý, ghi chú y tế và báo cáo nội bộ mà bạn không được phép dán vào API đám mây. Xem thêm Kiểm Tra Ngữ Pháp và Diễn Đạt Lại AI và Trích xuất từ khóa AI.

Trình tóm tắt AI có chạy hoàn toàn trong trình duyệt của tôi không?

Có. Mô hình viết lại được tải xuống một lần qua Transformers.js rồi chạy cục bộ ngay trong tab trình duyệt bằng WebGPU hoặc WebAssembly. Sau lần tải mô hình ban đầu (trình duyệt lưu cache vào IndexedDB cho lần sau), không có bất kỳ lệnh gọi mạng nào cho mỗi lần tóm tắt — từng token văn bản đầu vào và từng từ trong bản tóm tắt đều ở lại trên thiết bị của bạn. Chúng tôi không bao giờ thấy tài liệu của bạn và không có nhật ký nào được ghi trên máy chủ. Điều này khiến công cụ an toàn cho bản nháp bí mật, báo cáo nội bộ, văn bản pháp lý, ghi chú y tế hoặc bất kỳ nội dung nào bạn không được phép tải lên API bên thứ ba như OpenAI hay Anthropic. Đánh đổi là lần tải đầu (khoảng 60 MB cho mô hình INT8 mặc định).

Mô hình nào tạo ra bản tóm tắt viết lại?

Mô hình viết lại mặc định là Xenova/distilbart-cnn-6-6 — bản chưng cất dạng ONNX, lượng tử hóa INT8, của BART-large-CNN của Facebook. BART là transformer encoder-decoder: encoder hai chiều đọc toàn bộ nguồn, rồi decoder từ trái sang phải sinh ra bản viết lại. Biến thể DistilBART 6-6 giữ chất lượng gần BART-large trên văn bản tin tức trong khi chỉ khoảng 60 MB và nhanh hơn nhiều lần khi tải và chạy — điều rất quan trọng cho suy luận trong trình duyệt. Nó được tải và chạy qua Transformers.js (ONNX Runtime Web).

Hỗ trợ những định dạng và độ dài văn bản nào?

Bạn có thể dán văn bản thuần, Markdown hoặc nội dung sao chép từ PDF, Word, bài viết web, email. Mô hình nhận văn bản UTF-8 và hoạt động tốt nhất với tiếng Anh (miền huấn luyện CNN/DailyMail). Độ dài thực tế mỗi lượt bị giới hạn bởi cửa sổ ngữ cảnh của mô hình — khoảng 1024 token, tương đương 700 từ tiếng Anh. Với tài liệu dài hơn, công cụ chia đầu vào thành các cửa sổ chồng lấp khoảng 700 từ, tóm tắt từng đoạn rồi tóm tắt phần ghép lại (tóm tắt đệ quy/phân cấp). Đầu vào rất dài (>20 trang) có thể mất 30-60 giây.

Tóm Tắt Văn Bản AI — Công cụ tóm tắt văn bản AI riêng tư 100%, chạy ngay trên thiết bị trong trình duyệt. Không tải lên, không đăng ký, không — **Tóm Tắt Văn Bản AI**

Vì sao lần tóm tắt đầu tiên lâu nhưng các lần sau lại nhanh?

Lần chạy đầu phải tải trọng số mô hình (khoảng 60 MB cho mô hình INT8 mặc định), phân tích chúng, dựng đồ thị tính toán và biên dịch các nhân cho CPU hoặc GPU của bạn. Chi phí khởi động nguội này có thể mất 10-40 giây trên desktop điển hình và lâu hơn trên di động. Khi đã tải, trọng số nằm trong bộ nhớ trình duyệt và cache IndexedDB, nên các lần tóm tắt sau tái sử dụng cùng mô hình đã biên dịch và hoàn tất trong 1-5 giây với đoạn ngắn. Đóng tab sẽ giải phóng RAM nhưng cache IndexedDB vẫn còn, lần truy cập sau chỉ cần biên dịch lại, không phải tải lại.

Bản tóm tắt AI chính xác đến đâu và có thể bịa không?

DistilBART-CNN đạt điểm ROUGE-L khoảng cuối 30 đến đầu 40 trên benchmark CNN/DailyMail — cạnh tranh với người tóm tắt không chuyên trên nội dung tin tức, và thấp hơn vài điểm so với BART-large mà nó được chưng cất ra. Chất lượng giảm trên văn bản kỹ thuật cao, chuyên ngành hẹp hoặc tự sự mà mô hình chưa được học. Như mọi mô hình viết lại, nó có thể "ảo giác" — đưa vào sự kiện không có trong nguồn — vì vậy luôn đối chiếu số liệu, tên riêng và trích dẫn với bản gốc trước khi công bố. Cần độ trung thực tuyệt đối thì dùng chế độ trích xuất, vốn chỉ sắp xếp lại chính các câu của bạn.

WebGPU có nhanh hơn WebAssembly khi tóm tắt không?

Có, thường nhanh hơn rất nhiều. WebGPU chuyển các phép nhân ma trận thống trị suy luận transformer sang GPU rời hoặc tích hợp, cho tốc độ nhanh nhiều lần so với backend SIMD-WebAssembly chạy CPU. Công cụ này thử WebGPU trước và hiển thị huy hiệu 'Đang chạy trên WebGPU' khi thành công. WebGPU yêu cầu trình duyệt mới (Chrome 113+, Edge, Safari 18+, Firefox bản mới) và driver GPU tương thích. Nếu không có WebGPU, công cụ tự động lùi về WebAssembly với SIMD và đa luồng (huy hiệu 'Đang chạy trên CPU (WASM)') — chậm hơn nhưng chạy trên mọi trình duyệt hiện đại và vẫn hoàn toàn trên thiết bị.

Lượng tử hóa INT8 là gì và có làm giảm chất lượng không?

Lượng tử hóa lưu mỗi trọng số ở dạng số nguyên 8 bit (256 giá trị khả dĩ) thay vì số thực 32 bit. Nó giảm kích thước tải về khoảng 4 lần và tăng tốc suy luận trên CPU 2-4 lần vì số học INT8 dùng ít chu kỳ hơn và nhét được nhiều giá trị hơn trong thanh ghi SIMD. Với tóm tắt, INT8 thường chỉ mất 1-3 điểm ROUGE so với FP32 — thường vô hình trong đầu ra. Vì vậy chúng tôi gửi mặc định bản INT8 ONNX của distilbart-cnn-6-6: khoảng 60 MB để tải, chạy nhanh và dễ lưu cache cho lần dùng sau. ONNX Runtime Web tự xử lý giải lượng tử INT8 ngay tại chỗ.

Xem thêm

CôNG Cụ AI33

WUTOOLS