Trích Xuất Từ Khóa AI
Công cụ AI miễn phí trích xuất từ khóa quan trọng. Dán văn bản, nhận các từ và cụm từ tiêu biểu nhất bằng sentence-transformers (MiniLM) và MMR, chạy ngay tại trình duyệt.
Về Công Cụ Trích Xuất Từ Khóa AI
Công cụ này khác gì so với trích xuất từ khóa TF-IDF đơn giản?
Các phương pháp tần số như TF-IDF xếp hạng cụm từ dựa trên số lần xuất hiện so với một corpus tham chiếu. Chúng nhanh nhưng mù về ý nghĩa, nên đề cao các danh từ riêng hiếm và đánh giá thấp các cụm trung tâm về khái niệm khi được diễn đạt lại nhiều lần. Công cụ này dùng sentence-transformer all-MiniLM-L6-v2, ánh xạ cả tài liệu lẫn từng cụm ứng viên vào không gian ngữ nghĩa 384 chiều và xếp hạng bằng tương đồng cosin. Nhờ vậy, một đoạn nói về 'mạng nơ-ron' bằng từ vựng đa dạng (học sâu, lớp ẩn, lan truyền ngược) vẫn có 'mạng nơ-ron' đứng đầu dù chỉ xuất hiện một lần, vì embedding của nó nằm ở trung tâm đám mây khái niệm hình thành từ phần còn lại của văn bản.
Maximal Marginal Relevance (MMR) là gì và vì sao quan trọng?
MMR là thuật toán xếp hạng lại do Carbonell và Goldstein đề xuất năm 1998, chọn mỗi mục mới bằng cách cân bằng hai điểm: độ tương đồng với truy vấn (ở đây là embedding tài liệu) và độ khác biệt so với các mục đã chọn. Tham số lambda (ánh xạ vào thanh trượt Đa dạng đảo ngược) điều khiển sự cân bằng. Nếu không có MMR, các bộ trích xuất dựa trên transformer thường trả về danh sách gần trùng nhau vì K cụm hàng đầu nằm sát nhau trong không gian embedding. Khi MMR được nâng cao, danh sách vẫn bám chủ đề nhưng trải rộng trên bề mặt khái niệm của tài liệu, cho cái nhìn toàn cảnh phong phú hơn - lý tưởng cho brief nội dung, cụm chủ đề hoặc tóm tắt nghiên cứu.
Văn bản của tôi có bị tải lên đâu đó không?
Không. Tệp mô hình được tải một lần từ CDN của Hugging Face (giống như mọi thư viện JavaScript khác) và được trình duyệt lưu cache. Sau đó, mọi suy luận diễn ra trong Web Worker trên CPU hoặc GPU của bạn. Văn bản bạn dán, các cụm ứng viên và embedding cuối cùng không bao giờ được gửi qua mạng. Bạn có thể kiểm chứng bằng tab Network của DevTools: sau khi mô hình tải xong, bạn sẽ không thấy yêu cầu mạng nào khi bấm Trích Xuất. Thiết kế cục bộ này khiến công cụ an toàn cho tài liệu mật, NDA, bản ghi khách hàng và bản nháp chưa công bố.

Vì sao lần chạy đầu lâu hơn nhiều so với lần thứ hai?
Lần đầu, trình duyệt phải tải trọng số mô hình (~22 MB cho checkpoint MiniLM chưng cất cộng với tokenizer nhỏ), giải nén và biên dịch JIT các kernel WebAssembly hoặc WebGPU thực hiện phép nhân ma trận. Sau đó các tệp nằm trong Cache Storage API và kernel vẫn được giữ ấm trong worker, nên các lần trích xuất sau thường hoàn tất dưới một giây với tài liệu vài nghìn từ. Nếu xóa cache, quá trình tải sẽ lặp lại. Trên kết nối chậm, lần đầu có thể mất 20-40 giây; với kết nối nhanh cộng WebGPU thì dưới 5 giây.
Vì sao đôi khi cụm từ trả về vẫn chứa từ chức năng (stop-word) ở giữa?
Bộ sinh ứng viên loại bỏ cụm có từ chức năng ở đầu hoặc cuối, nhưng cố ý cho phép chúng nằm giữa cụm. Đây là chủ ý: các cụm như 'tỷ lệ hoàn vốn', 'trạng thái của hệ thống' hay 'chi phí sinh hoạt' có nghĩa thực sự dù chứa 'của' hoặc 'sinh'. Nếu cần đầu ra chặt chẽ hơn, hãy giảm độ dài cụm xuống 1-2 từ; nếu cần dễ đọc tối đa, để 1-3 và để bước MMR nổi bật các cụm có tính kết dính cao nhất. Cột điểm trong danh sách đơn giản cho phép bạn lọc mạnh tay (ví dụ chỉ giữ entry điểm >= 0.4).
Mô hình hỗ trợ những ngôn ngữ nào?
Checkpoint all-MiniLM-L6-v2 dùng ở đây chủ yếu được huấn luyện trên tiếng Anh, nên tài liệu tiếng Anh cho chất lượng cao nhất. Mô hình vẫn cho embedding hữu ích với các ngôn ngữ La-tinh và Đức gần (Tây Ban Nha, Bồ Đào Nha, Pháp, Đức, Ý) - trích xuất chạy được và phần lớn kết quả hợp lý nhưng hiệu chuẩn điểm kém tin cậy hơn. Với tiếng Việt, Trung, Nhật, Hàn, Ả Rập và các ngôn ngữ dùng bộ ký tự khác, một checkpoint đa ngôn ngữ như paraphrase-multilingual-MiniLM-L12-v2 sẽ chính xác hơn. Chúng tôi có thể thêm bộ chọn mô hình trong bản phát hành sắp tới; tạm thời bạn có thể dùng tốt với nội dung tiếng Anh và thử nghiệm với các ngôn ngữ La-tinh.
