Trích Xuất Từ Khóa AI
Trích xuất từ khóa AI ngay trên thiết bị: không tải lên, chạy transformer MiniLM (384 chiều, ~23 MB) trong trình duyệt. Xếp hạng KeyBERT MMR cho SEO.
Về Công Cụ Trích Xuất Từ Khóa AI
Trình Trích Xuất Từ Khóa AI xác định những từ và cụm từ ngắn mang tính đại diện ngữ nghĩa cao nhất trong văn bản. Toàn bộ quy trình KeyBERT chạy ngay trong trình duyệt với mô hình sentence-transformer được tăng tốc bằng WebGPU, nên văn bản nhạy cảm không bao giờ rời khỏi thiết bị. Tùy chỉnh độ đa dạng và độ dài cụm từ để phục vụ nghiên cứu SEO, biên bản họp hay khám phá chủ đề. Xem thêm Trình dịch AI và Tạo chú thích ảnh AI.
Công cụ này khác gì so với trích xuất từ khóa TF-IDF đơn giản?
Các phương pháp tần số như TF-IDF xếp hạng cụm từ dựa trên số lần xuất hiện so với một corpus tham chiếu. Chúng nhanh nhưng mù về ý nghĩa, nên đề cao các danh từ riêng hiếm và đánh giá thấp các cụm trung tâm về khái niệm khi được diễn đạt lại nhiều lần. Công cụ này dùng sentence-transformer all-MiniLM-L6-v2, ánh xạ cả tài liệu lẫn từng cụm ứng viên vào không gian ngữ nghĩa 384 chiều và xếp hạng bằng tương đồng cosin. Nhờ vậy, một đoạn nói về 'mạng nơ-ron' bằng từ vựng đa dạng (học sâu, lớp ẩn, lan truyền ngược) vẫn có 'mạng nơ-ron' đứng đầu dù chỉ xuất hiện một lần, vì embedding của nó nằm ở trung tâm đám mây khái niệm hình thành từ phần còn lại của văn bản.
Maximal Marginal Relevance (MMR) là gì và vì sao quan trọng?
MMR là thuật toán xếp hạng lại do Carbonell và Goldstein đề xuất năm 1998, chọn mỗi mục mới bằng cách cân bằng hai điểm: độ tương đồng với truy vấn (ở đây là embedding tài liệu) và độ khác biệt so với các mục đã chọn. Tham số lambda (ánh xạ vào thanh trượt Đa dạng đảo ngược) điều khiển sự cân bằng. Nếu không có MMR, các bộ trích xuất dựa trên transformer thường trả về danh sách gần trùng nhau vì K cụm hàng đầu nằm sát nhau trong không gian embedding. Khi MMR được nâng cao, danh sách vẫn bám chủ đề nhưng trải rộng trên bề mặt khái niệm của tài liệu, cho cái nhìn toàn cảnh phong phú hơn - lý tưởng cho brief nội dung, cụm chủ đề hoặc tóm tắt nghiên cứu.
Văn bản của tôi có bị tải lên đâu đó không?
Không. Tệp mô hình được tải một lần từ CDN của Hugging Face (giống như mọi thư viện JavaScript khác) và được trình duyệt lưu cache. Sau đó, mọi suy luận diễn ra trong Web Worker trên CPU hoặc GPU của bạn. Văn bản bạn dán, các cụm ứng viên và embedding cuối cùng không bao giờ được gửi qua mạng. Bạn có thể kiểm chứng bằng tab Network của DevTools: sau khi mô hình tải xong, bạn sẽ không thấy yêu cầu mạng nào khi bấm Trích Xuất. Thiết kế cục bộ này khiến công cụ an toàn cho tài liệu mật, NDA, bản ghi khách hàng và bản nháp chưa công bố.
Vì sao lần chạy đầu lâu hơn nhiều so với lần thứ hai?
Lần đầu, trình duyệt phải tải trọng số mô hình (~23 MB cho checkpoint MiniLM chưng cất cộng với tokenizer nhỏ), giải nén và biên dịch JIT các kernel WebAssembly hoặc WebGPU thực hiện phép nhân ma trận. Sau đó các tệp nằm trong Cache Storage API và kernel vẫn được giữ ấm trong worker, nên các lần trích xuất sau thường hoàn tất dưới một giây với tài liệu vài nghìn từ. Nếu xóa cache, quá trình tải sẽ lặp lại. Trên kết nối chậm, lần đầu có thể mất 20-40 giây; với kết nối nhanh cộng WebGPU thì dưới 5 giây.

Vì sao đôi khi cụm từ trả về vẫn chứa từ chức năng (stop-word) ở giữa?
Bộ sinh ứng viên loại bỏ cụm có từ chức năng ở đầu hoặc cuối, nhưng cố ý cho phép chúng nằm giữa cụm. Đây là chủ ý: các cụm như 'tỷ lệ hoàn vốn', 'trạng thái của hệ thống' hay 'chi phí sinh hoạt' có nghĩa thực sự dù chứa 'của' hoặc 'sinh'. Nếu cần đầu ra chặt chẽ hơn, hãy giảm độ dài cụm xuống 1-2 từ; nếu cần dễ đọc tối đa, để 1-3 và để bước MMR nổi bật các cụm có tính kết dính cao nhất. Cột điểm trong danh sách đơn giản cho phép bạn lọc mạnh tay (ví dụ chỉ giữ entry điểm >= 0.4).
Con số điểm thực sự có ý nghĩa gì, và nên tin ngưỡng nào?
Mỗi điểm là độ tương đồng cosin (từ 0 đến 1) giữa embedding của cụm ứng viên và embedding của tài liệu, nên nó đo mức độ cụm từ nằm ở trung tâm chủ đề của toàn văn bản, chứ không phải số lần xuất hiện. Hiệu chuẩn thực tế: điểm từ 0.5 trở lên cho thấy cụm rất gần chủ đề cốt lõi và hầu như luôn đáng giữ; từ 0.4 đến 0.5 là bám chủ đề chắc chắn và là ngưỡng mặc định tốt cho brief SEO và cụm chủ đề; từ 0.3 đến 0.4 liên quan lỏng lẻo, chủ yếu dùng để mở rộng; dưới 0.3 thường là nhiễu. Hãy dùng thanh trượt Điểm liên quan tối thiểu phía trên các nút xuất để lọc danh sách theo thời gian thực và chỉ xuất những cụm vượt ngưỡng. Một lưu ý với văn bản rất dài: chỉ 8000 ký tự đầu được phân tích, và dù embedding tài liệu giờ đã trải khắp cửa sổ đó nhờ lấy trung bình theo đoạn, phần vượt quá mốc 8000 ký tự sẽ không được chấm điểm - hãy chia văn bản dài thành nhiều phần nếu cần phủ toàn bộ.
Tôi có thể xử lý nhiều bài viết và xuất từ khóa ra bảng tính không?
Có. Chạy lần lượt từng bài qua công cụ, đặt thanh trượt Điểm liên quan tối thiểu ở ngưỡng bạn muốn (0.4 là mức hợp lý), rồi bấm CSV để tải về các cột cụm từ, điểm và số lần, mở trực tiếp trong Excel, Google Sheets hay bất kỳ công cụ dữ liệu nào - hoặc JSON nếu bạn nạp vào script, và Markdown cho một bảng nhanh trong CMS. Vì thanh trượt lọc danh sách trước khi xuất, tệp bạn nhận chỉ chứa các từ khóa độ tin cậy cao, nên bạn có thể dán các bản xuất của nhiều bài vào một bảng tổng và xoay (pivot) hoặc khử trùng lặp để dựng cụm nội dung mà không phải dọn tay các dòng điểm thấp. Mọi quá trình trích xuất diễn ra trên thiết bị, nên ngay cả một loạt bản nháp chưa công bố cũng không rời khỏi máy của bạn.
Mô hình hỗ trợ những ngôn ngữ nào?
Checkpoint all-MiniLM-L6-v2 dùng ở đây chủ yếu được huấn luyện trên tiếng Anh, nên tài liệu tiếng Anh cho chất lượng cao nhất. Mô hình vẫn cho embedding hữu ích với các ngôn ngữ La-tinh và Đức gần (Tây Ban Nha, Bồ Đào Nha, Pháp, Đức, Ý) - trích xuất chạy được và phần lớn kết quả hợp lý nhưng hiệu chuẩn điểm kém tin cậy hơn. Với tiếng Việt, Trung, Nhật, Hàn, Ả Rập và các ngôn ngữ dùng bộ ký tự khác, một checkpoint đa ngôn ngữ như paraphrase-multilingual-MiniLM-L12-v2 sẽ chính xác hơn. Chúng tôi có thể thêm bộ chọn mô hình trong bản phát hành sắp tới; tạm thời bạn có thể dùng tốt với nội dung tiếng Anh và thử nghiệm với các ngôn ngữ La-tinh.
