Nhận Diện Ngôn Ngữ
Công cụ nhận diện ngôn ngữ tức thì ngay trên trình duyệt. Xác định ngôn ngữ của văn bản bất kỳ với mã ISO 639-3, điểm khớp và xuất JSON/CSV. Không tải lên.
Về Công Cụ Nhận Diện Ngôn Ngữ
Công cụ Nhận Diện Ngôn Ngữ này xác định ngôn ngữ của văn bản bất kỳ bằng franc, một thuật toán thống kê nhẹ dựa trên trigram ký tự, chạy hoàn toàn trong trình duyệt của bạn. Nó so sánh phân bố các chuỗi ba ký tự (trigram) trong văn bản với hồ sơ trigram của khoảng hơn 80 ngôn ngữ và trả về danh sách xếp hạng kèm điểm khớp đã chuẩn hóa.
Không có mạng nơ-ron, không tải mô hình, không gọi máy chủ — franc là thư viện JavaScript thuần ~40KB tải một lần cùng trang và chạy tức thì, ngoại tuyến. Công cụ trả về mã chuẩn ISO 639-3 (kèm ISO 639-1 khi có), hiển thị thanh độ tin cậy cho từng ứng viên và cho phép sao chép kết quả xếp hạng dưới dạng JSON hoặc tải về CSV để đưa vào pipeline bản địa hóa và các công cụ khác.
Công cụ nhận diện ngôn ngữ này hoạt động bên trong thế nào?
Nó dùng franc, bộ nhận diện thống kê theo trigram (n-gram) ký tự. Văn bản được tách thành các chuỗi ba ký tự chồng lấn, rồi hồ sơ tần suất thu được được so sánh với hồ sơ trigram tính trước của từng ngôn ngữ hỗ trợ. Hồ sơ gần nhất thắng. Đây là phương pháp thuần thống kê, không từ điển — nhanh, nhỏ gọn và độc lập ngôn ngữ — không phải mạng nơ-ron hay mô hình AI. Mọi thứ chạy đồng bộ trong trình duyệt, không tải gì, không phụ thuộc WebGPU/WASM.
Công cụ này có gửi văn bản của tôi đến máy chủ nào không?
Không. franc là thư viện JavaScript thuần ~40KB tải một lần cùng trang và chạy cục bộ; không có lệnh gọi máy chủ hay tải mô hình khi nhận diện. Bạn có thể kiểm chứng bằng cách mở DevTools, chuyển sang tab Network và xác nhận không có yêu cầu nào gửi đi khi nhấn Phát Hiện. Điều này giúp công cụ an toàn cho email mật, bản nháp, bằng chứng pháp lý hoặc bất kỳ nội dung riêng tư nào mà bạn chỉ cần biết ngôn ngữ.
Điểm khớp / phần trăm độ tin cậy thực sự nghĩa là gì?
franc trả về điểm chuẩn hóa trong khoảng 0 đến 1 cho mỗi ứng viên, trong đó 1 là khớp tốt nhất và giá trị cao nhất là ngôn ngữ khả dĩ nhất. Công cụ đổi nhãn và hiển thị thành phần trăm kèm một thanh — cao hơn là tốt hơn. Kết quả đầu tiên là ngôn ngữ khả dĩ nhất. Khi hai điểm hàng đầu sát nhau (chênh dưới khoảng 10 điểm), hãy coi kết quả là mơ hồ; thường gặp với các ngôn ngữ gần gũi như Tây Ban Nha vs Bồ Đào Nha, Na Uy vs Đan Mạch hay Indonesia vs Mã Lai, và với đầu vào rất ngắn.
Văn bản ngắn cỡ nào vẫn nhận diện chính xác?
Nhận diện trigram cần đủ ký tự để dựng hồ sơ ổn định. franc bỏ qua đầu vào ngắn hơn độ dài tối thiểu và trả về kết quả 'không xác định', mà công cụ này hiển thị thành thông báo rõ ràng thay vì một phỏng đoán giả tự tin. Để có kết quả đáng tin, hãy dán ít nhất một câu trọn vẹn (khoảng 30 đến hơn 100 ký tự). Chuỗi rất ngắn, danh từ riêng hay từ đơn lẻ mơ hồ với cả con người và có thể bị báo là không xác định hoặc với điểm thấp, sát nhau — vì vậy hãy nhìn cả danh sách xếp hạng, đừng chỉ tin lựa chọn đầu.

Vì sao kết quả dùng mã ISO 639-3 ba chữ như 'eng' và 'cmn'?
franc nhận diện ngôn ngữ bằng ISO 639-3, chuẩn ba chữ cái có thể đặt tên cho nhiều ngôn ngữ hơn hẳn bộ hai chữ ISO 639-1. Tiếng Anh là 'eng', tiếng Trung phổ thông là 'cmn', tiếng Việt là 'vie'. Khi có mã hai chữ ISO 639-1 tương đương (en, zh, vi), công cụ cũng hiển thị để bạn chọn mã mà framework i18n hay cơ sở dữ liệu của bạn cần. JSON xuất ra bao gồm cả iso639_3 và iso639_1 cùng tên dễ đọc, không cần ánh xạ thủ công.
franc-min ở đây hỗ trợ bao nhiêu ngôn ngữ?
Công cụ này tải franc-min, bản gọn phủ khoảng hơn 80 ngôn ngữ phổ biến nhất (gói franc đầy đủ hỗ trợ hơn 400). Nó xử lý mọi ngôn ngữ châu Âu thông dụng, CJK (Trung, Nhật, Hàn), Ả Rập, Hindi, Bengali, Tamil, Telugu, Thái, Việt, Indonesia, Thổ Nhĩ Kỳ, Ba Tư, Do Thái và nhiều ngôn ngữ khu vực. Mỗi ứng viên được trả về kèm mã ISO, tên bản địa và điểm khớp chuẩn hóa để bạn tự giải các trường hợp mơ hồ hoặc pha trộn.
Tôi có thể xuất kết quả xếp hạng cho pipeline hoặc bảng tính không?
Có — đây là tính năng chính cho người dùng chuyên nghiệp. Sau khi nhận diện, công cụ hiển thị bảng phân tích xếp hạng đầy đủ kèm thanh độ tin cậy, rồi cung cấp Sao chép JSON và Tải CSV. Đối tượng JSON gồm input_length, word_count, dấu thời gian ISO generated_at và mảng detected gồm {rank, iso639_3, iso639_1, name, score, confidence_pct}. CSV dùng tiêu đề rank,iso639_3,iso639_1,name,confidence_pct. Cả hai được tạo hoàn toàn trong trình duyệt qua tải Blob, nên không có gì được tải lên.
Vì sao đôi khi nhầm tiếng Trung, Nhật và Hàn?
Nhận diện CJK khó vì kanji Nhật và hanzi Trung chia sẻ hàng nghìn ký tự, và một câu tiếng Nhật ngắn chỉ viết bằng kanji có thể giống tiếng Trung về mặt thống kê. Hiragana, katakana và hangul là duy nhất của một ngôn ngữ, nên chỉ một ký tự như vậy cũng đẩy franc nghiêng dứt khoát về tiếng Nhật hoặc tiếng Hàn. Đầu vào dài hơn, chữ viết pha trộn hầu như luôn được giải đúng. Với chuỗi rất ngắn chỉ có kanji, hãy xem hai ứng viên đầu (cmn vs jpn) có sát điểm không trước khi tin vào lựa chọn tốt nhất.
