OCR PDF
Chuyển PDF scan thành văn bản tìm kiếm được ngay trên trình duyệt. Không tải lên, 100% riêng tư. Chọn trang, độ tin cậy, OCR 15+ ngôn ngữ.
Về Công Cụ OCR PDF
Công cụ OCR PDF trực tuyến miễn phí này trích xuất văn bản từ các file PDF scan và PDF dạng hình ảnh. Công cụ sử dụng công nghệ nhận dạng ký tự quang học (OCR) tiên tiến được hỗ trợ bởi Tesseract.js để chuyển đổi hình ảnh văn bản thành văn bản có thể chỉnh sửa và tìm kiếm. Tất cả quá trình xử lý diễn ra trong trình duyệt của bạn - file của bạn không bao giờ được tải lên bất kỳ máy chủ nào.
Công cụ này có thể xử lý những loại PDF nào?
Công cụ này được thiết kế cho PDF scan và PDF dạng hình ảnh, nơi văn bản được nhúng dưới dạng hình ảnh thay vì văn bản có thể chọn. Nếu PDF của bạn đã có văn bản có thể chọn, bạn có thể muốn sử dụng công cụ PDF to Text của chúng tôi để có kết quả nhanh hơn.
Những ngôn ngữ nào được hỗ trợ?
Công cụ hỗ trợ hơn 15 ngôn ngữ bao gồm Tiếng Anh, Tiếng Việt, Tiếng Trung (Giản thể và Phồn thể), Tiếng Nhật, Tiếng Hàn, Tiếng Pháp, Tiếng Đức, Tiếng Tây Ban Nha, Tiếng Nga, Tiếng Ả Rập, Tiếng Hindi, Tiếng Bồ Đào Nha, Tiếng Ý và Tiếng Thái. Chọn ngôn ngữ chính của tài liệu để có kết quả tốt nhất.
Chất lượng render ảnh hưởng đến kết quả như thế nào?
Chất lượng render cao hơn tạo ra hình ảnh lớn hơn, chi tiết hơn cho mỗi trang, thường cho kết quả OCR chính xác hơn. Tuy nhiên, nó cũng mất nhiều thời gian hơn để xử lý. Cài đặt 'Cao (2x)' được khuyến nghị cho hầu hết các tài liệu.
Tôi có thể chỉ xử lý một số trang cụ thể không?
Có! Bạn có thể chọn xử lý tất cả các trang hoặc chỉ định các trang cụ thể. Sử dụng số trang hoặc khoảng trang như '1-3, 5, 7-10' để chỉ xử lý các trang bạn cần.
Điểm độ tin cậy có nghĩa là gì?
Điểm độ tin cậy cho biết engine OCR chắc chắn như thế nào về việc nhận dạng văn bản. Điểm cao hơn (80%+) cho thấy kết quả đáng tin cậy. Điểm thấp hơn có thể cho thấy chất lượng hình ảnh kém, font chữ không phổ biến hoặc bố cục phức tạp.

Tại sao OCR mất nhiều thời gian?
OCR đòi hỏi nhiều tài nguyên tính toán. Thời gian xử lý phụ thuộc vào số lượng trang, chất lượng render và hiệu suất thiết bị của bạn. Mỗi trang phải được render thành hình ảnh và sau đó được phân tích bởi engine OCR.
File PDF của tôi có an toàn không?
Hoàn toàn an toàn! Tất cả quá trình xử lý OCR diễn ra cục bộ trong trình duyệt của bạn bằng JavaScript. File PDF của bạn không bao giờ được tải lên bất kỳ máy chủ nào, đảm bảo sự riêng tư và bảo mật tuyệt đối.
Kích thước file tối đa là bao nhiêu?
Kích thước file tối đa là 100MB. Với các tài liệu rất lớn, hãy cân nhắc xử lý chúng theo từng phần nhỏ hơn bằng cách chọn các phạm vi trang cụ thể.
PDF của tôi đã có văn bản chọn được - tôi còn cần OCR không?
Không. Nếu một trang đã có lớp văn bản thật (PDF gốc số hoặc xuất ra), OCR chỉ làm chậm và có nguy cơ thêm lỗi nhận dạng vào văn bản vốn đã hoàn hảo. Hãy dùng chế độ 'Tự Động' mặc định: nó phát hiện các lớp văn bản có sẵn và trích xuất ngay lập tức với độ chính xác 100%, chỉ chạy OCR trên những trang thực sự được scan. Bảng kết quả hiển thị bao nhiêu trang lấy từ lớp văn bản so với OCR. Chỉ chọn 'Buộc OCR tất cả các trang' khi bạn thực sự muốn nhận dạng lại toàn bộ (ví dụ lớp văn bản bị làm phẳng hoặc hỏng).
Nên chọn chất lượng render nào cho font nhỏ, chữ in nhỏ hoặc bảng?
Chất lượng render cao hơn tạo ra hình ảnh lớn hơn với nhiều điểm ảnh trên mỗi ký tự, đúng những gì OCR cần cho font nhỏ, chú thích chân trang, bảng dày đặc và chữ in nhỏ. Dùng 'Cao (2x)' cho tài liệu thông thường và 'Tốt nhất (3x)' cho chữ rất nhỏ hoặc bảng chi tiết. Các trang rất lớn (A3, áp phích) được tự động giới hạn về kích thước canvas an toàn để việc render không bao giờ âm thầm tạo ra ảnh trắng.
Làm sao xử lý tài liệu nhiều ngôn ngữ và chữ viết tay thì sao?
OCR hoạt động tốt nhất khi ngôn ngữ đã chọn khớp với tài liệu. Với file nhiều ngôn ngữ, hãy chọn ngôn ngữ chủ đạo, hoặc chia thành các phạm vi trang và OCR từng phần với ngôn ngữ tương ứng, rồi ghép kết quả lại. Chữ viết tay - đặc biệt là chữ thảo - không được Tesseract nhận dạng đáng tin cậy; chữ in sạch sẽ đạt điểm cao (độ tin cậy 80%+), trong khi chữ viết tay, con dấu và ảnh scan độ phân giải thấp sẽ đạt điểm thấp. Hãy dùng điểm độ tin cậy và chất lượng 'Tốt nhất (3x)' để đánh giá và cải thiện độ chính xác.
