PDF sang Text
Trích xuất văn bản từ PDF ngay trên trình duyệt, không tải lên. Giữ ngắt dòng với chế độ thông minh, hỗ trợ trích theo phạm vi trang. Riêng tư 100%.
Về công cụ chuyển PDF sang Text
Công cụ này trích xuất nội dung văn bản từ file PDF. Bạn có thể trích xuất văn bản từ tất cả các trang hoặc các trang cụ thể. Văn bản đã trích xuất có thể được sao chép vào clipboard hoặc tải xuống dưới dạng file TXT. Tất cả quá trình xử lý diễn ra trên trình duyệt của bạn để đảm bảo riêng tư hoàn toàn. Xem thêm PDF sang ảnh và Bảo Vệ PDF.
Những loại PDF nào được hỗ trợ?
Công cụ này hoạt động tốt nhất với các PDF dựa trên văn bản có chứa text có thể chọn được. Nó có thể không hoạt động tốt với các PDF được quét (ảnh) không có lớp văn bản. Đối với PDF được quét, cần có OCR (Nhận dạng ký tự quang học).
Tôi có thể trích xuất văn bản chỉ từ các trang cụ thể không?
Có! Bạn có thể chọn trích xuất văn bản từ tất cả các trang hoặc chỉ định các trang cụ thể bằng cách sử dụng khoảng như 1-3, 5, 7-10 hoặc số trang riêng lẻ như 1,2,3,5.
Định dạng có được bảo toàn không?
Bạn được chọn. Chế độ bố cục thông minh (mặc định) dựng lại các ngắt dòng và ngắt đoạn thực từ dữ liệu vị trí của PDF, nên kết quả vẫn dùng được để dán vào mã nguồn, hợp đồng hay file dữ liệu. Chế độ luồng văn bản thô trả về một đoạn văn bản liên tục với khoảng trắng đơn, lý tưởng để định dạng lại hoặc tìm kiếm. Cả hai chế độ đều không dựng lại hoàn hảo bảng phức tạp, nhiều cột hay phông chữ.
Khác biệt giữa bố cục thông minh và luồng văn bản thô là gì?
Bố cục thông minh đọc vị trí dọc của từng mảnh văn bản (ma trận biến đổi) và cờ kết thúc dòng để chèn ngắt dòng thực, giữ nguyên cấu trúc dòng và đoạn. Luồng văn bản thô nối mọi mảnh bằng một khoảng trắng thành một khối liên tục, phù hợp cho lập chỉ mục tìm kiếm hoặc khi bạn định tự gói lại văn bản.
Độ chính xác khi trích tài liệu kỹ thuật hoặc nhiều cột thế nào?
Độ chính xác tùy vào cách PDF nhúng lớp văn bản. Bố cục thông minh xử lý rất tốt hóa đơn một cột, hợp đồng, báo cáo phòng thí nghiệm và bảng thông số. Trang nhiều cột và bảng phức tạp có thể đan xen hoặc đảo thứ tự văn bản vì PDF lưu các mảnh theo vị trí, không theo thứ tự đọc. Với những trường hợp đó, hãy trích theo phạm vi trang và kiểm tra ranh giới cột thủ công.

Giới hạn kích thước file là gì?
Kích thước file tối đa là 50MB. Điều này đảm bảo hiệu suất mượt mà trong trình duyệt của bạn. Đối với các file lớn hơn, hãy cân nhắc sử dụng phần mềm PDF trên máy tính.
Tôi có thể sao chép văn bản đã trích xuất không?
Có! Bạn có thể sao chép toàn bộ văn bản đã trích xuất vào clipboard chỉ bằng một cú nhấp chuột sử dụng nút Sao chép văn bản, hoặc chọn và sao chép thủ công các phần cụ thể.
Tôi có thể tải xuống văn bản không?
Có! Bạn có thể tải xuống văn bản đã trích xuất dưới dạng file .txt bằng nút Tải xuống TXT. File sẽ được lưu với mã hóa UTF-8.
File PDF của tôi có an toàn không?
Tuyệt đối! Tất cả quá trình trích xuất văn bản diễn ra trực tiếp trong trình duyệt của bạn. File PDF của bạn không bao giờ được tải lên bất kỳ máy chủ nào. Mọi thứ đều riêng tư trên thiết bị của bạn.
Vì sao PDF quét của tôi không trả về văn bản?
PDF được quét là một hình ảnh của trang, không phải lớp văn bản, nên không có ký tự nào để trích xuất. Công cụ này chỉ đọc lớp văn bản được nhúng; nó không thực hiện OCR (Nhận dạng ký tự quang học). Để lấy văn bản từ bản quét hoặc ảnh chụp, hãy đưa chúng qua một công cụ OCR chuyên dụng trước, sau đó trích xuất.
Tôi có trích được văn bản từ PDF mã hóa hoặc có mật khẩu không?
PDF mã hóa bằng mật khẩu mở không thể phân tích cho đến khi nhập mật khẩu, nên việc trích xuất sẽ thất bại trên trình duyệt. Hãy gỡ hoặc mở khóa mật khẩu bằng ứng dụng gốc trước, rồi tải file không bảo vệ lên đây. Các PDF chỉ hạn chế in hoặc chỉnh sửa (mật khẩu chủ sở hữu) thường vẫn để lộ lớp văn bản và hoạt động bình thường.
