Tách PDF

Tách PDF online theo khoảng trang, mỗi N trang hoặc thành từng trang đơn. Trích xuất trang ra các file riêng hoặc một PDF gộp. Miễn phí, an toàn, chạy trên trình duyệt.

Có góp ý? Báo lỗi, đề xuất tính năng, hoặc chia sẻ suy nghĩ — chúng tôi đọc tất cả

Về công cụ tách PDF

Công cụ này tách file PDF thành nhiều tài liệu hoặc trích xuất các trang cụ thể hoàn toàn trên trình duyệt của bạn — file không bao giờ được tải lên, nên hợp đồng, sao kê và hồ sơ bảo mật luôn riêng tư. Chọn chế độ khoảng trang (1-3,5,8-10) để đưa mỗi phần vào một PDF riêng, tách mỗi N trang thành các đoạn cố định, hoặc tách tài liệu thành từng trang đơn. Các file đầu ra được đặt tên tuần tự và có thể tải từng cái hoặc tất cả cùng lúc dưới dạng ZIP, biến đây thành công cụ lắp ráp tài liệu thực thụ cho trợ lý pháp lý, biên tập viên và kế toán.

Làm thế nào để tách một file PDF thành các file riêng?

Tải lên file PDF, chọn chế độ tách — mỗi trang thành một file riêng, đoạn cố định N trang, hoặc khoảng tùy chỉnh như 1-3,5,8-10 — rồi nhấn Tách. Công cụ đọc từng trang bằng pdf-lib, sao chép vào một tài liệu PDF mới độc lập, và đóng gói tất cả đầu ra vào một ZIP để bạn không phải tải hàng chục file riêng lẻ. Đánh số trang trong mỗi phần bắt đầu lại từ 1, kích thước và hướng trang gốc được giữ nguyên, và phông chữ nhúng đi kèm với các trang sử dụng chúng. Vì mọi thứ chạy trong trình duyệt, nên cả sao kê ngân hàng hay hồ sơ y tế bảo mật cũng không bao giờ chạm máy chủ. File gốc trên đĩa giữ nguyên; bạn có cả nguồn lẫn các đầu ra đã tách.

Kích thước file tối đa tôi có thể tách là bao nhiêu?

Việc tách bị giới hạn bởi RAM khả dụng của thiết bị, vì pdf-lib phải giữ tài liệu nguồn và mỗi phần tạo ra trong bộ nhớ trước khi ZIP được đóng. Một máy bàn điển hình với 8 GB RAM xử lý tài liệu quét 500 trang khoảng 200–300 MB không vấn đề; tab di động thường chịu được khoảng 100 MB trước khi đứng. Áp lực bộ nhớ tăng theo hình ảnh nhiều hơn văn bản — một báo cáo vector 1000 trang nặng 5 MB tách nhanh hơn một bản quét màu 100 trang 80 MB. Nếu chạm trần, hãy tách hai lượt: trước cắt tài liệu làm đôi với khoảng tùy chỉnh như 1-N/2, rồi tách từng nửa theo quy tắc thực sự muốn. ZIP đầu ra được truyền xuống đĩa ngay khi được xây dựng.

Tôi có thể trích các khoảng trang cụ thể thay vì tách mọi trang không?

Có — chế độ Khoảng Tùy Chỉnh chấp nhận danh sách trang và khoảng phân tách bằng dấu phẩy, ví dụ `1-3,5,8-10,15`. Theo mặc định, mỗi mục tạo một PDF đầu ra riêng: trang 1–3 thành file 1, trang 5 đơn lẻ thành file 2, trang 8–10 thành file 3, và cứ thế — đúng kiểu tách nhiều phần mà trợ lý pháp lý và biên tập viên cần trong một lượt. Nếu bạn muốn gộp tất cả khoảng vào một tài liệu duy nhất, hãy tích ô 'Gộp các khoảng vào một file' trước khi tách. Dùng một khoảng đơn như `5-12` để trích một đoạn liên tục. Dấu gạch ngang biểu thị khoảng bao gồm, dấu phẩy phân tách các phần độc lập, và bạn có thể trộn tự do. Đây là cách sạch nhất để rút chương từ sách giáo khoa, cô lập một điều khoản hợp đồng để xem xét, hoặc xây dựng phiên bản rút gọn và đã chỉnh sửa mà không bao giờ giải nén toàn bộ nguồn. Công cụ xác thực đầu vào và cảnh báo trang ngoài phạm vi trước khi tách bắt đầu.

Làm thế nào để tách PDF thành các phần bằng nhau hoặc làm đôi?

Tách thành các phần bằng nhau nhanh nhất với chế độ Khoảng Tùy Chỉnh. Để tách đôi một PDF 20 trang, nhập `1-10,11-20` và bỏ tích ô 'Gộp các khoảng vào một file' — bạn nhận được hai PDF riêng, mỗi file 10 trang. Để chia bốn phần tư bằng nhau của cùng tài liệu, dùng `1-5,6-10,11-15,16-20`. Nếu bạn chỉ cần không file nào vượt một độ dài cố định thay vì các phần chính xác bằng nhau, hãy chuyển sang Tách Mỗi N Trang và đặt N bằng kích thước đoạn; file 100 trang với N=25 tự động cho bốn file, và số trang lẻ chỉ đơn giản để lại file cuối nhỏ hơn. Mỗi đầu ra được đặt tên tuần tự (split-1.pdf, split-2.pdf, …) và đóng gói vào ZIP, nên việc lắp ráp lại hay phân phối các phần luôn gọn gàng.

Tách PDF — Tách PDF online theo khoảng trang, mỗi N trang hoặc thành từng trang đơn. Trích xuất trang ra các file riêng hoặc một PD — **Tách PDF**

Việc tách có giảm kích thước file hay thay đổi chất lượng hình ảnh không?

Mỗi PDF đã tách chứa chính xác byte của các trang nó đại diện, cộng thêm một chút phụ phí cho danh mục, cây trang và bảng tham chiếu chéo — thường vài kilobyte mỗi file. Hình ảnh, phông chữ và luồng nội dung được sao chép nguyên văn, nên chất lượng thị giác, lớp văn bản OCR và hồ sơ màu nhúng đều giống y nguồn từng byte. Không có tái mã hóa, không nén lại JPEG, không subset phông ngoài cái đã có. Nếu bạn muốn phiên bản nhỏ hơn, hãy đưa từng file đã tách qua Nén PDF sau đó; bước đó có tái mã hóa và có thể thu nhỏ hình bằng JPEG 2000 hoặc JBIG2 (cho bản quét đơn sắc). Để cắt không mất chất lượng, Tuyến Tính Hóa PDF cũng giúp loại bỏ đối tượng trùng lặp và tham chiếu chết mà pdf-lib không tự lột.

Dấu trang, liên kết và trường biểu mẫu có được giữ trong các file đã tách không?

Siêu liên kết và chú thích nội trang được giữ vì chúng nằm trong từ điển của mỗi trang. Dấu trang outline (mục lục PDF) trở thành mồ côi khi trang đích chuyển sang file khác — pdf-lib loại bỏ chúng thay vì viết lại cây, nên các đầu ra tách thường không có outline. Liên kết liên trang (ví dụ "xem trang 42") bị hỏng nếu trang 42 ở file khác; đối tượng liên kết sống sót nhưng đích không thể tới. Trường AcroForm tương tác được giữ cục bộ theo trang, nên trường ở trang 7 sẽ ở trong đầu ra chứa trang 7. Chữ ký số bị vô hiệu trong quá trình tách, đây là hành vi mật mã đúng — khoảng byte đã ký không còn khớp.

Việc tách xử lý PDF quét có lớp văn bản OCR ra sao?

Lớp văn bản OCR được lưu dưới dạng đối tượng văn bản vô hình phủ lên hình ảnh quét của mỗi trang, trong cùng luồng nội dung với hình ảnh hiển thị. Vì pdf-lib sao chép trang nguyên vẹn, văn bản vô hình đi kèm — tìm kiếm và sao chép-dán tiếp tục hoạt động trong mỗi file đã tách giống hệt bản gốc. Siêu dữ liệu độ tin cậy OCR, thẻ ngôn ngữ và thẻ cấu trúc từ PDF/A có thẻ cũng được giữ theo trang. Cái bị mất là cây cấu trúc toàn cục cho khả năng tiếp cận (PDF/UA) — tách làm vỡ cây đó thành cây con mồ côi, nên trình đọc màn hình có thể điều hướng kém trong các đầu ra đã tách. Nếu khả năng tiếp cận quan trọng, hãy chạy lại công cụ OCR PDF trên mỗi file tách để xây dựng lại cây cấu trúc theo từng file.

Công cụ có hỗ trợ tách theo dấu trang hoặc theo ngưỡng kích thước file không?

Các chế độ hiện tại là Mỗi Trang, Đoạn Cố Định N trang và Khoảng Tùy Chỉnh. Tách theo dấu trang (mỗi mục outline cấp đầu thành file riêng) là yêu cầu phổ biến nhưng cần đi qua cây outline và ánh xạ đích về chỉ số trang — chưa triển khai trong công cụ phía máy khách này, dù qpdf và mutool đều làm được từ dòng lệnh nếu bạn cần dùng một lần. Tách theo ngưỡng kích thước file là không xác định trong PDF vì mỗi trang có thể chênh 10× byte, nên hầu hết công cụ ước lượng bằng cách tách theo trang rồi nối theo thứ tự kích thước; tạm thời dùng Đoạn Cố Định với N nhỏ (chẳng hạn 10 trang) và gộp nếu cần. Chúng tôi đang theo dõi cả hai chế độ cho bản phát hành tương lai.

Tách PDF có không mất chất lượng ở mức nhị phân ISO 32000 không?

Tách bằng pdf-lib là không mất chất lượng về mặt logic — mỗi byte nội dung trang nhìn thấy, mỗi glyph, mỗi mẫu hình ảnh và mỗi chú thích đi qua không đổi — nhưng các file kết quả không giống từng byte với các trang tương ứng của bản gốc. pdf-lib xây dựng lại bảng tham chiếu chéo, có thể viết lại trailer và gán số đối tượng mới, tất cả đều là chỉnh sửa hợp lệ theo ISO 32000-2 mục 7.5. DocumentID được sinh lại cho mỗi đầu ra, đây là hành vi đúng theo đặc tả PDF vì chúng là tài liệu khác biệt. Với kịch bản pháp y hoặc kiểm toán cần bằng nhau từng byte, dùng mutool hoặc qpdf với cờ `--qdf --object-streams=disable` để tạo bố cục ổn định hơn; công cụ này ưu tiên đầu ra hợp lệ sạch hơn ổn định byte.

Xem thêm