PDF sang Markdown
Chuyển PDF sang Markdown miễn phí ngay trên trình duyệt. OCR tích hợp cho PDF scan với 10 ngôn ngữ, tự nhận tiêu đề và danh sách, front matter YAML và xem trước.
Về công cụ chuyển đổi PDF sang Markdown
Công cụ này chuyển đổi tài liệu PDF sang định dạng Markdown. Nó trích xuất văn bản và tự động định dạng theo cú pháp Markdown gồm tiêu đề, danh sách và đoạn văn. Với PDF scan hoặc dạng hình ảnh, OCR tích hợp (Tesseract) đọc văn bản bằng 10 ngôn ngữ gồm tiếng Anh, tiếng Việt, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha và tiếng Bồ Đào Nha. Bạn cũng có thể thêm khối front matter YAML (tiêu đề, tác giả, ngày) để kết quả dùng được ngay trong Obsidian, Hugo, Jekyll hoặc MkDocs. Mọi xử lý diễn ra trên trình duyệt của bạn để đảm bảo riêng tư hoàn toàn.
Quá trình chuyển đổi hoạt động như thế nào?
Công cụ chuyển đổi trích xuất văn bản từ mỗi trang PDF và phân tích kích thước phông chữ và định dạng để phát hiện tiêu đề, dấu đầu dòng, danh sách đánh số và cấu trúc đoạn văn. Sau đó chuyển đổi thành cú pháp Markdown được định dạng đúng.
Những phần tử Markdown nào được phát hiện?
Công cụ chuyển đổi có thể phát hiện tiêu đề (dựa trên kích thước phông chữ), dấu đầu dòng, danh sách đánh số và ngắt đoạn văn. Nó bảo toàn cấu trúc logic của tài liệu nhiều nhất có thể.
Tôi có thể chỉ chuyển đổi các trang cụ thể không?
Có! Bạn có thể chọn chuyển đổi tất cả các trang hoặc chỉ định các trang cụ thể bằng số trang (vd: '1, 3, 5') hoặc phạm vi (vd: '1-5, 10-15').
Còn hình ảnh trong PDF thì sao?
Hình ảnh nhúng không được sao chép vào kết quả Markdown, nhưng văn bản trong đó thì có. Với PDF scan hoặc dạng hình ảnh, công cụ tự động chuyển sang OCR tích hợp (Tesseract.js) để đọc văn bản trực tiếp trên trình duyệt của bạn. Chỉ cần giữ bật tùy chọn OCR và chọn đúng ngôn ngữ OCR trước khi chuyển đổi.
OCR hỗ trợ những ngôn ngữ nào và độ chính xác ra sao?
OCR tích hợp hỗ trợ 10 ngôn ngữ: tiếng Anh, tiếng Việt, tiếng Trung giản thể và phồn thể, tiếng Nhật, tiếng Hàn, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha và tiếng Bồ Đào Nha. Độ chính xác cao nhất với bản scan sạch, độ phân giải cao và chữ in rõ ràng; các trang mờ, nghiêng hoặc viết tay có thể cần chỉnh sửa thủ công nhẹ. Hãy chọn ngôn ngữ khớp với tài liệu để có kết quả tốt nhất.

Tôi có thể nhập kết quả vào Obsidian, Hugo hay GitHub không?
Có. Bật 'Thêm front matter YAML' để chèn khối --- tiêu đề / tác giả / pages / source / ngày --- vào đầu file .md, mà Obsidian, Hugo, Jekyll và MkDocs đọc như siêu dữ liệu trang. Phần nội dung Markdown dùng cú pháp chuẩn tương thích GitHub (tiêu đề, danh sách, khối mã), nên hiển thị đúng trên GitHub và các trình tạo trang tĩnh mà không cần chỉnh tay.
Định dạng có hoàn hảo không?
Công cụ chuyển đổi cố gắng hết sức để phát hiện và bảo toàn cấu trúc tài liệu, nhưng bố cục phức tạp có thể cần điều chỉnh thủ công. Các tài liệu đơn giản với tiêu đề và danh sách rõ ràng sẽ chuyển đổi chính xác nhất.
Có giới hạn dung lượng file không?
Dung lượng file tối đa là 50MB. Điều này đảm bảo hiệu suất mượt mà trong trình duyệt của bạn. Với các file lớn hơn, hãy cân nhắc chia nhỏ PDF trước.
File PDF của tôi có an toàn không?
Tuyệt đối! Tất cả quá trình chuyển đổi diễn ra hoàn toàn trong trình duyệt của bạn. File PDF của bạn không bao giờ được tải lên bất kỳ máy chủ nào, đảm bảo quyền riêng tư và bảo mật hoàn toàn.
Tôi có thể chỉnh sửa kết quả không?
Kết quả Markdown được cung cấp trong vùng văn bản mà bạn có thể sao chép hoặc tải xuống. Sau đó bạn có thể chỉnh sửa nó trong bất kỳ trình soạn thảo văn bản hoặc trình soạn thảo Markdown nào bạn chọn.
