Trích Xuất Văn Bản

Công cụ trích xuất văn bản trực tuyến miễn phí. Trích xuất email, URL, số điện thoại, địa chỉ IP từ văn bản. Xóa trùng, sắp xếp kết quả.

settings Settings

Về Công Cụ Trích Xuất Văn Bản

Công Cụ Trích Xuất Văn Bản kéo dữ liệu có cấu trúc ra khỏi văn bản phi cấu trúc bằng các biểu thức chính quy được tinh chỉnh kỹ. Dán hóa đơn, chuỗi email, log chat, output server hay trang web đã cào và lập tức tách riêng từng địa chỉ email, liên kết, số điện thoại, địa chỉ IPv4/IPv6, hashtag hoặc @mention bạn cần. Marketer dùng để lập danh sách lead, lập trình viên để phân loại log, nhà nghiên cứu để thu trích dẫn, đội hỗ trợ để phân tích ticket. Mọi thứ chạy cục bộ trong JavaScript nên danh bạ nhạy cảm không bao giờ rời máy bạn, và bạn có thể loại trùng, sắp xếp, lọc theo hoa thường trước khi xuất.

Bạn dùng pattern regex nào để trích xuất email, và độ chính xác ra sao?

Chúng tôi dùng tập con thực dụng của RFC 5322 khớp ~99% email thực tế trong khi từ chối hầu hết false positive. Pattern là /[a-zA-Z0-9._%+\-]+@[a-zA-Z0-9.\-]+\.[a-zA-Z]{2,}/g chấp nhận dấu chấm, plus-alias ([email protected]) và TLD từ 2 ký tự (như .vn) trở lên. Nó không xác thực dạng kỳ lạ như local-part trong ngoặc kép ("nguyen van a"@example.com) hay comment — những thứ này chiếm dưới 0.01% hộp thư và đưa vào sẽ làm regex bùng nổ thành thứ không đọc được. Để tuân thủ RFC 100% bạn cần parser thực thụ, nhưng để tạo lead, parse log hay thu danh bạ, regex này bắt được mọi thứ thực dụng và chạy trong micro giây ngay cả trên input cỡ megabyte.

Bạn phát hiện số điện thoại quốc tế thế nào — có hỗ trợ định dạng E.164 không?

Chúng tôi khớp nhiều định dạng theo phương pháp heuristic. Pattern chính bắt mã quốc gia tùy chọn (+1 đến +999), ngoặc đơn mã vùng tùy chọn, và nhóm chữ số phân tách bằng dấu cách, gạch nối, dấu chấm hoặc không gì — bao quát các định dạng Mỹ/Canada (123) 456-7890, Việt Nam 098 765 4321, và E.164 +84987654321. E.164 thuần là chuẩn ITU-T nghiêm ngặt yêu cầu dấu + theo sau bởi tối đa 15 chữ số không phân tách; chúng tôi khớp nó nhưng cũng chấp nhận các biến thể có định dạng mà người ta thực sự viết. Lưu ý: pattern này sẽ tạo false positive trên các chuỗi số dài như ID đơn hàng hay timestamp — luôn kiểm tra danh sách điện thoại đã trích bằng validator như libphonenumber nếu độ chính xác quan trọng cho thanh toán hay tuân thủ.

Tại sao một số URL trong văn bản của tôi không được trích xuất?

Regex URL của chúng tôi yêu cầu schema rõ ràng (http://, https://, ftp://) hoặc prefix www. Các tên miền trần như example.com nhắc trong văn xuôi bị bỏ qua có chủ đích — phân biệt 'tôi đã ghé example.com hôm qua' (URL) với 'xem email của tôi [email protected]' (chỉ là tên miền) là không thể nếu thiếu ngữ cảnh, nên chúng tôi nghiêng về ít false positive hơn. Tên miền IDN punycode (xn--80akhbyknj4f) hoạt động. Tên miền quốc tế hóa bằng chữ viết bản địa (例え.jp) chưa hoạt động vì cần bảng tra cứu. URL kết thúc bằng dấu câu (chấm, phẩy, ngoặc) sẽ tự động bị bỏ dấu câu cuối, vì gần như luôn thuộc về câu xung quanh chứ không phải link.

Trích Xuất Văn Bản — Công cụ trích xuất văn bản trực tuyến miễn phí. Trích xuất email, URL, số điện thoại, địa chỉ IP từ văn bản. Xóa trùng,
Trích Xuất Văn Bản

Có giới hạn kích thước input và trích xuất nhanh thế nào?

Giới hạn thực tế ~10 MB văn bản — vượt qua đó, trình duyệt bắt đầu chậm thread UI. Trên laptop thông thường, trích tất cả loại thực thể từ 1 MB văn bản hỗn hợp mất 50-150 ms; từ 10 MB mất 1-3 giây. Nút thắt cổ chai là regex engine V8, không phải bộ nhớ. Chúng tôi chạy pattern tuần tự thay vì song song vì Web Worker thêm overhead vượt phần tiết kiệm cho input dưới 50 MB. Nếu cần trích từ corpus khổng lồ (cỡ GB), hãy làm phía server bằng grep -oE hoặc ripgrep thay vì trong trình duyệt — các công cụ này stream dữ liệu và tránh tải hết vào bộ nhớ cùng lúc.

Tôi có thể trích xuất thực thể công cụ không hỗ trợ sẵn, như ngày tháng hay mã sản phẩm không?

Chưa qua UI, nhưng bạn có thể hậu xử lý output 'Tất Cả Số' bằng regex riêng nhanh trong DevTools hoặc spreadsheet. Yêu cầu phổ biến: ISBN-13 (978-3-16-148410-0), số thẻ tín dụng (xác thực Luhn), địa chỉ bitcoin (base58 bắt đầu bằng 1 hoặc 3), CMND/CCCD Việt Nam (12 số), địa chỉ MAC (00:1A:2B:3C:4D:5E) và IBAN. Chúng tôi cố ý bỏ qua thẻ tín dụng và CCCD để tránh tạo công cụ thu hoạch PII. Nếu bạn có pattern cụ thể thường trích, hãy gửi yêu cầu tính năng — thêm regex chỉ mất vài phút khi chúng tôi biết use case đủ rộng để biện minh cho checkbox UI.

Khớp hoa thường ảnh hưởng thế nào đến phát hiện trùng lặp?

Khi bật 'Xóa Trùng Lặp', chúng tôi băm từng kết quả khớp vào Set. Với phân biệt hoa thường TẮT (mặc định), chúng tôi chuyển thường trước, nên '[email protected]' và '[email protected]' gộp thành một mục — thường là điều bạn muốn cho email (không phân biệt theo RFC 5321) và tên miền. Với phân biệt BẬT, hoa thường gốc quan trọng, điều này đúng cho URL (đường dẫn sau tên miền CÓ phân biệt hoa thường trên server Unix), hashtag (#Bitcoin vs #bitcoin có thể là các chiến dịch khác nhau trên Twitter) và mentions. Toggle tồn tại vì không có câu trả lời đúng phổ quát — email hành xử một kiểu, đường dẫn URL kiểu khác, và bạn nên khớp theo quy ước hệ thống tiêu thụ danh sách đã trích.

Tại sao trích xuất diễn ra trong trình duyệt thay vì server?

Ba lý do. Quyền riêng tư: email, điện thoại, IP thường được coi là PII theo GDPR Điều 4 — giữ chúng phía client nghĩa là chúng tôi không bao giờ lưu trữ, log hay xử lý danh bạ của bạn trên server, loại bỏ rủi ro rò rỉ. Tốc độ: chuyển văn bản qua lại server thêm 50-300 ms độ trễ mạng mà regex cục bộ tránh hoàn toàn; với workflow batch điều này tích lũy. Chi phí: xử lý phía client mở rộng đến hàng triệu người dùng với chi phí tính toán bằng không cho chúng tôi, giữ công cụ miễn phí mãi mãi. Đánh đổi là không có trí tuệ phía server (không nhận diện thực thể bằng ML, không khớp đã sửa chính tả) — cho các use case đó, dịch vụ trả phí như Google Cloud Natural Language API hay AWS Comprehend phù hợp, nhưng với trích kiểu regex, trình duyệt nhanh hơn, an toàn hơn và miễn phí.