Làm Sạch CSV
Làm sạch CSV và JSON online: xóa trùng lặp, sửa mã hóa UTF-8, xóa dòng trống, phân tích chất lượng cột. Chạy hoàn toàn trên trình duyệt, không tải lên.
Về Công Cụ Làm Sạch CSV & Dọn Dữ Liệu
Làm Sạch CSV là công cụ trực tuyến mạnh mẽ tự động dọn dẹp và làm sạch file dữ liệu CSV và JSON của bạn. Xóa dòng và cột trống, cắt khoảng trắng, loại bỏ ký tự đặc biệt, xóa dữ liệu trùng lặp và chuẩn hóa định dạng—tất cả trong trình duyệt mà không cần tải dữ liệu lên máy chủ.
Công cụ Làm Sạch CSV làm gì?
Làm Sạch CSV dọn dẹp dữ liệu bằng cách xóa dòng và cột trống, cắt khoảng trắng, loại bỏ ký tự không in được, xóa dòng trùng lặp và chuẩn hóa xuống dòng. Công cụ giúp chuẩn bị dữ liệu lộn xộn cho phân tích, nhập khẩu hoặc xử lý tiếp theo.
Dữ liệu của tôi có an toàn không?
Có. Tất cả việc làm sạch dữ liệu diễn ra cục bộ trong trình duyệt của bạn bằng JavaScript. File của bạn không bao giờ rời khỏi thiết bị, đảm bảo quyền riêng tư hoàn toàn cho thông tin nhạy cảm như danh sách khách hàng, hồ sơ tài chính hoặc tập dữ liệu bí mật.
Những định dạng file nào được hỗ trợ?
Làm Sạch CSV hỗ trợ file CSV (với nhiều ký tự phân cách: dấu phẩy, dấu chấm phẩy, tab, dấu gạch đứng) và file JSON (mảng đối tượng). Cả hai định dạng đều có thể được làm sạch và xuất sang định dạng CSV hoặc JSON sau khi xử lý.
'Xóa ký tự đặc biệt' làm gì?
Tùy chọn này loại bỏ ký tự không in được và ký tự điều khiển khỏi dữ liệu của bạn, chỉ giữ lại ký tự ASCII chuẩn (chữ cái, số, dấu câu cơ bản). Hữu ích để làm sạch dữ liệu nhập từ hệ thống cũ hoặc cơ sở dữ liệu có thể chứa ký tự định dạng ẩn.

Dòng trùng lặp được phát hiện như thế nào?
Dòng trùng lặp được xác định bằng cách so sánh tất cả giá trị cột trong mỗi dòng. Nếu hai hoặc nhiều dòng có giá trị giống hệt nhau trong tất cả các cột, chỉ lần xuất hiện đầu tiên được giữ lại. Điều này giúp loại bỏ các mục dữ liệu thừa.
Tôi có thể xem trước dữ liệu đã làm sạch không?
Có. Công cụ hiển thị bản xem trước dữ liệu đã làm sạch của bạn (tối đa 100 dòng) dưới dạng bảng. Bạn cũng sẽ thấy báo cáo làm sạch chi tiết cho biết bao nhiêu dòng trống, cột trống, dữ liệu trùng lặp và ô đã được làm sạch.
Làm thế nào để đọc Báo Cáo Chất Lượng Cột?
Sau khi làm sạch, một bảng theo từng cột sẽ phân tích dữ liệu của bạn: tỷ lệ điền (% ô không trống, được tô màu xanh/vàng/đỏ), số ô trống, số giá trị khác nhau, số giá trị trùng lặp và kiểu dữ liệu được tự động phát hiện (số nguyên, số thập phân, ngày tháng, boolean, văn bản hoặc hỗn hợp). Hãy dùng nó để phát hiện các cột không đáng tin cậy (tỷ lệ điền thấp hoặc kiểu 'hỗn hợp') trước khi nhập vào cơ sở dữ liệu, công cụ BI hay mô hình.
Nên dùng ký tự phân cách nào cho file CSV của châu Âu?
Nhiều vùng ở châu Âu xuất CSV bằng dấu chấm phẩy (;) vì dấu phẩy được dùng làm dấu thập phân. Nếu file của bạn hiển thị thành một cột khổng lồ, hãy đổi tùy chọn Ký tự phân cách sang Dấu chấm phẩy. Tab và Dấu gạch đứng cũng được hỗ trợ, và chế độ Tự động phát hiện xử lý hầu hết các file.
Xuất CSV có tuân thủ RFC 4180 và có giới hạn dung lượng không?
Có. Khi xuất, mọi ô chứa ký tự phân cách, dấu ngoặc kép hoặc ký tự xuống dòng đều được bọc trong dấu ngoặc kép với các dấu ngoặc kép bên trong được nhân đôi (""), theo chuẩn RFC 4180. Công cụ cũng sửa mã hóa UTF-8 bằng cách chỉ loại bỏ ký tự điều khiển vô hình, vẫn giữ nguyên văn bản có dấu và phi Latin. Toàn bộ xử lý chạy trên trình duyệt, nên giới hạn thực tế phụ thuộc vào bộ nhớ thiết bị; file tới vài trăm MB chạy tốt trên máy tính hiện đại, còn file rất lớn nên chia nhỏ trước.
