Kiểm Tra Robots.txt

Công cụ kiểm tra và xác thực robots.txt miễn phí. Test xem URL có bị chặn hay cho phép bởi quy tắc robots.txt cho các bot công cụ tìm kiếm khác nhau. Phù hợp cho SEO và lập trình viên web.

Kiểm Tra Robots.txt - Test & Validate Quy Tắc Crawler

Công cụ kiểm tra và xác thực robots.txt mạnh mẽ giúp bạn test xem các URL cụ thể có bị chặn hay cho phép bởi quy tắc robots.txt cho các crawler công cụ tìm kiếm khác nhau. Test Google, Bing, Yahoo và user-agent tùy chỉnh để đảm bảo file robots.txt hoạt động đúng. Thiết yếu cho tối ưu SEO và quản lý crawler website.

Robots.txt là gì?

Robots.txt là file văn bản được đặt ở thư mục gốc của website (ví dụ: example.com/robots.txt) cho các crawler công cụ tìm kiếm biết trang nào hoặc phần nào của site họ có thể hoặc không thể truy cập. Nó sử dụng các chỉ thị đơn giản:

- User-agent: Chỉ định crawler nào áp dụng quy tắc (* nghĩa là tất cả)
- Disallow: Yêu cầu crawler không truy cập đường dẫn cụ thể
- Allow: Cho phép rõ ràng truy cập đường dẫn (ghi đè Disallow)
- Sitemap: Chỉ crawler đến XML sitemap của bạn
- Crawl-delay: Chỉ định độ trễ giữa các request (không phải bot nào cũng hỗ trợ)

Robots.txt là phần của Giao Thức Loại Trừ Robot và được các công cụ tìm kiếm uy tín như Google, Bing, Yahoo tôn trọng. Tuy nhiên, nó không phải biện pháp bảo mật - bot độc hại có thể bỏ qua nó.

Cách sử dụng công cụ kiểm tra robots.txt này?

Sử dụng công cụ rất đơn giản:

1. Dán nội dung robots.txt vào ô văn bản (hoặc click 'Tải Mẫu' để xem ví dụ)
2. Chọn User-Agent (Googlebot, Bingbot, v.v.) hoặc chọn 'Tùy Chỉnh' cho bot cụ thể
3. Nhập đường dẫn URL bạn muốn test (ví dụ: /admin/dashboard)
4. Click 'Kiểm Tra' để xem đường dẫn được cho phép hay bị chặn

Công cụ sẽ:
- Phân tích tất cả quy tắc robots.txt
- Áp dụng đúng quy tắc ưu tiên
- Hiển thị URL được cho phép hay bị chặn
- Hiển thị quy tắc cụ thể nào được khớp
- Hiển thị tất cả chỉ thị đã phân tích để tham khảo

Bạn có thể test nhiều đường dẫn và user-agent để đảm bảo robots.txt hoạt động như mong muốn.

Quy tắc ưu tiên trong robots.txt là gì?

Khi nhiều quy tắc khớp với một URL, robots.txt tuân theo các quy tắc ưu tiên sau:

1. Đường Dẫn Cụ Thể Nhất Thắng: Quy tắc dài hơn, cụ thể hơn ghi đè quy tắc ngắn hơn
- Disallow: /admin/ vs Disallow: /admin/settings/
- Đường dẫn dài hơn được ưu tiên

2. Allow Thắng Disallow: Khi quy tắc có độ cụ thể bằng nhau, Allow thắng
- Disallow: /admin/ + Allow: /admin/public/
- /admin/public/ được cho phép mặc dù có quy tắc Disallow

3. Độ Cụ Thể User-Agent: Quy tắc user-agent cụ thể ghi đè ký tự đại diện (*)
- Quy tắc User-agent: Googlebot ưu tiên hơn User-agent: * cho Google

4. Mặc Định Cho Phép: Nếu không có quy tắc nào khớp, truy cập được cho phép mặc định

Công cụ của chúng tôi triển khai đúng các quy tắc này để cho bạn kết quả chính xác khớp với cách công cụ tìm kiếm hiểu file robots.txt của bạn.

Tôi có thể test các bot công cụ tìm kiếm khác nhau không?

Có! Công cụ hỗ trợ test với nhiều crawler công cụ tìm kiếm phổ biến:

- Googlebot: Crawler web chính của Google
- Googlebot-Image: Cho Google Tìm kiếm Hình ảnh
- Googlebot-News: Cho Google News
- Googlebot-Video: Cho Google Tìm kiếm Video
- Bingbot: Crawler của Microsoft Bing
- Slurp: Crawler web của Yahoo
- DuckDuckBot: Crawler của DuckDuckGo
- Baiduspider: Baidu (công cụ tìm kiếm Trung Quốc)
- YandexBot: Yandex (công cụ tìm kiếm Nga)
- Bot mạng xã hội: Facebook, Twitter, LinkedIn
- Tùy chỉnh: Test bất kỳ chuỗi user-agent nào

Các bot khác nhau có thể có quy tắc khác nhau trong robots.txt của bạn, và công cụ này cho phép bạn test từng cái riêng lẻ để đảm bảo chúng hoạt động như mong đợi.

Ký tự đại diện trong robots.txt là gì?

Robots.txt hỗ trợ hai ký tự đại diện quan trọng:

1. Dấu sao (*) - Khớp với bất kỳ chuỗi ký tự nào
Ví dụ:
- Disallow: /*.pdf$ (chặn tất cả file PDF)
- Disallow: /admin/* (chặn mọi thứ trong /admin/)
- Allow: /public/*.html (cho phép tất cả HTML trong /public/)

2. Dấu đô la ($) - Khớp với cuối URL
Ví dụ:
- Disallow: /*.pdf$ (chặn URL kết thúc bằng .pdf)
- Disallow: /admin$ (chặn /admin nhưng không chặn /admin/page)
- Allow: /search$ (cho phép chính xác /search, không phải /search/results)

Không có $, quy tắc khớp với bất kỳ URL nào bắt đầu bằng pattern đó:
- Disallow: /admin (khớp /admin, /admin/, /admin/page, /administrator)
- Disallow: /admin$ (chỉ khớp /admin)

Công cụ của chúng tôi xử lý đúng cả hai ký tự đại diện để test chính xác quy tắc của bạn.

Lỗi thường gặp trong robots.txt

Tránh những lỗi robots.txt phổ biến sau:

1. Chặn file CSS/JS: Đừng chặn tài nguyên Google cần để render trang
- Sai: Disallow: /*.css$
- Điều này có thể ảnh hưởng SEO vì Google không thể render site của bạn đúng cách

2. Lỗi chính tả và cú pháp: Robots.txt phân biệt hoa thường
- Dùng 'Disallow:', không phải 'disallow:' hoặc 'DisAllow:'
- Dùng 'User-agent:', không phải 'User-Agent:' (mặc dù hầu hết bot chấp nhận cả hai)

3. Chặn toàn bộ site không chủ ý:
- Disallow: / (chặn mọi thứ!)
- Đảm bảo đây là ý định của bạn

4. Dùng robots.txt cho bảo mật: Nó không phải công cụ bảo mật
- Bot độc hại bỏ qua nó
- Dùng xác thực thích hợp thay vào đó

5. Quên chỉ thị Allow:
- Bạn có thể bỏ chặn thư mục con của thư mục bị chặn
- Disallow: /admin/ rồi Allow: /admin/public/

Dùng công cụ này để phát hiện những lỗi này trước khi deploy robots.txt của bạn!

Dữ liệu của tôi có an toàn không?

Có, dữ liệu của bạn hoàn toàn an toàn:

- Tất cả việc test diễn ra trong trình duyệt của bạn
- Không có nội dung robots.txt nào được gửi đến máy chủ
- Chúng tôi không lưu trữ hoặc ghi log bất kỳ dữ liệu nào bạn test
- Hoạt động hoàn toàn offline sau khi tải trang
- Không theo dõi hoặc phân tích dữ liệu test của bạn
- Xử lý hoàn toàn phía client mã nguồn mở

Bạn có thể xác minh quyền riêng tư bằng cách kiểm tra tab network của trình duyệt - không có request nào được thực hiện khi test quy tắc robots.txt.