Robots.txt là một tệp tin cung cấp hướng dẫn cho các công cụ tìm kiếm cách thu thập dữ liệu trang web của bạn. Điều này giúp nó trở thành một công cụ SEO vô cùng hiệu quả. Trong bài viết này, chúng tôi sẽ hướng dẫn bạn cách tạo tệp robots.txt tối ưu cho SEO.
File robots.txt là gì?
Robots.txt là một file dạng text cho phép bạn chặn các bot và từ chối các công cụ tìm kiếm truy cập vào các tệp và thư mục nhất định.
Bạn có thể tìm thấy file robots.txt ở thư mục gốc của website hay còn gọi là folder chính của website đó. Về cơ bản, một file robots.txt sẽ có dạng như sau:
- User-agent: [user-agent name]
- Disallow: [URL string not to be crawled]
- User-agent: [user-agent name]
- Allow: [URL string to be crawled]
- Sitemap: [URL of your XML Sitemap]
Bạn có thể thêm nhiều dòng khác vào đoạn code trên để cho phép hoặc từ chối các URL cụ thể và thêm nhiều sitemap khác. Nếu bạn từ chối một URL, các bot tìm kiếm sẽ được phép thu thập tất cả mọi thứ trên website đó.
Đây là ví dụ về một file robots.txt:
- User-Agent: *
- Allow: /wp-content/uploads/
- Disallow: /wp-content/plugins/
- Disallow: /wp-admin/
Sitemap: https:
//example.com/sitemap_index.xml
Sau đó, chúng tôi lại không cho phép các bot thu thập thông tin và index file các plugin và thư mục quản trị WordPress.
Cuối cùng chúng tôi đã cung cấp sitemap URL của trang web
Trang web WordPress của bạn có cần một file Robots.txt không?
Nếu không có file robots.txt thì các công cụ tìm kiếm vẫn sẽ thu thập dữ liệu và index trang web của bạn. Tuy nhiên, bạn không thể thông báo cho các bot những trang hoặc công cụ bạn không muốn lộ thông tin.
Nếu bạn là một người mới và đang bắt đầu xây dựng một blog chưa có nhiều nội dung thì không cần phải lo lắng.
Khi trang web của bạn phát triển và có thêm nhiều nội dung thì bạn sẽ muốn kiểm soát số lượng thông tin trang web bị thu thập và index.
Đây là lý do tại sao file robots.txt lại quan trọng như vậy.
Các bot tìm kiếm có một hạn ngạch thu thập dữ liệu nhất định cho mỗi trang web.
Điều này có nghĩa là chúng thu thập dữ liệu một số trang nhất định trong một phiên thu thập dữ liệu. Nếu vẫn chưa thu thập xong dữ liệu của tất cả các page thì lần sau nó sẽ quay lại và tiếp tục công việc.
Điều này có thể gây ảnh hưởng và làm chậm tốc độ index của trang web.
Để khắc phục điều này bạn có thể disallow một số page không cần thiết như trang quản trị WordPress, tệp plugin và thư mục theme.
Bằng cách disallow một số trang không cần thiết, bạn lưu chỉ tiêu thu thập dữ liệu của mình. Điều này giúp các bot thu thập dữ liệu bớt được các trang không cần thiết và index chúng càng nhanh càng tốt.
Một lý do chính đáng khác để sử dụng file robots.txt là bạn muốn ngăn các công cụ tìm kiếm không index một số bài đăng hoặc trang nào đó trên website của bạn.
Đây không phải là cách an toàn nhất để ẩn nội dung nhưng sẽ ngăn chúng xuất hiện trên công cụ tìm kiếm.
File Robots.txt lý tưởng trông như thế nào?
Nhiều blog phổ biến sử dụng các file robots.txt khá đơn giản. Mỗi trang web có một nội dung khác nhau tùy thuộc nhu cầu cụ thể:
- User-agent: *
- Disallow:
- Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http:
//www.example.com/page-sitemap.xml
File robots.txt cho phép tất cả các bot index tất cả các nội dung và cung cấp một sitemap XML.
Đối với các trang web WordPress, chúng tôi gợi ý bạn sử dụng file robots.txt như sau:
- User-Agent: *
- Allow: /wp-content/uploads/
- Disallow: /wp-content/plugins/
- Disallow: /wp-admin/
- Disallow: /readme.html
- Disallow: /refer/
Sitemap: http:
//www.example.com/post-sitemap.xml
Sitemap: http:
//www.example.com/page-sitemap.xml
Điều này cho phép các bot tìm kiếm index tất cả hình ảnh và tệp WordPress, đồng thời disallows các tệp plugin, khu vực quản trị WordPress, tệp readme và liên kết affiliate.
Hãy nhớ thêm sitemap vào file robots.txt để các bot của Google dễ dàng thu thập tất cả các trang có trên website.
Bây giờ bạn đã biết một file robots.txt cơ bản là gì và cấu trúc của file robots.txt trong WordPress trông như thế nào.
Làm thế nào để tạo file Robots.txt trong WordPress?
Có hai cách để tạo file robots.txt trong WordPress. Bạn có thể chọn một cách phù hợp nhất với bạn.
Cách 1: Chỉnh sửa file Robots.txt bằng Yoast SEO
Nếu bạn đang sử dụng plugin Yoast SEO thì nó đi kèm trình tạo file robots.txt.
Bạn có thể tạo và chỉnh sửa trực tiếp file robots.txt từ khu vực quản trị WordPress của mình.
Bạn chỉ cần truy cập trang SEO » Tools trong khu vực quản trị WordPress và nhấp vào link File Editor.
Ngay sau đó, Yoast SEO sẽ hiển thị file robots.txt mà bạn có.
Nếu không có file robots.txt thì Yoast SEO sẽ tạo một file robots.txt mới cho bạn.
Theo mặc định, Yoast SEO sẽ thêm các quy tắc sau vào file robots.txt của bạn:
- User-agent: *
- Disallow: /
Điều quan trọng là rule trên sẽ chặn tất cả các công cụ tìm kiếm thu thập dữ liệu trang web của bạn. Do vậy, bạn cần xóa đoạn trên.
Sau khi xóa văn bản mặc định, bạn có thể tiếp tục và thêm quy tắc robots.txt của riêng mình. Chúng tôi khuyên bạn nên sử dụng định dạng robots.txt lý tưởng mà chúng tôi đã chia sẻ ở trên.
Khi bạn đã hoàn tất, đừng quên nhấp vào nút ‘Save robots.txt file’ để lưu các thay đổi.
Cách 2. Chỉnh sửa file Robots.txt bằng cách thủ công sử dụng FTP
Với phương pháp này bạn cần sử dụng phần mềm kết nối FTP để chỉnh sửa file robots.txt.
Sau khi kết nối với hosting WordPress, bạn sẽ tìm thấy file robots.txt trong thư mục gốc của website.
Nếu bạn không thấy thì hãy tạo một file robots.txt mới.
Robots.txt là một file văn bản, bạn có thể tải nó xuống máy tính và chỉnh sửa bằng bất kỳ trình soạn thảo văn bản đơn giản nào như Notepad hoặc TextEdit.
Sau khi lưu các thay đổi, bạn có thể upload nó trở lại thư mục folder của trang web.
Làm thế nào để kiểm tra file Robots.txt?
Sau khi đã tạo file robots.txt file, bạn cũng sẽ cần kiểm tra nó bằng công cụ robots.txt tester tool.
Hiện này có nhiều công cụ giúp bạn kiểm tra tệp robots.txt, nhưng phổ biến hơn cả là sử dụng chính Google Search Console.
Bạn cần đăng nhập vào tài khoản Google Search Console & chuyển sang giao diện webmaster cũ.
Điều này sẽ đưa bạn đến giao diện Google Search Console cũ. Tại đây, bạn khởi chạy công cụ robots.txt tester tool trong menu ‘Crawl’.
Công cụ này sẽ tự động tìm nạp tệp robots.txt, kiểm tra và tìm ra các lỗi có trên file robots.txt của bạn sau đó đưa ra cảnh báo.
Kết luận
Mục tiêu cuối cùng khi tối ưu file robots.txt đó là ngăn công cụ tìm kiếm thu thập dữ liệu các trang không công khai. Ví dụ: các trang trong thư mục wp-plugins hoặc các trang trong thư mục quản trị viên WordPress của bạn.
Một mẹo nhỏ của các chuyên gia SEO là việc chặn danh mục WordPress, thẻ và các trang lưu trữ sẽ cải thiện tốc độ thu thập dữ liệu và kết quả index nhanh hơn và xếp hạng cao hơn.
Điều này không đúng. Nó cũng chống lại nguyên tắc quản trị trang web của google.
Bạn nên làm theo định dạng robots.txt ở trên để tạo file robots.txt cho trang web của mình.
Chúng tôi hi vọng bài viết này giúp bạn hiểu file robots.txt là gì và cách tạo file robots.txt tối ưu cho SEO. Bạn cũng có thể muốn xem hướng dẫn SEO WordPress của chúng tôi và và các công cụ SEO WordPress tốt nhất để phát triển trang web của bạn.
Nếu thích bài viết này, đừng quên theo dõi YouTube Channel để xem các video hướng dẫn về WordPress. Bạn cũng có thể tìm kiếm chúng tôi trên Twitter và Facebook.