File robots.txt là gì và làm thế nào để tối ưu chúng cho SEO [NEW]

Bạn đã bao giờ đọc một số mẹo hoặc thủ thuật trên internet về robots.txt. tập tin để tối ưu SEO hiệu quả?

Tập tin robots.txt có tác dụng dẫn đường, chỉ lối cho các công cụ tìm kiếm.

Điều đó sẽ và sẽ không thu thập thông tin bất kỳ thứ gì trên trang web của bạn.

Điều đó đã làm cho nó thực sự quan trọng đối với SEO.

Trong bài viết này, tôi sẽ chỉ cho bạn cách tạo tệp robots.txt để tối ưu hóa SEO hiệu quả.

Tệp robots.txt là gì?

Tệp robots.txt là gì?

Robots.txt là một tệp văn bản mà khi xây dựng một trang web, bạn có thể tạo ra để thông báo cho các lỗi của công cụ tìm kiếm.

Cách thu thập thông tin và lập chỉ mục các trang trên trang web đó.

Đọc thêm Thu thập thông tin và Lập chỉ mục là gì? Cách Google thu thập dữ liệu trang web của bạn

Bạn có thể tìm thấy tệp robots.txt trong thư mục gốc của trang web, còn được gọi là thư mục chính của trang web đó.

Về cơ bản tệp robots.txt sẽ trông như thế này:

User-agent: [user-agent name]
Disallow: [URL string not to be crawled]
 
User-agent: [user-agent name]
Allow: [URL string to be crawled]
 
 
Sitemap: [URL of your XML Sitemap]

Bạn có thể thêm nhiều dòng hơn trong cấu trúc trên để cho phép hoặc không cho phép một đường dẫn cụ thể và thêm nhiều sơ đồ trang web hơn.

Nếu bạn không muốn từ chối một URL nào cả, thì các lỗi của công cụ tìm kiếm sẽ được phép thu thập thông tin mọi thứ trên trang web đó.

Dưới đây là một ví dụ về tệp robots.txt cơ bản được sử dụng trong WordPress:

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
 
Sitemap: https://example.com/sitemap_index.xml

Trong ví dụ trên, tôi đã cho phép các công cụ tìm kiếm thu thập thông tin và lập chỉ mục các tệp có trong thư mục tải lên.

Sau đó, một lần nữa tôi không cho phép nó thu thập 2 plugin và thư mục wp-admin và cuối cùng đã thêm sơ đồ trang web

Bạn có cần tệp robots.txt cho trang web WordPress của mình không?

Theo mặc định, ngay cả khi bạn không có tệp này, công cụ tìm kiếm vẫn sẽ lập chỉ mục trang web.

Tuy nhiên, đôi khi có một số tập tin quan trọng bạn không muốn nó bị lộ ra ngoài thì đây là lúc cần thiết.

Nếu bạn là người mới bắt đầu và mới bắt đầu viết blog với một lượng nội dung nhỏ, đây chắc chắn không phải là vấn đề bạn cần chú ý.

Nhưng dần dần khi trang web của bạn phát triển, có nhiều nội dung hơn, nhiều lưu lượng truy cập tự nhiên hơn.

Sau đó, bạn sẽ cần phải biết về lượng thông tin được thu thập.

Và đây là tại sao tệp robots.txt lại quan trọng như vậy

Các lỗi công cụ tìm kiếm có một giới hạn nhất định cho mỗi trang web.

Điều đó có nghĩa là mỗi lần họ truy cập, họ sẽ thu thập một số trang nhất định trên trang web đó.

Nếu nó chưa thu thập tất cả các trang, nó sẽ quay lại lần sau và tiếp tục.

Vì vậy, một trang web có số lượng bài viết lớn sẽ có thể bị ảnh hưởng và chậm index hơn.

Để khắc phục điều này, bạn có thể không cho phép một số trang không cần thiết trong WordPress như quản trị viên, thư mục plugin và chủ đề.

Điều này sẽ làm giảm lượng thông tin mà bọ không cần thu thập và nó sẽ làm cho nội dung quan trọng được lập chỉ mục nhanh hơn.

Trong một số trường hợp đặc biệt, bạn cũng có thể ngăn các công cụ tìm kiếm lập chỉ mục các Trang hoặc Bài đăng nhất định trên trang web của bạn.

Mặc dù đây không phải là cách tốt nhất để che giấu nội dung đó, nhưng nó cũng khá hiệu quả để không bị tìm thấy trong kết quả tìm kiếm.

Một số ví dụ về tệp robots.txt mà bạn có thể sử dụng

Một số blog có một tệp robots.txt khá đơn giản, mỗi trang web có một nội dung khác nhau tùy thuộc vào nhu cầu cụ thể của họ.

User-agent: *
Disallow:
  
Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www.example.com/page-sitemap.xml

Tệp robots.txt ở trên cho phép tất cả các bot thu thập thông tin tất cả thông tin trên trang web đó và chứa Sơ đồ trang web XML.

Nhân tiện, nếu bạn không biết cách tạo sơ đồ trang web, hãy xem hướng dẫn về cách tạo Sơ đồ trang web XML

Nếu bạn đang sử dụng WordPress Hawk Đề nghị bạn sử dụng tệp robots.txt với biểu mẫu sau:

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
 
Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www.example.com/page-sitemap.xml

Định dạng này cho phép công cụ tìm kiếm thu thập thông tin tất cả các tệp trong thư mục tải lên, chẳng hạn như hình ảnh.

Và không cho phép tệp plugin, khu vực quản trị, tệp readme và liên kết liên kết.

Hãy nhớ thêm sơ đồ trang vào robots.txt để Google có thể dễ dàng thu thập dữ liệu mọi trang trên trang web của bạn.

Bây giờ bạn đã hiểu cơ bản về tệp robots.txt là gì và nó được cấu trúc như thế nào.

Cách tạo tệp robots.txt trong WordPress

Có hai cách để tạo tệp robots.txt trong WordPress và chúng thường khá đơn giản. Trong bài viết này tôi sẽ chỉ cho bạn cả hai cách.

Phương pháp 1: Tạo tệp robots.txt bằng plugin Yoast SEO

Nếu bạn đang sử dụng Yoast SEO, nó có trình tạo tệp robots.txt tích hợp sẵn cho bạn.

Bạn có thể tạo và chỉnh sửa trực tiếp từ khu vực quản trị.

Đơn giản chỉ cần vào menu SEO » Công cụ và lựa chọn Trình chỉnh sửa tệp

tao file robot

Ngay sau đó Yoast SEO sẽ hiển thị tệp robots.txt mà bạn đã có.

tao file robot txt1 1

Nếu không có tệp robots.txt. Yoast SEO sẽ tạo nó cho bạn bằng cách nhấp vào nút bên dưới.

tao file robot

Theo mặc định, tệp robots.txt được tạo bởi Yoast SEO có cấu trúc như sau.

Hãy tham khảo Yoast SEO Premium với nhiều tính năng cao cấp hơn, nó thực sự hữu ích.

User-agent: *
Disallow: /

Ghi chú: Với cấu trúc này, tất cả các công cụ tìm kiếm sẽ bị chặn và không thể thu thập thông tin nội dung trên trang web của bạn.

Tốt nhất bạn nên sử dụng cấu trúc Hawk được đề xuất ở trên hoặc tạo cấu trúc của riêng bạn. Và nhớ lưu lại.

Phương pháp 2: Tạo tệp robots.txt theo cách thủ công bằng FTP

Với phương pháp này bạn cần sử dụng FTP client để chỉnh sửa file trên VPS hoặc nếu sử dụng Hosting có Cpanel bạn có thể vào File Manager để chỉnh sửa.

Truy cập thư mục chính trên WordPress bằng FTP và chỉnh sửa trực tiếp như hình dưới đây.

chinh sua file robot

Nếu bạn không thấy bất kỳ tệp robots.txt nào, hãy tạo tệp đó bằng cách nhấp chuột phải và tạo tệp mới.

tao file robot

Tệp robots.txt chỉ đơn giản là một tệp văn bản, bạn có thể tải về và chỉnh sửa bằng notepad, notepad ++ hoặc phần mềm tương tự, lưu lại và tải lên lưu trữ của bạn.

Cách kiểm tra tệp robots.txt. tập tin

Có khá nhiều cách nhưng tôi khuyên bạn nên làm như sau.

Đó là truy cập Google Search Console để chuyển sang phiên bản cũ.

chuyen sang ban cu Google webmaster tool

Và nó sẽ trở lại giao diện quen thuộc cũ của Google Webmaster Tools.

Chuyển đến phần Thu thập thông tin » trình kiểm tra robots.txt

Công cụ này sẽ tự động kiểm tra và tìm lỗi trong tệp robots.txt của bạn và sau đó đưa ra cảnh báo.

Sự kết luận

Mục tiêu cuối cùng khi tối ưu hóa tệp robots.txt là cho phép các công cụ tìm kiếm thu thập thông tin những gì thực sự cần thiết trên trang web của bạn và không cho phép một số trang không cần thiết như quản trị viên, plugin và chủ đề.

Thực hiện tối ưu hóa của riêng bạn và chọn những gì cần thiết trên trang web của bạn.

Tôi hy vọng bài viết này đã giúp bạn hiểu tệp robots.txt là gì và cách tạo tệp robots.txt được tối ưu hóa cho SEO.

Đừng quên đọc Hướng dẫn cơ bản về SEO của tôi và công cụ SEO tốt nhất sẽ giúp bạn hiểu rõ hơn về SEO.

Nếu có bất kỳ câu hỏi hay thắc mắc nào, hãy comment bên dưới nhé!