Robots.txt là gì? Hướng dẫn cách tạo file robots.txt cho Blogger

Bạn đang xem: 
Robots.txt là gì? Hướng dẫn cách tạo file robots.txt cho Blogger
 tại Thuthuatwiki.com
File Robots.txt là gì?
File robots.txt giúp cho trình thu thập dữ liệu của các công cụ tìm kiếm biết được khả năng yêu cầu thu thập dữ liệu từ những trang hoặc tệp trên website của bạn. Trong bài viết này mình sẽ chia sẻ một số kiến thức về file robots.txt và hướng dẫn tạo file robots.txt cho Blogger/Blogspot. Cùng mình bắt đầu nào!

Vậy File robots.txt là gì?

File robots.txt là một tập tin văn bản đơn giản có dạng đuôi mở rộng txt. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn Web quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.

Cấu trúc cú pháp của file robots.txt

Các cú pháp được xem là ngôn ngữ riêng của các tập tin robots.txt. Có 5 thuật ngữ phổ biến trong một file robots.txt, bao gồm như sau:
  • User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (Ví dụ: Googlebot, Bingbot...).
  • Disallow: Được sử dụng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
  • Allow: (chỉ áp dụng cho bộ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
  • Crawl - delay: Thông báo cho các Web Crawler biết rằng phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bộ tìm kiếm Googlebot không thừa nhận lệnh này và bạn phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Bing và Yahoo.
Cấu trúc của file robots.txt

Tại sao bạn cần tạo file robots.txt cho trang web?

Việc tạo robots.txt cho website giúp bạn kiểm soát việc truy cập của các con Bot của các công cụ tìm kiếm như Google, Yahoo, Bing,... đến các khu vực nhất định trên trang web. Điều này mang đến nhiều lợi ích cho bạn bởi nhiều lí do:
  • Ngăn chặn nội dung trùng lặp xuất hiện trong website (các Robot Meta thường là lựa chọn tốt).
  • Giữ một số phần của trang ở chế độ riêng tư.
  • Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP.
  • Chỉ định vị trí của Sitemap.
  • Ngăn các công cụ của Google Index một số tệp nhất định trên trang web của bạn (hình ảnh từ máy tính, PDF,...).
  • Dùng lệnh Crawl-delay để cài đặt thời gian, ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
Tạo robots.txt cho website giúp bạn kiểm soát việc truy cập của các con Bot

Những hạn chế của file robots.txt

File robots.txt mang nhiều ưu điểm như ở trên mình trình bày, nhưng vẫn tồn tại một số nhược điểm nhất định:
  • Một số công cụ tìm kiếm có thể không hỗ trợ các lệnh trong tệp robots.txt.
  • Mỗi trình thu thập dữ liệu sẽ phân tích cú pháp theo những cách riêng.
  • Google vẫn có thể lập chỉ mục một trang bị tệp robots.txt chặn nếu có các trang web khác liên kết đến trang đó.
Một số hạn chế của file robots.txt cần lưu ý

File robots.txt hoạt động như thế nào?

Phương thức hoạt động của file robots.txt diễn ra như sau:
Bước 1: Crawl (cào/phân tích) dữ liệu trên trang web để khám phá nội dung bằng cách đưa công cụ đi theo các liên kết từ trang này đến trang khác, sau đó thu thập dữ liệu thông qua hàng tỷ trang web khác nhau. Quá trình crawl dữ liệu này còn được biết đến với tên khác là "Spidering".
Bước 2: Index nội dung đó để đáp ứng yêu cầu cho các tìm kiếm của người dùng. File robots.txt sẽ chứa các thông tin về cách các công cụ của Google nhằm thu thập dữ liệu của website. Lúc này, các con bots sẽ được hướng dẫn thêm nhiều thông tin cụ thể cho quá trình này.

Lưu ý: Nếu tệp robots.txt không chứa bất kì chỉ thị nào cho các User-agent hoặc nếu bạn không tạo file robots.txt cho website thì các con bots sẽ tiến hành thu thập các thông tin khác trên web.

Làm thế nào để kiểm tra website có file robots.txt không?

Để kiểm tra web/blog có file robots.txt không, bạn có thể thực hiện theo các bước dưới đây:
Chèn lệnh robots.txt vào cuối domain (ví dụ: www.thuthuatwiki.com/robots.txt) > Nhấn Enter.

Hước dẫn cài đặt tệp file Robots.txt cho Blogger/Blogspot

Các bạn vào Cài đặt -> Robots.txt tùy chỉnh -> Bạn coppy đoạn bên dưới vào.

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /search
Disallow: /search*
Allow: /
Allow: *max-results=8
Allow: /search/label/
Disallow: *?m=0
Sitemap: https://www.thuthuatwiki.com/posts/default?orderby=UPDATED
Sitemap: https://www.thuthuatwiki.com/sitemap.xml
Sitemap: https://www.thuthuatwiki.com/atom.xml?redirect=false&start-index=1&max-results=500
Trong đó:
User-agent: Mediapartners-Google:
Disallow: / => Mình chặn index các trang đối tác của Google (Google Adsense)
User-agent: * => Khai báo cho tất cả bộ máy tìm kiếm (SE)
Allow: / => Tức là cho phép bot có thể index nội dung trên trang web.
Disallow: /search* => Chặn trang tìm kiếm
Allow: /search => Cho phép đọc trang bài viết mới
Disallow: *?m=0 => chặn index trang có giá trị domain.com?m=0
Allow: /search/label/ => Cho phép index trang nhãn
Disallow: *?m=0 => Blogspot có 2 giao diện, 1 là cho máy tính và còn lại là cho điện thoại. Thông thường các template đều thiết kế sử dụng responsive, nên sẽ sinh ra đường link ?m=1, còn máy tính vẫn sinh ra đường link ?m=0 dù bạn truy cập trên máy tính sẽ không thấy, nhưng tham số ?m=0 vẫn tồn tại, và được Google index, vì vậy, để trang trùng lặp mô tả, tiêu đề, bạn cần chặn tham số ?m=0.
Sitemap: là sơ đồ trang của web, bạn thây đúng địa chỉ URL nhé.

Bạn không thích dòng nào thì có thể xóa bỏ.

File robots.txt mà blog mình hiện đang sử dụng:


User-agent: *
Disallow: /search
Allow: /
Sitemap: https://www.thuthuatwiki.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: https://www.thuthuatwiki.com/sitemap.xml

Một số mẫu Robots của những Blog

Dạng mặc định:

User-agent: Mediapartners-Google
Disallow: User-agent: *
Disallow: /search
Allow: / Sitemap: https://domain.com/sitemap.xml
File Robots tùy chỉnh cho SEO label:

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search?updated-min=*
Disallow: /search?updated-max=*
Disallow: /search/label/*?max-results=*
Disallow: /search/label/*?updated-min=*
Disallow: /search/label/*?updated-max=*
Disallow: *archive.html
Allow: /
Sitemap: https://domain.com/feeds/posts/default?orderby=UPDATED

Cách tối ưu cho thẻ tiêu đề robot tùy chỉnh

Bạn vào Cài đặt => Bật thẻ tiêu đề robot tùy chỉnh => Chọn allnoodp => Nhấn Lưu. Như hình bên dưới.
Trong đó:
all: Cho phép công cụ tìm kiếm lập chỉ mục.
noindex: Không hiển thị trang này trong kết quả tìm kiếm.
nofollow: Thông báo cho công cụ tìm kiếm không nên lần theo các liên kết này.
none: Tương tự như nonidex và nofollow.
noarchive: Không hiển thị một liên kết "Cached" trong kết quả tìm kiếm.
nosnippet: Không hiển thị một đoạn mã trong kết quả tìm kiếm cho trang này.
noodp: Không sử dụng dữ liệu từ các dự án Open Directory (DMOZ) cho tiêu đề hoặc đoạn hiển thị cho trang này.
notranslate: Không cung cấp bản dịch của trang này với các ngôn ngữ khác trong kết quả tìm kiếm.
noimageindex: Không lập chỉ mục cho hình ảnh trên trang này.
unavailable_after: Không hiển thị trang này trong kết quả tìm kiếm sau khi ngày/thời gian quy định. Ngày/thời phải được xác định trong các định dạng RCF 850.

Kết luận:

Ở trên mình đã chia sẻ tới các bạn cách tạo và cài đặt một file Robots chuẩn cho Blogger/Blogspot> Có gì thắc mắc các bạn hãy để lại bình luận phía dưới. Chúc các bạn thành công!

Thành Đạt – Tổng hợp và edit

Thuthuatwiki.com

Học để làm - Học để chia sẻ

Đăng nhận xét

Mới hơn Cũ hơn