Nội dung bài viết
Google mới đây đã hoàn thiện và bổ sung bài kiểm tra nhanh dưới dạng Đúng – Sai về việc cào dữ liệu (crawling).
Các SEOer có thể tham gia test tại đây (chỉ bản tiếng Anh mới có test nhé, tiếng Việt thì hông có test đâu).
Link bài test: https://developers.google.com/search/docs/advanced/crawling/large-site-managing-crawl-budget
Nội dung 13 câu hỏi của bài test
1. NÉN SITEMAPS CÓ GIÚP TĂNG TẦN SUẤT CRAWL CỦA GOOGLE BOT?
Sai nha. Google Bot vẫn sẽ dò khắp server để tìm nạp sitemaps nên việc nén hay không nén cũng không khác nhau.
2. GOOGLE THÍCH NỘI DUNG MỚI, VÌ THẾ CHÚNG TA NÊN CẬP NHẬT WEB LIÊN TỤC?
Nếu chọn “Đúng” thì xin chúc mừng bạn đã “Sai”.
Google giải thích như sau: nội dung được xếp hạng dựa trên chất lượng chứ không phải thời gian mới hay cũ. Chỉ nên thay đổi hoặc cập nhật nội dung khi thật sự cần thiết. Việc cập nhật lại ngày đăng bài thì không có ý nghĩa gì với GG Bot cả.
3. GOOGLE ƯU TIÊN NỘI DUNG CŨ VÌ CÓ NHIỀU GIÁ TRỊ HƠN NỘI DUNG MỚI?
Sai. Hữu ích là hữu ích, không phân biệt ngày tháng đâu nha.
4. GOOGLE ƯU TIÊN THU THẬP CÁC URL KHÔNG CÓ THAM SỐ HƠN LÀ URL CHỨA THAM SỐ?
(URL chứa tham số rất hay gặp cho cùng 1 sản phẩm nhưng có nhiều kích thước, màu sắc)
Sai nha. Google Bot không thiên vị thằng nào cả. Tuy nhiên Google dặn là phải chặn việc thu thập các tham số để khỏi bị trùng lặp nội dung nha.
Xem tại đây: https://support.google.com/webmasters/answer/6080548
5. TRANG CÀNG LOAD NHANH, BOT CÀNG CÀO NHANH
Đúng. Vì Googel Bot cũng biết “mệt”, đơn giản là vậy. Tuy nhiên nếu như có nội dung hay, nội dung xịn thì dù cho có load chậm thì Bot vẫn cào nhiệt tình nhé.
SEO = Sướng = Lên top.
6. TRANG WEB NHỎ THÌ KHÔNG ĐƯỢC BOT GHÉ THĂM THƯỜNG XUYÊN BẰNG WEB LỚN?
Sai. Nhỏ hay lớn không quan trọng, quan trọng là đẹp trai hay không (nội dung có chất lượng không, có nhiều nội dung được cập nhật thường xuyên hay không).
SEO = đẹp trai = hữu xạ tự nhiên hương = lên top.
7. CONTENT CÀNG GẦN TRANG CHỦ THÌ CÀNG QUAN TRỌNG VỚI GOOGLE?
Đúng một phần. Trang chủ thường là trang quan trọng nhất trên toàn bộ web. Vì thế, những nội dung mà được liên kết/đặt/để trực tiếp ở trang chủ thì sẽ được GG Bot xem là quan trọng và được cào thường xuyên hơn.
Tuy nhiên điều đó không có nghĩa là những thông tin này được xếp hạng cao hơn hoặc các trang khác bị đánh giá thấp hơn.
8. TẠO 1 PHIÊN BẢN URL MỚI LÀ CÁCH TỐT ĐỂ KHUYẾN KHÍCH GOOGLEBOT VÀO CÀO LẠI NỘI DUNG?
Đúng một phần. Việc bạn tạo ra một bản url mới (tức là thay đổi url cũ -> url mới) cũng là tín hiệu để Google Bot vào crawl lại thông tin thường xuyên hơn.
Tuy nhiên, điều này là không thực sự cần thiết. Bạn chỉ nên thay đổi URL khi nội dung của bạn hoàn toàn thay đổi. Còn nếu muốn thông báo về nội dung cập nhật mới cho Google thì hãy sử dụng thẻ
9. TRANG LOAD CHẬM VÀ CÓ NHIỀU LỖI THÌ ẢNH HƯỞNG ĐẾN VIỆC CRAWL THÔNG TIN?
Đúng. Tương tự như điều số (5). Để kiểm soát các lỗi thì Google khuyên hãy đọc phần Crawl Stats report trong Search Console.
10. CRAWL THÔNG TIN LÀ MỘT TIÊU CHÍ ĐỂ SEO NHANH LÊN TOP?
Sai. Web được GG Bot vào cào thường xuyên; hoặc web được GG Bot cào nhanh không có nghĩa là sẽ lên top. Việc cào thông tin không phải là tiêu chí xếp hạng SEO của Google.
P/s: chỗ này mình thấy hên xui. Nếu giả dụ web A và web B bằng nhau về các tiêu chí ranking thì chắc chắn thằng nào load nhanh hơn sẽ lên top. Còn nếu như không bằng nhau thì cũng hên xui vì tốc độ web => ảnh hưởng đến user’s experience => ảnh hưởng đến ranking.
11. GOOGLE BOT THU THẬP CẢ CÁC ALTERNATE URL VÀ NỘI DUNG ĐƯỢC NHÚNG VÀO WEBSITE?
Đúng. Google Bot là cỗ máy ăn tạp và nó sẽ cào tất cả mọi thứ trên trang nếu được cho phép. Vì vậy, chúng ta cần xác định đâu là các thông tin muốn Googlebot cào và ngược lại.
12. TA CÓ THỂ KIỂM SOÁT GOOGLEBOT VỚI LỆNH “CRAWL-DELAY”?
Sai. Google Bot không xử lý/can thiệp vào lệnh non-standard “crawl-delay” robots.txt.
13. LỆNH NOFOLLOW ẢNH HƯỞNG ĐẾN VIỆC CÀO THÔNG TIN CỦA BOT?
Đúng một phần. Nếu Google Bot đến web bạn cào và gặp lệnh “nofollow” thì nó sẽ không cào URL đó. Tuy nhiên nếu GG Bot bắt gặp URL đó ở một trang khác trong web của bạn hoặc ở một website nào đó mà không đánh dấu “nofollow” thì nó vẫn sẽ cào như thường.