More

    Tại sao Googlebot không crawl đủ các trang ở một số website?

    |

    views

    and

    comments

    John Mueller của Google giải thích các yếu tố ảnh hưởng đến việc có bao nhiêu trang từ một trang web được crawl (thu thập) và tại sao một số trang khác thì không.

    Trong một buổi Hangout về Google SEO, John Mueller của Google đã được hỏi tại sao Google không crawl (thu thập) đủ các trang (page) của website, dưới đây là một số giải thích.

    Google Crawl Budget là gì?

    Google Crawl Budget

    Googlebot có nhiệm vụ đi thu thập các thông tin từ trang này sang trang khác để index cho mục đích xếp hạng (ranking). Nhưng số lượng website & các trang tồn tại & mới xuất hiện trên internet thật sự rất lớn, do vậy, Google có các thuật toán để ưu tiên chọn index các trang có chất lượng tốt.

    Thời gian & lượng thông tin mà Googlebot thu thập từ một trang web được gọi là Google Crawl Budget.

    Cần phải lưu ý rằng không phải tất cả mọi thứ được thu thập từ một trang web nhất thiết sẽ được index; mỗi trang phải được đánh giá & xem xét để xác định xem dữ liệu sẽ được index sau khi đã được thu thập (crawl) hay không.

    Google Crawl Budget được xác định bởi hai yếu tố chính: Crawl capacity limitCrawl demand.

    Điều gì giới hạn Google Crawl Budget?

    Người đặt câu hỏi này có website với hàng trăm ngàn trang, nhưng Google chỉ crawl (thu thập) khoảng 2,000 trang / ngày, tốc độ crawl này quá chậm so với kích thước của website. Vậy điều gì đã giới hạn Google Crawl Budget?

    Dưới đây là câu trả lời của John Mueller:

    Trong thực tế, sẽ có 2 lý do chính.

    Lý do đầu tiên là do máy chủ (server) hay thời gian phản hồi (response time), bạn sẽ dễ dàng thấy trong crawl stats report.

    Tốc độ trung bình này thường là dưới 300, 400 mili giây, với tốc độ này Googlebot có thể thu thập nhiều nhất. Tốc độ này khác với tốc độ trang page speed.

    John Mueller cũng chỉ ra rằng chất lượng của trang web (site quality) là yếu tố quyết định Google Crawl Budget thứ 2:

    Lý do thứ 2 khiến Googlebot không thu thập nhiều từ 1 trang web là vì chất lượng tổng thể của trang không đủ thuyết phục, đặc biệt là với các trang web mới.

    về mặt kỹ thuật, việc tạo ra một website với hàng triệu trang là điều có thể, và ngày càng có nhiều website như thế sẽ xuất hiện.

    Google sẽ thận trọng hơn trong việc crawling & indexing cho đến khi xác định rằng chất lượng của trang web có tốt hay không.

    Vậy có 2 lý do chính giới hạn Google Crawl Budget là:

    • Tốc độ phản hội (response time) của máy chủ (server), tốc độ này thường trung bình là 300, 400 mili giây.
    • Chất lượng tổng thể của trang web (website/page).

    Các yếu tố ảnh hưởng đến bao nhiêu trang Google crawl

    Có những yếu tố khác có thể ảnh hưởng đến số lượng trang Google thu thập dữ liệu (crawl) chưa được đề cập.

    Ví dụ: một trang web được lưu trữ trên một máy chủ dùng chung có thể không thể cho tốc độ đủ nhanh để Google crawl vì có thể có các trang web khác trên máy chủ đang sử dụng tài nguyên quá mức.

    Một lý do khác có thể là máy chủ đang bị spam, dos dẫn đến làm sập máy chủ liên tục.

    Lời khuyên của John Mueller là hãy lưu ý tốc độ của máy chủ (server) đang phục vụ website của bạn. Hãy kiểm tra máy chủ thường xuyên vào ban đêm vì nhiều trình thu thập dữ liệu như Google sẽ crawl vào đầu giờ sáng vì đây là thời gian các website thường có ít truy cập nhất.

    Nếu bạn đang quản lý một trang web lớn với số lượng hàng trăm nghìn đến hàng triệu trang, hãy tham khảo nội dung hướng dẫn sau của Google:

    Large Site Owner’s Guide to Managing Your Crawl Budget

    Xem buổi Hangout của nội dung tại phút được đánh dấu 25:46:

    Bài viết tham khảo nội dung từ: searchenginejournal.com

    Đánh Giá
    Share this
    Tags

    Bài viết ngẫu nhiên

    Sự kỳ diệu của nhân duyên

    Những ai không cùng tần số và đời sống tinh thần giống bạn, họ sẽ tự động tách rời khỏi bạn.Những ai có cùng...

    Giấy chứng nhận kim cương HDR

    Nhiệm vụ của HRD là phát triển Antwerp như một trung tâm kim cương thế giới bằng cách đại diện cho lĩnh vực kim...

    Kim cương nhân tạo là gì? Tất tần tật những điều cần biết

    Kim cương nhân tạo, còn được gọi là kim cương được chế tạo hay "nuôi cấy" trong môi trường phòng thí nghiệm được kiểm...

    Bài viết mới

    Cùng chuyên mục

    LEAVE A REPLY

    Please enter your comment!
    Please enter your name here