Cũng giống như các CEO có trợ lý của họ và ông già Noel có các chú lùn của mình, Google (cùng với các công cụ tìm kiếm khác) có website crawlers của mình.
Website crawlers (hay web crawlers) nghe có vẻ hơi kinh dị. Những thứ bí ẩn này đang bò xung quanh trên world wide web là gì và chính xác thì chúng đang làm gì?
Trong hướng dẫn này, chúng ta sẽ xem xét web crawlers là gì, cách các công cụ tìm kiếm sử dụng chúng và cách chúng có thể hữu ích cho chủ sở hữu website.
Quyết cũng sẽ cho bạn biết cách bạn có thể sử dụng website crawler miễn phí để khám phá web crawler nào có thể tìm thấy trên website của bạn và kết quả là bạn có thể cải thiện hiệu suất trực tuyến của mình như thế nào.
I. Crawl là gì?
Crawl là cào dữ liệu (Crawl Data) là một thuật ngữ không còn mới trong Marketing, và SEO. Vì Crawl là kỹ thuật mà các con robots của các công cụ tìm kiếm sử dụng như: Google, Bing Yahoo…
Công việc chính của crawl là thu thập dữ liệu từ một trang bất kỳ. Rồi tiến hành phân tích mã nguồn HTML để đọc dữ liệu. Và lọc ra theo yêu cầu người dùng hoặc dữ liệu mà Search Engine yêu cầu.
II. Web Crawler là gì?
Web crawler là một bot internet, còn được gọi là web spider, trình index tự động hoặc web robot, hoạt động để thu thập dữ liệu web một cách có hệ thống. Các bot này gần giống như các nhà lưu trữ và thủ thư của Internet.
Họ tập hợp lại với nhau và tải xuống thông tin và nội dung, sau đó được index và lập danh mục trong SERPs để nó có thể xuất hiện cho người dùng theo thứ tự mức độ liên quan.
Đây là cách một công cụ tìm kiếm như Google có thể nhanh chóng phản hồi các truy vấn tìm kiếm của người dùng bằng cách áp dụng thuật toán tìm kiếm của nó vào dữ liệu của web crawler.
Do đó, khả năng thu thập dữ liệu là một thuộc tính hiệu suất chính của website của bạn.
III. Web crawler hoạt động như thế nào?
Để tìm thông tin đáng tin cậy và phù hợp nhất, bot sẽ bắt đầu với một số website được lựa chọn. Nó sẽ tìm kiếm (hoặc thu thập dữ liệu) những thứ này để tìm dữ liệu, sau đó đi theo các liên kết được đề cập trong chúng (hoặc spider) đến các trang khác, nơi nó sẽ thực hiện lại điều tương tự.
Cuối cùng, trình thu thập thông tin tạo ra hàng trăm nghìn trang, có thông tin có khả năng trả lời truy vấn tìm kiếm của bạn.
Bước tiếp theo đối với các công cụ tìm kiếm như Google là xếp hạng tất cả các trang theo các yếu tố cụ thể để chỉ cung cấp cho người dùng những nội dung tốt nhất, đáng tin cậy nhất, chính xác nhất và thú vị nhất.
Các yếu tố ảnh hưởng đến thuật toán và quy trình xếp hạng của Google rất nhiều và luôn thay đổi. Một số thường được biết đến nhiều hơn (từ khóa, vị trí của từ khóa, cấu trúc internal link và outbound link, v.v.). Những thứ khác phức tạp hơn để xác định, chẳng hạn như chất lượng tổng thể của website.
Về cơ bản, khi Quyết nói về mức độ có thể crawl website của bạn, Quyết thực sự đang đánh giá mức độ dễ dàng của các chương trình web thu thập thông tin trang web của bạn để tìm thông tin và nội dung. Cấu trúc website và điều hướng thu thập thông tin càng rõ ràng, bạn càng có nhiều khả năng xếp hạng cao hơn trên SERPs.
Trình thu thập dữ liệu web và khả năng thu thập thông tin trở thành vòng tròn đầy đủ đối với SEO.
IV. Cách kiểm tra hoạt động thu thập thông tin
Nếu bạn muốn xem tổng quan về hoạt động thu thập thông tin của Google và bất kỳ vấn đề nào mà họ đã xác định, nơi tốt nhất để xem là báo cáo Crawl Stats trong Google Search Console.
Có nhiều báo cáo khác nhau ở đây để giúp bạn xác định các thay đổi trong hành vi thu thập thông tin, các vấn đề khi thu thập thông tin và cung cấp cho bạn thêm thông tin về cách Google crawl dữ liệu của bạn.
Bạn chắc chắn muốn xem xét bất kỳ trạng thái thu thập thông tin được gắn cờ nào giống như trạng thái được hiển thị ở đây:
Ngoài ra còn có các dấu thời gian về thời điểm các trang được thu thập thông tin lần cuối.
Nếu bạn muốn xem các lần truy cập từ tất cả các bot và người dùng, bạn sẽ cần quyền truy cập vào các tệp nhật ký của mình. Tùy thuộc vào lưu trữ và thiết lập, bạn có thể có quyền truy cập vào các công cụ như Awstats và Webalizer như được thấy ở đây trên máy chủ được chia sẻ với cPanel. Các công cụ này hiển thị một số dữ liệu tổng hợp từ các tệp nhật ký của bạn.
Đối với các thiết lập phức tạp hơn, bạn sẽ phải truy cập và lưu trữ dữ liệu từ các tệp nhật ký thô, có thể từ nhiều nguồn. Bạn cũng có thể cần các công cụ chuyên dụng cho các dự án lớn hơn như ngăn xếp ELK (elasticsearch, logstash, kibana) cho phép lưu trữ, xử lý và trực quan hóa các tệp nhật ký. Ngoài ra còn có các công cụ phân tích nhật ký như Splunk.
V. Điều gì được tính vào ngân sách thu thập thông tin?
Tất cả các URL và yêu cầu được tính vào ngân sách thu thập thông tin của bạn. Điều này bao gồm các URL thay thế như trang AMP hoặc m-dot, hreflang, CSS và JavaScript bao gồm cả yêu cầu XHR.
Các URL này có thể được tìm thấy bằng cách thu thập thông tin và phân tích cú pháp các trang hoặc từ nhiều nguồn khác bao gồm sitemap, nguồn cấp dữ liệu RSS, gửi URL để index trong Google Search Console hoặc sử dụng API để index.
Cũng có nhiều Googlebot chia sẻ ngân sách thu thập thông tin. Bạn có thể tìm thấy danh sách các Googlebot khác nhau đang crawl website của bạn ở báo cáo Crawl Stats trong GSC.
VI. Google điều chỉnh cách họ thu thập thông tin
Mỗi website sẽ có một ngân sách thu thập thông tin khác nhau được tạo thành từ một số đầu vào khác nhau.
1. Nhu cầu thu thập thông tin
Nhu cầu thu thập thông tin chỉ đơn giản là số lượng Google muốn crawl trên website của bạn. Các trang phổ biến hơn và các trang trải qua các thay đổi quan trọng sẽ được thu thập thông tin nhiều hơn.
Các trang phổ biến hoặc những trang có nhiều liên kết đến chúng thường sẽ được ưu tiên hơn các trang khác. Hãy nhớ rằng Google phải ưu tiên các trang của bạn để crawl theo một cách nào đó và các liên kết là một cách dễ dàng để xác định trang nào trên trang web của bạn phổ biến hơn. Tuy nhiên, đó không chỉ là website của bạn mà là tất cả các trang trên tất cả các website trên internet mà Google phải tìm ra cách ưu tiên.
Bạn có thể sử dụng báo cáo Best by links trong Site Explorer như một dấu hiệu về những trang nào có khả năng được thu thập thông tin thường xuyên hơn. Nó cũng cho bạn biết thời điểm Ahrefs thu thập dữ liệu các trang của bạn lần cuối.
Cũng có một khái niệm về sự kiên định. Nếu Google thấy rằng một trang không thay đổi, họ sẽ crawl ít thường xuyên hơn. Ví dụ: nếu họ thu thập thông tin một trang và không thấy thay đổi nào sau một ngày, họ có thể đợi ba ngày trước khi thu thập thông tin lại, 10 ngày vào lần tiếp theo, 30 ngày, 100 ngày, v.v.
Không có khoảng thời gian thực tế nào mà họ sẽ đợi giữa các lần thu thập thông tin, nhưng nó sẽ trở nên không thường xuyên hơn theo thời gian. Tuy nhiên, nếu Google nhận thấy những thay đổi lớn trên toàn bộ website hoặc một lần di chuyển website, họ thường sẽ tăng tốc độ thu thập thông tin, ít nhất là tạm thời.
2. Giới hạn tốc độ thu thập thông tin
Giới hạn tốc độ thu thập thông tin là mức độ thu thập thông tin mà website của bạn có thể hỗ trợ. Các website có thể thực hiện một số lần thu thập dữ liệu nhất định trước khi gặp vấn đề với sự ổn định của máy chủ như bị chậm hoặc lỗi. Hầu hết các trình thu thập thông tin sẽ ngừng thu thập thông tin nếu họ bắt đầu thấy những vấn đề này để chúng không gây hại cho website.
Google sẽ điều chỉnh dựa trên tình trạng thu thập thông tin của website. Nếu website ổn với việc thu thập thông tin nhiều hơn, thì giới hạn sẽ tăng lên. Nếu website gặp sự cố thì Google sẽ làm chậm tốc độ thu thập dữ liệu của họ.
VII. Cách để Google thu thập dữ liệu nhanh hơn
Có một số điều bạn có thể làm để đảm bảo trang web của bạn có thể hỗ trợ thu thập thông tin bổ sung và tăng nhu cầu thu thập thông tin website của bạn. Hãy xem xét một số tùy chọn đó.
1. Tăng tốc server/tăng tài nguyên
Cách Google crawl các trang về cơ bản là tải xuống các tài nguyên và sau đó xử lý chúng. Tốc độ trang của bạn như người dùng nhận thấy nó không hoàn toàn giống nhau. Điều sẽ ảnh hưởng đến ngân sách thu thập thông tin là tốc độ Google có thể kết nối và tải xuống các tài nguyên liên quan nhiều hơn đến máy chủ và tài nguyên.
2. Sử dụng nhiều internal và external link hơn
Hãy nhớ rằng nhu cầu thu thập thông tin thường dựa trên mức độ phổ biến hoặc liên kết. Bạn có thể tăng ngân sách của mình bằng cách tăng số lượng external hoặc internal link. Internal link sẽ dễ dàng thực hiện hơn vì bạn kiểm soát website. Bạn có thể tìm thấy các internal link được đề xuất trong báo cáo Link Opportunities trong Site Audit, báo cáo này cũng bao gồm hướng dẫn giải thích cách hoạt động.
3. Sửa các liên kết bị hỏng và được chuyển hướng
Giữ các liên kết đến các trang bị hỏng hoặc được chuyển hướng trên website của bạn hoạt động sẽ có tác động nhỏ đến ngân sách thu thập thông tin. Thông thường, các trang được liên kết ở đây sẽ có mức độ ưu tiên khá thấp vì chúng có thể không thay đổi trong một thời gian, nhưng việc dọn dẹp mọi vấn đề sẽ tốt cho việc bảo trì website nói chung và giúp ích một chút cho ngân sách thu thập dữ liệu của bạn.
Bạn có thể dễ dàng tìm thấy các liên kết bị hỏng (4xx) và redirect (3xx) trên website của mình trong báo cáo Internal pages trong Site Audit.
Đối với các liên kết bị hỏng hoặc được chuyển hướng trong sitemap, hãy kiểm tra báo cáo All issues để biết các sự cố “3XX redirect in sitemap” và “4XX page in sitemap”.
4. Sử dụng GET thay vì POST nếu bạn có thể
Phần này cần nhiều kỹ thuật hơn một chút bởi nó liên quan đến các phương thức HTTP Request. Không sử dụng yêu cầu POST khi yêu cầu GET hoạt động. Về cơ bản nó là GET (kéo) so với POST (đẩy). Các yêu cầu POST không được lưu vào bộ nhớ đệm nên chúng ảnh hưởng đến ngân sách thu thập thông tin, nhưng các yêu cầu GET có thể được lưu vào bộ nhớ đệm.
5. Sử dụng Indexing API
Nếu bạn cần các trang được thu thập dữ liệu nhanh hơn thì hãy kiểm tra xem bạn có đủ điều kiện cho Indexing API của Google hay không. Hiện tại, tính năng này chỉ khả dụng cho một số trường hợp sử dụng như tin tuyển dụng hoặc video trực tiếp.
Bing cũng có Indexing API dành cho mọi người.
6. Những gì sẽ không hoạt động
Có một số hoạt động được mọi người thử nhưng không thực sự giúp ích cho ngân sách thu thập thông tin của bạn.
- Những thay đổi nhỏ đối với website: Thực hiện các thay đổi nhỏ trên các trang như cập nhật ngày, khoảng trắng hoặc dấu chấm câu với hy vọng các trang được thu thập thông tin thường xuyên hơn. Google khá giỏi trong việc xác định xem các thay đổi có quan trọng hay không, vì vậy những thay đổi nhỏ này có thể không có bất kỳ tác động nào đến việc thu thập thông tin.
- Chỉ thị trì hoãn thu thập thông tin trong robots.txt: Chỉ thị này sẽ làm chậm nhiều bot. Tuy nhiên, Googlebot không sử dụng nó nên nó sẽ không có tác động.
- Xóa tập lệnh của bên thứ ba: Các tập lệnh của bên thứ ba không được tính vào ngân sách thu thập thông tin của bạn, vì vậy việc xóa chúng sẽ không hữu ích.
- Nofollow: Được rồi, cái này thật tệ. Trong quá khứ, các liên kết nofollow sẽ không sử dụng ngân sách thu thập thông tin. Tuy nhiên, nofollow hiện được coi là một gợi ý để Google có thể chọn thu thập thông tin các liên kết này.
VIII. Cách để Google thu thập dữ liệu chậm hơn
Chỉ có một số cách hay để khiến Google thu thập dữ liệu chậm hơn. Về mặt kỹ thuật, có một số điều chỉnh khác mà bạn có thể thực hiện như làm chậm website của mình nhưng chúng không phải là phương pháp mà Quyết muốn giới thiệu.
1. Điều chỉnh chậm, nhưng đảm bảo
Kiểm soát chính mà Google cung cấp cho chúng tôi để thu thập dữ liệu chậm hơn là giới hạn tốc độ trong Google Search Console. Bạn có thể làm chậm tốc độ thu thập thông tin bằng công cụ này, nhưng có thể mất đến hai ngày để có hiệu lực.
2. Điều chỉnh nhanh nhưng có rủi ro
Nếu bạn cần một giải pháp tức thời hơn, bạn có thể tận dụng các điều chỉnh tốc độ thu thập thông tin của Google liên quan đến tình trạng trang web của bạn. Nếu bạn cung cấp cho Googlebot mã trạng thái ‘503 Service Unavailable’ hoặc ‘429 Too Many Requests’ trên các trang, chúng sẽ bắt đầu thu thập dữ liệu chậm hơn hoặc có thể tạm thời ngừng thu thập thông tin. Tuy nhiên, bạn không muốn làm việc này lâu hơn một vài ngày hoặc họ có thể bắt đầu bỏ trang khỏi index.
Một lần nữa, Quyết muốn nhắc lại rằng ngân sách thu thập thông tin không phải là điều mà hầu hết mọi người phải lo lắng. Nếu bạn có thắc mắc, Quyết hy vọng hướng dẫn này hữu ích.
Quyết thường chỉ xem xét vấn đề này khi có vấn đề với các trang không được crawl hoặc index, Quyết cần giải thích lý do tại sao ai đó không nên lo lắng về điều đó hoặc Quyết tình cờ thấy điều gì đó liên quan đến tôi trong báo cáo thống kê thu thập thông tin trong Google Search Console .
Nếu bạn có thắc mắc gì về nội dung này thì có thể liên hệ với Quyết hoặc theo dõi các bài viết liên quan trên website seosona.com để cập nhật các kiến thức mới nhất về SEO nói riêng và Digital Marketing nói chung.
https://ahrefs.com/blog/crawl-budget/