Thuật ngữ

Cached Page

Trang lưu trữ (Cached Page) là một bản sao của trang web được lưu trữ tạm thời trong bộ nhớ chuyên dụng gọi là “cache”.

Mục đích của việc lưu trữ (cache) là lưu trữ dữ liệu để cải thiện hiệu suất truy xuất thông tin.

Cached search results on Google

Nói đơn giản, cache đảm bảo các yêu cầu truy cập dữ liệu tương tự trong tương lai sẽ được phục vụ nhanh hơn.

Có hai loại cache chính:

  • Cache trình duyệt: Trình duyệt lưu trữ trang web để hiển thị trang nhanh hơn mà không cần tải lại nội dung từ máy chủ mỗi lần người dùng truy cập lại trang cụ thể.
  • Cache máy chủ: Mạng phân phối nội dung (CDN) sẽ lưu trữ nội dung web (hình ảnh, video và trang web) trong các “máy chủ proxy” được đặt gần người dùng hơn so với máy chủ website.

Ngoài ra, các công cụ tìm kiếm như Google cũng có thể lưu trữ trang web:

Các trình thu thập dữ liệu web của Google thường xuyên quét internet và lập chỉ mục các trang web mới.

Trong suốt quá trình thu thập dữ liệu, công cụ tìm kiếm cũng tạo bản sao lưu trữ của các trang web để có thể hiển thị cho người dùng khi yêu cầu, ngay cả khi trang web trực tiếp hiện không khả dụng.

Tại sao trang lưu trữ quan trọng?

Trong trình duyệt:

Khi người dùng tải một trang web cụ thể, trình duyệt của họ phải tải xuống khá nhiều dữ liệu để có thể hiển thị trang chính xác. Tuy nhiên, khi kích hoạt chức năng lưu trữ, máy chủ sẽ lưu trữ các tệp HTML, JavaScript và hình ảnh – về cơ bản, một bản sao của nội dung trang web đó – trên ổ cứng của người dùng.

Bằng cách này, khi người dùng tải lại trang tương tự, máy chủ không cần tải lại tài liệu web; tệp HTML đã được chuẩn bị sẵn sàng để gửi đến trình duyệt. Điều này có thể rút ngắn thời gian tải, giảm băng thông và giảm tải cho máy chủ. Nói cách khác, lưu trữ giúp trình duyệt hiển thị trang nhanh hơn.

Trong mạng phân phối nội dung (CDN):

Một CDN, chẳng hạn như CloudFlare, sẽ lưu trữ các bản sao của trang web trên nhiều máy chủ khác nhau (còn được gọi là “máy chủ proxy”) đặt trên khắp thế giới. Bằng cách đó, CDN có thể phân phối nội dung được yêu cầu cho người dùng từ máy chủ proxy gần nhất, giúp tăng tốc đáng kể.

Trong công cụ tìm kiếm:

Khi Google xử lý trang web vừa thu thập dữ liệu, nó sẽ chụp một “ảnh chụp nhanh” để làm bản sao lưu trữ của trang cụ thể đó.

Bằng cách này, người dùng vẫn có thể truy cập vào trang lưu trữ trong trường hợp trang trực tiếp họ đang cố truy cập tạm thời không khả dụng hoặc chậm.

Những trang này là một phần của cache của Google, nghĩa là bạn có thể xem phiên bản lưu trữ của một trang trực tiếp từ SERP.

Hãy nhấp vào dấu ba chấm (hoặc mũi tên xuống) bên cạnh URL của trang web trong kết quả tìm kiếm và chọn nút “Cached” trong cửa sổ bật lên “About this result”, như hiển thị bên dưới:

Nếu bạn không muốn Google hiển thị các phiên bản lưu trữ của trang web của bạn trong SERP, bạn có thể sử dụng thẻ meta Robots – và cụ thể hơn là thẻ Noarchive – để ngăn công cụ tìm kiếm lưu trữ nội dung của bạn.

Thông thường, bạn có thể sử dụng đoạn mã sau để thêm thẻ Noarchive vào trang web của mình:

HTML

<Meta name=“Robots” Content= “Noarchive”>

Vui lòng thận trọng khi sử dụng mã. Tìm hiểu thêm

Tuy nhiên, nếu bạn đặc biệt nhắm mục tiêu đến trình thu thập dữ liệu của Google, hãy sử dụng phương thức này:

HTML

<Meta Name= “GoogleBot” Content= “Noarchive”>