Cập nhật lần cuối: 14/11/2024.
Bạn đang tìm hiểu về SEO và đã từng nghe qua thuật ngữ “duplicate content”.
Vậy duplicate content là gì? Tại sao nó lại là một lỗi tối kỵ trong SEO?
Hãy cùng tôi tìm hiểu ngay trong bài viết này nhé!
Duplicate content là gì?
Duplicate content (nội dung trùng lặp) là nội dung sao chép tương tự hoặc chính xác nội dung trên hai hoặc nhiều trang web.
Nội dung trùng lặp có thể xảy ra trên chính trang web của bạn hoặc trên trang web khác mà bạn không thể kiểm soát được.
Việc có số lượng lớn nội dung trùng lặp trên một trang web có thể tác động tiêu cực đến thứ hạng của một website.
Google có phạt duplicate content không?
Nói chung, Google không muốn xếp hạng các trang có nội dung trùng lặp.
Trên thực tế, Google tuyên bố rằng:
“Google cố gắng hết sức để lập chỉ mục và hiển thị các trang có thông tin riêng biệt”.
Điều này có nghĩa là Google sẽ ưu tiên xếp hạng các trang web có nội dung độc đáo, hữu ích và cung cấp thông tin mới cho người dùng.
Vì vậy Google sẽ không xếp hạng các trang web có nội dung trùng lặp cao.
Bạn có thể xem video này để biết cách Google xử lý duplicate content:
Nguyên nhân gây nên Duplicate Content
Theo kinh nghiệm của tôi, có hai nguyên nhân chính dẫn đến trùng lặp nội dung đó chính là:
- Trùng lặp về các yếu tố SEO Onpage
- Trùng lặp URL
Chúng ta hãy cùng nhau phân tích về 2 nguyên nhân này ngay sau đây.
Trường hợp 1: Trùng lặp về các yếu tố Onpage
Nếu bạn là người mới, tôi khuyên bạn nên tham khảo thêm bài viết: SEO onpage là gì
Bây giờ chúng ta bắt đầu nhé!
Trùng lặp thẻ Heading
Trùng lặp thẻ tiêu đề Heading là một trường hợp phổ biến đối với các anh em mới bắt đầu làm SEO hoặc thậm chí là có cả những anh em SEOer lâu năm.
Để tránh nội dung trùng lặp, hãy đảm bảo rằng mỗi trang trên website của bạn có tiêu đề duy nhất trong mã HTML của trang.
Đồng thời, các tiêu đề H1, H2, H3,… cũng nên có sự khác nhau so với các trang khác trên website của bạn.
Trùng lặp thẻ Meta Description
Trùng lặp thẻ Meta Description có thể khiến Google khó hiểu nội dung của các trang khác nhau, dẫn đến việc website của bạn bị xếp hạng thấp hơn trong kết quả tìm kiếm.
Nếu bạn sao chép một cách máy móc các thẻ mô tả trên nhiều bài viết với nhau sẽ khiến cho công cụ tìm kiếm của Google (Googlebot) khó hiểu được nội dung của từng trang khác nhau trên website của bạn.
Nếu bạn không có đủ thời gian viết mô tả cho bài viết, thì hãy để trống mục này. Google sẽ tự động lấy các đoạn trích từ nội dung của bạn và trình bày nó dưới dạng mô tả.
Trùng lặp về nội dung trong bài viết
Trùng lặp về nội dung trong bài viết là một trường hợp rất phổ biến hiện nay.
Các anh em SEOer thường đi sao chép , spin (xáo trộn) lại nội dung từ các trang web khác gây nên trình trạng duplicate content.
Tôi sẽ giải thích sơ lược qua về nguyên tắc đánh giá một nội dung của Google để bạn có thể dễ hình dung hơn:
Khi Google tìm kiếm một nội dung để cung cấp cho người dùng, nó sẽ xem xét nhiều yếu tố để xác định trang web nào nên được xếp hạng cao nhất.
Một trong những yếu tố đó là tính hữu ích của nội dung.
Nếu Google thấy nhiều trang web có nội dung giống hệt nhau, nó sẽ không thể xác định trang web nào là tốt nhất để xếp hạng.
Điều này có thể dẫn đến việc trang web của bạn bị xếp hạng thấp hơn trong kết quả tìm kiếm.
Trường hợp 2: Trùng lặp URL
Nếu bạn là người mới chưa biết về khái niệm URL bạn có thể xem thêm bài viết: URL là gì?
Trùng lặp do tính năng Filter
Tính năng Filter là một tính năng phổ biến trên các website thương mại điện tử, cho phép người dùng lọc và sắp xếp các mục theo các tiêu chí khác nhau.
Tuy nhiên, tính năng này cũng có thể gây ra nội dung trùng lặp, ảnh hưởng đến thứ hạng website trong kết quả tìm kiếm.
Nguyên nhân là do tính năng Filter thường gắn các tham số vào cuối URL, ví dụ như “?filter=color=red&size=large”.
Điều này dẫn đến việc tạo ra nhiều URL khác nhau cho cùng một nội dung.
Để khắc phục vấn đề này, bạn có thể sử dụng thẻ canonical để chỉ định URL chính cho nội dung trùng lặp.
Thẻ canonical sẽ giúp Google hiểu rằng các URL này đều dẫn đến cùng một trang web.
Các bạn có thể kéo xuống cuối nội dung để tham khảo cách khắc phục nội dung trùng lặp nhé.
Trùng lặp do URL có dấu “/” và URL không có dấu “/”
Đây cũng là một trường hợp trùng lập khá phổ biến mà nhiều anh em SEOer chưa có kinh nghiệm gặp phải.
Google xem các URL có dấu gạch chéo và không có dấu gạch chéo ở cuối là hoàn toàn độc lập với nhau.
Để tôi cho bạn một ví dụ cụ thể hơn:
Ví dụ như hai URL: https://seosona.com/dao-tao-seo/ và https://seosona.com/dao-tao-seo được Google xem là hai URL khác nhau.
Để kiểm tra xem liệu chúng có phải là hai URL riêng biệt hay không, bạn có thể thử tải lại trang có dấu “/” và không có dấu “/” ở cuối:
- Nếu URL không có dấu “/” chuyển hướng đến URL chứa dấu “/”, thì Google không xem đó là trường hợp trùng lặp.
- Nếu cả hai URL đều truy cập được và hiển thị nội dung giống nhau, thì khả năng cao đây là nội dung trùng lặp.
Trùng lặp giữa URL thân thiện với thiết bị di động với URL trên máy tính
Các URL thân thiện với thiết bị di động (mobile-friendly URL) thường trùng lặp với các URL trên máy tính.
Điều này có thể gây ra nội dung trùng lặp, ảnh hưởng đến thứ hạng website trong kết quả tìm kiếm.
Để giải quyết vấn đề này, bạn có thể sử dụng thẻ rel=”alternate” để chỉ định URL chính cho nội dung trùng lặp.
Thẻ này sẽ giúp Google hiểu rằng các URL này đều dẫn đến cùng một trang web, nhưng có thể được truy cập theo hai cách khác nhau.
Trùng lặp giữa các biến thể URL
Một trường hợp trùng lặp phổ biến khác đó chính là trùng lặp giữa các biến thể URL mà tôi đã từng gặp phải.
Có bốn biến thể URL phổ biến nhất:
- https://example.com (https, không có www)
- https://www.example.com (https, www)
- http://example.com (http, không có www)
- http://www.example.com (http, www)
Nếu bạn không có ý định cấu hình chính xác máy chủ của mình, thì website của bạn có thể có nhiều biến thể URL trùng lặp.
Điều này có thể gây ra nội dung trùng lặp, ảnh hưởng đến thứ hạng website của bạn trong kết quả tìm kiếm.
>> Tìm hiểu về
- SEO là gì trong Marketing? SEO là làm gì?
- Hướng dẫn cách làm SEO website lên top Google bền vững với 9 bước
Cách để kiểm tra duplicate content
Sau đây là 2 cách tôi thường sử dụng để check duplicate content cho các dự án của Seosona trong quá trình SEO Audit:
Cách 1: Sử dụng Google Search để kiểm tra
Bạn có thể thực hiện kiểm tra duplicate content trên Google Search bằng cách copy khoảng 10 từ đầu tiên trong một đoạn văn nhỏ rồi dán vào ô tìm kiếm của Google.
Khi Google trả kết quả về nhiều website có nội dung tương tự thì trang tác giả sẽ nằm ở vị trí đầu tiên.
Giả sử, tôi cần check trùng lặp nội dung cho đoạn văn bản này trên Google: “Chương trình đào tạo SEO thực chiến 100%”
Như bạn đã thấy trên ảnh, nội dung mà tôi tìm kiếm: “Chương trình đào tạo SEO thực chiến 100%” đã được Google trả về kết quả seosona đầu tiên và nó được tô đậm phần tôi tìm kiếm.
Đó chính là nội dung trùng lặp mà tôi đã check được từ Google Search.
Bạn cần lưu ý rằng cách làm này chỉ hiệu quả với những nội dung nhỏ, còn với những nội dung lớn thì bạn phải cần đến các công cụ hỗ trợ để kiểm tra duplicate content.
Cách 2: Sử dụng tool kiểm tra nội duplicate content
Dù bạn tự tin rằng nội dung trang web của bạn không bị sao chép ý tưởng, bạn cũng nên thực hiện việc kiểm tra duplicate content để đảm bảo không có bất kỳ nội dung nào bị trùng lặp hoặc sao chép.
Trong quá trình làm SEO, tôi thường xuyên sử dụng 3 công cụ check nội dung trùng lặp online bên dưới. Bạn có thể tham khảo và lựa chọn cho mình công cụ phù hợp nhất nhé:
- Copyscape: Công cụ này cho phép bạn kiểm tra nhanh chóng tính unique của nội dung bằng cách so sánh nó với các nội dung đã được đăng trên internet. Copyscape sẽ làm nổi bật những phần nội dung có trùng lặp và cho biết rõ mức độ trùng lặp nội dung là bao nhiêu phần trăm.
- Duplichecker: Công cụ này cũng giúp bạn kiểm tra tính duy nhất của nội dung bạn dự định đăng trên trang web của mình. Người dùng đăng ký có thể thực hiện tối đa 50 lượt tìm kiếm mỗi ngày.
- Siteliner: Siteliner cho phép bạn kiểm tra toàn bộ trang web của mình một lần mỗi tháng để phát hiện lỗi nội dung trùng lặp. Ngoài ra, nó cũng có khả năng kiểm tra liên kết hỏng và xác định các trang quan trọng nhất đối với công cụ tìm kiếm.
Cách khắc phục tình trạng duplicate content
Bạn có thể tham khảo những cách sau để cải thiện tình trạng duplicate content cho website của mình:
Tạo nội dung hữu ích
Cách tốt nhất để tránh trùng lặp nội dung là tạo nội dung hữu ích, mang lại giá trị cho người dùng và đảm bảo rằng đó phải khác biệt so với các website đối thủ cạnh tranh.
Bạn hãy nghĩ xem nếu người dùng tìm kiếm một kiến thức mới nào đó mà kết quả trả về là những website có nội dung tương tự nhau thì Google có muốn xếp hạng thêm những website như vậy không?
Tôi đã có một bài viết hướng dẫn rất chi tiết về chủ đề này, bạn có thể tham khảo tại: SEO content là gì? Bí kíp 8 bước xây dựng content SEO tối ưu
Sử dụng một tiêu chuẩn chung cho tất cả các URL trên website
Trước tiên, hãy đảm bảo rằng mỗi trang trên website của bạn có thể truy cập được ở cả phiên bản www và không có www.
Bạn cũng cần áp dụng cùng nguyên tắc cho dấu gạch chéo ở cuối URL và đảm bảo rằng mỗi trang chỉ có thể truy cập được qua giao thức HTTPS.
Tất cả các phiên bản khác nên được chuyển hướng đến URL chuẩn mà bạn đã quyết định.
Để sử dụng một tiêu chuẩn chung cho tất cả các URL trên website của bạn, bạn có thể làm theo các bước sau:
- Chọn ra một phiên bản URL tiêu chuẩn chung cho trang web của bạn, chẳng hạn như www hoặc không có www.
- Kiểm tra xem tất cả các trang trên trang web của bạn có thể truy cập được ở phiên bản URL tiêu chuẩn hay không.
- Chuyển hướng 301 tất cả các phiên bản URL khác đến phiên bản URL tiêu chuẩn.
Bạn có thể sử dụng công cụ SEO miễn phí Google Search Console để giúp bạn tìm và sửa các URL không đồng nhất trên trang web của bạn.
Sử dụng thẻ Rel=”canonical”
Thẻ canonical là một đoạn mã HTML được sử dụng để cho biết với công cụ tìm kiếm phiên bản chính của một trang web.
Điều này rất quan trọng khi bạn có nhiều phiên bản của cùng một trang, chẳng hạn như một trang sản phẩm với các biến thể màu sắc khác nhau.
Khi bạn sử dụng thẻ canonical, bạn đang nói với công cụ tìm kiếm rằng phiên bản cụ thể đó là phiên bản chính mà bạn muốn được lập chỉ mục và xếp hạng trong kết quả tìm kiếm.
Điều này có thể giúp bạn cải thiện thứ hạng tìm kiếm và tránh bị phạt vì nội dung trùng lặp.
Bạn có thể xem hướng dẫn chi tiết về chủ đề này tại bài viết: Canonical là gì
Dùng Redirect 301 để khắc phục trùng lặp nội dung
Redirect 301 là một mã trạng thái HTTP cho biết rằng một URL đã được chuyển vĩnh viễn sang một URL mới.
Khi người dùng hoặc Googlebot truy cập một URL bị trùng lặp, họ sẽ được tự động chuyển hướng đến URL mới.
Điều này giúp Google hiểu rằng URL mới là trang gốc và sẽ phân bổ quyền liên kết và thứ hạng của URL cũ cho URL mới.
Tôi thường sử dụng Plugin Rank Matk trên WordPress để có thể dễ dàng chuyển hướng 301 cho một URL:
Việc sử dụng chuyển hướng 301 là một cách hiệu quả để khắc phục trùng lặp nội dung và cải thiện thứ hạng website.
Bạn có thể xem thêm hướng dẫn của tôi về: Redirect 301 là gì? Cách hoạt động và chuyển hướng 301 hiệu quả
Lời kết về duplicate content
Tôi hy vọng ra qua bài viết này bạn đã nắm rõ về duplicate content là gì, những cách kiểm tra và khắc phục tình trạng này hiệu quả.
Nếu gặp khó khăn trong việc khắc phục duplicate content cho website bạn có thể sử dụng dịch vụ SEO tổng thể website uy tín hiệu quả của Seosona để chúng tôi hỗ trợ bạn cải thiện thứ hạng nhanh chóng.
Cảm ơn bạn đã theo dõi bài viết, chúc bạn thành công!