duplicate content

Nội dung trùng lặp: Tại sao nó lại xảy ra và cách khắc phục nó

  • Tìm hiểu nội dung trùng lặp là gì và nó có thể ảnh hưởng đến SEO của bạn như thế nào? 

    Nội dung trùng lặp là một nguồn lo lắng thường xuyên đối với nhiều chủ sở hữu trang web.

    Đọc hầu hết mọi thứ về nó và bạn sẽ tin rằng trang web của bạn là một quả bom hẹn giờ tích cực về các vấn đề nội dung trùng lặp. Hình phạt của Google chỉ còn vài ngày nữa.

    Rất may, điều này không đúng – nhưng nội dung trùng lặp vẫn có thể gây ra các vấn đề về SEO. Và với 25-30%  web là nội dung trùng lặp, sẽ rất hữu ích nếu bạn biết cách tránh và khắc phục những vấn đề như vậy.

    Trong hướng dẫn này, bạn sẽ học:

    • Nội dung trùng lặp là gì?
    • Tại sao nội dung trùng lặp có hại cho SEO?
    • Google có bị phạt nội dung trùng lặp hay không?
    • Nguyên nhân phổ biến của nội dung trùng lặp
    • Cách kiểm tra (và sửa) nội dung trùng lặp

    I. Nội dung trùng lặp là gì?

    Nội dung trùng lặp là nội dung chính xác hoặc gần như trùng lặp xuất hiện trên web ở nhiều nơi. Nó có thể xảy ra trên một trang web hoặc tên miền chéo.

    Ví dụ: nếu tôi tái xuất bản bài đăng này tại, thì đó sẽ là nội dung trùng lặp. Điều đó cũng đúng nếu tôi đăng lại nó trên một trang web khác. Google tuyên bố rằng hầu hết nội dung trùng lặp không có nguồn gốc lừa đảo.

    duplicate content

    II. Tại sao nội dung trùng lặp có hại cho SEO?

    Nội dung trùng lặp có thể gây hại cho hiệu suất SEO của bạn vì một số lý do.

    • URL không mong muốn hoặc không thân thiện trong kết quả tìm kiếm;
    • Làm loãng backlink
    • Đốt ngân sách thu thập thông tin
    • Nội dung cóp nhặt hoặc tổng hợp có thứ hạng cao hơn bạn

    Hãy cùng khám phá những điều này sâu hơn.

    1. URL không mong muốn hoặc không thân thiện trong kết quả tìm kiếm

    Hãy tưởng tượng rằng cùng một trang có sẵn ở ba URL khác nhau:

    • domain.com/page/
    • domain.com/page/?utm_content=buffer&utm_medium=social
    • domain.com/category/page/

    Đầu tiên sẽ hiển thị trong kết quả tìm kiếm, nhưng Google có thể hiểu sai điều này. Nếu điều đó xảy ra, một URL không mong muốn có thể thay thế. Bởi vì mọi người có thể ít có xu hướng nhấp vào một URL không thân thiện, bạn có thể nhận được ít lưu lượng truy cập tự nhiên. 

    2. Làm loãng backlink

    Nếu cùng một nội dung có sẵn tại nhiều URL, thì mỗi URL đó có thể thu hút các backlink. Điều đó dẫn đến sự phân chia “giá trị liên kết” giữa các URL. Để hiển thị một ví dụ về điều này trong tự nhiên, hãy xem hai trang này trên buffer.com:

    • https://buffer.com/library/social-media-manager-checklist
    • https://buffer.com/resources/social-media-manager-checklist

    Các trang này gần như trùng lặp chính xác. Và họ có 106 và 144 tên miền giới thiệu (liên kết từ các trang web duy nhất), tương ứng.

    Chèn ảnh 

    duplicate content

    Trước khi bạn cảm thấy hoang mang thì bạn cần biết rằng đây không phải lúc nào cũng là vấn đề do cách Google xử lý nội dung trùng lặp.

    Nói một cách dễ hiểu, khi phát hiện nội dung trùng lặp, họ sẽ nhóm các URL thành một cụm. Sau đó, họ “chọn những gì [họ] nghĩ là URL ‘tốt nhất' để đại diện cho cụm trong kết quả tìm kiếm” và “hợp nhất các thuộc tính của các URL trong cụm, chẳng hạn như mức độ phổ biến của liên kết, với URL đại diện.”

    Vì vậy, trong trường hợp trên, Google chỉ nên  hiển thị một trong các URL trong tìm kiếm không phải trả tiền và gán tất cả các tên miền giới thiệu trong cụm (106 + 144) cho URL đó.

    Nhưng đó không phải là điều xảy ra, vì chúng ta thấy cả hai URL đều xếp hạng trên Google cho các từ khóa tương tự.

    Chèn ảnh 

    Trong trường hợp này, Google có khả năng không hợp nhất “liên kết công bằng” tại một URL.

    “Quyết không thể chắc chắn cách Google nhìn thấy hai URL này, vì Quyết không có quyền truy cập vào tài khoản Google Search Console của Buffer. Có thể họ thấy cả hai URL này là trùng lặp và một trong số chúng sẽ sớm biến mất khỏi tìm kiếm tự nhiên”

    3. Đốt ngân sách thu thập thông tin

    Google tìm thấy nội dung mới trên trang web của bạn thông qua thu thập thông tin, có nghĩa là chúng đi theo các liên kết từ các trang hiện có đến các trang mới. Họ cũng thu thập lại dữ liệu các trang mà họ biết theo thời gian để xem có điều gì thay đổi không.

    Có nội dung trùng lặp chỉ để tạo thêm công việc cho họ. Điều đó có thể ảnh hưởng đến tốc độ và tần suất mà họ thu thập dữ liệu các trang mới hoặc cập nhật của bạn.

    Điều đó thật tệ vì nó có thể dẫn đến sự chậm trễ trong việc lập chỉ mục các trang mới và lập chỉ mục lại các trang đã cập nhật.

    Chú thích: Vì “giới hạn tốc độ thu thập dữ liệu” của Google cao hơn đối với các trang web đáp ứng nhanh hơn, đây là vấn đề nhiều hơn đối với các trang web chậm có băng thông nhỏ hơn cho phép. Hệ thống của họ cũng sẽ thu thập dữ liệu các URL trùng lặp ít thường xuyên hơn .

    4. Nội dung cóp nhặt nâng thứ hạng của bạn

    Đôi khi, bạn có thể cho phép một trang web khác xuất bản lại nội dung của bạn. Đó được gọi là phân phối. Những lần khác, các trang web có thể cắt nội dung của bạn và xuất bản lại mà không được phép.

    Cả hai trường hợp này đều dẫn đến nội dung trùng lặp trên nhiều miền, nhưng chúng thường không gây ra sự cố. Chỉ khi nội dung cóp nhặt hoặc xuất bản lại bắt đầu có thứ hạng cao hơn nội dung gốc trên trang web của bạn thì vấn đề mới phát sinh.

    Tin tốt là đây là một điều hiếm khi xảy ra, nhưng nó có thể xảy ra.

    III. Google có phạt nội dung trùng lặp không?

    Google đã nhiều lần tuyên bố rằng họ không phạt nội dung trùng lặp.

    “Chúng tôi không có hình phạt nội dung trùng lặp. Không phải là chúng tôi sẽ hạ cấp một trang web vì có nhiều nội dung trùng lặp.”

    John Mueller – Webmaster Trends Analyst Google

    “Tôi sẽ đề cập đến điều này một lần và mãi mãi, các bạn: Không có cái gọi là hình phạt nội dung trùng lặp cả.”

    Susan Moskwa – Former Webmaster Trends Analyst Google

    “DYK Google không có hình phạt về nội dung trùng lặp.”

    Gary Illyes – Webmaster Trends Analyst Google 

    Tuy nhiên điều này không hoàn toàn đúng. Nếu nội dung trùng lặp của bạn là vô tình và không phải là kết quả của việc cố ý thao túng kết quả tìm kiếm hoặc các hành vi spam, thì bạn sẽ không bị phạt. Nếu đúng như vậy, thì bạn có thể.

    duplicate content

    Google xác nhận rằng tại đây :

    “Trong một số trường hợp hiếm hoi mà Google nhận thấy rằng nội dung trùng lặp có thể được hiển thị với mục đích thao túng thứ hạng của chúng tôi và đánh lừa người dùng của chúng tôi, chúng tôi cũng sẽ thực hiện các điều chỉnh thích hợp trong việc index và xếp hạng của các trang web liên quan. Do đó, xếp hạng của trang web có thể bị ảnh hưởng, hoặc trang web có thể bị xóa hoàn toàn khỏi chỉ mục của Google, trong trường hợp đó, nó sẽ không còn xuất hiện trong kết quả tìm kiếm nữa.” 

    Câu hỏi đặt ra là, điều gì được coi là “ý định thao túng thứ hạng của chúng tôi và lừa dối người dùng của chúng tôi”?

    Google có rất nhiều thông tin về điều đó ở đây . Nhưng về cơ bản, đó là những thứ như:

    • Cố ý tạo nhiều trang, tên miền phụ hoặc tên miền có nhiều nội dung trùng lặp.
    • Xuất bản nhiều nội dung cóp nhặt
    • Xuất bản nội dung liên kết cóp nhặt từ Amazon hoặc các trang web khác (và không thêm giá trị bổ sung)

    Tuy nhiên, như đã thảo luận ở trên, nội dung trùng lặp vẫn có thể gây hại cho SEO – ngay cả khi không bị phạt.

    IV. Nguyên nhân phổ biến của nội dung trùng lặp

    Không có nguyên nhân duy nhất của nội dung trùng lặp. Có rất nhiều nguyên nhân mà bạn cần quan tâm đến như:

    1. Điều hướng nhiều mặt/được lọc

    Điều hướng nhiều mặt là nơi người dùng có thể lọc và sắp xếp các mục trên trang. Các trang web thương mại điện tử sử dụng nó rất nhiều.

    Loại điều hướng này gắn các tham số vào cuối URL.

    Chèn ảnh 

    Bởi vì thường có nhiều sự kết hợp của các bộ lọc này, điều hướng theo từng khía cạnh thường dẫn đến nhiều nội dung trùng lặp hoặc gần trùng lặp.

    Hãy xem hai trang này, ví dụ:

    • bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked
    • bbclothing.co.uk/en-gb/clothing/shirts.html?Size=S&new_style=Checked

    Các URL này khác nhau nhưng nội dung gần như giống hệt nhau.

    Thêm vào đó, thứ tự của các tham số thường không quan trọng. Ví dụ: cùng một trang có thể truy cập được tại cả hai URL này:

    • bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked&Size=XL
    • bbclothing.co.uk/en-gb/clothing/shirts.html?Size=XL&new_style=Checked

    Cách giải quyết: 

    Điều hướng nhiều khía cạnh là một vấn đề phức tạp. Nếu bạn nghi ngờ đây là nguyên nhân dẫn đến các vấn đề về trùng lặp nội dung của mình, chỉ cần đọc phần này:

    https://builtvisible.com/faceted-navigation-seo-best-practices/ 

    2. Các thông số theo dõi

    Các URL được tham số hóa cũng được sử dụng cho mục đích theo dõi. Ví dụ: bạn có thể sử dụng thông số UTM để theo dõi lượt truy cập từ chiến dịch bản tin trong Google Analytics:

    Ví dụ: example.com/page?utm_source=newsletter

    Cách giải quyết: 

    Chuẩn hóa các URL được tham số hóa của bạn thành các phiên bản thân thiện với SEO mà không có thông số theo dõi.

    3. ID phiên

    ID phiên lưu trữ thông tin về khách truy cập của bạn. Họ thường nối một chuỗi dài vào URL như sau:

    Ví dụ: example.com?sessionId=jow8082345hnfn9234

    Cách giải quyết: 

    Chuẩn hóa các URL thành các phiên bản thân thiện với SEO.

    4. HTTPS với HTTP và non-www với www

    duplicate content

    Hầu hết các trang web đều có thể truy cập được ở một trong bốn biến thể sau:

    • https://www. example.com (HTTPS, www)
    • https://example.com (HTTPS, không phải www)
    • http://www. example.com (HTTP, www)
    • http://example.com (HTTP, không phải www)

    Nếu bạn đang sử dụng HTTPS, nó sẽ là một trong hai cái đầu tiên. Cho dù đó là phiên bản có www hay không có www là do bạn lựa chọn.

    Tuy nhiên, nếu bạn không định cấu hình chính xác máy chủ của mình, trang web của bạn sẽ có thể truy cập được ở hai hoặc nhiều biến thể này. Điều đó không tốt và có thể dẫn đến các vấn đề về nội dung trùng lặp.

    Cách giải quyết

    Sử dụng chuyển hướng để đảm bảo rằng trang web của bạn chỉ có thể truy cập được tại một vị trí.

    5. URL phân biệt chữ hoa chữ thường

    Google coi các URL là phân biệt chữ hoa chữ thường.

     

    https://twitter.com/JohnMu/status/877952088030007297?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E877952088030007297%7Ctwgr%5E297fd97ae42c89eea15f68efc638d83c1fc9bce8%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fahrefs.com%2Fblog%2Fduplicate-content%2F 

    Chú thích: Điều này dường như không đúng với Bing, nó coi tất cả các URL là chữ thường. 

    Điều đó có nghĩa là ba URL này đều khác nhau:

    • example.com/page
    • example.com/PAGE
    • example.com/pAgE

    Cách giải quyết:

    Nhất quán với các internal link (tức là không liên kết nội bộ đến nhiều phiên bản URL). Nếu điều đó không giải quyết được mọi việc, bạn luôn có thể chuẩn hóa hoặc chuyển hướng.

    6. Dấu gạch chéo theo sau so với dấu gạch chéo không theo dấu

    Google coi các URL có và không có dấu gạch chéo ở cuối là khác nhau. Điều đó có nghĩa là hai URL này là khác nhau trong mắt Google:

    • example.com/page/
    • example.com/page

    Nếu nội dung của bạn có thể truy cập được ở cả hai URL, thì điều đó có thể dẫn đến vấn đề nội dung trùng lặp.

    Để kiểm tra xem đây có phải là sự cố hay không, hãy thử tải một trang có và không có dấu gạch chéo ở cuối. Tốt nhất, chỉ một phiên bản sẽ tải. Người kia sẽ chuyển hướng.

    Ví dụ: nếu bạn cố gắng tải bài đăng này mà không có dấu gạch chéo, nó sẽ chuyển hướng đến URL có dấu gạch chéo.

    Google tuyên bố rằng hành vi này là lý tưởng.

    “Nếu chỉ có một phiên bản có thể được trả lại (tức là, phiên bản khác chuyển hướng đến nó), điều đó thật tuyệt! Hành vi này có lợi vì nó làm giảm nội dung trùng lặp.” 

    Cách giải quyết 

    Chuyển hướng phiên bản không mong muốn (ví dụ: không có dấu gạch chéo) sang phiên bản mong muốn (ví dụ: có dấu gạch chéo). Bạn cũng nên đảm bảo luôn nhất quán với internal link. Đôi khi, không liên kết đến các phiên bản có dấu gạch chéo ở cuối và không liên kết với các phiên bản khác. Chọn một cái và gắn bó với nó.

    7. URL thân thiện với bản in

    Phiên bản thân thiện với bản in có nội dung giống như bản gốc. Nó chỉ khác nhau về URL.

    • example.com/page
    • example.com/print/page

    Cách giải quyết: 

    Chuẩn hóa phiên bản thân thiện với bản in thành bản gốc.

    8. URL thân thiện với thiết bị di động

    Các URL thân thiện với thiết bị di động, như URL thân thiện với bản in, là các URL trùng lặp.

    • example.com/page
    • m. example.com/page

    Cách giải quyết: 

    Chuẩn hóa phiên bản thân thiện với thiết bị di động thành phiên bản gốc. Sử dụng rel=“alternate” để cho Google biết rằng URL thân thiện với thiết bị di động là phiên bản thay thế của nội dung trên máy tính để bàn.

    9. URL AMP

    Các trang trên thiết bị di động được tăng tốc (AMP) là bản sao.

    • example.com/page
    • example.com/ amp / trang

    Cách giải quyết: 

    Chuẩn hóa phiên bản AMP thành phiên bản không phải AMP. Sử dụng rel=”amphtml” để cho Google biết rằng URL AMP là phiên bản thay thế của nội dung không phải AMP.

    Nếu bạn chỉ có nội dung AMP, hãy sử dụng thẻ chuẩn tự tham chiếu.

    10. Gắn thẻ và các trang danh mục

    Hầu hết CMS tạo ra các trang thẻ chuyên dụng khi bạn sử dụng thẻ.

    Ví dụ: nếu bạn có một bài báo về whey protein hữu cơ và bạn sử dụng cả “bột protein” và “whey” làm thẻ, thì bạn sẽ kết thúc với hai trang thẻ như sau:

    • https://www.calton
    • Nutrition.com/tag/whey/ https://www.calton Nutrition.com/tag/protein-powder/

    Điều đó không phải lúc nào cũng gây ra nội dung trùng lặp, nhưng nó có thể.

    Đó là trường hợp ở đây vì chỉ có một trang trên trang web có hai thẻ đó — vì vậy mỗi trang thẻ đều giống hệt nhau.

    Chèn ảnh 

    Cách giải quyết:

    Bạn sẽ có hai lựa chọn:

    • Không sử dụng thẻ: Hầu hết thời gian, chúng có rất ít hoặc không có giá trị.
    • Noindex các trang thẻ của bạn: Điều này không giải quyết được vấn đề về ngân sách thu thập thông tin, vì Google sẽ vẫn lãng phí thời gian thu thập dữ liệu các trang này.

    Lưu ý rằng các trang danh mục có thể gây ra các vấn đề tương tự với các trang thẻ. Trường hợp tại điểm:

    • https://www.xs-stock.co.uk/adidas/
    • https://www.xs-stock.co.uk/brands/Chelsea-FC.html

    Cả hai trang này gần như giống hệt nhau vì không có sản phẩm nào được liệt kê trong cả hai danh mục. Vì vậy, tất cả những gì chúng ta còn lại là bản sao mẫu soạn sẵn.

    Giải quyết vấn đề này bằng cách sử dụng một số lượng hợp lý các danh mục trên trang web của bạn hoặc thậm chí không lập chỉ  mục các trang danh mục của bạn.

    11. URL hình ảnh đính kèm

    Nhiều CMS tạo ra các trang dành riêng cho các tệp đính kèm hình ảnh. Các trang này thường không hiển thị gì ngoài hình ảnh và một số bản sao chép sẵn. Bởi vì bản sao này giống nhau trên tất cả các trang được tạo tự động, nó dẫn đến nội dung trùng lặp.

    Cách giải quyết: 

    Tắt các trang dành riêng cho hình ảnh trong CMS của bạn. Trong WordPress, bạn có thể làm điều này bằng cách sử dụng một plugin  như Yoast.

    12. Nhận xét được phân trang

    WordPress và các CMS khác cho phép nhận xét được phân trang. Điều này gây ra nội dung trùng lặp vì nó tạo ra nhiều phiên bản của các URL giống nhau một cách hiệu quả.

    • example.com/post/
    • example.com/post/comment-page-2
    • example.com/post/comment-page-3

    Cách giải quyết: 

    Tắt phân trang nhận xét hoặc ngăn lập chỉ mục các trang được phân trang của bạn bằng cách sử dụng một plugin như Yoast.

    13. Bản địa hóa

    Nếu bạn đang cung cấp nội dung tương tự cho những người ở các ngôn ngữ khác nhau nói cùng một ngôn ngữ, thì điều đó có thể gây ra nội dung trùng lặp.

    Ví dụ: bạn có thể có các phiên bản khác nhau của trang web cho những người ở Hoa Kỳ, Vương quốc Anh và Úc. Bởi vì có thể chỉ có những khác biệt nhỏ giữa nội dung được phân phát cho từng ngôn ngữ (ví dụ: giá bằng đô la so với bảng Anh), các phiên bản sẽ gần như trùng lặp.

    Chú thích: Theo John Mueller, nội dung được dịch không phải là nội dung trùng lặp .

    Cách giải quyết: 

    Sử dụng thẻ hreflang để cho các công cụ tìm kiếm biết về mối quan hệ giữa các biến thể.

    14. Trang kết quả tìm kiếm

    Rất nhiều trang web có hộp tìm kiếm. Việc sử dụng những thứ này thường đưa bạn đến một URL tìm kiếm được tham số hóa.

    Ví dụ: example.com?q=search-term

    Google’s former Head of Webspam, Matt Cutts, đã tuyên bố rằng:

    “Thông thường, kết quả tìm kiếm trên web không thêm giá trị cho người dùng và vì mục tiêu cốt lõi của chúng tôi là cung cấp kết quả tìm kiếm tốt nhất có thể, nên chúng tôi thường loại trừ kết quả tìm kiếm khỏi chỉ mục tìm kiếm trên web của mình. (Tất nhiên, không phải tất cả các URL chứa những thứ như “/ results” hoặc “/ search” đều là kết quả tìm kiếm.)” 

    Cách giải quyết: 

    Sử dụng robots meta tag để xóa các trang tìm kiếm khỏi chỉ mục của Google hoặc chặn quyền truy cập vào các trang kết quả tìm kiếm trong robots.txt. Hạn chế internal link đến các trang kết quả tìm kiếm.

    15. Môi trường thử nghiệm 

    Môi trường thử nghiệm là một phiên bản trùng lặp hoặc gần trùng lặp của trang web của bạn được sử dụng cho mục đích kiểm tra..

    Ví dụ: hãy tưởng tượng rằng bạn muốn cài đặt một plugin mới hoặc thay đổi một số mã trên trang web của mình. Bạn có thể không muốn đẩy nó thẳng đến một trang web trực tiếp với hàng trăm nghìn người truy cập hàng ngày. Nguy cơ xảy ra thảm họa quá cao. Giải pháp là trước tiên hãy kiểm tra những thay đổi trong môi trường dàn dựng.

    Môi trường thử nghiệm trở thành một vấn đề SEO khi Google lập chỉ mục chúng vì nó dẫn đến nội dung trùng lặp.

    Cách giải quyết: 

    Bảo vệ môi trường thử nghiệm của bạn bằng cách sử dụng xác thực HTTP, danh sách IP cho phép hoặc quyền truy cập VPN. Nếu nó đã được lập chỉ mục, hãy sử dụng lệnh ngăn robots noindex để xóa nó.

    V. Cách kiểm tra nội dung trùng lặp trên trang web của bạn

    • Đi tới Ahrefs’ Site Audit và bắt đầu thu thập thông tin.
    • Sau khi hoàn tất, hãy chuyển đến Content quality.
    • Tìm các cụm trùng lặp và gần trùng lặp mà không có trang chuẩn. Chúng được đánh dấu bằng màu cam.
    • Nhấp vào bất kỳ cụm nào trong số này để xem các trang bị ảnh hưởng.
    • Điều tra lý do của nội dung trùng lặp, sau đó thực hiện hành động thích hợp.

    Lưu ý rằng đây không phải lúc nào cũng là những vấn đề cần khắc phục, đặc biệt là trong trường hợp gần như trùng lặp.

    Nếu bạn không sử dụng Ahrefs thì nên làm sao?

    Tìm các cảnh báo liên quan đến nội dung trùng lặp này trong Google Search Console:

    • Sao y không có trang chuẩn do người dùng chọn
    • Trùng lặp, Google đã chọn trang chuẩn khác với người dùng
    • URL trùng lặp, đã gửi không được chọn làm chuẩn

    Để xem cách Google xử lý một URL cụ thể, hãy sử dụng công cụ Kiểm tra URL.

    https://ahrefs.com/blog/wp-content/uploads/2019/11/url-inspection.png 

    Bạn cũng có thể kiểm tra các title tags, meta descriptions, và H1s trong báo cáo HTML tags report.

    Các bản sao xấu là những gì bạn đang tìm kiếm. Đây là những trang có thẻ meta trùng lặp nhưng các trang chuẩn khác nhau.

    Chọn những thứ này bằng cách nhấp vào nút chuyển đổi “Bad duplicates” bên dưới nội dung và thẻ HTML.

    https://ahrefs.com/blog/wp-content/uploads/2019/11/bad-duplicates-html-tags-site-audit.png 

    Nhấp vào bất kỳ thanh màu vàng nào để xem các trang bị ảnh hưởng.

    Các trang có tiêu đề trùng lặp, mô tả meta hoặc H1 thường rất giống nhau.

    Ví dụ: hai cái này có thẻ tiêu đề giống nhau, và nội dung gần như giống hệt nhau vì sản phẩm giống nhau. Sự khác biệt duy nhất là một trong những trang dành cho 3 gói nhật ký chiếu sáng tức thì, trong khi trang còn lại chỉ dành cho một.

    • https://www.xs-stock.co.uk/big-k-instant-light-the-wrapper-firelog-3-pack-camp-fire-fuel/
    • https://www.xs-stock.co. uk / big-k-Instant-light-the-wrapper-firelog-camp-fire-chiminea /

    Google tuyên bố rằng bạn nên giảm thiểu nội dung tương tự như thế này:

    “Nếu bạn có nhiều trang giống nhau, hãy xem xét mở rộng từng trang hoặc hợp nhất các trang thành một.”

    Tuy nhiên, một số lượng nhỏ các trang tương tự không có nhiều vấn đề.

    VI. Cách kiểm tra các vấn đề về nội dung trùng lặp trên web

    Nội dung cóp nhặt và cung cấp thông tin cũng có thể dẫn đến các vấn đề trùng lặp về nội dung. Nhưng nó thường chỉ là một vấn đề nếu bạn thấy các phiên bản cóp nhặt của nội dung có thứ hạng cao hơn bạn.

    Điều đó có xảy ra không? Có, nhưng nó thường là một vấn đề đối với các trang web mới hoặc yếu. Tại sao? Bởi vì các trang web tìm kiếm nội dung của bạn thường có thẩm quyền hơn. Điều đó đôi khi “đánh lừa” Google nghĩ rằng của họ là bản gốc.

    Nếu bạn có một trang web nhỏ, thì bạn thường có thể tìm thấy nội dung cóp nhặt bằng cách tìm kiếm trên Google một đoạn văn bản từ trang của bạn trong dấu ngoặc kép.

    https://ahrefs.com/blog/wp-content/uploads/2019/11/scraped-content-google.png 

    Đối với các trang web lớn hơn, bạn sẽ cần sử dụng một công cụ tự động như Copyscape . Thao tác này tìm kiếm trên web để tìm các lần xuất hiện khác của nội dung trên (các) trang của bạn.

    Cho dù bạn sử dụng phương pháp nào, hầu hết kết quả sẽ đến từ các trang web spam và chất lượng thấp.

    Nói chung, những điều này không có gì đáng lo ngại. Tuy nhiên, nếu bạn thấy rằng một trang web hợp pháp đã đánh cắp nội dung của bạn và lo ngại rằng nó có thể ăn cắp lưu lượng truy cập của bạn, hãy chuyển URL vào Ahrefs’ Site Explorer để xem ước tính lưu lượng truy cập tự nhiên.

    https://ahrefs.com/blog/wp-content/uploads/2019/11/ahrefs-traffic-estimate.png 

    Nếu nó nhận được nhiều lưu lượng truy cập hơn trang của bạn, thì có thể có vấn đề.

    Trong trường hợp này, bạn có ba lựa chọn:

    • Tiếp cận và yêu cầu họ xóa nội dung.
    • Liên hệ và yêu cầu họ thêm một liên kết chuẩn vào bản gốc trên trang web của bạn.
    • Gửi yêu cầu gỡ xuống theo DMCA qua Google.

    Nếu bạn cố tình cung cấp nội dung cho các trang web khác, thì bạn nên yêu cầu họ thêm một liên kết chuẩn vào trang gốc. Điều đó sẽ loại bỏ nguy cơ về các vấn đề nội dung trùng lặp.

    Tái xuất bản nội dung trong trang web của bạn có được không?

    Nếu bạn đang xuất bản lại nội dung từ những người khác trên trang web của mình, có hai cách để ngăn các vấn đề về nội dung trùng lặp:

    • Canonicalize trở lại bản gốc.
    • Noindex trang.

    Đừng căng thẳng về nội dung trùng lặp quá nhiều. Nó thường ít vấn đề hơn người ta tưởng.

    Nếu bạn có một số ít các trang trùng lặp hoặc gần trùng lặp, thì không có nhiều vấn đề. Điều này cũng đúng khi trích dẫn nội dung từ một trang web khác hoặc các trang khác trên trang web của bạn. Không sao cả với một lượng nhỏ nội dung trùng lặp hoặc trùng lặp. Google có sẵn các hệ thống để giải quyết những việc như vậy.

    Những gì bạn cần đề phòng là các rủi ro kỹ thuật SEO dẫn đến việc tạo ra hàng trăm hoặc hàng nghìn trang nội dung trùng lặp, chẳng hạn như việc triển khai không đúng điều hướng theo từng khía cạnh trên các trang web thương mại điện tử.

    Những thứ này có thể tàn phá ngân sách thu thập thông tin của bạn, trong số những thứ khác.

    https://ahrefs.com/blog/duplicate-content/ 

    https://moz.com/learn/seo/duplicate-content 

    0 0 đánh giá
    Đánh giá bài viết
    Theo dõi
    Thông báo của
    guest

    0 Góp ý
    Phản hồi nội tuyến
    Xem tất cả bình luận
    0
    Rất thích suy nghĩ của bạn, hãy bình luận.x