Le duplicate content ou contenu dupliqué désigne le phénomène par lequel un contenu identique se retrouve sur plusieurs pages Internet au sein d’un même site ou à travers plusieurs sites ou domaines.
Un contenu dupliqué peut correspondre à la quasi-totalité d’une page ou à simple passage ou paragraphe.
La notion de duplicate content est importante, car lorsque Google détecte du contenu dupliqué, il filtre ses résultats afin de ne pas proposer plusieurs pages au contenu jugé comme identique dans ses résultats de recherche.
En cas de contenu dupliqué et de filtrage par Google, seule la page considérée comme initialement à l’origine du contenu ou la plus "digne de confiance" va apparaître dans les résultats.
En général, seule la ou les pages comprenant du contenu dupliqué peuvent éventuellement disparaître des résultats. Un site comprenant du contenu dupliqué est rarement pénalisé dans son ensemble, sauf si Google estime que l’essentiel de son contenu est le fruit d’un pillage de contenus.
Au sein d’un même site ou domaine, la présence de contenus dupliqués est assez courante car dès que l’URL diffère (sauf pour certains types de modification) Google considère qu’il s’agit de pages différentes. Les modes de gestion non optimisés des contenus peuvent parfois amener à avoir plusieurs URl pour une même page. Dans ce cas, Google pointe généralement uniquement vers la page qu’il juge la plus pertinente.
La présence et la gestion de contenus dupliqués sur plusieurs sites sont également courantes et plus problématiques à gérer, car éventuellement, seule une page risque d’apparaître dans les pages de résultats. Le contenu dupliqué entre plusieurs sites peut être dû à un pillage de contenu mais également à des facteurs plus naturel (reprise d’extraits, citations, fiches annuaires, fiches produits, etc.) ou à une politique de multiplication de contenus.
Pour prendre en compte des textes reproduits simplement avec de très légères modifications, les outils et algorithme détectant le contenu dupliqué peuvent calculer un taux de similarité.
Pour éviter le filtrage éventuel dû au duplicate content, de nombreux acteurs utilisent le content spinning.


