Le taux de similarité est un indicateur de ressemblance entre deux ou plusieurs contenus Internet. Il est utilisé par les moteurs et notamment Google pour détecter des contenus dupliqués ou duplicate content et appliquer son filtre dédié.
Lorsque le taux de similarité dépasse un certain seuil, l’outil d’analyse estime que les contenus sont identiques.
Le taux de similarité est également utilisé sur Internet pour détecter les phénomènes de plagiat entre sites Internet ou pour les plagiats éventuels liés aux travaux d’étudiants.
Un exemple basique de calcul de taux de similarité :



