C'est au cours de la conférence "State of Search" qui s'est tenue à Dallas au Texas que le spécialiste de Google a partagé quelques chiffres. Ainsi, Google connaitrait pas moins de 120 trillions (des milliers de milliards) d'URL, toutefois, parmi ces derniers, 60% correspondraient à du "duplicate content", soit du contenu copié.
Sur un même site ou sur d'autres sites Internet, le contenu dupliqué représenterait ainsi plus de la moitié de ce que l'on trouve sur Internet. Google effectue ainsi une sélection et n'indexe pas l'intégralité du contenu.
Ces contenus dupliqués sont parfois automatiquement supprimés du référencement de Google, notamment en cas de Spam, mais aussi suite à des requêtes DMCA afin de supprimer du contenu volé couvert par des droits d'auteur.