Semalt: un super guide pour bloquer le spam des référents dans votre Google Analytics

Nik Chaykovskiy, l'expert de Semalt , assure que le spam de référence est l'un des problèmes auxquels les webmasters sont actuellement confrontés. La situation s'est aggravée au fil des ans, ce qui signifie que quelqu'un quelque part gagne beaucoup d'argent en créant du spam de référence.

Spam fantôme et référence

Le spam a désormais atteint les rapports Google Analytics. Les spammeurs recherchent les vulnérabilités du système afin qu'elles puissent apparaître dans les rapports de données du site Web. Ils le font avec l'espoir qu'ils suscitent suffisamment de curiosité au point que le webmaster visite leur site Web pour voir pourquoi ils figurent dans le rapport. Le problème est qu'ils n'augmentent pas le trafic. Ils n'y arrivent même pas car ce sont des robots. Ils utilisent le code de suivi JavaScrip utilisé par Google Analytics pour créer une notification de visite. Ils finissent par fausser les statistiques vitales comme les taux de rebond et d'autres éléments utilisés pour analyser l'engagement. Il est impératif de bloquer le spam de parrainage si l'on a besoin de données précises, surtout s'il en dépend pour prendre des décisions marketing.

Il devient difficile de bloquer le spam de référence, d'autant plus que les spammeurs travaillent très rapidement, augmentant ainsi le taux de spam et les sources. Cela signifie que les webmasters doivent améliorer les efforts qu'ils déploient pour éliminer et mettre sur liste noire ces sources. C'est particulièrement gênant pour les personnes qui ont de nouveaux sites qui ne reçoivent pas beaucoup de trafic légitime. Une augmentation des taux de spam sur ces sites présenterait plus d'asymétrie, ce qui pourrait même être plus que les hits quotidiens qu'il reçoit.

Est-ce facile?

Enregistrements de chargement d'une page en une seule visite. Les spammeurs fantômes utilisent le code de suivi Google Analytics et envoient les données de trafic directement aux rapports, forgeant ainsi une visite. Il peut prendre 0,001 secondes pour charger une seule page sur un serveur quelque part. Cependant, ils ont peut-être forcé plus de 100 de ces visites falsifiées sur les comptes Google de nombreux autres sites. Il est assez facile d'acheter un seul hôte. Tant que les spammeurs sont sûrs du ROI, ils peuvent en faire beaucoup de dégâts.

Des solutions qui se résument

Certaines techniques sont parfois si avancées que les solutions employées pour bloquer le spam de référence ne fonctionnent pas. L'un d'eux est le mystérieux service en ligne appelé Darodar. Les méthodes suivantes ne l'ont pas effacé de GA.

  • Le fichier .htaccess. Cela ne fonctionne pas car le spam fantôme ne touche pas le site
  • La liste d'exclusion de référence. Il manque de mises à jour.
  • Filtres d'exclusion. C'est une méthode obsolète car elle se concentre uniquement sur le spam futur et n'est pas rétroactive pour les bases de données de spam antérieures.

Le filtre d'exclusion est presque parvenu à éliminer le spam de référence Darodar. Sa seule limitation était qu'il ne disposait pas d'une liste de spammeurs de référence constante et constamment mise à jour.

La pièce manquante du puzzle

Une solution exploitable pour identifier et bloquer les données de référence et fantômes devrait être très mise à jour, provenir d'une base de données plus large et rétroactive aux informations passées. Basé sur les trois éléments pour une solution optimale, voici celui qui fonctionne.

Étape 1: utilisation de segments pour exclure le spam

Il est préférable d'utiliser des segments car ils ne modifient pas les données de manière permanente. Si l'on filtre accidentellement de vrais référents lors de l'utilisation de filtres, il n'y a aucun moyen de les récupérer. Il est possible de s'appuyer sur d'anciennes données à l'aide de segments, malgré la durée de leur présence. On peut également les appliquer rétroactivement.

Étape 2: Tenir à jour la liste d'exclusion

Slack est un outil que les webmasters peuvent utiliser pour surveiller les sources de référence. Il informe l'utilisateur de toute nouvelle référence et lui donne une invite: s'il faut mettre sur liste blanche ou mettre sur liste noire une source de référence suspecte.

1. Slack reçoit tous les renvois, et

2. Il utilise un PHP pour trier tous les résultats par ordre de comptage, puis boucle la liste finale au webmaster pour voir si tout semble familier. Si non,

3. Il transmet tous les spams suspectés à un canal lâche qui offre à l'utilisateur le choix entre une liste blanche ou une liste noire. Quelle que soit l'option choisie, cela mène à l'étape 4,

4. Il redirige vers une page qui vérifie le verdict comme une confirmation de sélection.

5. Slack stocke puis verrouille tous les spammeurs identifiés dans la base de données

6. L'affichage final des données propres sera au format regex. Copiez et collez-le dans Google Analytics.

Slack permet aux webmasters de mettre à jour la liste d'exclusion au moins cinq fois par jour.

En réalité, plusieurs solutions peuvent fonctionner:

Bien qu'il s'agisse d'une méthode éprouvée, cela fonctionnerait encore mieux si le webmaster la complète avec d'autres techniques, juste pour s'assurer qu'elles couvrent toutes les bases. En plus de ladite solution:

  • Cochez la case qui invite Google Analytics à exclure les robots et araignées connus,
  • Appliquer un «filtre de nom d'hôte inclus»
  • Utilisez des cookies

Le filtre inclusif mentionné ci-dessus est parfois efficace, mais pas la meilleure solution à long terme car:

  • L'usurpation de nom d'hôte n'est pas difficile à faire, et les spammeurs d'analyse l'utilisent de plus en plus comme vulnérable.
  • Si la configuration est incorrecte, cela pourrait finir par filtrer les vrais référents.

mass gmail