L’analyse statistique web n’est pas une science exacte

Avec tous les outils statistiques d’analyse de trafic web, de mesure d’audience ou de web analytique on est enseveli sous des tonnes de métriques, de chiffres, de tendances, etc. Tout ça a pour but de comprendre les visiteurs de son site web, prédire des comportements et améliorer le taux de conversion, le ROI.

Par contre, aucune mesure n’est précise à 100%. Ce qui explique pourquoi nous voyons souvent des différences à travers différents outils.

Tout d’abord, le trafic web est principalement des visiteurs qui chargent et lisent des pages web. On peut donc compter des visiteurs, des visites et des pages web. Malheureusement, ces calculs ont un certain pourcentage d’erreurs dû à différents facteurs.

Ensuite, il faut faire la différence entre deux méthodes d’échantillonnage :  Les logs serveurs et le marqueur sur une page web. Dans le premier cas, le log serveur contient toutes les requêtes faites au serveur. Ceci inclut autant les véritables humains que les robots ou même les images placés sur un site externe.

Dans ce dernier cas, quelqu’un plaçant votre logo sur son site avec l’URL pointant vers votre site, chaque fois que cette image sera chargée, ce sera compté comme un visiteur et une page vue… même si cette personne n’a jamais été sur votre site!

D’autre part, les logs serveurs ajoutent les robots des engins de recherche tel que Google bot qui parcoure les sites pour mettre à jour son index. Il y a beaucoup de robots et ceux-ci peuvent compter pour 20% et plus de votre trafic.

Ensuite, il y a le marqueur comme utilise plusieurs outils de mesure, dont iMinR. Il s’agit de placer un bout de code, généralement du javascript, sur son site web et chaque fois que ce code est chargé, une visite ou une page vue est comptée. Dans ce cas, si le marqueur ou la page est dans la cache du navigateur alors on vient de raté un visiteur ou une page vue.

On ne peut pas compter précisément les visiteurs

Qu’est-ce qu’un visiteur sur Internet? C’est une personne qui demande à son ordinateur d’aller chercher une page sur un serveur quelque part sur le réseau. On se fie donc sur l’adresse IP pour identifier cet ordinateur comme un visiteur. Mais qu’en est-il des entreprises qui ont une passerelle pour tous leurs employés? Ceux-ci ont alors toute la même adresse IP. Alors si les 1 000 employés de tel bureau vont visiter un même site en même temps alors il ne sera compté qu’un unique visiteur.

L’autre problème des adresses IP est qu’une grande majorité des internautes ont encore des connexions « dial-up » donc ont une IP différente à chaque connexion. La même personne qui revient sera donc compté comme plusieurs visiteurs différents. Les cookies peuvent améliorer ceci, mais souvent ils sont blockés par les navigateurs.

Généralement, on peut croire que les calculs sont précis de 80 à 90% du temps.

On ne peut pas compter précisément les visites

Qu’est-ce qu’une visite? Généralement, les outils d’analyse statistique vont définir une visite comme l’ensemble des pages vues sur une période continue de 20 ou 30 minutes. Que se passe-t-il alors si vous visitez un site pendant 2 minutes et que vous revenez 10 minutes plus tard? Est-ce la même visite ou deux visite différentes? Et si, par exemple, vous écrivez un long message sur un site pendant 25 minutes, il y aura donc 2 visites comptées entre le moment où vous avez débuté votre message et l’envoi.

Il y a plusieurs autres exemples qui prouvent que le calcul des visites ne peut être 100% précis.

On ne peut calculer la durée d’une visite

Ce calcul est réellement tordu. Il existe plusieurs méthodes pour calculer la durée d’une visite, mais aucune ne peut être précise à 100%. La durée d’une visite est le temps entre l’appel de la première page et où le visiteur quitte la dernière. Si l’on peut savoir le temps sur chaque page en faisant la différence entre une page et celle précédemment visitée, quand est-il de la dernière page? Si vous fermez le navigateur? Si vous allez dîner avec cette page ouverte? Si vous ouvrez plusieurs pages du même site? Bref, il y a plusieurs exemple où il est évident que nous ne pouvons avoir une mesure exacte du temps qu’un visiteur a passé sur le site.

Conclusion

La mesure d’audience web, l’analyse de trafic web, le web mining, l’analytique web, etc. Ce sont tous des indicateurs de performance d’un site web, mais aucun ne peut être précis à 100%. Il faut donc garder en tête que chaque résultat comporte une marge d’erreur. Comme son nom le dit, c’est de la statistique et non de la mesure précise. On peut généralement dire que les chiffres sont bons avec une marge de plus ou moins 5%. Peut être même 10%.

Il est donc inutile de prendre des décisions sur un petit échantillon où la différence est minime. À l’inverse, lorsque les résultats s’appliquent à plus de 50% de l’ensemble total des données, on peut croire que le résultat est significatif.

À ce propos, c’est justement pour aider à mesurer la pertinence d’un résultat qu’il y a sur iMinR un ratio exprimant le pourcentage des données utilisées dans un rapport. Par exemple, si vous obtenez un ratio de 2% et que ça représente 2 visiteurs sur un total de 100 alors il ne vaudrait mieux ne pas trop accorder d’importance à ce résultat. À l’inverse, si ça représente 30% et plus, on peut considérer que ce résultat est fiable.