Le web analytique imparfait

Imparfait les statistiques web? Oui, absolument. Et le meilleur moyen de s’en convaincre est bien de développer son propre outil de web analytique! Des emails que nous recevons des utilisateurs de iMinR, une question qui revient souvent est bien pourquoi il y a une différence entre iMinR et tel autre outil.

En théorie, ça semble bien simple de calculer des visiteurs et des pages vues. En pratique, c’est autre chose. Et à mon avis, aucun outil n’est parfait et fiable à 100%. Si l’outil donne un portrait précis à 85% alors c’est considéré comme fiable. En fait, il y aura autant de résultats différents que d’outils sur le marché.

Un exemple? Un visiteur arrive sur un site web à 17h55. Il visite 10 pages de 17h55 à 18h10. Sur un outil comme iMinR qui affiche les données à l’heure, comment devrait il afficher cette donnée?

#cas 1

17h00 – 1 visite – 3 pages vues
18h00 – 0 visite – 7 pages vues

Le visiteur est comptabilité dans la 17e heure ainsi que 3 de ses pages vues. À la 18e heure, nous aurons donc 7 pages vues, mais aucun visiteur.

#cas 2

17h00 – 1 visite – 3 pages vues
18h00 – 1 visite – 7 pages vues

Le visiteur est comptabilisé dans la 17e heure ainsi que 3 de ses pages vues. À la 18e heure, nous aurons donc 7 pages vues ainsi qu’une visite. C’est bien sûr le même visiteur, mais calculé comme 2 visites différentes.

#cas 3

17h00 – 1 visite – 10 pages vues
18h00 – 0 visite – 0 pages vues

Il y a visiteur et toutes ses pages vues lui sont associées à la même heure. Ouais, peut-être, mais si on créé un rapport qui affiche le nombre de pages vues, ça ne représente pas la réalité.

#cas 4

17h00 – 1 visite – 3 pages vues
18h00 – 0 visite – 0 pages vues

Comme à la 18e heure il n’y a aucun visiteur comptabilisé, on ne peut donc associer des pages vues, non? Pourtant, ce n’est pas 3 mais 10 pages vues que l’on devrait voir.

Il y a probablement autant de façons différentes de calculer et de présenter les informations qu’il y a d’outils de statistiques web. Et on ne se sort pas des ces problèmes conceptuels. Je n’ai illustré qu’un exemple, il y a en a d’autres.

Que dire des visiteurs uniques? C’est probablement la statistique la plus douteuse de toutes. Comptabilisé par l’IP, par l’IP et un cookie, par un cookie seulement? Que dire des visiteurs qui n’ont pas activé le javascript et les cookies? Comment différencier un visiteur unique qui utilise plusieurs ordinateurs d’un groupe de visiteurs utilisant le même ordinateur?

Utiliser un outil qui analyse les logs du serveur? Ce n’est guère mieux. Il ne suffit qu’une personne insère une de vos images sur son site en utilisant l’URL complète. Chaque fois que cette image sera chargée sur SON site, un visiteur et une page vue seront comptabilisés sur VOTRE site. Même s’il n’a jamais mis les pieds sur votre site. Et que dire des robots et crawlers qui peuvent représenter plus de 50% du trafic web?

Comment s’en sortir et avoir une idée fiable alors?

Premièrement, plus les nombres sont élevés, plus la période est large, moins la marge d’erreur est grande. Un blogue avec 10 visiteurs par jour aura peut-être 15-20% d’erreurs ou de mauvaises représentations. Ce taux baissera à 5% ou moins pour un site qui a 3000 visiteurs quotidiennement.

Deuxièmement, il ne faut pas se fier aux nombres absolus, mais plutôt aux tendances. Que iMinR indique 30 visiteurs alors que Google Analytics en affiche 35 n’a pas d’importance. Ce qui compte, c’est la tendance. Est-ce que le trafic augmente ou bien il diminue? Est-ce que ces nombres nous aident à comprendre ce qui se passe sur notre site web?

Bref, le monde du web analytique est jeune et immature. Il reste encore beaucoup de travail et de solutions à inventer avant d’arriver à une formule presque parfaite et standardisée. Puis comme les sondages qui permettent d’établir les parts de marchés dans la radio et la télé, une marge d’erreur sera probablement toujours présente. Pour les intéressés, voici un document qui propose des définitions pour les principales mesures du web analytique.

Published by Steph