Pourquoi les sites web concernant le libre ne devrait pas utiliser GoogleAnalytics

Mise à jour du 19 janvier :

J’ai mis la réponse détaillé aux commentaire en fin d’article. Cela apporte quelques précisions intéressante à lire même pour ceux qui découvriraient l’article sur le tard.

Texte d’origine.

J’ai décidé de faire ce billet suite à un échange sur twitter avec @diaspbe après lui avoir fait la remarque à propos de l’utilisation sur diasp.be de GoogleAnalytics. Le format de twitter ne facilitant pas les longues explication je développe mon argumentaire ici.

Le contexte

Petite introduction avec les explications dedans pour ceux qui se demande de quoi on parle, pour les autres passez directement à la suite.

Google Analytics qu’est ce que c’est.

Google Analytics est un outil de calcul de statistiques de fréquentation des sites web fournit par Google. Il permet aux webmestre de suivre la fréquentation de son site, de savoir de quel moteur de recherche viennent les visiteurs, combien sont des visites unique combien de visiteurs reviennent etc etc. Il suffit pour le webmestre de s’enregistrer chez Google puis d’ajouter un petit script dans un endroit de ses pages web, c’est très simple et efficace. Car il faut bien le reconnaître cet outil est, comme souvent chez Google, bien fait et performant. Si vous y ajoutez le fait qu’il est gratuit vous comprendrez vite pourquoi on le retrouve à tout les coins du web.

Quel est le rapport entre statistique et traçage des internautes.

Pour faire ses différents calcul le service de statistique a besoin de vous identifier. En effet pour savoir combien de visiteurs reviennent il faut bien qu’il vous reconnaisse d’une fois sur l’autre ou dans le sens inverse pour calculer le nombre de visiteur unique sure une période il a besoin de savoir si vous êtes déjà venu ou pas. Donc pour assures son fonctionnement le script Google Analytics enregistre dans votre navigateur un cookie, un petit fichier contenant une variable et sa valeur, ici un identifiant unique, qu’il pourra retrouver la prochaine fois que vous venez sur le site. Ce serait très bien si cet identifiant était spécifique au site que vous visitez mais non il est unique pour tout google analytics. Ce qui veut dire que dans tout les sites web utilisant ce service pour leurs statistiques le script va réutiliser le même identifiant pour calculer les statistiques. Et évidemment il est tout à fait possible de remonter dans l’autre sens, à partir de cet identifiant on peut reconstituer une grande partie de vos habitudes de navigation, pour peux qu’a un moment où a un autre vous vous soyez connecté chez Google pour utiliser un de leur service ils peuvent facilement mettre ces données en corrélation avec d’autres le tout associé aux mots clefs que le moteur de recherche a associé aux pages web que vous avez visitez.Le tout bien entendu n’ayant qu’un seul but vous proposer de la publicité personnalisé…

En bref dites moi ce que vous lisez, je vous dirai ce qui vous intéresse et je vous en ferai de la pub.

En quoi cela pose-t-il un problème.

Vu comme ça il est assez aisé de comprendre pourquoi voir Google Analytics sur un site web dont la justification est justement de protéger notre vie privé comme diasp.be me choque.

Mais il n’est pas le seul concerné. De nombreux sites web du monde du libre utilise GA pour leurs statistique. Alors que l’une des idées fondatrice du logiciel libre est de permettre à l’utilisateur de reprendre le contrôle de son outil informatique en toute indépendance des intérêts commerciaux des éditeurs voila que ceux qui les promeuvent participent à la plus grande stratégie de profilage généralisé des internautes! Il y a de quoi trouver cela pour le moins troublant.

Je suis loin de faire parti des libristes les plus intransigeant mais là ça me gêne beaucoup. Je suis bien plus gêné par ça que de savoir qu’il y a des bouts de binaires non libre dans le noyau de ma Ubuntu. Eux au moins ne cherche pas à exploiter quoi que ce soit me concernant dans mon dos. Personnellement j’ai réglé le problème avec l’extension Firefox Ghostery (malheureusement non libre, si quelqu’un connait un équivalent libre, je suis preneur) qui bloque les scripts de statistique et régies publicitaire en tout genre mais ce n’est à mon sens qu’un mauvais palliatif.

Le plus étrange c’est le manque d’écho que je rencontre sur ce sujet de la part d’acteur du libre. J’ai essayé de lancer un gros troll la dessus sur identi.ca et twitter mais il n’a généré quasiment aucune réaction.1  Et celles que j’ai obtenues sont plutôt du genre faiblarde.

C’est  exactement la même inertie que quand on évoque la vente lié avec un windowsien de base. «Ben oui mais c’est compliqué», «J’ai juste besoin d’un truc qui marche», «Oui mais c’est gratuit» etc etc du windowsien pur souche…  Le problème est que ces réactions viennent de personnes à priori au courant et normalement concerné par ce sujet.

Peut on y faire quelque chose?

Une solution serait que chaque site web utilise son propre outil de statistique hébergé sur son propre serveur pour être sur de l’utilisation des données.Mais c’est loin d’être évident. Les solutions de statistique récentes un tant soit peu performantes sont lourdes, une comparaison entre piwik par exemple et son prédécesseur phpmyvisites2 est plutôt révélatrice, ça rend cette solution difficilement réalisable car elle nécessite de ressources pas forcément disponibles.

La parade serait à mon sens de mutualiser les besoins et les ressources. Il ne me parait pas totalement stupide de considérer que plusieurs associations (ou entreprise) du libre pourraient collaborer pour monter un service basé sur une solution libre. Je suis bien conscient que c’est facile à dire assis derrière mon bureau et bien plus difficile à mettre en œuvre mais je pense que l’enjeu est important. Surtout que pour cela il n’est pas nécessaire de mobiliser une énorme communauté.  Quelques administrateur systèmes des associations les plus en vue pourraient suffire même s’il est vrai que ce ne sont pas forcément les plus disponibles.

Je comprends bien que à débarquer comme cela en disant «bouuuu c’est pas bien ce que vous faites» je passe pour le donneur de leçon de service mais ce n’est pas mon intention. J’essaye de soulever ce qui pour moi est un problème et de creuser un peu les solutions possibles.

Si j’étais admin sys je serais bien tenté de lancer quelque chose mais ce n’est malheureusement pas le cas. Je sais faire tourner ma Ubuntu mais c’est tout, prétendre pouvoir en faire plus serait mentir, alors vouloir faire fonctionner de mes petites mains un service de ce genre serait utopique. Mais par contre si une initiative de ce genre vient à être lancé je m’y intéresserais de très très près c’est évident car si je ne peux pas m’occuper de la partie technique il y a d’autres choses à faire.

En espérant que cette contribution puisse faire avancer un tant soit peu les choses.

Réponses aux commentaires :

Quelques point abordé dans les commentaires méritent une réponse détaillé :

Le modèle économique et le problème des coût.

Perso je ne voyais pas du tout la chose sous cette angle, à aucun moment je ne pensais vraiment à un service payant. Ma vision de la chose serait plus dans une collaboration de différents sites pour administrer ensemble un serveur pour leur propres statistiques. Dans ce contexte les coûts seraient géré via un pot commun aux associations concerné. Ce serait certes plus couteux que GoogleAnalytics mais avec suffisamment de participant on peut rendre le coût supportable. L’idée telle que je la vois n’est pas du tout celle d’un service qui serait ouvert à tous du moins dans un premier temps. Ce qui n’exclut pas bien sur qu’il puisse le devenir dans un second temps la participation aux frais pouvant se faire dans ce contexte sous la forme d’une  cotisation à une association.

Pérennité des données :

C’est vrai que je n’ai absolument pas pris ce point en compte mais en même temps si des utilisateurs de GA se plaignent d’être coincé chez Google parce qu’ils ne peuvent pas récupérer leur données j’ai un peu envie de leur dire qu’il fallait y penser avant… Par contre prendre en compte ce problème dans la futur plate-forme (si elle se monte) serait effectivement une bonne chose il reste à voir ce que les outils disponibles actuellement permettent. Et s’ils ne proposent rien après tout un logiciel libre on peut y contribuer non? Mais c’est vrai que ce point ne doit pas être négligé.

L’aspect technique :

Je peux me tromper bien sur mais je ne pense pas qu’un outil de ce genre nécessite forcément un machine très performante. Mis à part le fait que Piwik3 demande des capacités de stockage importantes mais ce n’est pas forcément ce qui coute le plus cher actuellement. Cela réduit d’autant le coût d’une telle solution que la mutualisation rend d’autant plus accessible.


  1. Je ne suis pas un très bon troll non plus je l’admets 

  2. qui a longtemps tourné ici d’ailleurs avant que je me dise que je n’en avais rien à faire des stats 

  3. dans le cas où ce serait la plate-forme retenue 

Vus : 2275
Publié par LordPhoenix : 12