Outils pour utilisateurs

Outils du site


Panneau latéral

Autres parties du site :

Menu du wiki :


Gestion du wiki :


blog:challengeaz_2014_-_s_comme_statistiques

#ChallengeAZ 2014 - S comme Statistiques

J’aime bien les statistiques. Pas forcément pour leur approche théorique que je suis loin de maîtriser, mais plutôt car elle montrent que l’on peut faire dire ce que l’on veut à des chiffres et que l’on peut présenter tout et n’importe quoi sous forme de chiffres, même les éléments les plus inutiles.

La généalogie est clairement un domaine dans lequel on peut longtemps s’amuser : taux d’implexe, taux de consanguinité, espérances de vie, âges moyens à différentes étapes de la vie. Les logiciels fourmillent d’exemples de statistiques permises par la collecte de données généalogiques sur des séries longues. Les billets du challenge sur les kilomètres montrent que l’on peut aussi envisager des statistiques géographiques : dispersion, éloignement,…

Et, pour reprendre mes propos introductifs, deux exemples de statistiques qui peuvent induire en erreur en raison de biais de périmètre ou de présentation.

Nous connaissons tous Geneanet qui sur sa page d’accueil, arbore fièrement le nombre d’individus référencés dans ses bases.

geneanet.jpg

Mais nous savons tous aussi, et cela fait couler beaucoup d’encre, qu’une grande partie de ces individus ne sont que des doublons issus de recopies massives et parfois entachés de profondes erreurs.

C’est très certainement une des raisons qui a poussé ce site à accompagner cette vision quantitative d’une vision qualitative en créant un indice de fiabilité. Dommage que le nombre d’individus référencés en 5 étoiles ne soit pas non plus affiché en page d’accueil…

Deuxième exemple, qui me permet au passage de faire mon mea culpa. Depuis le début du Challenge, je passe une bonne partie de mon temps à référencer les billets du challenge sur mon annuaire pour en extraire deux statistiques. Les deux présentent un biais qu’il faut reconnaître.

Premier biais, mes analyses par mots clés sont totalement subjectives car les mots clés attribués sont le reflet de mon interprétation des billets.

challengeaz_week1.jpg

Second biais, mon décompte du nombre de billet par lettre est partiel car, publié en cours de challenge, il ne tient pas compte des billets qui n’auraient pas encore été publiés pour les lettres déjà passées. Sophie Boudarel l’avait d’ailleurs relevé sur le fil twitter ci-dessous et sur son blog.

Finalement, en généalogie comme ailleurs, l’usage des statistiques procède à la fois du merveilleux et du diabolique. Et, comme nous n’arrivons pas à nous en passer, il vaut mieux bien les comprendre pour éviter de leur faire dire n’importe quoi.

Pour conclure, je me suis amusé à me créer mon petit indicateur généalogique mesurant le niveau de complétude de mes travaux ascendants :

  • Nombre de numéros SOSA/ numéro SOSA le plus élevé *100

Si mon SOSA le plus élevé est le 1000 et que je n’ai que 500 SOSA dans ma base, je n’ai donc complété mon ascendance qu’à 50%. Ça doit être mon côté contrôleur de gestion qui ressort… Et vous, avez-vous créé vos petits indicateurs maison ?

Discussion

Entrer votre commentaire. La syntaxe wiki est autorisée:
68 +2 =᠎ ?
 
blog/challengeaz_2014_-_s_comme_statistiques.txt · Dernière modification: 2014/07/07 14:11 par yves