jeudi, septembre 28, 2006

Statistiques d’usage des ressources électroniques : définition d’un problème complexe

[Attention : long billet (4 pages words)]

« Statistiques d’usage des ressources électroniques : définition d’un problème complexe » (=Electronic Resource Usage Statistics: Defining a Complex Problem [.doc]), tel est le titre d’un article de Caryn Anderson paru en mai dernier à partir des travaux de plusieurs chercheurs de l’Electronic Resource Management Initiative (ERMI), et des projets ERUS ( Electronic Resource Usage Statistics ) et du LibSGR de systèmes open-source de collecte, gestion et analyse de données d’usage des ressources électroniques.

L’article que je retranscrit peu ou prou ici explique que les besoins de statistiques sur les ressources électroniques sont de plus en plus prégnants pour des questions concernant les acquisitions des ressources, des questions de droits et de licences, des questions de budget. Seulement, relever ces statistiques se révèle compliqué, chronophage et insatisfaisant pour plusieurs raisons :
  • la diversité des ressources, des fournisseurs et des méthodes d’extraction
  • la diversité des formats utilisés pour les transferts de données
  • l’absence de normalisation dans la présentation et le type des données
  • des incompatibilités fondamentales dans les diverses données collectées empêchant un analyse complète et satisfaisante.

    Il se propose donc de faire le tour des problèmes rencontrés et de lister des pistes de travail autour de sept angles de vues :

    1. Les publications sur le sujet
    2. Ressources et fournisseurs
    3. La collecte des données
    4. Le transfert et la manipulation des données
    5. Incompatibilité des données
    6. Intégration des résultats avec les autres éléments d’évaluation
    7. Conclusion et recommandations


    1°) Les publications sur le sujet

    Le problème : Anderson, à l’origine du projet ERUS a créé en 2004 une bibliographie sur le sujet à mettre à jour.

    Les données à collecter Il faudrait voir dans la littérature et les ressources web celles qui correspondent au sujet et y ajouter des rapports et des actes de conférences.

    Les points à analyser : Voir l’histoire des statistiques d’usage et identifier des zones qui reçoivent plus d’attention

    2°) Les ressources et les fournisseurs

    Le problème : La grande diversité des ressources électroniques (revues scientifiques, bases de données bibliographiques, livres électroniques, références en ligne, documents juridiques, statistiques…)et de fournisseurs complique les mesures d’usage.
    Structurellement en effet, une même ressource peut provenir d’une revue, d’une base de citation qui fournit le texte intégral, d’une autre qui ne propose due le résumé… D’un point de vue technique, l’usager peut accéder à cette même ressource via un catalogue, une base de données, un lien reçu par mail, le filtre d’un proxy, les ordinateurs de l’établissement, chez lui… D’un point de vue légal, sa ressource peut provenir d’un bouquet de revues ou d’un pack spécifiques à des accords conclu dans le cadre de consortia, pour un usage limité ou illimité, pour un usage unique… Tout cela fait qu’il existe de nombreux scénarios pour savoir comment obtenir des statistiques d’usage, ce que la donnée recouvre exactement, et comment elle peut être intégrée à d’autres informations locales (comme le coûts) pour déterminer des éléments d’analyses utiles (comme le « coût par recherche »).

    Les données à collecter : Pour comprendre le volume et la diversité du travail, on pourrait faire un catalogue des fournisseurs et des quantités et types de ressources qu’ils proposent.

    Les points à analyser :
  • une taxonomie des types de ressources
  • un résumé des quantité de ressources et des fournisseurs par types de ressources
  • une étude des ressources représentatives
  • une étude sur les problèmes d’accès
  • une études sur les implications des consortia
  • une étude des modèles de prix

    3°) Collecter des données

    Le problème : Il existe deux méthodes de collecte des données : soit en local par l’analyse des webserveurs ce qui permet de paramétrer ce qu’on souhaite, de définir des groupes d’usagers via les IP mais limite les données aux accès et non aux usages (quels mots-clefs utilisés ? quel déchargement ?) et demande des compétences techniques particulières,
    Soit en collectant les données des fournisseurs ce qui suppose de faire soi-même le tout des fournisseurs pour récupérer leurs données (quand il y en a), à chaque fois qu’on en a besoin, et qui pose le problème de la diversité des données récupérées (en terme de format, de périodicités…)

    Les données à collecter : Il pourrait être utile de faire un catalogue des différentes méthodes de collecte de chaque fournisseur et des formats proposés, avec des exemples d’interfaces, et une brève description des procédures et de l’expertise nécessaire.

    Les points à analyser :
  • une taxonomie des méthodes de collecte pour les statistiques fournies localement
  • une taxonomie des méthodes de collecte pour les statistiques proposées par les fournisseurs
  • un étude comparative des deux précédentes proposant des méthodes pour les compiler

    4°) Le transfert et la manipulation des données

    Le problème : Ce point étant localement paramétrable, le problème porte sur les transfert proposés par les fournisseurs. En général, ils envoient les données dans des formats tels que HTML, TXT, XLS, CSV et parfois XML mais le problème réside dans le fait que tous ne proposent pas les mêmes options de transfert voire une seule. Par la suite, pour compiler ces données il faut pouvoir les manipuler ce qui suppose un certain travail au niveau de la normalisation des formats, du nettoyage des pages des données, de l’uniformisation des données (séparer les données hebdomadaires des mensuelles…). Il n’existe en effet pas de standards en la matière mais s’il existe des tentatives de normalisation : NISO, l’ERMI, la norme COUNTER du projet SUSHI (Standardized Usage Statistics Harvesting Initiative).
    La norme COUNTER exige certains standards dans l’envoi de statistiques mais elle n’est pas complètement suffisante parce qu’un faible pourcentage seulement de fournisseurs l’utilisent (fournissent les cinq types de rapports) (sont COUNTER-compliant) à cause pour certains d’une non conformité en terme de périodicité, pour d’autres d’un manque de volonté, mais ce n’est pas suffisant aussi parce qu’elle ne s’adresse qu’aux revues et bases électroniques qui ne représentent que deux des différents types de ressources en lignes (avec les livres électroniques, les statistiques, les références en lignes…)

    Les données à collecter : Il serait alors utile de proposer un catalogue des format d’envoi disponibles chez les différents fournisseurs, présentant également le style et la structure des données (en utilisant les données du SUSHI).

    Les points à analyser :
  • Une taxonomie des formats d’envoi et des problèmes de présentation
  • Une étude des problèmes de manipulations de données
  • Une discussion sur le protocole de transfert SUSHI

    5°) Incompatibilité des données

    Le problème : Le problème fondamental réside dans le fait que les fournisseurs ne mesurent pas les mêmes données, de la même façon, selon la même périodicité. Il n’est donc pas possible d’avoir une vue complète sur l’ensemble des ressources car les données ne sont pas compatibles, ce à cause d’une de la grande diversité des ressources, de deux du manque de normalisation.
    Il faut donc :
  • définir des éléments de mesures (qu’est-ce qu’une « ressource », une « session », un « item »)
  • dresser un spectre des données fournies (articles vu / imprimés / envoyés par mails / déchargé en pdf…)
  • lister les périodicités (par heure, jour, semaine, mois, trimestre, année)
  • lister les types de mesures (i.e. [comment] peut-on comparer / mesurer les accès aux citations / résumés, bases de données , livres , chapitres, pages…)

    A cela, d’autres problèmes s’ajoutent de confiance dans les relevés des fournisseurs (est-ce qu’il compte comme deux accès un article lu puis envoyé par l’usager par mail ?), des problèmes techniques (si un usager veut lire un pdf mais qu’il reclique car il trouve que c’est trop long à s’afficher, aura-t-on deux affichages comptés ?), des problèmes de sessions qui se ferment au bout d’un certain temps d’inactivité alors que l’usager était simplement en train de lire l’article en ligne etc…

    La norme COUNTER permet de proposer des éléments de comparaison mais se heurte à certaines limites :
  • d’incompatibilité (fournisseurs qui ne veulent pas se conformer à la norme)
  • de faible compatibilité (peu de fournisseurs sont effectivement conformes à la norme)
  • de compatibilité partielle (la norme propose cinq type de rapports et un code de « bonnes pratiques » pour les ouvrages, certains fournisseurs ne peuvent être conforme qu’à certaines, pas à toutes)
  • de transfert et manipulation de données (la norme donne des directives sur les définitions, les protocoles de calculs, des guides pour les rapports. Elle a développé une DTD XML récemment mais le relevé des statistiques en XML n’est pas obligatoire)
  • de couverture (certaines ressources ne sont pas couvertes par la norme)

    Les données à collecter : il pourrait être utile de proposer un catalogue des mesures envoyées par les fournisseurs, d’identifier les fournisseurs conformes à la norme COUNTER et de mener des études avec les tenants de la norme pour décrire son état actuel et ses développements futurs.

    Les points à analyser :
  • types de mesures par types de ressources et de fournisseurs
  • discussion sur les analyses institutionnelles requises (coût par recherche, usage par département/sujet, etc…) et sur les obstacles qui se dressent à cause des incompatibilités des données
  • discussion sur la norme COUNTER et ses développements futurs
  • discussions sur les valeurs de normalisation

    6°) Intégration des résultats avec les autres éléments d’évaluation

    Le problème : les ressources électroniques et leurs mesures d’usages appartiennent à un système plus vaste. Elles doivent être recoupées avec d’autres données telles que les activités du PEB, données du budget, rapports d’incidents (techniques ou administratifs)… afin que les personnels puissent prendre des décisions éclairées à propos des acquisitions, licences, budget… Intégrées aux mesures sur l’activité de la bibliothèque, du centre de référence, des statistiques de circulation des collections papiers, les personnels pourront produire des analyses plus efficaces sur le fonctionnement de l’institution et retravailler sur des problèmes tels que la redistribution des ressources physiques et des personnels. Des solutions (commerciales) existent pour répondre aux problèmes des données de collections, de transfert des données ou de compatibilité mais elles doivent aussi prendre en compte des données d’activités plus larges.

    Les données à collecter : il pourrait être utile d’identifier les exemples de systèmes d’intégrations des données déjà en vigueur dans les bibliothèques actuellement.

    Les points à analyser :
  • discussions sur les modèles de systèmes intégrés
  • discussions sur les deux champs d’analyses principaux (acquisitions et fonctionnement global de la bibliothéconomie)

    7°) Conclusion et recommandations

    Le problème : Une synthèse des problèmes listés ici doit être proposée pour nos directions mais il est également important d’identifier des problématiques connexes telles que sur l’émergence de technologies qui peuvent avoir des répercussions dans ce domaine.

    Les données à collecter : A cause de la complexité des problèmes soulevés, il est essentiel d’illustrer cette information par des tableaux et des graphiques

    Les points à analyser : Toutes les problématiques décrites ci-dessus sont interconnectées de différentes façon. Il conviendra alors de prioriser les différents problèmes pour les résoudre et de rejoindre les initiatives en cours telles que le programme E-Metric de l’ARL (Association of Research Libraries), ou les normes des projets COUNTER, ERMI ou SUSHI.

  • 1 Commentaire-s :

    Anonymous Anonyme a dit...

    Bonjour,

    Le point que vous proposez, et l'article qui le sous-tend est vraiment complet...

    Juste un point ou deux : Counter n'est pas une norme (ce n'est pas un document ISO ou NISO ou d'un autre organisme de normalisation), en revanche SUSHI est une norme NISO (américaine).

    Par ailleurs, le document auquel vous vous référez ne semble pas citer la norme ISO 2789 "Statistiques de bibliothèques" qui propose pourtant une taxononomie des ressources et des usages.

    Pour ma part, le problème de l'approche dont vous rendez compte est qu'elle semble intéressante dans des perspectives de recherche, à moyen terme, mais peu utilisable à court terme. Or c'est maintenant que les questions de comptage se posent.

    L'intérêt d'une démarche comme Counter est qu'elle est essentiellement pragmatique (c'est pas complet, c'est pas partagé, etc.), mais ça a le mérite d'exister et surtout d'être quand même fiable car reposant sur un système d'audit. Le NISO ne s'y est pas trompé en normalisant le protocole de moissonage des données stats associé.

    Je crois qu'il faut mener en parallèle deux démarches : travail d'exploration sur le moyen terme, et accord sur de petits jeux de définitions et de données exploitables à court terme.

    (Sur ce je file explorer votre source :-)

    PYR, bibliothécaire s'interrogeant sur l'évaluation.

    10/24/2006 09:46:00 AM    

    Enregistrer un commentaire

    << Home