lundi 21 septembre 2009

Bibliographier Internet?

Un problème quasi insoluble en ce moment, c'est d'établir une bibliographie thématique annotée des informations trouvées dans Internet. Plusieurs difficultés:
  1. ajout perpétuel et rapide d'infos
  2. pluralité des "types" de documents dans Internet: en plus de tous les genres de textes connus associés à l'imprimé (articles, livres, lettres, chroniques...) et leur version numérique, il y a tout un ensemble de nouveaux genres: les blogues et leurs commentaires, les "profils de membres", les clips audio, vidéos, tous les types de photos, etc. S'ajoutent à ces variétés non-standardisées le fait que ce soit souvent des genres très courts, bien moins qu'une page, parfois quelques dizaines de mots comme dans les "chats" les séances de clavardage, les textes hyper brefs de la nouvelle patente "Twitter" (140 mots au maximum, je pense). Autre difficulté, une seule page peut contenir toutes sortes de types de documents, comme une page de journal, mais en pire! Dans l'indexation des journaux anciens, on indique parfois la colonne où apparaît le document ou la citation. Dans les périodiques contemporains, avec leur graphisme éclaté, le concept même de colonne est problématique. Dans Internet, en plus, la "publication" du document est elle-même problématique, elle est souvent aléatoire, contextualisée par une requête de l'usager. L'étude de la publicité pourrait être encore plus difficile. On peut localiser une pub dans un imprimé, mais comment localiser un bandeau publicitaire qui apparaît de temps en temps en puisant dans une liste de bandeaux virtuels?
Donc, il y a une première difficulté à décrire le type de document et d'informations, à le localiser physiquement "spatialement", et à le dater. Sur ce plan, l'indexation d'Internet reste vraiment problématique. Pour l'imprimé, même dans le cas d'un imprimé détruit, on pourrait quand même être sûr que le texte X a paru dans le document Y à la date Z, et ce pour toujours! Un poème publiés dans Les fleurs du mal, mentionné dans la table des matières, ne disparaît pas si on perd l'exemplaire du livre. Dans Internet, cela est possible. On risque fort de ne pas retrouver le texte déjà identifié lorsqu'on retourne sur un site, il n'y a peut-être même plus de trace que ce document ait un jour existé. C'est pourquoi Zotero, par exemple, offre la possibilié de conserver des saisis d'écran de tous les sites et pages que l'on ajoute à sa bibliothèque. Au moin, si la pge disparaît, change et supprime les informations qui nous intéressaient, on aura pas l'impression d'avoir rêvé. Comme si l'établissement d'une bibliographie exigeait que l'on conserve aussi un exemplaire de tous les livres mentionnés au cas où ils disparaîtraient! Cela ne fait que montrer l'importance des institutions de conservation traditionnelle, bibliothèques et archives, mais montre aussi la tâche extrêment complexe d'archiver Internet.

Autres difficultés:
  1. Aussi, localiser correctement un document et lui donner une adresse précise est aussi problématique: le document peut changer souvent de place dans un même site, et être reproduit des dizaines de fois, des centaines de fois. Internet, c'est le règne des doublons. Mais tous les catalogues de bibliothèques mis en ensemble demeurent sans doute le plus énorme univers de doublons jamais créé. Les catalogues collectifs sont confrontés à cela: pour un titre, on trouve des centaines de localisation, de doublons. C'est pratique quand on est rendu à l'étape d'aller le consulter à la bibliothèque près de chez soi, mais dans les résultats préliminaires de recherche, cette montagne de doublons doit être surmontée par une sélection des documents-titres "uniques", ce qui oblige à avoir des descriptions les plus standardisées possibles. Trouver les doublons à partir de descriptions dissemblables est chose presque impossible. Les grandes bibliothèques, grâce à leur tradition, arriveront assez bien à résoudre ce problème de doublons, mais comment Google pourrait-il y arriver? Comme Ebay oy Abebooks où se sont des millions d'usagers-clients-abonnés qui créent leurs descriptions personnelles des documents. Les pages complètes, entièrement identiques sont probablement, toute proportion gardée, peu nombreuses, mais les fragments d'informations, eux, doivent atteindre une quantité astronomique. Avec toutes les applications qui se développent, ce sera encore mille fois pire bientôt.
Alors combien d'informations originales? Et que signifie "combien"?

L'autre chose est la nature des résultats de recherche que donne Google, par exemple. Malgré la possibilité de développer un moteur de recherche personnalisé, on recommence toujours à zéro avec Google et les autres moteurs de recherche. Peut-être y a-t-il un moyen "d'écumer", "d'élaguer" peu à peu un premier résultat et d'éliminer tous les résultats non-pertinents pour ne conserver que ceux qu'on choisit pour annoter, mais cela n'est pas facile à réaliser. Le métachercheur Copernic, version pro, paraît offrir la possibilité de gérer les résultats, de les filtrer, etc. Il semble cependant que l'évolution de ce logiciel soit arrêté. Plus personne en parle, et les dernières infos sur leur site date d'un année ou deux
Aussi, on ne peut chercher que quelques mots à la fois (avec les opérateurs booléens, par exemple... Google fixe le maximum à 25, je crois). Pour une recherche le moindrement complexe qui couvrent un domaine de recherche substantiel, un mot à la fois ne mène à rien. Il faudrait pouvoir chercher des listes d'expressions, fusionner les résultats, et les conserver! Puis, travailler à les identifier, les choisir, les annoter avec des mots-clés standards, et surtout rejeter de ce résultat, les pages-références qui ne sont pas pertinentes.

Aucun commentaire:

Enregistrer un commentaire