mercredi 4 mai 2011

Publier des bases de données

Les bases de données, terme réservé jusqu'à récemment aux professionnels de l'informatique, est devenu une expression courante, et si le gens n'en sont pas toujours conscients, une part de plus en grande de l'information dans Internet, sinon la plus grande partie, se trouve, d'une façon ou d'une autre, dans une base de données. Les pages html statiques sont de plus en plus rares. À mesure que s'étend les applications où on peut ajouter des infos en ligne, les réviser, les compléter, les supprimer, plus cela sous-entend une "base de données" ou un système de gestion de contenu organisé d'une façon similaire à une base de données relationnelles. Les profils d'usagers, les blogues, les intranets où le personnel ajoute du contenu et le modifie, s'appuient plus ou moins sur des bases de données. (Techniquement, ce n'est peut-être pas le bon terme, mais l'esprit et les possibilités sont les mêmes).

Mais, voilà, il y a, pourrait-on dire, deux modalités pour présenter le contenu d'une base de données:

-1) une base de données "statique" qui attend les requêtes de l'usager dans un moteur de recherche pour afficher une partie du contenu.

- 2) une base de données dynamique et active ou plutôt "activée" par les responsables qui affichent plusieurs contenus de la base de données dans des gabarits, des modules de publication et des formats pré-établis.

Par exemple, sur les sites des journaux et des médias d'informations, on trouve sur toutes les pages des informations de la base de données déjà "affichées" pour l'usager: chroniques, manchettes, blogues, sections, etc. Chaque page contient en fait tout un ensemble de "requêtes", simples ou complexes", pré-définies, qui affichent l'ensemble des résultats dans une structure infographique donnée dès que l'usager fait afficher la page dans son navigateur. En fait, la page d'accueil de CyberPresse ou de Radio-Canada est comme une multi-requêtes qui affiche les résultats sous le titre de chaque rubrique et section.

Par opposition, on pourrait imaginer une sorte de portail absurde où plutôt que d'affiche immédiatement les dernières nouvelles sportives, culturelles, politiques, économique, il y aura sous chaque rubrique une ptit moteur de recher où l'usager trouverait autant de petit moteur de recherche où il devrait entre une recherche pour que sa page se remplissent d'informations!!! Ce média ne survivrait pas longtemps.

Cela est absurde, et pourtant les sites des bibliothèques institutionnelles et surtout de plusieurs grandes collections de fichiers numériques sont construits souvent dans cette esprit-là ou presque. C'est-à-dire que l'information affichée est sous la responsabilité de l'usager, c'est lui qui doit travailler à faire apparaître des informations et des contenus, sinon il ne voit rien. L'usager est devant une base de données statique qui attend d'être activée.

Sur les sites commerciaux, les gestionnaires ont déjà cherché de l'information avant même qu'un usager arrive dans leur site. Ce qui s'affiche dans la fenêtre du navigateur, ce sont les données de la base pré-activée par les responsables.

Le site de Google Archives pour la recherche dans les journaux numérisés, c'est un peu, beaucoup ça. L'étonnante Timeline qui s'affiche en haut de chaque résultat s'appuie nécessairement sur une méta-requête, sur une pré-indexation intelligente de toutes les dates dans les millions de page du corpus. Google a dû chercher et indexer les 365 dates de toutes les années (2 mars 1652, 3 avril 1876, etc, pour chaque date, pour chaque année!!!) que couvre leur corpus pour pouvoir créer automatiquement une Timeline aussi performante.

À la requête simple de l'usager, comme chercher l'expression "New France", s'ajoute une requête extrêmement complexe de la recherche des occurrences de ce terme, croisées avec la multitude des dates que l'on trouve à une certaine "proximité" sémantique de "New France". En fait, il est difficile de savoir comment Google a procédé, mais une chose est sûr: la requête simple de l'usager y est multipliée par le travail de formalisation et d'indexation réalisés avant qu'il la fasse.

Une fois liée à la méga-requête de la Timeline de Google, l'usager n'a plus à faire d'autres requêtes pour préciser la période historique qu'il veut couvrir, puisque Google y a déjà pensé. Mieux que ça, on peut imaginer une équipe d'historien construire des thésaurus thématique sur des grands événements ou des plus petits pour que la Timeline fasse apparaître non pas les seuls occurrences d'une expression à travers les années et les siècles, mais tout un réseau de mots-expresssions distribués sur des durées longues et courtes.