samedi 27 novembre 2010

La machine Google archive les journaux

Par où passe la machine Google, le territoire de la recherche n'est plus le même. http://news.google.com/archivesearch

Leur projet de numérisation s'accompagne toujours d'une avancée technologique dans le développement d'applications conviviales et participatives. La recherche dans Google Images a donné le logiciel de publication Internet Picasa, comme toujours simple, efficace, performant, évolutif: à chaque mois, il doit y avoir une nouvelle fonctionnalité. Google Scholar et Google Livres ont donné l'application qui permet de créer en quelques minutes une bibliothèque personnelle, annotée, indexée, mise en ligne et partagée.

Mais Google Archives est vraiment étonnant. L'affichage des résultats avec la "Timeline" qui présente un tableau chronologique des résultats fait rêver: trouver toutes les occurences d'une date précise, 4 mai 1832, et les distribuer dans une chronologie fondée sur la date de parution des ouvrages où elle est mentionnée! Par exemple, ce n'est pas tout à fait possible en ce moment, mais on pourrait de la sorte suivre la mention de "14 juillet 1789" dans tous les ouvrages postérieurs avec une précision incroyable. Par exemple, voici un résultat pour "Bastille" ou New France (les journaux indexés sont presque tous anglais, malheureusement). Il faut faire glisser la souris sur la chronologie pour s'apercevoir de la puissance de leur indexation, ainsi que sur les mots-hyperliens qui apparaissent dans la courte description de chaque résultat.

C'est une application qui montre la recherche/développement que Google poursuit continuellement. Le moteur de recherche, dans ce cas=ci, enrichit la requête simple-simpliste de l'usager: à partir d'une seule expression, d'un seul mot, on obtient le début de l'histoire de ce mot dans l'imprimé occidental! Les mots-clés montre aussi une sorte de pré-indexation, probablement d'une sorte de thésaurus de mots importants, déjà reliés à un certain nombre de pages web. Sachant que tout cela n'a pas été fait à la main par des armées de lecteurs, il faut penser alors que la production d'une telle chronologie "indexée" suppose des requêtes complexes en arrière-plan pour enrichir une type de requête qui donne habituellement que le nombre d'occurrences dans X documents, et rien de plus. Dans tous les cas, c'est une application très stimulante.

C'est une manière de présenter les résultats qui suscitent la découverte, qui surprend, qui éveille la curiosité. Imaginer une telle Chronologie pour l'étude d'un grand corpus et d'un thésaurus de sujets rationnel pourrait faire appraître des connaissances nouvelles, impossibles précédemment.

Trouver un petit corpus de mots/expressions pour en explorer les possibilités.