samedi 27 novembre 2010

La machine Google archive les journaux

Par où passe la machine Google, le territoire de la recherche n'est plus le même. http://news.google.com/archivesearch

Leur projet de numérisation s'accompagne toujours d'une avancée technologique dans le développement d'applications conviviales et participatives. La recherche dans Google Images a donné le logiciel de publication Internet Picasa, comme toujours simple, efficace, performant, évolutif: à chaque mois, il doit y avoir une nouvelle fonctionnalité. Google Scholar et Google Livres ont donné l'application qui permet de créer en quelques minutes une bibliothèque personnelle, annotée, indexée, mise en ligne et partagée.

Mais Google Archives est vraiment étonnant. L'affichage des résultats avec la "Timeline" qui présente un tableau chronologique des résultats fait rêver: trouver toutes les occurences d'une date précise, 4 mai 1832, et les distribuer dans une chronologie fondée sur la date de parution des ouvrages où elle est mentionnée! Par exemple, ce n'est pas tout à fait possible en ce moment, mais on pourrait de la sorte suivre la mention de "14 juillet 1789" dans tous les ouvrages postérieurs avec une précision incroyable. Par exemple, voici un résultat pour "Bastille" ou New France (les journaux indexés sont presque tous anglais, malheureusement). Il faut faire glisser la souris sur la chronologie pour s'apercevoir de la puissance de leur indexation, ainsi que sur les mots-hyperliens qui apparaissent dans la courte description de chaque résultat.

C'est une application qui montre la recherche/développement que Google poursuit continuellement. Le moteur de recherche, dans ce cas=ci, enrichit la requête simple-simpliste de l'usager: à partir d'une seule expression, d'un seul mot, on obtient le début de l'histoire de ce mot dans l'imprimé occidental! Les mots-clés montre aussi une sorte de pré-indexation, probablement d'une sorte de thésaurus de mots importants, déjà reliés à un certain nombre de pages web. Sachant que tout cela n'a pas été fait à la main par des armées de lecteurs, il faut penser alors que la production d'une telle chronologie "indexée" suppose des requêtes complexes en arrière-plan pour enrichir une type de requête qui donne habituellement que le nombre d'occurrences dans X documents, et rien de plus. Dans tous les cas, c'est une application très stimulante.

C'est une manière de présenter les résultats qui suscitent la découverte, qui surprend, qui éveille la curiosité. Imaginer une telle Chronologie pour l'étude d'un grand corpus et d'un thésaurus de sujets rationnel pourrait faire appraître des connaissances nouvelles, impossibles précédemment.

Trouver un petit corpus de mots/expressions pour en explorer les possibilités.




samedi 13 mars 2010

Un outil de mise en forme sémantique

Word ou les logiciels de graphisme offrent toute une panoplie de menus, de sous-menus, d'option pour mettre en forme le texte et le document: tout peut-être modifié. Photoshop offre le même type d'applications pour mettre en forme les images: couleurs, formes, contrastes, taille, format: tout peut être modifié aussi.
Il me semble y avoir que 2 modes possibles d'interventions qui reviennent au même:

1) on choisit d'abord une fonction en cliquant sur un icône ou en choisissant dans un menu déroulant, puis on sélectionne un élément du document (textuel ou graphique) et cet élément est transformé selon la fonction choisie: gras, couleur, etc. C'est parfois assez complexe, car la fonction peut être une macro-fonction qui fait plusieurs opérations à la fois en arrière-plan, comme le publipostage dans Word.

2) on sélectionne d'abord un élément textuel ou graphique (ou l'ensemble du document), et on choisit ensuite une fonction qui va le modifier selon les paramètres choisis.

On peut souvent avoir le même résultat en choisissant l'une ou l'autre des méthodes. On peut sélectionner le texte avant de cliquer sur "italique", ou choisir "italique" et sélectionner le texte ensuite. Dans les deux cas, c'est une fonction qui s'ajoute au curseur, avant ou après. À l'état "normal", le curseur est neutre: on peut le déplacer comme on veut sans que le document ne soit modifié. En fait en cliquant une fois et en appuyant sur la souris, le curseur acquiert généralement la fonction "déplacer" le document sélectionné ou une partie du doc.

Dans le cas, des logiciels de traitement de l'image, des fonctions qui changent la forme changent aussi souvent le "contenu" de l'image. Du moins, la frontière entre forme et contenu est moins évidente dans le monde des images. Pour le texte, on peut toujours argumenté que la typographie change le "contenu" d'un texte et le sens qu'il aura, mais on ne peut pas dire que le graphisme modifie directement le contenu d'un texte, comme le fait un changement de mots, une révision ou une récriture. Enfin, tout cela pour en arriver à dire qu'il ne semble pas que les logiciels de traitement de texte offrent des outils, des fonctions et des menus pour modifier directement le contenu et le sens d'un texte.

Peut-on imaginer une palette d'outils sémantiques qui aurait le même pouvoir de modifier un texte que les palettes de fonctions que l'on trouve dans Photoshop?

Il faudrait d'abord définir, savoir, comprendre quelles sont les opérations de modifications sémantiques et structurelles que l'on peut faire sur un texte.

Quelques exemples simples:

1) l'outil "temps verbaux" modifie les temps verbaux d'un texte, de l'imparfait au présent, par exemple. On pourrait avoir un outil "modifier le temps des verbes" qui le réalise sur le texte sélectionné, ou sur les verbes sélectionnés un à un. Comme des mots mis en gras ou en italique, les verbes pourraient être mis au présent, au futur, à l'imparfait selon l'option choisi.

2) l'outil "synonyme" permet de voir la liste de synonymes des mots sur lesquels on glisse la souris: on choisit, et un synonyme prend la place...

3) l'outil "dictionnaire": donne la définition, l'étymologie, des exemples, antonymes, etc., selon les sous-options choisis (En ce moment, le menu contextuel "dictionnaire" lié parfois au bouton droit de la souris donne des choix orthographiques en cas d'erreurs, mais il peut y avoir probablement d'autres choix selon le logiciel utilisé...)

Peut-on penser des exemples complexes pour modifier non seulement les mots, mais aussi les phrases même la structure d'un texte?

4) changer une phrase négative en affirmative ou l'inverse

5) souligner les incises, puis choisir de les enlever/cacher

6) ou l'inverse, créer/indiquer des espaces ou on peut insérer une incise

Donc, des outils d'"enrichissement / appauvrissement" d'un texte. Ça pourrait donner des sortes de plug-in qui permettraient, comme ceux de Photoshop qui donnent le style "aquarelle", "néon" ou même Picasso à une image, de créer une sorte de machine textuelle comme le Mille milliards de poèmes de Queneau, livre aléatoire qui génère des sonnets presqu'à l'infini. Mais au-delà du jeu ou de ces applications sophistiquées à créer des pastiches (on autant que cela soit possible de formaliser des styles littéraires!), le but serait de donner une valeur sémantique au curseur/souris pour qu'il devienne un outil " intelligent" qui augmente la signification d'un élément textuel ou le modifie.

Ces applications pourraient être attachées au menu contextuel du bouton droit (pour les PC), c'est-à-dire un ensemble d'opérations-opérateurs sémantiques pour les plus simples, et dans des palettes d'icônes, de menus et de sous-menus pour les opérateurs sémantique plus complexes. C'est drôle comment on peut être un peu "choqué" par un type d'outils qui bouleverserait le sens d'un texte. Dans le monde de l'image, Photosphop permet d'expérimenter un nombre infini de combinaisons graphiques, de les tester, de les enregistrer, de les comparer... Sur le modèle des pinceaux de Photoshop auxquelles sont associés des formes parfois complexes, on peut imaginer des "pinceaux sémantiques" qui colorient un texte selon une forme stylistique ou une palette "d'images sémantiques" particulières. Il pourrait y avoir le pinceau romantique qui colorie à la Hugo un texte ou un fragment de texte. L'outil "métaphore" avec des options thématiques (animal, végétal, historique...) de créer des expressions métaphoriques à partir d'un répertoire ou selon un mode aléatoire. On peut presque imaginer un outil "figures de rhétorique" pour choisir laquelle va nous servir à transformer le texte.

Avec le texte, il y a toujours la question de la complexité du langage: polysémie, connotation, ironie, etc.

En fait, alors que le curseur-souris peut acquérir toutes sortes de fonctionnalités dans le domaine de la mise en forme graphique ou textuelle, il semble que face au contenu sémantique et au sens d'un texte, on n'ait pas encore réussi à lui trouver des fonctionnalités pertinentes et complexes.
On peut imaginer aussi autre chose que de simples ou complexes modifications sur un texte, on peut imaginer un curseur/souris "relationnel". À partir d'un choix d'options et de menus, le curseur mettrait en relation l'élément textuel sélectionné avec différents univers de connaissance.

1) l'option "Chronos", illustré par un petit calendrier-horloge, pourrait afficher dans une fenêtre contextuelle, soit l'étymologie, les dates mort-vie, la durée, ou tout autres informations temporelles liées à l'expression choisie: mot, personnages événements, oeuvres, etc. Une sous-option permettrait d'afficher simultanément toutes les données temporelles contenues dans l'arrière-plan d'un texte.

2) l'option "Zoom sémantique", illustré par un icône à moitié loupe à moitié microscope, pourrait "approfondir" le sens du mot-expression choisi ou bien l'agrandir: le microscope sémantique sur "Hamlet" mène à la pièce de Shakespeare et à son interprétation; la loupe sémantique montre la postérité d'Hamlet dans la culture. Pour un événement, le microscope le décrit, le situe et trace des liens vers d'autres événements synchrones; la loupe met en évidence ses conséquences, sa postérité, en présentent les analyses et le situe donc dans la diachronie.

3) l'outil "Encyclopédie" offre des options liées aux grandes catégorie du savoir (on pourrait penser à l'outil "Dewey") et affiche les connaissances de ce domaine liées à l'expression sélectionnée: la sous-option "Science" indique les données scientifiques sur l'eau; la sous-option "Littérature" affiche la symbolique ou les emplois de l'eau dans les oeuvres littéraires.

En ce moment, des connaissances de ce type seraient possibles en utilisant des requêtes complexes dans des moteurs de recherche, en créant/modifiant de nouvelles recherches. Les opérateurs sémantiques sont un peu des critères avancées de recherche dans une base de données relationnelles mais les affichent sans passer par l'intermédiaire du moteur de recherche et de leur interface complexe.

samedi 27 février 2010

Journaux et journalistes

Qui va mettre en valeur les milliers de périodiques que l'on numérise? Les présenter, les situer dans leur époque, offrir un choix des meilleurs textes? Qui va parler des journalistes, des éditeurs, des imprimeurs, des lecteurs de tous ces journaux?

La Fédération des journalistes du Québec pourrait/devrait jouer un rôle important pour mettre ce corpus en valeur en créant, par exemple, un répertoire des journalistes du Québec, et pourquoi pas à l'intérieur d'un site genre FaceBook, un FacedeJournaliste. Manière de réunir anciens et nouveaux journalistes, anciens et nouveaux médias. Et puis, dans une application vraiment bien conçue, on pourrait trouver certainement plusieurs vieux journalistes qui pourraient commenter, présenter, relire les vieux journaux pour le public d'aujourd'hui. Projet semblable que l'on pourrait concevoir pour les Archives de Radio-Canada.