samedi 19 décembre 2009

Exploration bibliographique dans le projet Érudit

Comment chercher? Quoi chercher? Que savoir?
Sur le modèle des base de données météorologiques, astronomiques ou génomiques...

D'abord, il faudrait avoir un support informatique pour développer des modules d'interrogations complexes.
Il faudrait pouvoir construire des méta-requêtes composées de plusieurs sous-requêtes pour regrouper, trier, relier des ensembles de résultats divers, pour créer des index spécialisés, des sous-bibliothèques, des graphiques, des chronologies, des parcours bibliométriques, etc.

Premier principe de la critique: les moteurs de recherche sont insuffisants et ne peuvent faire avancer réellement la connaissance, car ils n'offrent la possibilité que de faire les mêmes recherches qu'avant, mais plus rapidement et plus exhaustivement.

Au centre de cela est la question: que voulons nous savoir?

Si c'est la liste des articles qui ont parlé de tel ou tel mot-clé ou auteur, on n'a pas besoin de plus. Déjà, si ce qu'on veut connaître est la liste des articles dans lesquels on parle de toutes les oeuvres d'un romancier, disons une vingtaine, c'est déjà plus compliqué si on veut regrouper les résultats, et ne pas se retrouver devant 20 listes non fusionnées. Ensuite, faudra une autre requête pour connaître les oeuvres dont parle un seul article. On ne le fait pas, parce qu'on n'a pas les bons outils de recherche.

Autre principe: ces types de requêtes exigent la collaboration d'un informaticien, capable de concevoir et d'écrire ces requêtes complexes.

Qu'est-ce qu'une modélisation, comme en météo? Une sorte de méta-requête qui effectue des dizaines, sinon des milliers d'opérations et d'analyses dans une base de données et qui crée des résultats sous forme de graphes ou de cartes, des cartes animées qui représentent le résultat affiché d'une méta-question composée de multiples petites questions et de résultats, regroupés, puis mis en relation les uns avec les autres.

Pour continuer ce sujet de refléxion: poser une question très complexe et la décomposer en multiples requêtes pour montrer un chemin possible à suivre, puis montrer le mode de représentations qu'on pourrait lui donner. Par exemple, l'idée d'établir comment le Nouveau Monde a conquis l'imprimé européen.

Montrer aussi: que ces méta-requêtes peuvent servir à créer de véritables catalogues spécialisés ou même des bibliothèques. Par exemple, dans Érudit il pourrait y avoir la "salle" Révolution tranquille (RT), subdivisée, organisée comme une vraie bibliothèque virtuelle. Ce pourrait être un projet à proposer: regrouper toutes les ressources de l'imprimé autour de la RT.

Aussi, ces réflexions mènent à reconsidérer le "traitement" que l'on fait à un document quand il est acquis et qu'on indique parfois justement "en traitement". Cela signifie les étapes suivantes: indexation, description, reliure, sécurité, code barre, intégration dans le système informatique puis sur les rayons et dans le logiciel de prêt. Essayer de penser à un traitement automatisé du contenu pour l'intégrer dans les différentes bibliothèques/catalogues spécialisés. Par exemple, on analyse le contenu en texte intégral, identifie les mots-clés associés à la RT, on le "tague" automatiquement, l'ajoute aux index des auteurs, des sujets, aux réseaux bibliométriques. Une façon donc de programmer le traitement sémantique des contenus. Le soumettre à des requêtes pré-établies, le traiter pour lui donner des mots-clés supplémentaires. Ce serait une sorte d'outil d'indexation supplémentaire...

Voir aussi les "FOAF" (Friend of a Friend) qui permettent de représenter les liens entre les personnes.
Trouver aussi des manières de représenter les liens entre les textes critiques, entre les oeuvres elles-mêmes, entre les textes critiques eux-mêmes. On pourrait imaginer des TsuT, un "Texte sur un Texte".

Créer différentes modalités de représentation des résultats, par exemple sous la forme d'arbres schématiques:
- de la critique, positive, négative...
- de la création littéraire: des branches qui unissent des contenus thématiques, des branches qui unissent des matières textuelles (dans le cas de Ferron très nombreux); ces modules peuvent être transposés dans le domaine de la critique: il y a des liens thématiques ou méthodologiques (psy, sémio, historique...), ou argumentatifs (l'évolution de la réception du thème du pays ou du "Ferron intime"); la matière textuelle de l'oeuvre, cela peut être des citations, des éléments textuels-sémantiques de la critique, que l'on retrace pour tracer des liens, les argumentations de la critique....

- peut-on trouver des manières automatisées de créer soit des résumés et/ou les structures argumentatives en identifiant les opérateurs logiques du texte argumentatif...

- distinguer les formules introductives des citations ou des commentaires (généralement placées après, mais souvent avant aussi: la citation illustre alors un fragment d'analyse)
- liens entres les auteurs de la critique / liens entre les textes de la critique
- identifier aussi les marques de la citation indirecte: "comme disait X...", "Y a écrit que blablabla"...
- tout le défi aussi d'identifier les notes en bas de pages, les bibliographies, etc.: trouver quelques exemples de logiciels qui tentent d'extraire les références bibliographiques des textes imprimés...
- tracer des réseaux sémantiques et argumentatifs entre les textes critiques

Donc proposer des sujets de recherche et aussi des manières de présenter les résultats. En ce moment, le résultat est aussi éphémère que la durée de la session. Les résultats de la recherche ne s'accumulent pas. Imaginons une application qui conservent les recherches effectuées pendant un mois: mots-clés, sujets, titres, auteurs, etc. Au bout d'un mois, une application en fait la synthèse et crée une bibliographie de ce que les usagers ont cherché et trouvé. On pourrait ainsi au moins savoir ce que les usagers cherchent pour inclure les résultats dans
1) une histoire de la recherche
2) une analyse des performances du moteur de recherche
3) une programme de suggestions de recherche
4) pour créer des bibliographies spécialisées en analysant le contenu des recherches.

Enfin, il est impossible que les recherches effectuées ne contiennent aucune information sur les intérêts des chercheurs, les limites du système de requête, sur les stratégies de recherche, etc.
Comment mesurer la performance du chercheur pour trouver ce qu'il cherche: emploie-t-il une mauvaise stratégie ou est-ce l'interface et les possibilités du moteur de recherche qui sont déficientes.

Pour ce sujet, partir d'une vraie question et tracer toute la démarche à suivre pour trouver des "réponses"

mardi 1 décembre 2009

Écrire dans l'ère numérique

Un chroniqueur de Wired, encore elle, la vieille revue des nouvelles Internet, parle ce mois-ci du déclin de l'univers des blogues qui n'aurait que 4 ans. Ces "nouvelles" pratiques d'écriture perdraient de la popularité et seraient peu à peu abandonnées au profit de Facebook, MySpace ou d'autres sites de réseautage parce que les "anciens " blogueurs y trouveraient presque les mêmes possibilités d'écriture et des possibilités infiniment supérieures pour partager photos, vidéos, clips sonores, liens, "amis", etc., alors que dans les logiciels de blogues actuels ces applications sont moins développés (cela est généralement vrai). On y parle d'un blogueur "célèbre", américain bien sûr, qui aurait presque fermé son blogue pour aller vers ces sites ou même vers Twitter, ce site de micro-textes. Et de conclure que les gens ne veulent lire que des textes brefs, de plus en plus brefs, et préfèrent échanger des instantanés de toutes sortes plutôt que des textes.

Bon, ce n'est pas nouveau: ça toujours été vrai pour tous ceux qui n'aiment pas lire ni écrire. Puis, il y a quelque chose de culturel, presque d'anthropologique, un phénomène qui semble avoir toujours existé: il y a somme toute peu de gens qui poursuivent pendant longtemps la pratique d'un "art" ou plus simplement une pratique de communication ou d'expression. Presque tout le monde a écrit quelques pages de journal personnel un jour, déjà moins de gens ont écrit le lendemain, et encore moins le troisième jour, ainsi de suite, jusqu'à ce qu'il ne reste qu'une infime poignée de gens au bout d'une année, et seulement quelques de diaristes après deux ans et plus. La seule chose qui ait vraiment été populaire et le restera, c'est le téléphone. D'ailleurs, c'est vers les téléphones intelligents que se déplacent de plus en plus les NTIC. Là, ou malgré tout les efforts qu'on fera, l'interface d'écriture restera étroit et limité.

Même chose pour la musique: qui n'a jamais gratté une guitare ou pianoter? Qui a poursuivi le moindrement intensivement pour au moins être capable de continuer à savoir jouer quelques petites tounes tout au long de sa vie? Très peu. Pourquoi la pratique des nouveaux médias serait-elle différente? S'il est sûr que l'éducation et l'alphabétisation a accru de manière radicale le nombre de gens qui écrivent, des écrivains professionnels aux rédacteurs amateurs, il demeure un tout petit nombre de gens par rapport au nombre de gens qui savent écrire. Des milliers, il y a des millions de fois plus de lecteurs que d' "écrivains" (une chance!). Et même chez les écrivains, combien y a-t-il de première oeuvre sans deuxième oeuvre, de 2e sans 3e, etc.?

Et pourtant, le "monde branché" écrit plus que le "monde non-branché": courriels, textos, clavardage, etc. On écrit tout le temps, même les requêtes et les recherches dans les moteurs peuvent être considérées comme les formes minimales d'écriture. Du moins, pour ce qui est des communications spontanées, de la communication écrite.

Et si les blogues déclinaient parce qu'il y en a trop peu de bien écrits! De vraiment bien écrits. Et que le petit blogue sympathique du voisin et de la voisine ne pouvait qu'être vraiment intéressant pour peu de gens, leurs vrais amis. Dans les blogues d'informations, combien offrent vraiment des informations importantes et bien écrites? Pierre Foglia a sans doute pris des années et des centaines de chroniques pour avoir le public qu'il a aujourd'hui. Les livres, même les meilleurs souvent, ne rejoignent que quelques milliers de personnes en moyenne alors que, comparés à la moyenne des blogues, ils sont bien écrits. Et on voudrait que le blogueur moyen ait plus de lecteurs que un écrivain, même moyen?

N'empêche que le commentaire de Wired sur l'écrit dans le monde numérique, ces continuels déplacements d'un genre à l'autre, des pages personnelles aux blogues puis au profil d'usager et au mur-babillard de Facebook, montre comment l'écriture est maintenant dans un univers concurrentiel, en compétition avec les autres médias et techniques de communication. Jusqu'à l'ère numérique, tous les médias exigeaient une infrastructure relativement importante pour diffuser des contenus: journaux, livres, photos, films, voix, etc. L'écrit demeurait le plus simple, le plus léger et malgré cela, les possibilités de diffusion restaient étroites. Internet donne à tous les médias les mêmes possibilités démocratiques que l'écriture: il égalise, il égalitarise. Il est même possible de réaliser assez simplement de courts films d'animations 3-D, quelque chose de réservé strictement aux populeuses équipes de Disney voilà 10-15 ans.

Enfin, c'est une situation connue où l'écriture semble toujours perdre, devenir de plus en plus pratiquée et, dans le même mouvement, toujours plus marginalisée, secondarisée symboliquement, comme accessoire. C'est paradoxale: plus le nombre d'utilisateurs-scripteurs augmentent, plus sa valeur "baisse". Phénomène d'offre et de demande: la rareté de l'écriture se faisant moins grande, sa valeur diminue. Cela fait penser au commentaire de Ferron selon lequel "dans une société analphabète, les écrivains occupent symboliquement une place forte, admirée". En contrepartie, dans une société ou presque tout le monde écrit presque quotidiennement, et même seulement "fonctionnellement", quel peut être le statut de l'écrit et des écrivains?

Que comprendre de cela? Comment interpréter ce statut incertain, contesté de l'écrit dans la culture?
Ces changements peuvent montrer, a contrario, à rebours de l'histoire, dans une sorte de perspective historique inversée, comment les oeuvres, les grandes oeuvres de l'écriture ont pu exiger des siècles, sinon des millénaires d'efforts, d'essais et d'erreurs. Car si la pratique intensive de l'écrit par des millions de personnes dans des dizaines de langues, sous toutes les formes possibles, représente un échantillon immense, exceptionnel et jamais rassemblé, des possibilités scripturales de l'écriture, il faudra convenir comment les grandes oeuvres représentent des constructions-inventions absolument extraordinaires, exceptionnellement rares, exigeant que l'écrivain atteigne une maîtrise de l'écriture au-delà de tout ce qu'un scripteur spontané ne pourra jamais faire dans sa vie, et même s'il en avait plusieurs.

Faisons un parallèle avec le sport. Tout le monde peut courir, nager ou sauter, ou presque. Mais combien de spectateurs peuvent attirer les joggings de monsieur-tout-le-monde et les steppettes et madame-tout-le-monde? Quelques amis et parents, sympathiques, venus les encouragés, et qui d'autre?

Le glissement "naturel" des écrits numérique vers le texte bref (parce que les gens aimeraient ça plus que les textes longs), c'est comme si le marathon était abandonné parce que les coureurs du dimanche trouvent ça trop fatigant ou ne sont tout simplement pas capables de le compléter. Si la tendance se maintient et que l'écrit glisse vers Twitter, où la maximum de mots est 140, plus Dante, Balzac, Faulkner, Ferron, Baudelaire, Montale ou Saint-Denys-Garneau deviendront de plus en plus de grands écrivains. Parce qu'on n'aura qu'une seule question à la bouche: comment ont-ils pu concevoir des oeuvres aussi vastes alors que la tendance "naturelle" des scripteurs est d'envoyer des textos ou de clavarder? Comment ont-ils pu faire alors? Autrement qu'en ayant un peu de génie et ayant consacrer leur vie à cela. Il y a aussi peu d'écrivains intéressants que de sportifs intéressants à regarder.

Le mystère est celui-là: comment faire naître de la pratique courante de la parole et de l'écrit des oeuvres si fortes, qu'elles soient littéraires ou plus généralement intellectuelles. D'ailleurs, il sortira certainement quelques petits chef-d'oeuvres de l'époque blogue, ce seront ceux de génies précoces - il y aura bien quelque Rimbaud dans toute cette blogosphère -, ou des blogueurs au long souffle qui écriront le leur pendant des années et des années, sans relâche, comme certains grands journaux personnels, composés de milliers et de milliers de pages, de liens. On ne peut les connaître, ni les uns ni les autres pour le moment. Annoncer la mort d'un genre, le blogue, alors qu'il n'a que 4 ans, c'est un peu rapide.