mardi 8 mars 2011

Exercice de recherche prospective... Corpus amériquain et européen

(Une première version de ce projet a été écrite dans la cadre d'échanges avec Christian Vandendorpe, auteur de Du papyrus à l'hypertexte. Essai sur les mutations du texte et de la lecture, Montréal, Boréal & Paris, La Découverte, 1999, 271p.)

À partir de Google Archives qui a indexé toutes les dates (la frise chronologique n'est plus affichée maintenant), j'ai essayé quelques requêtes personnelles. Je me suis d'abord branché à Google Books pour sélectionner 50 titres des Éditions du Septentrion (spécialisée en histoire Canada-Québec) et je les ai ajoutés à Ma Bibliothèque personnelle Google Books. Ensuite, j'ai paramêtré "Éditeur = "Éditions du Septentrion", et voici ce que j'ai cherché et trouvé à partir de "Grandes Questions". Évidemment, l'échantillon est arbitraire, non scientifique, et les résultats en soi sont trop incomplets pour permettre des conclusions précises.

Je voulais plutôt tester une méthode de recherche et d'extraction de données "sémantiques".

Grande Question I

1) Pourrait-on construire une base de données biographiques/généalogiques des habitants de la Nouvelle-France à partir de 10 millions de pages?
(Mon échantillon est de 50 ouvrages, entre 10 000 et 15 000 pages). Dans les listes suivantes: sujet de recherche = total des résulats trouvés:

- "né à" = 166 lieux de naissance d'homme (précédé ou suivi des noms de personne)
- "née à" = 66 lieux de naissance de femmes
- "il meurt le" = 30 dates de décès d'hommes
- "la mort de" = 222 décès
- "le fils de" = 119 noms d'homme et relations fils-parents
- "la fille de" = 85 noms de femmes et relations filiales
- "grand-père de" = 37 noms d'hommes et relations filiales

- "âgé de" = 120 repères biographiques masculins
- "âgée de" = 60 repères biographiques féminins
- "étudié à" = 33 infos sur les études de X dans le lieu d'enseignement Y
Etc, etc...

La méthode serait la suivante:

- sur le plan lexical, on établit une liste de «mots-chercheurs» et leur réseau de synonymes
- lié à un lexique encyclopédique des noms Autorité des toponymes, anthropoymes, etc.
- sur le plan grammatical, on "lemmentise" les expressions (né, naquit...), on varie selon le genre (elle/il) et le nombre
- sur le plan syntaxique, on schématise les structures pertinentes et joue de la permutation: la/le(s) fils/fille(s); enfant(s), etc.

À partir de ces données brutes, on crée des sous-requêtes pour trouver les informations associées ("fils de" + Nom Propre) pour raffiner autant qu'on peut la cueillette d'infos. On étiquette chaque résultat, puis on filtre, vérifie, corrige, identifie les doublons, supprime de fausses occurrences, et on commence à construire une base généalogique, un dictionnaire biographiques des habitants de la Nouvelle-France, et un index général qui indiquent les textes où ils sont mentionnés. (Après quelques mois de travail!)

Grande Question II

2) À partir d'un sous-corpus de la totalité des textes de découvertes et d'exploration (multilingues), peut-on tracer la carte la plus complète de leur déplacement chronologique dans le territoire du Nouveau Monde?
Pour ce faire, il faudrait répertorier tous les indices temporels possibles:


- "lundi le" = 27 lundi historiques
- "en juin" = 200 événements
- "au mois de" = 130 dates et événements
- "aux années" (trouvent les expressions comme "jusqu'aux années 1950") = 80 événéments
- "avant 1760" = 21 évéments ou interprétations d'avant la Conquête
- "après 1760" = 20 évéments ou interprétations d'avant la Conquête
Etc., etc.

Ensuite, il faudrait considérer la durée des événements (je n'ai pas retenu le total des résultats pour toutes les autres recherches après avoir trouvé la "méthode"):

- L'expédition dura deux ans et quatre mois
- un procès qui dura douze ans
- une bataille qui dura toute la journée
- Le trajet dura quatre heures
- l'incendie ne dura pas plus d'une heure
- Cette association ne dura que ces deux années-là
- son gouvernement, qui dura de 1887 à 1891
- Pendant la semaine que dura la bataille
- La grève des enseignants dura deux mois
- Etc., etc. 

La structuration de ces résultats montre qu'on pourrait créer une table de concordances exploitée de cette manière, avec un logiciel qui saisirait le substantif-événement-sujet placé avant le verbe et le(s) substantifs temporels compléments circonstanciels de temps placés après:

- trouver les verbes, expressions, locutions qui indiquent des déplacements
- "embarque sur" = permet de trouver 34 noms de bateaux, des voyages en train, etc
- "arrive à" et "arrivé à" = 372 lieu d'arrivées
- "partit de" = 24 lieux de départs
- "le voyage de" = 83 voyages + nom propre et/date
- le voyage de Carton de Wiart
- le voyage de nôtre Capitaine Jacques Quartier
- Le voyage de retour commence le 6 juillet 1672
- le Voyage de Pehr Kalm au Canada en 1749
- le voyage de Montréal à Walla Walla
- Le voyage de messire Brady n'est pas moins de trois jours et de 24 lieues de
route
- Au temps de Frédéric, le voyage de Montréal à Sainte-Anne-de-Beaupré par bateau
dure trente-six heures [très riches données temporelles et spatiales en un seul énoncé]
"il s'établit" = 36 "établissements" + Noms
il s'établit lui-même à La Hève
il s'établit d'abord sur la rue du Parloir
À partir de la banque terminologique de la Commission de toponymies et d'autres inventaires officiels, on indexerait tous les toponymes. Il y a peut-être même un programme d'analyse linguistique qui pourrait trouver les lieux: si on cherche "où", on trouve des "lieux", etc. Le temps et l'espace ont des champs lexicaux larges mais définis: années, mois, moment, jours, avant, pendant, après, etc.; maison, colline, rivière, port, ville, paroisse, comtés. Un programme pourrait de cette manière recueillir des données fabuleuses. Ça deviendrait une base d'une recherche, une collection de matériaux linguistiques, des sources d'analyses. Je parle surtout de documents historiques, mais la même chose pourrait être fait dans un Grand Corpus Littéraire Numérisé. Qu'est-ce que cela pourrait signifier et nous apprendre? Qui sait? Quand on aura ces données, on les fera parler. Ensuite, on pourrait superposer les résultats de l'univers fictif sur celui de l'histoire réelle. On pourrait étudier alors sur une très grande échelle la "mimesis".

Grande Question III

3) Que peut-on savoir de la vie économique en Nouvelle-France à partir de la recherche dans le fonds numérisé sur l'Amérique française. Suivant la même méthode:

- "où il achète"
- Le 28 septembre 1697, il achète du marchand Pierre Lamoureux de Saint- Germain deux emplacements
- En décembre 1678, il achète du maïs
- "où il vend"
- En 1736, il vend encore un navire à Benjamin
- il vend ses produits en gros à un autre marchand local
- il vend la terre à Jean-Baptiste, offrant ainsi à l'ancien esclave
- il vend de nombreux emplacements de 10 par 30 mètres
- le tailleur Lizée afin qu'il paie les 8 livres qu'il devait pour un habit et une culotte.
- il paie 100 sous
- "prix de"
- à Olivier Cadet en 1753 au prix de 550
- il vend à Olivier Charbonneau, au prix de 200
- Les lynx qu'il rapporte sont évalué* entre 6 et 15 écus, un prix de beaucoup inférieur
Le prix de la pension est de 120 livres par année
- Etc. etc.

On recueille donc ainsi la totalité des informations économiques brutes pour un corpus donné, pour une époque donnée.

L'objectif général

D'abord, je ne dis pas que ce genre de cueillette de données n'a jamais été faites, et les types requêtes ne sont nullement nouvelles: conditions (if, else, if not...), variables, "joker". Mais l'analyse des données textuelles-sémantiques est toujours complexe quand on veut aller plus loin que compter les occurrences. Qu'est-ce que ces exemples pourraient nous apprendre pour l'étude de Très Grands Corpus?

Peut-être le plus important. Au départ, pour développer un protocole de recherche, ce qui compte, ce n'est pas du tout la grandeur du corpus (un petit 100 000 pages serait parfait): ce qu'il faut, c'est concevoir les modules de requêtes et surtout, surtout, savoir un peu ce qu'on veut découvrir, dans quelle direction on veut chercher.

Au début de ces recherches dans les Grands Corpus, les données quantitatives vont s'imposer. On débrousse, on code, on inventorie, on compte, on fait des statistiques: on les fera faire par les ordis! Ensuite, on peut créer d'autres requêtes qui interrogent les relations que nous avons établies entre les données, commencer à tisser les réseaux de parentés, les lier aux villes et paroisses, tracer les cartes des alliances et des mariages. Ensuite, projeter ces réseaux sociaux et familiaux sur les réseaux économiques établis parallèlement. Puis, pour la période d'exploration de la Nouvelle-France, relier les deux premiers ensembles aux chemins de découvertes et d'établissement pour superposer les déplacements-explorations sur la vie économiques et les réseaux de parentés. C'est dans ce genre de projet que des applications de crowdsourcing seraient les plus utiles: il y a un cadre de recherche structuré, "pré-digéré", par des experts; ensuite, on stimule et encourage la participation des collectivités intéressées.

Avec toutes ces informations et données représentées sur une carte branchée sur une géo-chronologie, on pourrait reconstituer sur la base d'un Très Grand Corpus Documentaire, l'établissement des communautés francophones en Amériques. On met le curseur à 1534, on clique et on voit à l'écran se dérouler l'établissement des communautés françaises en Amérique.
Je simplifie à l'extrême la complexité et peut-être même la faisabilité d'un tel projet, mais il n'est pas du tout sûr qu'on peut prouver scientifiquement que cela soit impossible...

Comment?

- comment brancher à grande échelle le milieu sur les nouvelles sources documentaires
- comment brancher les ressources documentaires les unes avec les autres

L'autre point serait comment auto-brancher le milieu de la recherche sur lui-même, interconnecter, réseauter organiquement les chercheurs, les amateurs, les non-experts.

Dans l'évolution des ;échanges et des modes de production de la recherche, n'aurait-on pas besoin d'un réseau supra-institutionnel pour regrouper les chercheurs entre eux, liés par leurs travaux et intérêts, leurs publications (et non seulement par leur lien institutionnel), branchés sur leurs publications, etc.