samedi 19 novembre 2011

Données ouvertes SUR Montréal

Il y a des centaines de milliers, des millions de données et d'informations SUR Montréal en plus de celles que possèdent la Ville.
Voici quelques autres source de données publiques ou utilisables:

- Geoliqi a créé une application pour localiser tous les lieux dans les articles de Wikipédia

C'est fait à partir de l'API d'Infochimps pour géolocaliser toutes les données géographiques contenus dans les articles de Wikipedia

- concevoir une application qui lie ces données aux catalogue des bibliothèques de la Ville (ou d'autres base de données pour lier les articles de Wikipedia à la documentation pour les géo-positionner sur une carte interactive. En cliquant sur Place Ville-Marie, Outremont, rue Saint-Laurent... on pourrait obtenir la documentation sur ce lieu. Même application avec une timeline montréalaise: lier la documentation aux et aux événements...

Le Dictionnaire biographique du Canada contient des infos sur des milliers de Montréal

- Internet Archives permet de télécharger facilement la totalité des données bibliographiques des documents qui contiennent "Montréal" (en fichier csv)

- Google Books: l'API devrait rendre possible l'exploitation des documents liés à Montréal

Commission de toponymie du Québec (Topos): chercher tous les toponymes montréalais et créer des applications ou une carte interactive en affichant la notice sur l'histoire du lieu; ajouter des fonctionnalités Web 2.) pour que les citoyens puissent ajouter leur propre souvenirs ou documents sur les lieux montréalais.

Inventaire des lieux de mémoie de la Nouvelle-France: extraire tous les lieux commémoratifs de l'île de Montréal, les géo-positionner

Liste à poursuivre

-

Recherche dans les données des bibliothèques de Montréal

Le 19 novembre 2011 [ à l'occasion du Hackhaton de données ouvertes] , la Ville de Montréal a rendu accessible des données des catalogues de ses 43 bibliothèques. Le fichier contient des informations sur plus de 4,4 millions. En plus des données bibliographiques, certaines données sur les prêts et la circulation des documents devraient être aussi accessibles.

Voici quelques orientations et idées pour exploiter et visualiser ces données.

Tableaux-synthèses de référence à créer pour:

- global pour l'ensemble des bibliothèques : statistiques variés, dynamiques
- bibliothèque: type de doc, catégorie de sujet, etc.
- auteur et éditeur: nombre de titres, prêts
- titres: données globales, par bibliothèque...

Pour l'analyse des pratiques de lecture et culturelles des Montréalais:

1) Prêts des documents (qu'est-ce que les gens ont lu, regardé, écouté)
- total par TYPE de documents (livres, films, musique) et par SUJETS (à partir des mots-clés); outil pour approfondir la recherche par genre de documents par TYPE (romans, documentaires, thriller, etc.), par sous-catégorie de SUJET; par âge ou sexe (si disponible); par succursale

- par DATE (d'édition); par DATE du SUJET ou du TITRE (si disponible: chercher les caractères numériques (ANNÉE) dans le champ SUJET ou TITRE, ex. "1900"

- en valeur absolue; ET en pourcentage, pondéré en fonction du % de type de documents, sujets dans le catalogue globale (ex.: prêt de 40% des films, 25% des livres, 60 des films)

- nombre de prêts par documents uniques, avec une échelle X documents prêtés + de 100 fois, 75 -99 fois, 0 fois; par succursale (pour établir un profil des SUCCURSALES)

- autres possibilités: par LANGUE du documents; origine (Québec - France, autres)

- s'il y a des données sur les ACQUISITIONS: visualiser les acquisions par ANNÉE, TYPE, SUJET, succursale (pour suivre l'évolution de la politique d'acquisition)

2) Nouvelles voies de la recherche sur la documentation  et la visualisation des résultats

Les outils de recherche des bibliothèques sont souvent banals: de longue liste de résultats. Cherchez à inventer de nouveaux modes de visualisations pour la recherche par CONENU et SUJET

- total des documents par TYPE, SUJETS, ANNÉE (absolu/pourcentage pondéré); par succursale

- inventer un mode de navigation dans les SUJETS, sans moteur de recherche, uniquement visuellement, par catégorie et sous-catégorie (voir la visualisation de 3 millions d'articles de Wikipedia avec Sylverlight)

SUR Montréal

- chercher "Montréal" dans tous les champs (environ 32 000 résultats): analyser les SUJETS, et les visualiser dans différents modes: arbre sémantique, hiérarchique, chronologique

- extraires les entités nommées montréalaises (lieux, quartier, personnages historiques, événements, etc.) et les géo-positionnner sur une carte interactive; les positionner dans des chronologies générale et thématiques

Avec l'extraction et la classification des entitées nommées (dans un thésaurus, une ontologie sémantique), les possibilités deviennent extrêmement nombreuses

---
Ces sujets m'intéressent depuis longtemps. Je vous invite à me contacter pour en discuter.

Luc Gauvreau
lgovro@gmail.com




jeudi 17 novembre 2011

Une Grande Bibliothèque ouverte pour et SUR Montréal

Dans le mouvement des données ouvertes, celui des villes et des gouvernement ouverts, les informations historiques ou culturelles, contenues dans les archives de l'imprimé et les bibliothèques font souvent l'objet de peu de discussion. Les applications pratiques pour répondre aux citoyens en "real time" semblent être les plus développées, susciter le plus grand intérêt. Pourtant, les administrations municipales ne sont pas que des infrastructures matérielles, mais aussi des lieux de culture. Les bibliothèques, musées, festivals, théâtres, cinémas, parcs et jardins font aussi partie des services essentiels qu'une ville doit offrir à ses citoyens. Il faut donc aussi ouvrir les données et les informations des institutions culturelles pour que Montréal devienne une vraie ville ouverte.

Dans ce domaine, ce sont les programmes de numérisation dont on parle le plus, ou des projets en arts numériques. En ce moment, il y a des centaines de milliers pages et d'images, sans doute quelques millions, déjà en ligne, reliées à Montréal et son histoire. Cette documentation est-elle pour autant vraiment accessible, diffusée, lue?

Les ressources de données et d'informations contenues dans ces millions pages sont généralements peu consultées, sous utilisées par rapport aux multiples usages que l'ont peut en faire aujourd'hui. Les sites institutionnels dans lesquels on les consulte sont rarement autre chose qu'un entrepôt de fichiers pdf ou jpg que l'on trouve à partir d'un catalogue en ligne élémentaire, avec peu ou pas de fonctionnalités du Web 2.0. Comme si après la numérisation, il ne restait plus rien à faire. Au contraire, le vrai travail de recherche et d'innovation ne fait que commencer. On doit plutôt considérer cela comme un nouveau territoire de données à exploiter. Cela exige d'en refaire l'inventaire, l'indexation, la classification avec les outils d'extraction, d'analyse et de visualisation que nous possédons aujourd'hui.

Heureusement, il y a parfois de belle initiative. Samedi, le 19 novembre, au Hackhaton, la Ville de Montréal va ouvrir le catalogue de ses 43 bibliothèques, ainsi que des données sur la circulation des documents. C'est une excellente nouvelle! Pour étudier les pratiques culturelle des Montréalais, pour créer toutes sortes de visualisations des collections, pour intégrer les activités des abonnés dans leurs réseaux sociaux, pour explorer la documentation sur Montréal de mille façons, c'est vraiment une très stimulante initiative. C'est une porte ouverte sur d'autres manières de concevoir l'accessibilité aux bibliothèques.

En ce moment, les documents et les informations SUR Montréal sont dispersés dans plusieurs institutions: archives et services de la Ville, bibliothèques nationales (Québec, Canada), bases de données gouvernementales, centres d'archives, sociétés d'histoires, musées (McCord), etc. Avec l'ouverture des données et l'interopérabilité croissant des systèmes de gestion des bibliothèques, les millions de pages "montréalaises" déjà numérisées par Google Books, BAnQ, Internet Archives, Notre mémoire en ligne, il est maintenant possible de regrouper toute cette documentation dans une seule base de données. Tous les documents, données et informations du domaine public pourraient être accessibles à travers un API pour créer la Grande Bibliothèque Ouverte Numérique de Montréal. On peut aussi imaginer de nouvelles bibliothèques pour réunir "virtuellement" toute l'information disponible par arrondissement, quartier, lieu, événement.

- participation de BAnQ au mouvement de l'Open bibliographic data: libre accès aux données et au fichier autorité
- partage de la documentation (données et fichiers numérisés) sur Montréal avec la Ville, d'autres institutions, les citoyens
- s'associer à la communauté de développeurs pour accroitre la diffusion de la culture québécoise et de l'information sur Montréal
- initier un large débat sur l'utilisation des oeuvres et des documents du domaine public, par le milieu scolaire, les éditeurs, les développeurs, les citoyens
- accueillir un prochain Hackhaton dans le grand hall de la Bibliothèque pour inventer de nouvelles façons de lire, d'écouter, d'organiser l'information historique et culturelle SUR Montréal.

Les élections ont lieu du 22 au 27 novembre 2011, en ligne, sur le site de BAnQ. Pour plus d'informations et voter, visiter le site internet:

Je vous remercie de votre appui,

Luc Gauvreau
-

lundi 14 novembre 2011

Élection au CA de BANQ

J'ai posé ma candidature pour représenter les usagers de l'île de Montréal au conseil d'administration de Bibliothèque et Archives nationales du Québec. Quinze autres personnes ont posé leur candidature...

J'aimerais compter sur votre appui.

Amateur de livres et de bibliothèques depuis l’école primaire, j’aimerais mettre mon expérience aux services des abonnés montréalais de BAnQ pour en faire une institution encore plus accessible, mieux branchée sur les ressources du numérique. Depuis plus de 20 ans, j’ai utilisé tous les services des bibliothèques, des microfilms aux bases de données, et j’ai consulté toutes les collections, des cartes postales aux archives privées. Je m’intéresse maintenant aux mutations de l’écrit et de l’imprimé vers le numérique.

Pour lire la suite de ma présentation, je vous invite à la consulter sur le site de BAnQ.

Pour avoir le droit de vote, il faut: habiter sur l'île de Montréal, avoir
18 ans et plus, être abonné à BAnQ.

Le scrutin électronique aura lieu du 22 novembre à 10 h au 27 novembre à 17 h.

Merci de faire circuler cette information parmi vos amis, vos réseaux sociaux, vos contacts.

Je vous remercie de votre soutien,

Luc Gauvreau

jeudi 10 novembre 2011

Le Montréalscope (version complète)

Au Web In 2011 consacré au Web du futur, organisé par l'Alliance numérique, tous les conférenciers avaient 10 minutes pour exposer leurs projets et leurs idées: c'est pas long! Mais cela a donné un rythme stimulant à la journée.
Pour voir et lire ma présentation complète du Montréalscope, il m'aurait bien fallu 20 ou même 30 minutes. Vous pouvez juger par vous-même.
Pour lire mes commentaires, cliquer sur la roulette des options et Afficher les commentaires. L'affichage plein écran est meilleure.
C'est un projet in progress, comme on dit. Tous les commentaires sont bienvenus. Merci!


mardi 1 novembre 2011

Le Montréalscope: histoire données au futur

Au Web In 2011, organisé par Alliance numérique, j'ai présenté une proposition pour organiser et observer la totalité des informations sur Montréal et son histoire:

Le projet du Montréalscope propose d'ouvrir un chantier numérique pour construire le premier territoire virtuel urbain, l'espace structuré de la totalité des données de l'histoire et du présent de la ville. C'est une plateforme pour inventer un nouveau Grand Montréal, une hyper-réalité augmentée, un lieu d'échange commun d'exploration, de découvertes, d'aventures culturelles et technologiques.
Les bibliothèques conservent les données de millions de textes. La numérisation des imprimés ouvre les livres et rend possible l'extraction des informations qu'ils contiennent.
Le défi est aujourd'hui d'entreprendre un séquençage des écrits humains pour lier les données publiées dans l'imprimé aux « Big Data » diffusées en temps réel dans le Web et les réseaux sociaux. (Présenté par Luc Gauvreau; conception visuelle: Irène Ellenberger)


La semaine prochaine, toutes les conférences devraient être en ligne dans le site du Web In.

vendredi 2 septembre 2011

Métaphores du livre

Au Moyen-Âge, le monde était le Grand Livre de Dieu dans lequel on apprenait à déchiffrer le sens qu'Il y avait mis tout en ayant foi dans les mystères que ce Livre divin contenait. Aujourd'hui, le livre n'est plus une métaphore structurante du monde ni même de la connaissance. C'est plutôt le livre qui est comme la Grande Toile, comme le Web, fait de relations, de liens. Un dictionnaire (imprimé sur papier) est vu maintenant comme un document numérique dans lequel les liens hypertextes sont réalisés en tournant les pages plutôt qu'en appuyant sur le museau de la souris.

À quel moment le comparant "livre" est-il devenu un "comparé"? Que cela signifie-t-il? Certainement, un changement en profondeur dans la place qu'il occupe dans la culture.

L'idée d'une Église catholique contre le livre et la lecture est toujours paradoxale. Si elle a mis en place l'Inquisition et toutes sortes de politique de censure à travers le temps et les pays, c'est que l'Église croyait dans les pouvoirs du livre, des livres: elle était bien obligée avec la Bible comme fondement.

Si on s'élève aujourd'hui contre toute forme de censure du livre, des idées ou des paroles, ce n'est pas que pour des raisons de libertés individuelles. C'est aussi parce que la croyance dans les pouvoirs du texte et du livre a beaucoup diminuée sinon disparue. Pourquoi mettre en place tout un système d'interdiction de l'écrit si on ne lui reconnaît pas le pouvoir de modifier les esprits ou de les changer? Pourquoi interdire un livre quand on ne croit pas qu'il puisse changer quoi que ce soit? Pourquoi le ferait-on?

Les termes, les images et les métaphores pour décrire Internet ont envahi le domaine des métaphores: réseau, toile, navigation, discontinu, fragmentaire, aléatoire, virtuel, numérique, lien, non-linéaire, connexion, etc. Internet a re-métaphorisé un lexique ancien appartenant à d'autres domaines de l'activité humaine: naviguer et toile par exemple, empruntés à la marine, ont acquis d'autres significations dans le domaine des NTIC. On pourrait chercher dans le Petit Robert numérique les termes pour lesquels on a ajouté une entrée précédée d'expressions comme "en informatique", "dans Internet", comme on mentionne "en linguistique", en "biologie", etc. Il y a des nouveaux mots, mais quels "anciens" mots ont acquis des sens nouveaux?

Dans le Grand Corpus Numérisé, comme celui auquel donne accès les Ngrams de Google, pourrait-on dessiner l'évolution du champ sémantique d'un mot-clé de la culture comme "livre", observer sa période d'extension sémantique presque impérialiste et son déclin à l'heure présente. On y observerait le parcours d'un mot au début de son usage intensif, alors qu'on le compare à quelque chose, le moment où il est le comparé. Puis, en même temps que l'accroissement de sa valeur culturelle et symbolique, le mot "livre" est devenu à son tour un comparant, une sorte de levain sémantique qu'on lie métaphoriquement à d'autres mots pour faire lever leur sens.

Aujourd'hui, ce mot-clé de "livre" redevient un simple comparé, ou pire, il connaît une sorte d'inversion sémantique de son aire métaphorique. De valorisant, il devient péjoratif: linéaire comme un livre, fermé, ou "autoritaire", monosémique, etc., comme si tout ce qui lui avait donné le pouvoir de devenir le Grand Comparant, jusqu'à créer l'équation Monde = Livre, s'estompait peu à peu, se refermait sur la culture du livre d'où il était sorti.

Le livre et disons mieux, disons le roman, au moins la longue histoire du roman occidental, a peut-être été un combat contre le chaos du monde, échevelé, discontinu, in-sensé. Des centaines d'années à construire ce que Bakhtine appelait la "maîtrise des faits dans la temporalité", de la réalité prise dans le mouvement du temps, sans début fixe ni fin déterminée. Comment dans ce temps sans commencement ni fin, sans programme ni finalité, raconter une ou des histoires, les faire tenir entre quelques-unes ou des centaines de pages? Tout le travail de générations de romanciers a été cela. Tellement bien réussi que le récit "avec un début et un fin bien déterminés" paraît être la forme naturelle du récit alors qu'il en est une de ses formes les plus construites. C'est plutôt le récit échevelé, sans queue ni tête, le récit sans début évident ni fin certaine qui est la forme "naturelle" du récit.

Les récits non-linéaires, mis en valeur dans la littérature du XXe siècle, et célébrés par tout un courant des études sur les récits de l'ère numérique, seraient peut-être plutôt qu'une avancée vers des formes plus évoluées du récit, une sorte de régression au stade primitif du récit, aussi chaotique que le monde avant que le premier véritable conteur y donne sens et lui donne des significations. Dans la persistance des récits "traditionnels", ceux qui demeurent encore et contre toute tentative les vrais seuls best-sellers aujourd'hui, ce besoin grégaire, atavique, d'opposer au désordre insensé du monde, un récit lié-liant, s'exprime l'opposition de la conscience à la réalité immédiate composée des infinies perceptions des sens et des mouvements du monde.

mercredi 4 mai 2011

Publier des bases de données

Les bases de données, terme réservé jusqu'à récemment aux professionnels de l'informatique, est devenu une expression courante, et si le gens n'en sont pas toujours conscients, une part de plus en grande de l'information dans Internet, sinon la plus grande partie, se trouve, d'une façon ou d'une autre, dans une base de données. Les pages html statiques sont de plus en plus rares. À mesure que s'étend les applications où on peut ajouter des infos en ligne, les réviser, les compléter, les supprimer, plus cela sous-entend une "base de données" ou un système de gestion de contenu organisé d'une façon similaire à une base de données relationnelles. Les profils d'usagers, les blogues, les intranets où le personnel ajoute du contenu et le modifie, s'appuient plus ou moins sur des bases de données. (Techniquement, ce n'est peut-être pas le bon terme, mais l'esprit et les possibilités sont les mêmes).

Mais, voilà, il y a, pourrait-on dire, deux modalités pour présenter le contenu d'une base de données:

-1) une base de données "statique" qui attend les requêtes de l'usager dans un moteur de recherche pour afficher une partie du contenu.

- 2) une base de données dynamique et active ou plutôt "activée" par les responsables qui affichent plusieurs contenus de la base de données dans des gabarits, des modules de publication et des formats pré-établis.

Par exemple, sur les sites des journaux et des médias d'informations, on trouve sur toutes les pages des informations de la base de données déjà "affichées" pour l'usager: chroniques, manchettes, blogues, sections, etc. Chaque page contient en fait tout un ensemble de "requêtes", simples ou complexes", pré-définies, qui affichent l'ensemble des résultats dans une structure infographique donnée dès que l'usager fait afficher la page dans son navigateur. En fait, la page d'accueil de CyberPresse ou de Radio-Canada est comme une multi-requêtes qui affiche les résultats sous le titre de chaque rubrique et section.

Par opposition, on pourrait imaginer une sorte de portail absurde où plutôt que d'affiche immédiatement les dernières nouvelles sportives, culturelles, politiques, économique, il y aura sous chaque rubrique une ptit moteur de recher où l'usager trouverait autant de petit moteur de recherche où il devrait entre une recherche pour que sa page se remplissent d'informations!!! Ce média ne survivrait pas longtemps.

Cela est absurde, et pourtant les sites des bibliothèques institutionnelles et surtout de plusieurs grandes collections de fichiers numériques sont construits souvent dans cette esprit-là ou presque. C'est-à-dire que l'information affichée est sous la responsabilité de l'usager, c'est lui qui doit travailler à faire apparaître des informations et des contenus, sinon il ne voit rien. L'usager est devant une base de données statique qui attend d'être activée.

Sur les sites commerciaux, les gestionnaires ont déjà cherché de l'information avant même qu'un usager arrive dans leur site. Ce qui s'affiche dans la fenêtre du navigateur, ce sont les données de la base pré-activée par les responsables.

Le site de Google Archives pour la recherche dans les journaux numérisés, c'est un peu, beaucoup ça. L'étonnante Timeline qui s'affiche en haut de chaque résultat s'appuie nécessairement sur une méta-requête, sur une pré-indexation intelligente de toutes les dates dans les millions de page du corpus. Google a dû chercher et indexer les 365 dates de toutes les années (2 mars 1652, 3 avril 1876, etc, pour chaque date, pour chaque année!!!) que couvre leur corpus pour pouvoir créer automatiquement une Timeline aussi performante.

À la requête simple de l'usager, comme chercher l'expression "New France", s'ajoute une requête extrêmement complexe de la recherche des occurrences de ce terme, croisées avec la multitude des dates que l'on trouve à une certaine "proximité" sémantique de "New France". En fait, il est difficile de savoir comment Google a procédé, mais une chose est sûr: la requête simple de l'usager y est multipliée par le travail de formalisation et d'indexation réalisés avant qu'il la fasse.

Une fois liée à la méga-requête de la Timeline de Google, l'usager n'a plus à faire d'autres requêtes pour préciser la période historique qu'il veut couvrir, puisque Google y a déjà pensé. Mieux que ça, on peut imaginer une équipe d'historien construire des thésaurus thématique sur des grands événements ou des plus petits pour que la Timeline fasse apparaître non pas les seuls occurrences d'une expression à travers les années et les siècles, mais tout un réseau de mots-expresssions distribués sur des durées longues et courtes.

samedi 23 avril 2011

Voyage dans les lieux de mémoire de la Nouvelle-France

Le projet d'inventaire des lieux de mémoire de la N-F par le Célat est très avancé et intéressant. Comme souvent, l'interface n'a pas la qualité et de la richesse de la recherche: les universitaires sont habitués à travailler à la dure, sans beaucoup de flafla. Les informations données sont souvent exhaustives, parfois dans les moindres détails du dépouillement; plusieurs clics avant de voir ce qu'on veut voir. La norme serait 3 clics: plus que ça, les gens ne cliquent plus. On peut se demander si même d'autres chercheurs y trouvent vraiment leur compte. Critique secondaire par rapport à la valeur de la recherche et au but du projet...

Il y a tout de même là une question de fond: est-ce que les sites de recherche, où sont affichés-diffusés les résultats, reçoivent le soutien éditorial pour vraiment les mettre en valeur? N'importe quelle publication de recherche sur papier tombe aujourd'hui dans les mains de professionnels: éditeurs, graphistes, rédacteurs, imprimeurs, etc. On n'a qu'à voir comment la mise en page des revues savantes a évolué, comme Voix et images, ou les titres de Nota Bene.

Quand on regarde les sites qui publient les résultats de recherche, ceux qui auraient le potentiel de rejoindre un assez grand public, on a l'impression de revenir en arrière. La qualité de l'ergonomie, du design, de l'infographie n'est pas à la hauteur de la recherche ni des équivalents sur papier. Les presses universitaires devraient développer des expertises en édition numérique pour concevoir les sites de recherche et agir comme de vrais éditeurs comme elles le font auprès des chercheurs qui leur envoient un bon gros manuscrits en fichier Word.

Il y a aussi une problématique nouvelle, celle de publier des informations et des données qui sont des base de données, et ne s'affichent qu'à partir d'une requête de l'usager. La quantité d'informations affichées peu varier considérablement: imprimées, les informations sont toujours identiques d'un usager à l'autre. Il y a donc une sorte d'esthétique propre à l'usage des BD (base de données) à développer: une esthétique du moteur de recherche et de l'appareil des requêtes et une esthétique de l'affichage des résultats. Le numérique donne aussi la possibilité à l'usager d'ajuster les deux éléments selon ses intérêts et ses préférences: recherche simple, complexe, résultats élémentaires ou complets.
Ces deux esthétiques vont beaucoup influencer le type et le nombre d'usagers.
Dans le contexte où chaque personne branché utilise de nombreux moteurs de recherche et se familiarise avec des sites très populaires, tous les sites sont en concurrence avec les meilleurs. On délaisse les sites peu performants, même au contenu intéressant. On se tourne vers les sites aux ergonomies les plus conviviales: c'est comme ça. Et un site fabuleux mais mal conçu n'y pourra rien.

mardi 8 mars 2011

Exercice de recherche prospective... Corpus amériquain et européen

(Une première version de ce projet a été écrite dans la cadre d'échanges avec Christian Vandendorpe, auteur de Du papyrus à l'hypertexte. Essai sur les mutations du texte et de la lecture, Montréal, Boréal & Paris, La Découverte, 1999, 271p.)

À partir de Google Archives qui a indexé toutes les dates (la frise chronologique n'est plus affichée maintenant), j'ai essayé quelques requêtes personnelles. Je me suis d'abord branché à Google Books pour sélectionner 50 titres des Éditions du Septentrion (spécialisée en histoire Canada-Québec) et je les ai ajoutés à Ma Bibliothèque personnelle Google Books. Ensuite, j'ai paramêtré "Éditeur = "Éditions du Septentrion", et voici ce que j'ai cherché et trouvé à partir de "Grandes Questions". Évidemment, l'échantillon est arbitraire, non scientifique, et les résultats en soi sont trop incomplets pour permettre des conclusions précises.

Je voulais plutôt tester une méthode de recherche et d'extraction de données "sémantiques".

Grande Question I

1) Pourrait-on construire une base de données biographiques/généalogiques des habitants de la Nouvelle-France à partir de 10 millions de pages?
(Mon échantillon est de 50 ouvrages, entre 10 000 et 15 000 pages). Dans les listes suivantes: sujet de recherche = total des résulats trouvés:

- "né à" = 166 lieux de naissance d'homme (précédé ou suivi des noms de personne)
- "née à" = 66 lieux de naissance de femmes
- "il meurt le" = 30 dates de décès d'hommes
- "la mort de" = 222 décès
- "le fils de" = 119 noms d'homme et relations fils-parents
- "la fille de" = 85 noms de femmes et relations filiales
- "grand-père de" = 37 noms d'hommes et relations filiales

- "âgé de" = 120 repères biographiques masculins
- "âgée de" = 60 repères biographiques féminins
- "étudié à" = 33 infos sur les études de X dans le lieu d'enseignement Y
Etc, etc...

La méthode serait la suivante:

- sur le plan lexical, on établit une liste de «mots-chercheurs» et leur réseau de synonymes
- lié à un lexique encyclopédique des noms Autorité des toponymes, anthropoymes, etc.
- sur le plan grammatical, on "lemmentise" les expressions (né, naquit...), on varie selon le genre (elle/il) et le nombre
- sur le plan syntaxique, on schématise les structures pertinentes et joue de la permutation: la/le(s) fils/fille(s); enfant(s), etc.

À partir de ces données brutes, on crée des sous-requêtes pour trouver les informations associées ("fils de" + Nom Propre) pour raffiner autant qu'on peut la cueillette d'infos. On étiquette chaque résultat, puis on filtre, vérifie, corrige, identifie les doublons, supprime de fausses occurrences, et on commence à construire une base généalogique, un dictionnaire biographiques des habitants de la Nouvelle-France, et un index général qui indiquent les textes où ils sont mentionnés. (Après quelques mois de travail!)

Grande Question II

2) À partir d'un sous-corpus de la totalité des textes de découvertes et d'exploration (multilingues), peut-on tracer la carte la plus complète de leur déplacement chronologique dans le territoire du Nouveau Monde?
Pour ce faire, il faudrait répertorier tous les indices temporels possibles:


- "lundi le" = 27 lundi historiques
- "en juin" = 200 événements
- "au mois de" = 130 dates et événements
- "aux années" (trouvent les expressions comme "jusqu'aux années 1950") = 80 événéments
- "avant 1760" = 21 évéments ou interprétations d'avant la Conquête
- "après 1760" = 20 évéments ou interprétations d'avant la Conquête
Etc., etc.

Ensuite, il faudrait considérer la durée des événements (je n'ai pas retenu le total des résultats pour toutes les autres recherches après avoir trouvé la "méthode"):

- L'expédition dura deux ans et quatre mois
- un procès qui dura douze ans
- une bataille qui dura toute la journée
- Le trajet dura quatre heures
- l'incendie ne dura pas plus d'une heure
- Cette association ne dura que ces deux années-là
- son gouvernement, qui dura de 1887 à 1891
- Pendant la semaine que dura la bataille
- La grève des enseignants dura deux mois
- Etc., etc. 

La structuration de ces résultats montre qu'on pourrait créer une table de concordances exploitée de cette manière, avec un logiciel qui saisirait le substantif-événement-sujet placé avant le verbe et le(s) substantifs temporels compléments circonstanciels de temps placés après:

- trouver les verbes, expressions, locutions qui indiquent des déplacements
- "embarque sur" = permet de trouver 34 noms de bateaux, des voyages en train, etc
- "arrive à" et "arrivé à" = 372 lieu d'arrivées
- "partit de" = 24 lieux de départs
- "le voyage de" = 83 voyages + nom propre et/date
- le voyage de Carton de Wiart
- le voyage de nôtre Capitaine Jacques Quartier
- Le voyage de retour commence le 6 juillet 1672
- le Voyage de Pehr Kalm au Canada en 1749
- le voyage de Montréal à Walla Walla
- Le voyage de messire Brady n'est pas moins de trois jours et de 24 lieues de
route
- Au temps de Frédéric, le voyage de Montréal à Sainte-Anne-de-Beaupré par bateau
dure trente-six heures [très riches données temporelles et spatiales en un seul énoncé]
"il s'établit" = 36 "établissements" + Noms
il s'établit lui-même à La Hève
il s'établit d'abord sur la rue du Parloir
À partir de la banque terminologique de la Commission de toponymies et d'autres inventaires officiels, on indexerait tous les toponymes. Il y a peut-être même un programme d'analyse linguistique qui pourrait trouver les lieux: si on cherche "où", on trouve des "lieux", etc. Le temps et l'espace ont des champs lexicaux larges mais définis: années, mois, moment, jours, avant, pendant, après, etc.; maison, colline, rivière, port, ville, paroisse, comtés. Un programme pourrait de cette manière recueillir des données fabuleuses. Ça deviendrait une base d'une recherche, une collection de matériaux linguistiques, des sources d'analyses. Je parle surtout de documents historiques, mais la même chose pourrait être fait dans un Grand Corpus Littéraire Numérisé. Qu'est-ce que cela pourrait signifier et nous apprendre? Qui sait? Quand on aura ces données, on les fera parler. Ensuite, on pourrait superposer les résultats de l'univers fictif sur celui de l'histoire réelle. On pourrait étudier alors sur une très grande échelle la "mimesis".

Grande Question III

3) Que peut-on savoir de la vie économique en Nouvelle-France à partir de la recherche dans le fonds numérisé sur l'Amérique française. Suivant la même méthode:

- "où il achète"
- Le 28 septembre 1697, il achète du marchand Pierre Lamoureux de Saint- Germain deux emplacements
- En décembre 1678, il achète du maïs
- "où il vend"
- En 1736, il vend encore un navire à Benjamin
- il vend ses produits en gros à un autre marchand local
- il vend la terre à Jean-Baptiste, offrant ainsi à l'ancien esclave
- il vend de nombreux emplacements de 10 par 30 mètres
- le tailleur Lizée afin qu'il paie les 8 livres qu'il devait pour un habit et une culotte.
- il paie 100 sous
- "prix de"
- à Olivier Cadet en 1753 au prix de 550
- il vend à Olivier Charbonneau, au prix de 200
- Les lynx qu'il rapporte sont évalué* entre 6 et 15 écus, un prix de beaucoup inférieur
Le prix de la pension est de 120 livres par année
- Etc. etc.

On recueille donc ainsi la totalité des informations économiques brutes pour un corpus donné, pour une époque donnée.

L'objectif général

D'abord, je ne dis pas que ce genre de cueillette de données n'a jamais été faites, et les types requêtes ne sont nullement nouvelles: conditions (if, else, if not...), variables, "joker". Mais l'analyse des données textuelles-sémantiques est toujours complexe quand on veut aller plus loin que compter les occurrences. Qu'est-ce que ces exemples pourraient nous apprendre pour l'étude de Très Grands Corpus?

Peut-être le plus important. Au départ, pour développer un protocole de recherche, ce qui compte, ce n'est pas du tout la grandeur du corpus (un petit 100 000 pages serait parfait): ce qu'il faut, c'est concevoir les modules de requêtes et surtout, surtout, savoir un peu ce qu'on veut découvrir, dans quelle direction on veut chercher.

Au début de ces recherches dans les Grands Corpus, les données quantitatives vont s'imposer. On débrousse, on code, on inventorie, on compte, on fait des statistiques: on les fera faire par les ordis! Ensuite, on peut créer d'autres requêtes qui interrogent les relations que nous avons établies entre les données, commencer à tisser les réseaux de parentés, les lier aux villes et paroisses, tracer les cartes des alliances et des mariages. Ensuite, projeter ces réseaux sociaux et familiaux sur les réseaux économiques établis parallèlement. Puis, pour la période d'exploration de la Nouvelle-France, relier les deux premiers ensembles aux chemins de découvertes et d'établissement pour superposer les déplacements-explorations sur la vie économiques et les réseaux de parentés. C'est dans ce genre de projet que des applications de crowdsourcing seraient les plus utiles: il y a un cadre de recherche structuré, "pré-digéré", par des experts; ensuite, on stimule et encourage la participation des collectivités intéressées.

Avec toutes ces informations et données représentées sur une carte branchée sur une géo-chronologie, on pourrait reconstituer sur la base d'un Très Grand Corpus Documentaire, l'établissement des communautés francophones en Amériques. On met le curseur à 1534, on clique et on voit à l'écran se dérouler l'établissement des communautés françaises en Amérique.
Je simplifie à l'extrême la complexité et peut-être même la faisabilité d'un tel projet, mais il n'est pas du tout sûr qu'on peut prouver scientifiquement que cela soit impossible...

Comment?

- comment brancher à grande échelle le milieu sur les nouvelles sources documentaires
- comment brancher les ressources documentaires les unes avec les autres

L'autre point serait comment auto-brancher le milieu de la recherche sur lui-même, interconnecter, réseauter organiquement les chercheurs, les amateurs, les non-experts.

Dans l'évolution des ;échanges et des modes de production de la recherche, n'aurait-on pas besoin d'un réseau supra-institutionnel pour regrouper les chercheurs entre eux, liés par leurs travaux et intérêts, leurs publications (et non seulement par leur lien institutionnel), branchés sur leurs publications, etc. 



jeudi 6 janvier 2011

Direction générale des travaux....

Dans le domaine de l'histoire, il y a maintenant une accessibilité à une quantité gigantesque de documents imprimés, iconographiques, audio-visuels, statistiques, inimaginable voilà à peine quelques années. La connaissance historique que l'on peut faire jaillir de ces vertigineuses données représente un monde possible, un univers à faire advenir, le seul qui soit vraiment et authentiquement virtuel, c'est-à-dire "qui ne l'est qu'en puissance, qui est à l'état de simple possibilité". Le Robert petit continue et ajoute que les "particules virtuelles sont des particules fictives permettant d'expliquer l'interaction entre les quantons".

Cette documentation-monde contient donc une connaissance en puissance, une connaissance fictive, alors que les fichiers numériques, eux, sont réels et non virtuels, comme on le dit souvent incorrectement. C'est une connaissance qui n'existe pas encore, elle est seulement une possibilité de connaître, une possibilité de connaissances nouvelles pas encore tombées de l'univers fictif-virtuel créé par la masse documentaire pour prendre forme dans des résultats tangibles: oeuvres, discours, encyclopédie, paroles, sites.
D'où peuvent venir ces objets de connaissances nouvelles?

Sinon de l'acte de connaître lui-même qui consiste d'abord dans l'interrogation des bases de données numériques qui forment aujourd'hui des sortes de réserves culturelles de connaissances, des couches sédimentaires intellectuelles accumulées au cours des siècles dont il convient d'explorer la richesse pour agrandir le domaine du connu, les sortir de l'univers des virtualités cognitives pour en faire du connu.
Mais que voulons savoir, connaître? C'est la question!
Le fait est connu: une majorité de gens cherchent souvent leur propre nom ou quelque chose d'autre qu'ils connaissent déjà très bien dans Internet! Quelle est la motivation, la volonté de connaître dans ces recherches? Quelque chose de nouveau sur eux-mêmes qu'ils ne connaîtraient pas? Ou plutôt connaître "ceux" qui connaissent quelque chose sur eux ou ont "parlé" d'eux? Vanité, peut-être, mais surtout la situation de quelqu'un qui ne sait pas ce qu'il veut chercher ni ce qu'il veut savoir ne sachant pas exactement ce qu'il peut trouver.
Où placer la curiosité dans tout ça, à l'intérieur d'une théorie de la connaissance qui ne s'intéresserait pas seulement à comment nous connaissons mais aussi à pourquoi voulons connaître?
Comment rendre ces connaissances virtuelles réelles? D'où vient tout simplement la connaissance? pourrait demander le philosophe.

Pour s'en tenir à un corpus textuel, quelle lecture nouvelle la numérisation rend-elle possible qui n'existait pas auparavant? Éliminons la lecture continue à l'écran du fichier pdf d'un document papier: c'est une lecture traditionnelle qui continuera malgré toutes les évolutions technologiques pour bien longtemps encore. On parle souvent de lecture discontinue, fragmentaire, aléatoire. Certains la célèbrent; d'autres la dénoncent: ce nouveau mode de lecture est aussi là pour rester, et il étend d'ailleurs, à des proportions inattendues, le très vieux mode du feuilletage, du saut de passages ennuyants, des lectures en diagonales. Une différence inédite pourtant est qu'un lecteur peut feuilleter-sauter instantanément entre plusieurs documents.
C'est encore mettre l'accent sur la lecture individuelle et non pas sur un projet de lecture systématique d'un assez large corpus dans le cadre d'une recherche précise, même si elle peut très bien être celle d'un seul lecteur, poursuivie pour son seul plaisir. Même si ce n'est pas une "vraie" recherche, avec un plan et des objectifs précis, la question demeure: comment lire une grande masse textuelle?
Pour lire, ul faut d'abord une intention, un projet de lecture. On se lasse vite de parcourir des dizaines de documents numériques trouvés au hasard: ou on arrête tout, ou on en choisit un, et on le creuse, on le lit à l'ancienne, en continu.
C'est paradoxal: on dirait que le projet de lire un grand corpus empêche en fait la lecture de ce corpus dans un format nouveau. On ne peut pas tout lire les textes à la manière traditionnelle, alors on n'en lit aucun, ou seulement quelques-uns. De retour à la case de départ. Il y a donc à trouver des modes d'appréhension de la matière textuelle qui soit autre chose qu'une lecture continue d'un document après l'autre, suivie de notes de lectures, de résumé, d'analyse.

Le nombre de textes à lire, souvent impressionnant, apparaît suite à une requête simple dans le moteur de recherche: cette opération ne sert qu'à créer une sous collection du corpus général. La petite fenêtre du formulaire aussi simpliste qu'elle soit demeure la seule voie pour commencer à "lire-chercher" dans un grand corpus. Pour lire mieux, il faut donc multiplier le nombre de requêtes, accroître leur niveau de complexité, prévoir de longue liste de mots à chercher simultanément, avoir des outils d'analyses des résultats, des séries de requêtes combinatoires, des analyseurs sémantiques, etc.

Dans cette perspective, l'acte de "lecture" consiste dans un montage raisonnée de questions, un parcours de curiosité pour chercher un sujet, construit à partir d'un ensemble de mots, d'expressions, éventuellement de catégories linguistiques (verbes, pronoms, adjectifs), de structure syntaxique ou morphologique. "Lecture" entre guillemets puisqu'à cette étape, c'est toujours le moteur de recherche qui ne repère que les chaînes de caractères que l'on donne à chercher.

Le projet de recherche prospective sur l'Amérique conquérante de l'Europe ou sur l'Amérique française dans l'imprimé mondial seraient de bons exemples. On peut bien étendre le concept de lecture à cette étape, mais il s'agit plutôt de sélectionner un corpus thématique à partir duquel des lectures seront possibles. Difficile d'employer le mot "lecture" dans une opération qui consiste essentiellement à entrer quelques mots à la fois dans un formulaire de recherche. C'est plutôt se donner des conditions de lecture dont il s'agit, de sortir le corpus numérisé de sa pure virtualité pour s'approcher de sa lecture réel et de ses lecteurs réels.
Pas une lecture, mais un acte intellectuel par lequel on donne sens à un ensemble de documents par leur réunion dans une bibliothèque particulière de la bibliothèque universelle. De simples données dans un catalogue numérique, les documents s'intègrent dans un ensemble signifiant.

Questions:

- comment exploiter la richesse de la masse documentaire mis à la portée de tous et des chercheurs?
- comment transformer la matière textuelle en informations, en savoirs, en significations, en théorie, en culture, en sagesse...