samedi 28 janvier 2012

Temps, archives et Internet: une histoire hors du temps


Quand viendra le temps d'indexer un jour les milliards de documents "nés numériques", les archivistes, historiens et bibliothécaires auront un problème nouveau: trouver la date de parution-publication de chacun des documents, des textes, des tweets, des commentaires, des textos.

Au minimum, on peut trouver la date de création du site où paraît le document la première fois. Trouver la date de parution du document lui-même est déjà plus compliqué, même en supposant que le "document" n'ait été modifié qu'une seule fois. Et d'ailleurs, question fondamentale: qu'est-ce qu'un document dans Internet? Si même le concept de "document" est toujours valable.

Autre chose, quel document n'aura jamais changé de "lieu" de publication, de site? Il peut très bien avoir paru sur le site X en 1998, avoir été débranché pendant quelques années et avoir été republié plusieurs années plus tard.

Internet, c'est aussi le règne de la duplication des documents, tous peuvent être reproduits un très grand nombre de fois sur autant de sites, même à l'intérieur du même site. Pensons aux images ou illustrations, sur combien de sites une photo peut-elle être publiée? Des milliers, des millions...

C'est comme s'il y avait une confusion, un mélange, entre une édition particulière d'un document et les exemplaires de ce tirage. Dans internet, c'est comme s'il y avait autant d'édition d'un titre qu'il y a d'exemplaires! En fait, on pourrait donner aux sites internet le statut de bibliothèques virtuelles, soit un lieu où sont regroupés un nombre X de "documents", où ils sont conservés temporairement ou pour une longue durée. Ici, l'éditeur du document, ou plutôt l'entité responsable de la création du document, ne correspond pas au site lui-même.

Par exemple, que sont, sur le plan de la bibliographie, Youtube, Flickr, Facebook, Google+, WordPress, Twitter? Tous ces sites où les usagers publient et diffusent des documents: des éditeurs? Oui, car ils créent des interfaces particuliers pour la publication-affichage; non, car ils ne font pas de choix ni de sélection. Ils ne possèdent pas les droits d'auteur sur les oeuvres et les informations qu'ils diffusent, mais font signer un contrat où chaque abonné leur cède des droits quasi universels et éternels (non-exclusifs!, c'est tout ce qu'ils laissent à leurs abonnés.).

Comment étudier la diffusion d'une idée, d'un document, d'une image dans Internet? Il n'y a comme pas de points fixes... Comment établir une chronologie? Comment suivre la diffusion d'un document et même d'un site? Plusieurs sites ou pages changent de nom, de serveur, de fournisseurs de services Internet? On ne connaît même pas les anciennes adresses: comment pourra-ton faire une histoire d'Internet sans ce genre d'informations?

Il faudrait créer une sorte de cadastre général du territoire numérique, divisé comme un espace géographique, avec des villes, des rues, des villages abandonnés, fermés, disparus... Il doit y avoir déjà de grandes ruines numériques: des sites complètement abandonnés depuis des années et qui pourraient le demeurer encore des années et des années.

Sur les sites de pages personnelles, comme celle de Videotron ou Sympatico, par exemple, ou les anciens Wanadoo ou Geocities. Il doit y en avoir des gigantesques aux États-Unis. Sont-ils encore en ligne? Seulement débranchés mais conservés sur des zones de serveurs oubliés, ou vraiment complètement supprimés d'Internet?

Google aurait une politique de conservation des historiques de 1 an et demi. Mais sa "mémoire cache", Google la garde combien de temps? Est-ce que chaque capture d'écran des pages "écrase" la précédente, ou s'ajoute-t-elle à une archive de chaque site? C'est un peu ce que fait la WayBack Machine...

Cette situation ressemble beaucoup à la tradition orale: origine obscure, non datée, créé par on ne sait qui, texte-document transformé tranquillement, par de petites variations qui, au bout de plusieurs transformations, devient souvent peu reconnaissable. Phénomène proche aussi de la dispersion d'une rumeur, tout se transmet par "viralité" ou par communication-publicité virale.

Dans le cadre des méthodologies employées en histoire en ce moment, Internet n'est pas indexable ni pensable ni archivable (ou presque). Quand on archive-copie une page ou un site, c'est la date de l'archivage qui est ajoutée à l'archivage et non pas sa date de "mise en ligne". Et dès que quelqu'un affiche de l'information sur un écran, une autre date de "mise en ligne" s'ajoute ou efface la première.

C'est toute la notion de chronologie qui fout le camp! Ce n'est pas une mince "disparition" pour l'histoire.

Comment établir une chronologie d'Internet?

On peut établir un chronologie de l'imprimé, mais d'Internet?
La mise à jour continuelle des informations et des documents rend la chronologie presque impossible à établir. On ne peut tout même pas conserver les archives de chaque micro-changement que l'on peut faire sur un document numérique. Que devront-nous faire pour archiver la page d'accueil d'un site? Archiver une saisie d'écran à chaque fois qu'il y a la moindre modification?

Wikipedia conserve apparemment toutes les modifications effectuées sur toutes les pages. Faudra bien élaguer tout ça un jour! Dans 5 ans, qu'est-ce que cela sera? Un immense fouillis. D'abord, comment distinguer entre une modification tout à fait mineure d'un ajout ou d'un développement essentiel? Les changements de contenus (et même là, il y a plusieurs niveaux de modifications possibles), des changements substantiels. Malgré tout l'effort des milliers de participants, les connaissances de Wikipedia vont aussi devenir obsolètes. Par exemple, la listes des liens vers d'autres articles, comment sera-t-elle mise à jour au fil et à mesure de l'évolution de Wikipedia? Faudrait avoir une encyclopédie déjà conçue qui indiquerait que le nouvel article X doit être ajouté à la liste des liens de l'article Y.

Aussi, puisque les articles sont rédigés par des individus plus ou moins associés, la mise à jour sera forcément inégale. Telle information ajoutée dans un article, par exemple, la mort de X, ne sera pas nécessairement ajoutée à un autre, ce qui fait que le nouveau mort X sera toujours vivant ailleurs dans Wikipedia. Il y aura donc différentes temporalité à l'intérieur même de Wikipedia. Une nouvelle édition de la Britannica ou d'Universalis proposait une mise à jour complète de l'ensemble de l'encyclopédie. Un bel effort même si, à la publication, elle était déjà forcément un peu décalée, surtout pour les informations factuelles.

Wikipedia deviendra de plus en plus une encyclopédie a-synchrone, où les savoirs et les disciplines s'écarteront d'un ensemble cohérent pour offrir de plus en plus de informations contradictoires, peut-être. Il y a le problème de l'exactitude de l'article en lui-même, mais il y a le problème plus fondamental de la cohérence de la totalité des informations.

Ça rejoint la question des "frontières du texte" devenues floues, incertaines qu'abordent souvent les spécialistes de textologies numériques.
Tout est brouillon, tout peut avoir le statut de brouillon, rien n'est clos, fermé, pour toujours.