Structuration des manuscrits : Du corpus à la région

—Aurèle Crasson et Jean-Daniel Fekete,

1. Introduction

Le manuscrit est un objet complexe : à la fois textuel, graphique et spatial. Il a toujours échappé aux tentatives de descriptions numériques car il se plie mal à une structuration rigoureuse. Certains manuscrits relativement réguliers et propres peuvent être décrits numériquement de manière similaire à un document textuel, avec les spécificités données par [LEC’98]1 [GUS’99]2 [FEK’99]3 par exemple. En revanche, le manuscrit d’auteur est bien plus complexe à identifier du point de vue informatique puisqu’il s’agit d’un document en processus, donc non stabilisé ni du point de vue séquentiel ni du point de vue de l’agencement spatial des traces graphiques. Il unit à première vue dans un même réseau de liens, et sans que l’on puisse forcément trouver une logique immédiate, des informations textuelles graphiques et géographiques. S’agissant par ailleurs d’un document processuel, chaque objet qui constitue ce que les généticiens du texte nomment un « manuscrit d’auteur » s’inscrit dans une chronologie théoriquement reconstituable. Cette chronologie, qui est double en réalité, est exprimée par les opérations d’écriture – qui se manifestent par les corrections, les maniements linguistiques, etc. –, et par les successions même de la narration, le fil du récit. L’absence de linéarité du texte « en train de s’écrire » (très proche de l’oral) renvoie quant à elle à une représentation très différente d’un document séquentiel destiné à être transmis ou du moins dont la présentation permet une lecture irréfutable.

Dans cet article, nous décrivons un travail en cours sur la description, l’analyse et la représentation de documents numériques issus de l’étude de manuscrits littéraires d’auteurs tels que G. Flaubert, M. Proust, P. Valéry, E. Jabès.

1.1 Dualité texte/image

Qu’il s’agisse à l’origine de s’intéresser au manuscrit par une approche littéraire ou linguistique ou sémiotique, il y a au premier abord une focalisation immédiate et spontanée sur la trace écrite et le discours ; le manuscrit est en priorité un support d’écriture qui fait instinctivement appel à la lecture (bien qu’il ne soit pas destiné à cela). Les traces graphiques, les informations spatiales ou codicologiques qui surgissent au regard simultanément jouent un rôle indispensable dans le processus de reconstitution d’une lecture, d’une linéarisation. D’un autre point de vue, et notamment dans le fait qu’il s’agisse de « traces » fixées et irréversibles, le feuillet manuscrit renvoie aussi à une image dans laquelle les informations sémantiques sont au même niveau que n’importe quelle autre « objet » graphique. L’unité matérielle d’un feuillet manuscrit se constitue en système. Image, objet d’art ou témoignage d’un processus de création, tout y est « aplati ».

La numérisation d’un manuscrit « d’auteur » renforce cette impression d’image – car il n’est pas envisageable à l’heure actuelle de reconnaître l’écriture manuscrite et donc d’extraire le texte – même si l’on peut penser que d’un point de vue informatique les informations sémantiques, graphiques, spatiotemporelles, etc. sont potentiellement discrétisables. Chacune de ces informations est partie prenante à un réseau de liens qui s’est constitué lors du processus d’écriture qu’il s’agit, pour qui s’intéresse à la genèse d’une œuvre, de révéler.

Une page extraite d’un « manuscrit d’auteur » accentue l’ambiguïté entre le texte représenté et l’image globale du document qui inclut d’autres informations. Le fait que, numérisée elle ne puisse pas être enregistrée autrement que sous forme d’image oblige à s’intéresser non seulement à d’autres types d’informations que le texte mais aux types de liens qui les relient.

À cette ambiguïté inhérente au support lui-même s’ajoutent d’autres ambiguïtés que sont les représentations crées artificiellement de ce support : photocopie, numérisation, photographie, recopie voire transcription du chercheur.

L’écriture manuscrite en effet est parfois difficile à déchiffrer, ce qui oblige le généticien à déchiffrer et transposer dans un système jusqu’alors fait pour la machine à écrire, une « représentation » de ce manuscrit censée faciliter sa lecture. Cette transcription contribue à multiplier les informations du document source, à provoquer du bruit.

Cela pose bien évidemment un problème de structuration.

L’analyse de corpus manuscrit est toutefois conditionnée par cette étape de transcription qui, outre le fait qu’elle facilite la lisibilité et donc la lecture du texte, « imite » la page manuscrite, la plupart du temps – pour des raisons de droits –interdite à la reproduction.

Les modalités de transcription n’ont jamais été normalisées. Si tant est que la transcription se doit d’être la plus « objective » possible, les corpus (contenu et occupation spatiale de l’écriture) ont en réalité une énorme influence sur les formes de rendu. Trois types de transcriptions que l’on peut classer de la plus objective à la plus interprétative permettent jusqu’à présent de transcoder le manuscrit :

  • La transcription diplomatique : elle « photographie » le document en rapportant, avec les outils qui le permettent, malgré leurs limites, tous les événements du manuscrit ;

  • La transcription linéarisée : comme son nom l’indique, elle rétablit sur une ligne les éléments graphiques selon une construction et une chronologie relatives : elle ne restitue graphiquement ni les données topographiques ni les données « vectorielles » ;  elle aligne dans une logique qui lui est propre les données textuelles en insérant ou non les corrections ;

  • La transcription chronologisée qui empile selon un axe temporel, les périodes d’écriture. Ce dernier type développé par Jean-Louis Lebrave, est très peu utilisé compte tenu de la part importante d’interprétation qu’elle suppose. Néanmoins, il est particulièrement approprié à des fragments de manuscrits très corrigés pour mettre en relief les opérations d’écriture et leurs chronologies.

Avec les technologies numériques on pourrait penser qu’une transcription numérisée n’a pas d’utilité puisqu’on peut se référer à l’image numérique; c’est vrai et faux. Cela répond surtout à une nécessité inhérente au processus de recherche génétique, faciliter une « immersion » dans le manuscrit ; cela peut être également destiné à une publication imprimée pour souligner et illustrer un fragment particulièrement pertinent d’une interprétation. Dans le premier cas où le contexte global de l’image et de la transcription est nécessaire parce qu’il s’agit de vérifier des indices précis, une représentation « photographique » de la transcription est nécessaire ; dans l’autre où il ne s’agit en définitive que de se référer à du texte, la représentation linéaire est suffisante.

D’un point de vue plus matériel, l’utilisation d’un traitement de texte même enrichi de description types ne permet pas l’affichage de toutes les particularités de l’image manuscrite ; notamment les orientations de textes, certains graphismes etc. Il en résulte qu’en transcrivant même le plus précisément possible, on perd ou on ajoute des informations. De là, l’intérêt de coupler sur un même plan visuel l’image du manuscrit et sa transcription numérique.

2. La gestion numérique de manuscrits

Plusieurs autres projets ont proposé des méthodes et codages pour décrire les manuscrits. La « Text Encoding Initiative» (TEI) [SPE’02]4 décrit plusieurs méthodes pour transcrire des sources qui peuvent être manuscrites. Nous avons nous-même utilisé la TEI pour transcrire des manuscrits historiques du XIVe siècle [FEK’99] TEI fonctionne bien pour les manuscrits relativement propres où le texte est stable mais ne convient plus lorsque les phénomènes paratextuels prolifèrent, comme c’est le cas dans les manuscrits littéraires modernes ou, d’une manière plus générale, dans les brouillons. L’expérience montre que l’application de ces descriptions aux manuscrits est bien plus complexe.

Même pour des documents manuscrits propres, certaines recherches ont trouvé nécessaire de développer un environnement spécialisé d’édition critique, comme le projet Bambi [BOZ’97]5. Cependant, la façon dont les manuscrits sont décrits dans Bambi se rapproche énormément de la TEI. L’environnement permet de manipuler le document structuré et enrichi de manière plus conviviale, mais sans amélioration structurelle notable. La fonctionnalité la plus importante apportée par Bambi est la mise en relation automatique du texte et de son image. Il est tout à fait illusoire de vouloir reconnaître automatiquement l’écriture manuscrite ancienne ou moderne, mais une fois transcrite manuellement, Bambi peut calculer un lien entre la transcription et son image. Ce calcul suppose que le manuscrit soit propre et régulier. Il cherche ensuite pour chaque mot de la transcription un bloc d’image ayant les caractéristiques similaires au mot écrit. La transcription produite par Bambi est dont liée à son image, ce qui nous semble fondamental. Lecolinet et Robert ont également travaillé sur un système de mise en relation du texte et de son image en codant le résultat au format TEI. Leur système ne distingue encore que deux représentations pour le manuscrit : son image et sa structure textuelle. Le niveau scriptographique n’est pas explicite et pose des problèmes non résolus pour les manuscrits modernes.

Au-delà de la représentation textuelle, le projet d’édition des multiples versions du Chevalier de la Charrette engagé par Princeton en 1997 a abordé le problème des graphies spécifiques dans les manuscrits par la définition d’entités SGML spécifiques à chaque graphie. Il s’agit là d’une codification des pratiques manuscrites. La transcription qui en résulte est très lourde et a nécessité une étude initiale de tous les signes, avec des décisions arbitraires sur le regroupement de signes sous une même classe nommée par une entité. C’est pourtant le début d’un codage scriptographique puisque les multiples graphies sont un peu exprimées. Le reste du projet suit le codage TEI. Cette approche est aussi utilisée par l’école des Chartes à Paris.

Dans une autre direction, une extension importante à TEI a été élaborée par le projet européen Master pour décrire les manuscrits. Cependant, Master ne décrit pas la transcription d’un manuscrit mais ses caractéristiques de catalogages. Rien de particulier n’a été ajouté pour les transcriptions. (Peter Robinson, TheCanterbury Tales). Jusqu’à récemment, le consortium TEI n’a pas abordé le problème spécifique du codage des manuscrits, tout en s’y étant engagé à le faire prochainement.

3. Structure d’un manuscrit numérique

3.1. Modèle en couches

La numérisation n’est pas un but en soi, elle repose sur l’idée qu’un document sur support numérique sera plus facile à consulter et à analyser qu’un document analogique (photocopies, recopies, etc.) et à transformer en publications électroniques. Les premiers projets de numérisation de manuscrits tels Bambi étaient orientés vers une finalité claire : la publication de l’analyse historique. En réalité, le développement des recommandations de la TEI a montré que, lorsqu’un document est numérisé, il intéresse de nombreuses personnes dans le cadre de projets souvent très différents. Dans notre propre expérience de numérisation des lettres de rémission de la Renaissance, nous avons été sollicités par exemple, par différents chercheurs qui désiraient analyser ces lettres de rémission dans des perspectives extrêmement variées (l’analyse de la langue française du 16e siècle, thématiques historiques, etc.). Nous concevons la numérisation comme une étape dans un processus d’analyse créant du sens et des structures à partir de sources. Ce processus organise une hiérarchie d’annotations ou d’analyse visant un ou plusieurs buts, certaines étapes étant génériques tandis que d’autres sont plus spécifiques.

Pour être lus aisément la plupart des manuscrits doivent être transcrits. La transcription constitue donc un premier niveau d’annotation qui est générique. À ce niveau, il est aussi possible de faire des descriptions de manuscrits ; c’est ce que décrit l’extension de TEI « Master » [ESP’99]6. Ces premiers niveaux peuvent devenir des ressources pour des analyses de plus haut niveau, qu’elles soient linguistiques, historiques, sociologiques, etc. Certaines de ces analyses peuvent reposer sur des traitements automatiques, comme la lemmatisation pour l’analyse linguistique par exemple. D’autres traitements peuvent produire des indexes ou faciliter la création de glossaires etc. Tous ces éléments peuvent à leur tour faire l’objet de réutilisation pour des articles savants, des éditions en ligne ou des valorisations patrimoniales et muséographiques. Nous concevons donc l’édition électronique très généralement comme un processus de création de niveaux d’annotations et d’analyse de plus en plus abstraites.

Du point de vue du modèle, le manuscrit se définit par trois couches différentes : l’image, la décomposition scriptographique de l’image et sa structuration textuelle. Notre principale contribution dans cet article est de mettre en valeur la représentation pivot des manuscrits déterminée par le niveau scriptographique.

Si le niveau textuel a été bien étudié et décrit par les recommandations de la TEI, le niveau scriptographique reste encore inexploré, voire ignoré. D’un point de vue abstrait, c’est pourtant en partie à travers la relation qui lie ces niveaux que se constitue l’information du manuscrit.

3.2. Découpage en régions

La description scriptographique d’un manuscrit est une transcription structurée qui repose sur l’unité du feuillet manuscrit. Ce feuillet est considéré comme un ensemble de « régions » : zones graphiques connexes contenant récursivement des éléments scriptographiques (Figure 1). Ces régions peuvent parfois se superposer ; elles contiennent des unités de lectures (du texte partiellement stable). Une étude informelle menée sur une dizaine de personnes nous a montré que cette décomposition était extrêmement stable entre spécialistes. Dans l’outil crée dans une perspective d’aide à la transcription et au codage sémantique, nous l’avons appelé le TRANSCRIPTEUR, chaque unité de lecture est reconnue en tant que telle et chaque région est définie par une enveloppe polygonale simple et une orientation principale donnée par l’image du manuscrit.

Figure 1: Découpage d'un feuillet manuscrit en régions

Chaque « région » est composée d’autres « régions » de dimension variable, d’éléments textuels et d’éléments graphiques. La description textuelle est calquée sur la TEI tandis que les éléments graphiques se conforment à SVG [FER’03]7. Les primitives graphiques SVG ont le statut d’un caractère ou d’un élément intratextuel ou paratextuel. Par exemple ; certains auteurs utilisent des abréviations de manière systématique. Ces abréviations seront alors codées textuellement à l’aide de la balise <abbr> de TEI. D’autres abréviations, moins fréquentes, peuvent être ambiguës. Elles doivent alors être codées comme une zone graphique ayant un statut de mot ou abréviation mais dont le dessin est sur une région particulière de l’image et éventuellement reproduite graphiquement en SVG dans la transcription. Enfin, certains signes du manuscrit dont le sens n’est pas totalement clair, des idiosyncrasies, doivent être liés à leur image source et éventuellement transcrits graphiquement. Cette reproduction n’est pas indispensable tant que la liaison transcription/image existe mais, l’ajout du graphique rend conforme la transcription diplomatique et permet, au cours de la lecture, de mémoriser les « événements » non langagiers ou des opérations d’écriture particulières. Des éléments graphiques paratextuels sont nombreux dans les manuscrits d’auteur : une ligne verticale ou horizontale dans le document, un becquet indiquant l’insertion d’une note marginale entre deux mots d’une autre zone de texte, des dessins, des accolades, etc. Ces signes plus ou moins faciles à interpréter sont parfois sujets à débat. Ils doivent donc être représentés en tant que structure bien que leur fonction ne soit pas toujours évidente. Encore une fois, une simple liaison à l’image pourrait suffire structurellement pour indiquer l’existence d’un phénomène graphique intéressant, mais sa représentation graphique simplifiée en SVG permet de générer une présentation visuelle de la structuration scriptographique (une transcription diplomatique) et de comprendre cette transcription hors contexte, ce qui est important.

<folio id="folio-18v"

rend="image(jabs/images/manuscrits/m18versog.jpg) width(1008) height(1134)">

<fragment id="folio-18v-1" rend="rect(272 17 741 119)">

<l id="folio-18v-1-1">Note bréve</l>

<l id="folio-18v-1-2">pour le réalisateur du film</l>

</fragment><fragment id="folio-18v-2-30" rend="rect(15 122 146 228)">

<l id="folio-18v-2-31">La voix</l>

<l id="folio-18v-2-32">raconte :</l>

</fragment>

<fragment id="folio-18v-2" rend="rect(180 130 936 461)">

<l id="folio-18v-2-1">Un homme chez lui. Puis dans la rue.</l>

<l id="folio-18v-2-2">on le verra traverser

<add place="supralinear">

<del id="folio-18v-2-3">rapidement</del>

<add id="folio-18v-2-4">très vite</add>

</add> son quartier - le Véme

</l>

<l id="folio-18v-2-5">Arrondissement - la seine, ensuite pour</l>

<l id="folio-18v-2-6">rejoindre enfin le Louvre ou, il s'arrêtera,</l>

<l id="folio-18v-2-7">face au Musée, avant d'y pénétrer par</l>

<l id="folio-18v-2-8">l'ancienne porte d'entrée.</l>

</fragment>

<fragment id="folio-18v-2-33" rend="rect(179 473 916 664)">

<l id="folio-18v-2-9">on le verra

<del id="folio-18v-2-10">dans</del>

<add id="folio-18v-2-11" place="supralinear">visiter</add>

le Musée <del id="folio-18v-2-12">puis</del> et</l>

<l id="folio-18v-2-13">en sortir, peu

<del>après</del> de temps après ; <del>et</del> y</l>

<l id="folio-18v-2-14">pénétrer, à nouveau, mais,

<del id="folio-18v-2-15">cette fois</del>,

par la</l>

<l id="folio-18v-2-16">Grand pyramide.</l>

</fragment>

<fragment id="folio-18v-2-34" rend="rect(169 659 974 1053)">

<l id="folio-18v-2-17">Il en ressortira,

<del id="folio-18v-2-18">précipitemment</del>

<add id="folio-18v-2-19" place="supralinear">précipitamment</add>

</l>

<l id="folio-18v-2-191">Dehors, une femme l'attendait. On la</l>

<l id="folio-18v-2-20">verra pour la première fois.</l>

<l id="folio-18v-2-21">un silencieux dialogue s'était,

<del id="folio-18v-2-22">depuis le</del>

<add id="folio-18v-2-23" place="supralinear">auparavant</add>

</l>

<l id="folio-18v-2-24">

<del id="folio-18v-2-25">début</del>,

engagé entre elle et lui : deux voix</l>

<l id="folio-18v-2-26">solitaires, surprises dans la candeur de</l>

<l id="folio-18v-2-27">leur connivence et dans leur commun secret.</l>

<l id="folio-18v-2-28">Et si l'adieu n'était que l'épreuve

cruelle</l>

<l id="folio-18v-2-29">d'un perpétuel commencement ?</l>

</fragment>

</folio>

Figure 2: Codage XML scriptographique du feuillet 18v° du manuscrit « Cela a eu lieu » d’E. Jabès

Comme dans les recommandations de TEI, chaque élément de notre description scriptographique peut être enrichi sémantiquement ; il est donc possible d’exprimer directement la fonction de chaque signe au niveau scriptographique. Cependant, nous pensons que la résolution des fonctions appartient plutôt à la couche supérieure d’analyse. Concrètement, cela signifie que si une description scriptographique est trop annotée, sa réutilisation dans un autre contexte nécessite le retrait des annotations spécifiques. C’est ce qui se produit aujourd’hui avec les documents textuels codés avec TEI.

3.3. Liaison XML / Image

Pour lier la description scriptographique à son image, nous utilisons des références externes. Le monde XML dispose des XPointers/XLink pour exprimer les relations entre documents XML mais rien n’est défini pour exprimer les relations XML/image. Nous avons donc défini une syntaxe spécifique pour pallier ce manque important. Cette syntaxe utilise les spécifications géométriques de SVG pour exprimer des régions d’intérêt dans une image. Il faut rappeler que le travail réalisé pour spécifier XPointers/XLink était inspiré des pointeurs étendus définis par TEI en SGML (P3). Ces pointeurs étendus définissaient aussi les liaisons avec des documents externes, image ou vidéo. Cette capacité qui n’a pas été reprise dans le milieu XML est une des inspirations initiales de notre travail [FEK’98]8.

3.4. Structuration des régions

En plus des régions, éléments textuels et éléments graphiques, un feuillet a une structure. Celle-ci doit être déterminée sur un corpus car les relations entre régions dépassent les frontières matérielles des feuillets (chevauchement de textes sur deux feuillets par exemple). L’analyse génétique s’appuie très fréquemment sur une représentation axiale pour exprimer les mouvements temporels de corrections et les chronologies narratives : l’axe syntagmatique (progression du récit) et l’axe paradigmatique (réécritures de fragments narratifs d’une même séquence). La description scriptographique définit les briques de bases de structuration d’un manuscrit tandis qu’un document de plus haut niveau décrit la structuration sur les deux axes du corpus. Ce document est conforme aux recommandations de TEI mais fait référence à des éléments appartenant à des descriptions scriptographiques. C’est à ce niveau que sont décrits les phénomènes génétiques et littéraires typologisables. Par ailleurs, des fonctions telles que « lien d’insertion » ou « groupement » sont données aux éléments graphiques pertinents.

4. Représentations, analyses et outils

La description en trois niveaux d’un manuscrit n’est pas juste un exercice de style ou un besoin de structuration. Nous avons conçu et réalisé des outils pour exploiter des manuscrits codés à des fins d’analyse, de présentation ou d’exploration. Il s’agit d’outils d’affichage de feuillet avec mise en évidence des régions, d’un outil de concordances entre feuillets transcrits et de représentation - navigation dans un dossier génétique.

4.1 Affichage de feuillet en liaison avec les régions

Une feuille de style XSLT liée à l’image permet de rendre la forme scriptographique représentable en HTML. Un outil d’affichage permettant de montrer une image avec un fisheye centré sur une région d’intérêt a été conçu  en relation avec cela (Figure 3). Ces représentations améliorent notablement la lecture du document. En outre quand la superposition texte / image s’avère être un dispositif de contrôle utile lors de l’établissement de la transcription diplomatique, la version HTML constitue un mode standard de consultation.

Figure 3: Visualisation fisheye d'un manuscrit (à gauche) et projection image/texte superposés dont la particularité est de créer un lien automatique transcription/image du texte

4.2 Recherche de concordances inter-feuillets

Les transcriptions anticipent le travail plus interprétatif de la critique elle-même. Ce travail consiste d’une certaine manière à créer des connexions entre des feuillets et analyser les mouvements ou opérations d’écriture. L’établissement d’unités (« régions ») décomposées dans chaque feuillet d’un avant-texte permet aux généticiens qui ont recours à la représentation axiale précédemment décrite, de présenter sur les axes paradigmatiques et syntagmatiques non seulement des chronologies entre documents matériellement distincts mais les relations plus fines qui existent entre les différents feuillets et ce, en pouvant s’abstraire du support matériel. Nous avons réalisé un outil, inspiré de [RIC’98]9, qui affiche les similarités textuelles inter-feuillets par calcul de matrices de similarités. Voici comment il fonctionne : supposons que l’on veuille comparer le fragment de texte « les oiseux chantent sur les arbres » et « l’oiseau gazouille sur l’arbre ». L’apostrophe de la seconde phrase est remplacée par un espace pour le traitement. La matrice de distance suivante est calculée :

les

oiseaux

chantent

sur

les

arbres

L

0,667

1

1

1

0,667

1

oiseau

0,833

0,143

0,875

0,833

0,833

1

gazouille

0,889

1

1

0,889

0,889

0,889

Sur

1

0,714

1

0

1

0,833

L

0,667

1

1

1

0,667

1

Arbre

1

1

0,875

0,8

1

0,167

La distance entre le mot figurant sur une ligne et sur une colonne peut se lire dans la cellule à l’intersection de cette ligne et colonne. À partir de cette table, une image est calculée (Figure 4).

Figure 4: concordance visuelle entre les deux phrases « les oiseaux chantent sur les arbres » et « l’oiseau gazouille sur l’arbre », une distance nulle étant représentée en noire et une distance maximale en blanc.

Une diagonale de points noirs apparaît visuellement, bien que les mots ne soient pas toujours identiques. En appliquant cette technique à tous les feuillets d’un corpus, on peut voir apparaître des motifs diagonaux qui indiquent une corrélation entre des feuillets deux à deux (Figure 4). Cette corrélation implique une réécriture ou une forte similarité. Appliquée à plusieurs feuillets, cette méthode permet de voir immédiatement les corrélations entre feuillets. La méthode est résistante aux fautes d’orthographe et aux formes fléchies des mots, contrairement aux programmes de différenciations textuelles.

Figure 5: Résultat de l’application de la concordance visuelle sur 20 feuillets du manuscrit de Jabès et affichage de deux feuillets synchronisés avec une forte corrélation au début des feuillets.

4.3 Visualisation et navigation dans un dossier génétique

Un dossier génétique contient plusieurs types de documents manuscrits, tapuscrits (tapés à la machine à écrire) et issus aujourd’hui de traitement de texte : ébauches, notes, brouillons rédactionnels, copies dactylographiques et éventuellement épreuves d’édition. Une fois classé, ce dossier forme, pour le généticien, un « avant-texte ». Les feuillets qui le constituent peuvent être structurés et décrits à l’aide de la TEI et transformés en représentations graphiques facilitant la navigation (Figure 5).

Figure 6: Représentation des axes paradigmatique (de haut en bas) et syntagmatique (de gauche à droite) dans le dossier génétique de l’œuvre « Cela a eu lieu » de Jabès. À gauche, une représentation réalisée manuellement. À droite, une représentation générée automatiquement et liée aux feuillets manuscrits, permettant aussi de vérifier la cohérence des déductions du chercheur sur l’ordre des feuillets.

5. Conclusion et perspectives

Dans cet article, nous avons décrit notre codage de manuscrit sur trois niveaux : l’image, la description scriptographique et la description du dossier. Nous avons aussi montré comment ce codage peut être exploité à l’aide d’outils facilitant la lecture, l’analyse et l’exploration de documents de genèse.

Nous pensons que ce codage est suffisamment flexible pour s’adapter à tout type de manuscrits : manuscrits historiques dont le contenu est stabilisé, avant-textes littéraires, cahiers de laboratoire, etc. Contrairement aux autres documents numériques connus, un seul niveau de description ne suffit pas pour rendre compte de la structure d’un manuscrit. Une fois cette réalité admise, des outils informatiques peuvent être envisagés pour développer le champ d’étude des manuscrits qui reste encore dépendant d’outils du marché mal adaptés.

Notre codage est actuellement réalisé manuellement mais nous travaillons parallèlement au développement et à l’amélioration d’outils de transcriptions semi-automatiques pour faciliter la saisie et la mise en relation des couches entre elles. Nous mettons en place également une approche collaborative pour la constitution d’un corpus de transcriptions. Nous pensons que ces approches de codage, structuration et annotations collaboratives nous permettront enfin d’avancer efficacement dans l’exploitation en ligne des manuscrits.

Nous espérons que la communauté de la reconnaissance de formes et du traitement de l’image pourra nous aider à résoudre des problèmes complexes, comme l’appariement automatique transcription / image, l’extraction automatique ou les corrections de traits ainsi que la reconnaissance globale de mots à partir de leur image ou de leurs ductus, entre autres. L’extraction automatique de « régions » du document constituerait une avancée importante pour l’étude du manuscrit notamment pour la prise en compte des granularités variables.

Notes

1  LEC’98. Lecolinet, E., et al. An integrated reading and editing environment for scholarly research on literary works and their handwritten sources. in Proceedings of the third ACM conference on Digital libraries. 1998. Pittsburgh, Pennsylvania, United States: ACM Press New York, NY, USA.

2  GUS’99. Gusnard de Ventabert (nom collectif), Représentation et exploitation électronique des documents anciens numérisés. Numéro spécial "Numérisation et structuration des documents anciens" de la revue "Document Numérique", 1999. 3 (1-2): p. 57-73.

3  FEK’99. Fekete, J.-D. and D. Nicole, Analyse historique de sources manuscrites : application de TEI à un corpus de lettres de rémission du XVII è siècle. Numéro spécial "Numérisation et structuration des documents anciens" de la revue "Document Numérique", 1999. 3(1-2): p. 117-134.

4  SPE’02. Sperberg-McQueen, C.M. and L. Burnard, TEI P4: Guidelines for Electronic Text Encoding and Interchange. XML Version ed. 2002: Text Encoding Initiative Consortium (Oxford, Providence, Charlottesville, Bergen).

5  BOZ’97. Bozzi, A. and S. Calabretto. The Digital Library and Computational Philology: The BAMBI Project. in Research and Advanced Technology for Digital Libraries. First European Conference, ECDL '97. 1997. Pisa, Italy: Springer-Verlag.

6  ESP’99. Esprit Project, MASTER: Manuscript Access through Standards for Electronic Records. 1999.

7  FER’03. Ferraiolo, J., J. Fujisawa, and D. Jackson, Scalable Vector Graphics (SVG) 1.1 Specification, in W3C Recommendation. 2003.

8  FEK’98. Fekete, J.-D. Expérience de codage de document à intérêt graphique à l'aide de TEI. in Actes du congrès Eurotex 98. 1998. Saint-Malo.

9  RIC’98. Richy, H. and J. André. Édition comparative et hypertextuelle. in Document Électronique (Actes du Colloque International sur le). 1998. Rabat.

Résumé

La gestion de manuscrits en tant que document numérique n’a jamais été convenablement traitée oscillant entre des images pour certains et des documents textuels pour d’autres. Nous proposons une triple représentation : image/scriptographique/textuelle qui permet enfin d’exprimer pleinement les spécificités de l’objet manuscrit. Nous montrons comment cette représentation peut être exploitée pour l’analyse et la navigation dans des corpus de manuscrits littéraires modernes.

Abstract

Managing manuscripts as digital documents is challenging and not well understood. Images for some, texts for others, manuscripts have no clear status. We propose a triple representation: image/scripto-graphical/textual which can fully express the features of a manuscript object. We show how this representation can be used to analyze and navigate through a corpus of modern literary manuscripts.

Pour citer cette page

Aurèle Crasson et Jean-Daniel Fekete, «Structuration des manuscrits : Du corpus à la région», Item [En ligne],
Mis en ligne le: 11 juillet 2007
Disponible sur: http://www.item.ens.fr/index.php?id=173027.

Notice bibliographique

Proceedings of CIFED 2004, La Rochelle, France, pp. 162-168, 2004. (p. )

AccueilContactL'ItemRSSPodcast — Site propulsé par Lodel