Linguistique et génétique des textes : un décalogue

—Jean-Louis Lebrave et Almuth Grésillon,

Au début des années 1970, deux linguistes – les signataires de ces lignes – furent nommés au CNRS et affectés au Centre d’analyse des Manuscrits Modernes », équipe qui a précédé l’actuel « Institut des Textes et Manuscrits Modernes ». Qu’est-ce qui a pu motiver cette décision institutionnelle ? C’était l’époque glorieuse de la linguistique science pilote pour les sciences humaines ; on était encore dans le sillage des deux Colloques de Cluny sur « Linguistique et Littérature » (1968 et 1970). Fidèles à cette logique, les littéraires qui avaient commencé à s’intéresser aux manuscrits souhaitaient, tout simplement, que les linguistes leur fournissent une méthode d’approche scientifique pour le traitement des brouillons d’écrivains. Comment avons-nous répondu à ce défi ?

Les difficultés étaient de plusieurs ordres, toutes liées à la matière verbale spécifique de ces « avant-textes »1 qui nous étaient proposés pour analyse.

1.  Les manuscrits sont des ensembles textuels

Ce qui tenait dans les années 1970 le haut du pavé en linguistique relevait presque exclusivement de grammaires de phrase et impliquait la langue comme système et comme compétence, en laissant dans l’ombre la langue réellement produite qui se trouvait renvoyée à la performance. De ce fait, aucun des modèles dominants, qu’il s’agisse du structuralisme américain ou européen ou encore de la grammaire générative ne pouvait nous fournir de cadre théorique approprié au traitement de nos corpus.

Pour ce qui concerne plus particulièrement la grammaire générative, il faut souligner que par delà l’adéquation apparente du vocabulaire, la notion de transformation constituait un véritable leurre, sauf à y recourir de manière purement métaphorique. En effet, générer y est pris dans son sens logico-mathématique de mécanisme par lequel la grammaire (formelle) d’une langue, naturelle ou non, énumère toutes les phrases grammaticales de cette langue et fournit une description de leur structure. De manière explicite, l’affirmation constamment répétée que la performance ne se situe pas dans le champ de la linguistique stricto sensu (« une analyse complète de la performance restera probablement toujours hors de portée d’une caractérisation scientifique »2) condamne d’avance à l’échec toute tentative d’utilisation de la linguistique chomskyenne pour démêler les opérations de production verbale dont les manuscrits portent la trace.

Bien sûr, on assistait, notamment en Allemagne, à des tentatives d’élaboration d’une linguistique du texte par extrapolation ou par généralisation du cadre théorique postulé pour la phrase3. Mais ces grammaires du texte n’étaient qu’un mythe. Les modèles d’inspiration générative, qui pensaient pouvoir rendre compte des phénomènes textuels en substituant les arbres de phrase sous un nœud dominant supplémentaire « T », se sont rapidement avérés beaucoup trop réducteurs pour rendre compte des données proprement textuelles. Quant aux modèles d’inspiration plus pragmatique qui modélisaient des situations discursives de la vie de tous les jours (« schémas », « scripts », « frames », etc.)4, ils étaient fondés sur des structures textuelles sans doute opératoires pour les productions langagières usuelles, mais ils étaient à l’évidence beaucoup trop simplistes pour s’adapter à la complexité des textes littéraires.

2. Les manuscrits relèvent de la mise en œuvre de textes littéraires

Nous percevions donc d’une manière très forte l’hiatus qui séparait les objets de la « Textlinguistik » des corpus littéraires que nous devions étudier. Au lieu d’une visée informative commune s’inscrivant dans le paramétrage pragmatique de la communication ordinaire, nos objetsimpliquaient une visée esthétique, et si nous ignorions par quelle théorie on pourrait en rendre compte, nous savions au moins que la qualité esthétique de ces textes dont nous analysions la production était nécessairement liée à certains usages singuliers de la langue, sortant de l’ordinaire (créativité lexicale ; jeu des pronoms et des temps verbaux ; figures de discours ; création de mondes de la fiction par les pouvoirs du  langage…).

En plus, on ne pouvait pas ne pas prendre en considération l’instance de celui qui est à la source d’un texte littéraire : l’écrivain, l’auteur, le locuteur, le sujet parlant, le sujet écrivant, … Comment fallait-il définir cette instance, notamment à un moment historique où des théoriciens comme Foucault et Barthes avaient proclamé la mort de l’auteur ? Parallèlement à cette déconstruction du concept d’auteur et à la complexification de la notion de sujet (sujet grammatical, sujet parlant, sujet de l’inconscient, sujet de l’énonciation), il fallait également prendre position par rapport à des notions strictement linguistiques comme « locuteur » et « énonciateur ».

Comme nous l’avons noté plus haut, la grammaire générative laisse hors de son champ les phénomènes de la performance, en particulier celui du locuteur réel. À son tour, la pragmatique, même si elle prétend s’intéresser au discours, nous semblait postuler également un concept de locuteur inapproprié à ce que nous voulions appréhender dans les manuscrits d’écrivain. En effet, en s’appuyant sur la symétrie locuteur-récepteur telle que l’avaient formalisée les ingénieurs des télécommunications, la pragmatique construisait elle aussi un concept de locuteur idéal. En fait, le cadre chomskyen tout comme le cadre pragmatique poursuivaient une conception idéaliste du sujet ; tout se passait comme si la découverte par la psychanalyse d’un sujet clivé, qui « n’est plus maître en sa demeure », se trouvait proprement refoulée par les sciences du langage.

Quant à la notion d’énonciateur, elle laissait ouverte la question du rapport entre le sujet parlant de la théorie linguistique et celui de la psychanalyse. Comme elle était revendiquée, ou simplement employée, par des tenants de théories différentes (Irigaray, Kristeva, Todorov, Ducrot, Benveniste, Culioli), sa mise en oeuvre par nous pour les manuscrits supposait une clarification et une explicitation préalable de nos choix théoriques.

Last but not least, ne trouvant aucun terme susceptible de désigner clairement celui qui écrit, nous avons décidé d’adopter empiriquement le terme de « scripteur », qui pouvait au moins faire couple avec « locuteur », réservé à l’oral.

3. Les manuscrits sont non des textes finis, mais des brouillons

Les avant-textes sont en général constitués d’unités « in statu nascendi », en cours d’écriture. C’est d’ailleurs cette image de la naissance, de l’engendrement, qui a produit métaphoriquement les termes de genèse, génétique, généticien. Il faut rappeler aujourd’hui que cette terminologie est sans doute plus redevable à la création du monde qu’à la génétique de la microbiologie. En tout cas, les théories linguistiques étaient loin de se prêter « spontanément » à l’appréhension d’un tel matériau.

Quelle est en effet cette réalité spécifique du brouillon ? C’est un document écrit de nature hétérogène, souvent lacunaire, inachevé et couvert de ratures et de réécritures dont la caractéristique principale est d’être partie intégrante d’une chaîne de production textuelle qu’on appelle aussi « genèse de l’œuvre ». Dans un texte paru en 1982, nous avons déjà souligné l’importance de la nature processuelle de nos corpus : « Les manuscrits sollicitent l’intérêt du linguiste d’une façon particulière : plus que toute autre réalisation linguistique ils soulèvent immédiatement la question de la production des énoncés »5. Celle-ci peut être appréhendée, tel a été le pari des « généticiens », à travers l’analyse de l’avant-texte. L’essentiel d’un brouillon est de présenter une matière verbale dynamique, mouvante, toujours soumise à de nouveaux changements, jusqu’au moment où le scripteur décide de mettre fin à ses réécritures.

4. Les manuscrits ne relèvent pas de structures, mais de processus

Ce que depuis des décennies les différents courants de linguistique avaient appréhendé et souvent formalisé en termes de « forme » et de « structure » s’avérait inapte ou insuffisant au traitement des brouillons ; il fallait donc faire un pas théorique important : considérer les brouillons non plus comme objets ou formes à décrire, mais comme traces de processus, comme inscription matérielle d’événements dont il fallait reconstruire la dynamique en temps réel.

B.-N. Grunig a souligné dans un article sur « Structures et processus »6la nouveauté de cette approche, les questions théoriques qu’elle soulève et le fait que « la recherche dans le domaine si intéressant de la production manque cruellement de données empiriques » (p. 44) Et elle ajoute que les brouillons traités par les linguistes de l’ITEM constituent une trace précieuse du processus passé.

5. Les manuscrits portent des traces d’opérations énonciatives

Pour cerner ces processus, les théories de l’énonciation apportaient des outils précieux. Benveniste n’a-t-il pas, le premier, posé que l’énonciation, c’était « la mise en fonctionnement de la langue par un acte individuel d’utilisation » ? Et les constructions théoriques d’A. Culioli, même si elles n’étaient pas la formalisation d’opérations de production réelles, apportaient un cadre a priori beaucoup plus adapté aux données des brouillons que les structures figées des linguistiques structurales. A l’évidence, le cadre global fourni par Benveniste ou Culioli se prêtait, mieux que tout autre, à l’élaboration d’une « linguistique des ajustements énonciatifs »7 exigée par l’étude des brouillons. Comme le souligne S. Robert8, la théorie de Culioli présente un intérêt particulier pour un modèle de production dans la mesure où la construction de ce qu’il appelle les opérations énonciatives dans un modèle dynamique permet d’approcher les processus de « construction et d’ajustement interprétatif » qui constituent le fonctionnement du langage en acte. De ce fait, cette théorie est potentiellement en prise sur des phénomènes relevant de la production réelle et dont la trace est attestée dans les brouillons.

Sur un plan plus général, les théories de l’énonciation fournissaient un apport d’un autre ordre, plus méthodologique : en suggérant que les énoncés ont une histoire qui s’inscrit dans une temporalité, en posant qu’ils sont produits dans des conditions particulières par des êtres parlants dont certaines propriétés au moins peuvent être modélisées, elles permettaient d’isoler la radicale différence entre la production écrite et la production orale (voir plus loin).

Cette prise de conscience a enfin rendu possible le développement de recherches sur la production verbale. Pour des raisons qui tiennent sans doute au refus par Saussure de voir dans l’écrit autre chose qu’une forme secondaire par rapport à l’oral, la linguistique s’est peu intéressée à la production écrite, qui a fait en revanche l’objet de travaux pionniers en psycholinguistique dès la fin des années 70.

6. Manuscrits et psycholinguistique

C’est à peu près à la même époque que naît une « linguistique des brouillons » et qu’apparaissent en psycholinguistique les premiers « modèles » de la production écrite : l’article fondateur de R. Hayes et L. Flower date de 19809.

Le modèle proposé par ces deux chercheurs constitue le point de départ d’une série de travaux expérimentaux à travers lesquels une approche psycholinguistique de la production écrite s’affirme et s’affine au cours des deux dernières décennies du XXe siècle10. Mais les premières versions de ces modèles et les dispositifs expérimentaux destinés à les valider restaient très en deçà de l’extrême complexité des processus attestés dans la production littéraire ; c’est seulement au tout début des années 2000 qu’une véritable convergence entre les deux approches devient possible11.

7. La spécificité de l’écrit

Pour l’analyse des manuscrits, il fallait rapidement accepter que la matérialité de l’écrit constituait une donnée centrale, et ce pour deux raisons fondamentales.

D’abord, du point de vue de la communication, la production verbale écrite est régie par des règles spécifiques qui la distinguent radicalement de l’échange oral. Du fait de la non co-présence physique du scripteur et de son lecteur au moment de la production, l’écriture n’est pas soumise, comme le discours oral, à la pression du hic et nunc. Le message n’est pas transmis instantanément au fur et à mesure de sa production, sa réception est différée, et les deux phases acquièrent une certaine autonomie. Cette mise en suspens du temps offre au scripteur une possibilité inédite à l’oral, celle de revenir en arrière et de reprendre l’énoncé avant de le mettre en circulation. D’où les corrections de tous ordres, biffures, ratures, remplacements, additions, déplacements…, qui sont comme la signature des documents de genèse.

De cet affranchissement par rapport au temps qui passe, il résulte une conséquence majeure : dans la production écrite, il n’y a pas coïncidence entre la successivité du temps de l’écriture et la linéarité de la chaîne signifiante produite.

En second lieu, en même temps que cette caractéristique liée au temps, les manuscrits font apparaître avec force une autre contrainte liée à la nature même du medium. Dans sa réalité physique, le manuscrit impose de renoncer à la simplicité du modèle saussurien qui ne voit dans l’écrit qu’un simple transcodage de l’oral. A l’époque où nous nous sommes confrontés aux brouillons, la linguistique restait massivement dans la dépendance de ce modèle. Les critiques formulées par Vacek et l’école de Prague dans les années 20 étaient presque oubliées, et c’est dans les marges de la linguistique que se développait une réflexion sur la spécificité de l’écrit, chez certains spécialistes de l’orthographe, comme N. Catach12 et J. Anis13, et, de manière beaucoup plus massive, en anthropologie, avec les travaux déterminants de J. Goody14.

Ce courant de réhabilitation de l’écrit nous était très précieux, car il nous aidait à voir et à faire voir les brouillons dans leur originalité irréductible. Mais il était loin de nous donner des outils tout faits pour appréhender la richesse graphique des manuscrits. Et c’est par tâtonnements successifs que nous avons démêlé, dans les manuscrits, la substance graphique de la substance proprement linguistique.

Parmi les données dont nous devions rendre compte, trois méritent une mention particulière, en raison de l’exploitation intensive qui en est faite par les écrivains au cours du processus de création : celles qui sont liées au fait que le support de l’écrit (dans les conditions normales de l’écriture littéraire) est une surface plane à deux dimensions15 ; celles qui, dans la page, relèvent d’une perception visuelle sans être réductibles à un codage graphématique ; enfin celles qui relèvent davantage d’une dimension proprement esthétique, comme les dessins, ou de simples griffonnages.

Sans développer ici, mentionnons pour le premier type l’organisation de l’espace de la page par l’écriture elle-même. Celle-ci constitue au fur et à mesure  de son développement une ou plusieurs zones d’écriture qui délimitent contrastivement sur la page des zones non écrites, interlignes, marges latérales, marge supérieure, pied de page (voire, comme chez Proust qui écrit dans des cahiers, page en vis-à-vis de la page courante), qui tirent leur signification de leur relation avec le déjà écrit, et qui sont disponibles pour d’autres usages. Chez certains écrivains comme Flaubert, on peut parler d’un véritable système de gestion des marges comme espace de réécriture. Outre ces zones différenciées, on citera aussi les structures tabulaires, dont J. Goody a montré l’importance pour les effets anthropologiques de l’écriture. Pour les écrivains, il peut s’agir bien sûr de tableaux au sens strict, mais aussi d’accumulations de notes ou de listes de mots. On peut d’ailleurs considérer que cet empilement traverse la frontière du feuillet et le généraliser à l’épaisseur du dossier dans son ensemble, dans la superposition des feuillets eux-mêmes : chez Flaubert par exemple, les différents états de l’avant-texte sont entassés les uns par dessus les autres dans un empilement de feuillets successifs.

Par données visuelles, on désigne tout ce qui est susceptible de « faire signe » dans la page manuscrite en supplément des signes alphabétiques : les traits de biffure, les becquets, les marques d’insertion, les traits entourant des zones particulières de la page, mais aussi la couleur de l’encre et la nature de l’instrument utilisé, jusqu’à des données plus difficiles à appréhender, comme les variations dans le rythme de l’écriture, dans le ductus ou dans le calibre, pour ne pas parler des éléments qui acquièrent le statut de signes en étant très éloignés des signes linguistiques et n’ayant même qu’un rapport indirect avec l’écrit, comme la nature du papier, la présence éventuelle d’un filigrane, les caractéristiques physiques du dossier, etc.

Enfin – même si ces données ne sont pas attestées chez tous les écrivains – il faut pouvoir rendre compte de données qui relèvent plutôt des arts visuels, depuis les simples griffonnages qu’on rencontre çà et là chez Flaubert jusqu’aux dessins de Victor Hugo ou de Günter Grass.

8. Le manuscrit comme corpus contraint

En un mot, les données dont nous devions rendre compte exigeaient la prise en compte simultanée d’une multitude de paramètres : il s’agissait a) d’ensembles excédant les limites de la phrase ; b) d’objets littéraires et non de productions « ordinaires » ; c) de brouillons et d’avant-textes, qui, loin d’être réductibles à de simples structures, étaient l’inscription matérielle de processus ; d) de documents écrits. Autant de traits qui font de ces ensembles textuels ce qu’A. Culioli a appelé des corpus contraints, le texte n’étant ici « ni un échantillon (ou il est un échantillon représentatif de lui-même), ni un ensemble extensible et manipulable, car il ne s’agit pas ici de simulation »16. Et comme chaque avant-texte constitue un ensemble d’éléments interdépendants, on doit satisfaire une troisième contrainte, celle de l’exhaustivité : on ne peut se contenter de butiner parmi les données des éléments congruents à tel ou tel a priori théorique ou interprétatif.

9. Les outils et méthodes

Après toutes ces mises au point sur différentes théories linguistiques et leur relative inadéquation à l’objet manuscrit, nous étions malgré tout convaincus que la méthode linguistique en général et certaines notions en particulier devaient nous être d’un secours incontestable. Nous avons donc décidé de forger de manière empirique des outils de description en empruntant des éléments à la linguistique existante là où cela paraissait possible et sensé, quitte d’ailleurs à adapter certaines de ses notions à notre objet et quitte même à les détourner, le cas échéant, de leur sens originel afin de les rendre opérationnelles pour les besoins d’une génétique qu’il s’agissait d’inventer.

Les outils

C’est ainsi que nous avons « volé » au structuralisme des termes comme « substitution », « variante » et « paradigme », tout en leur donnant en partie de nouvelles définitions. Si l’on part du fait que l’une des propriétés du brouillon est que telle unité se trouve biffée et remplacée par telle autre, on voit sans mal l’utilité de la notion de « substitution ». Mais contrairement à la substitution structuraliste, qui est symétrique et indépendante du temps, les changements dans l’écriture sont nécessairement orientés et ordonnés dans le temps. Le scripteur écrit d’abord « x », puis le remplace par « y ». Il est trivial de rappeler que s’il avait d’abord écrit « y », puis l’avait remplacé par « x », nous serions face à une substitution différente. C’est donc ce que nous avons appelé « substitution orientée ». Par ailleurs, comme les réécritures se présentent sous quatre configurations – remplacer, ajouter, supprimer, déplacer -, la notion de substitution permettait de traiter ces quatre types de réécritures comme quatre sous-classes de substitutions, à condition cependant d’introduire une autre notion linguistique : la variable ø. Ainsi, on pouvait représenter

le remplacement comme « x y »

l’ajout comme « ø x »

la suppression comme « x ø »

le déplacement comme « abcd bcda »17.

On voit bien ainsi comment une seule notion empruntée à la linguistique et adaptée à la génétique peut avoir un pouvoir explicatif considérable.

Un autre cas d’emprunt : la notion de variante. Le structuralisme l’avait définie, notamment dans le domaine de la phonétique, comme ce qui distinguait deux réalisations d’une même unité linguistique (deux sons par exemple, ou deux morphèmes) prises dans un certain contexte, sans que la valeur (au sens de Saussure) de l’unité en question soit modifiée. Transportée dans le domaine des brouillons, la notion de variante recevra une tout autre définition : deux segments – mots, groupes syntaxiques ou phrases – seront considérés comme variantes l’un de l’autre si dans un contexte par ailleurs identique ils produisent une différence de sens. Et l’intérêt d’un relevé de variantes sera précisément d’isoler en quoi réside cette différence de sens. Comme pour la substitution, la variante appliquée au manuscrit ne peut être qu’orientée, et cette fois-ci l’orientation est rétrospective : on dira que « xBy » est une variante par rapport à « xAy », précédemment écrit, si « A » a été remplacé par « B » et si « B » introduit une différence de sens pertinente. Par ailleurs, inspirés par une distinction introduite par Hjelmslev, nous avons dans le domaine du manuscrit distingué également des variantes liées et des variantes libres18. La variante sera dite liée quand elle est due à des contraintes de langue (morphologiques, lexicales, syntaxiques ou de règles d’enchaînement textuel) ou si elle n’est que l’effet grammaticalement nécessaire d’une variante première. Les variantes non liées sont dites libres.

Dans la famille de la variante, nous avons par ailleurs introduit avec profit le couple « texte variant vs. texte non variant », ce qui permettait de définir, telles des isotopies, ce qui restait inchangé tout au long de la genèse.

Conformément aux données du manuscrit, nous avons défini une autre propriété de la variante propre aux brouillons. Si elle intervient immédiatement, au fil de la plume, donc sur la même ligne que ce qui est déjà écrit, nous avons posé qu’il s’agit d’une « variante d’écriture ». Si elle n’intervient pas immédiatement – et c’est repérable grâce à des critères de position, soit dans l’espace interlinéaire, soit dans la marge, soit sur d’autres feuillets –, nous l’avons identifiée comme étant une « variante de lecture », autrement dit, un phénomène qui suppose que le scripteur s’est arrêté à un moment donné pour se relire et procéder ensuite à certains changements19.

Une autre notion empruntée à la linguistique est celle de « paradigme ». Pour le structuralisme, elle désigne un ensemble d’unités virtuellement substituables dans un contexte donné. Adaptée à nos besoins, la notion de paradigme désigne un ensemble d’unités réellement substituées les unes aux autres, unités qui forment donc un « paradigme de réécritures ».

D’autres outils qui ont servi à élaborer la méthode génétique sont dus aux théories de l’énonciation. Ainsi beaucoup de nos analyses de manuscrits sont redevables aux travaux de Benveniste, notamment à l’article « L’appareil formel de l’énonciation »20 dont il convient de citer cette brève phrase, visionnaire en son temps : « Il faudrait aussi distinguer l’énonciation parlée de l’énonciation écrite. Celle-ci se meut sur deux plans : l’écrivain s’énonce en écrivant et, à l’intérieur de son écriture, il fait des individus s’énoncer »21. Les travaux de Culioli, nous l’avons dit, nous ont permis d’adapter à nos besoins des notions comme « opération », « paraphrase », « ambiguïté », « reformulation », sans lesquels aujourd’hui aucune description de phénomènes d’écriture et de réécriture ne semble possible.

Les réflexions de Culioli sur la nécessaire concomitance (abstraite !) de l’énonciateur et du co-énonciateur méritent ici une mention particulière, car ce sont eux qui nous ont amenés à faire l’hypothèse de « la double locution »22. En effet, Culioli entend le langage non comme une structure finie d’états, mais comme une double activité de production et de reconnaissance. Si l’on transpose cette hypothèse théorique à notre champ d’analyse, le manuscrit peut être considéré comme support d’un processus où il y a toujours concomitance entre activité d’écriture et activité de lecture. Le scripteur-locuteur est toujours aussi son premier lecteur et c’est en tant que lecteur qu’il se crée le rôle d’un deuxième locuteur, celui qui reprend et corrige le déjà écrit. On voit d’ailleurs que cette thèse rejoint mutatis mutandis celle de Benveniste quand il stipule le dialogue comme « structure fondamentale » du discours : « […] l’énonciation pose deux “figures” également nécessaires, l’une source, l’autre but de l’énonciation […]. Le monologue est un dialogue intériorisé […] entre un moi locuteur et un moi écouteur »23.

 La linguistique comme mode de penser

Outre ces emprunts locaux et adaptations ponctuelles, outre l’aspect « bricolage » d’outils appropriés, la linguistique a plus largement déterminé la manière dont nous avons progressivement élaboré la méthode génétique. C’est grâce à un principe fondamental de la linguistique que nous avons très tôt insisté sur le fait que le manuscrit ne mettait pas sous nos yeux des données toutes prêtes pour l’analyse, mais que ces données devaient être construites en objets scientifiques avant d’être analysables. De même, fidèles au principe saussurien selon lequel « le mécanisme linguistique roule tout entier sur des identités et des différences », nous avons considéré que le manuscrit représentait un corpus où il fallait repérer avec précision des paradigmes descriptibles en termes d’identité ou de différence. Et ce travail suppose nécessairement le repérage et le découpage d’un ensemble défini en unités de classement (dans le langage de Z. S. Harris : en classes d’équivalence). Autrement dit, il faut décider chaque fois où se situent le début et la fin d’un paradigme de réécriture, ou, pour parler avec Jean Fourquet, où est le champ d’incidence d’une variante24. Cette démarche implique à son tour l’exhaustivité du découpage. Mais la variance n’est pas l’unique propriété d’un brouillon. Il contient également un registre particulier que l’on peut parfaitement appréhender grâce à la fonction métalinguistique de Jakobson. En relèvent toutes les instructions que le scripteur s’adresse à lui-même, les évaluations de ce qu’il a déjà écrit ou de ce qu’il va ou doit encore écrire, bref des sortes de didascalies qui essaiment le « work in progress » et qui aident à le faire avancer. On peut citer l’exemple célèbre des Ébauches par lesquelles commencent les dossiers génétiques de Zola, qui débordent de commentaires (« Non, il faut autre chose »), de relances (« Je voudrais, après le Rêve, faire un roman tout autre »), d’auto-injonctions (« Et là, dire tout de suite pourquoi ils sont venus »), d’auto-évaluations (« Cela ne me paraît pas mauvais ») et d’hypothèses (« Si c’était l’amant qui force la femme à tuer son mari, l’histoire peut-être s’arrangerait mieux »)25. On voit combien ce registre est proche de ce que nous avons appelé « la double locution » : le scripteur est juge et partie, il écrit, se relit, et réécrit. On pourrait faire état de bien d’autres raisonnements et décisions dans le travail sur le manuscrit dont l’origine remonte aux principes méthodologiques de la linguistique. Ce qui nous importe ici, c’est de souligner que la construction de la génétique des textes s’est appuyée véritablement sur un mode de penser et d’agir propre aux sciences du langage. Il est éclairant de rappeler à ce propos le jugement d’A. Culioli, qui insiste sur « l’efficacité de la linguistique dans l’étude des mansucrits »26

10. Nouvelles perspectives, en guise de conclusion

Les développements récents ouvrent des perspectives pluridisciplinaires par l’élargissement des corpus et par l’approfondissement des collaborations avec l’informatique et la psychologie cognitive.

En informatique d’abord. On l’a vu, celle-ci a été associée dès l’origine à la mise en œuvre des méthodes et des outils de traitement linguistique que nous avons développés. Le corpus de questions-réponses à l’aide duquel nous avons élaboré la notion de double locution a été constitué en exploitant un enregistrement numérique de textes de Heine. Et le dictionnaire des substitutions a constitué une des pièces maîtresses du travail effectué par l’un d’entre nous sur les manuscrits de Lutezia27. Dans les années 1990, l’émergence du concept d’hypertexte nous a entraînés vers l’exploration d’autres pistes de recherche, moins étroitement linguistiques et plus ouvertes sur des confrontations avec la philologie, à travers le renouvellement de l’édition critique induit par le développement des nouvelles technologies.

Sans aborder ce point ici, signalons qu’un des défis associés à ce déplacement vers l’édition électronique est celui de la représentation de la page manuscrite. Quels sont les paramètres pertinents pour la décrire et la coder d’une manière qui soit à la fois fidèle à son foisonnement sémiotique et compatible avec les technologies de l’information ? Comment « mettre en scène » la substance graphique de la page manuscrite dans une interface efficace avec l’utilisateur, qu’il soit éditeur ou généticien28.

Plus récemment, un travail mené conjointement par les linguistes de l’ITEM et Jean-Gabriel Ganascia a donné lieu à la réalisation du logiciel MEDITE29, qui permet de comparer automatiquement deux textes proches l’un de l’autre mais variants30. Le traitement informatique met en œuvre les quatre opérations – additions, suppressions, remplacements, déplacements – que nous avions identifiées dans les dossiers de genèse en les subsumant sous le concept de substitution. Il apporte donc une validation empirique supplémentaire à cette notion, en montrant son caractère opératoire pour des corpus dans lesquels on ne dispose pas de brouillons, mais seulement de versions successives – non raturées – d’un même texte.

En deuxième lieu, la « méthode linguistique » que nous avons élaborée initialement pour les genèses littéraires nous a permis d’ouvrir nos investigations à d’autres corpus, non littéraires. Par un effet en retour, la génétique linguistique est maintenant utilisée pour exploiter des dossiers génétiques de linguistes théoriciens comme Benveniste31. A travers l’exploration des tâtonnements successifs attestés dans les manuscrits, il s’agit bien là de reconstituer « l’élaboration progressive des pensées dans l’exercice du discours » dont parlait Kleist, et, par exemple, de suivre l’émergence progressive de la notion d’énonciation à travers les avant-textes successifs de Benveniste.

La même ouverture est manifeste dans les coopérations qui ont été engagées avec les recherches en didactique de l’écriture. Elles ont été initiées par la thèse fondatrice de Claudine Fabre qui, depuis la fin les années 1980, a appliqué les méthodes et les outils de la génétique linguistique à des brouillons d’élèves des classes primaires32. Elles se poursuivent avec les travaux de Claire Doquet-Lacoste, qui a été amenée à confronter les outils que nous avions mis au point pour rendre compte des brouillons manuscrits avec les données fournies par des enregistrements en temps réel des processus d’écriture sur ordinateur.

Ces confrontations pluridisciplinaires mettent le doigt sur des questions épistémologiques fondamentales qui étaient déjà, en creux, contenues dans le choix initial de soumettre des corpus littéraires à un traitement linguistique : à la question de la spécificité de l’écriture littéraire est nécessairement associée la question complémentaire de l’unicité des processus de production écrite. Si l’approche linguistique de la genèse littéraire a quelque pertinence, c’est certainement parce que, par-delà leur littérarité affirmée, les brouillons relèvent d’abord de la « mise en fonctionnement de la langue » en tant qu’il s’agit d’un processus universel.

La participation des généticiens linguistes au réseau constitué par Denis Alamargot autour des « approches pluridisciplinaires de la production verbale écrite »33 illustre l’importance de cette problématique dans l’évolution future des recherches sur l’écriture. Les enjeux de cette mise en regard des écritures littéraires et des écritures scolaires, techniques et de toutes les écritures « ordinaires » sont multiples, et leur énumération excèderait le cadre de cet article. Nous n’en évoquerons ici qu’un seul : celui de la fécondation croisée des hypothèses que nous avons construites à partir des brouillons d’écrivains et de celles qui sous-tendent les protocoles expérimentaux de la psychologie cognitive. C’est ainsi qu’on a pu mettre en œuvre très récemment une étonnante convergence entre le couple « écriture à programme / écriture à processus » postulé par Louis Hay il y a une vingtaine d’années34 et une opposition proposée par certains psychologues cognitivistes entre une écriture « classique » et une écriture « romantique »35.

Nous terminerons ce tour d’horizon en évoquant les conséquences du développement exponentiel de l’écriture à l’ordinateur pour les méthodes, les concepts et les outils que nous avons élaborés depuis trente ans. On brandit volontiers la menace du chômage pour les linguistes généticiens, que l’ordinateur priverait à l’avenir de données par disparition des brouillons manuscrits. Au vu de l’évolution récente, il nous semble au contraire que – dans ce domaine comme dans tous ceux qui sont touchés par les technologies de l’information – ce sont plutôt la surabondance et les changements d’échelle dans la granularité des données auxquels la recherche linguistique sur les processus d’écriture devra faire face dans un avenir proche.

On constate en effet des progrès spectaculaires dans les techniques d’enregistrement de ce que les informaticiens et les psychologues appellent l’écriture on-line, c’est-à-dire en temps réel. Dans les années 1990, le logiciel Genèse du texte élaboré pour l’INRP par des membres de l’Association française pour la lecture avait ouvert la voie en sauvegardant le déroulement concret du processus d’écriture chez des apprentis scripteurs36. Trop en avance sur l’état des machines et des logiciels de traitement de texte de l’époque, cette initiative n’a pu être poursuivie directement. Mais des procédures comparables ont été formalisées plus récemment ailleurs : plusieurs logiciels ont été développés pour enregistrer l’intégralité du déroulement d’un processus d’écriture dans le temps37. Les traces manuscrites du processus d’écriture sont précieuses, en ce qu’elles donnent accès au déroulement des opérations d’écriture dans le temps. Mais elles sont lacunaires : seule une partie du processus laisse des traces sur le support de l’écrit, le reste est irrémédiablement perdu, ou en tout cas reconstitué de manière conjecturale et partielle. Ces lacunes sont intégralement comblées par les techniques d’enregistrement récentes. On peut désormais savoir qu’à l’instant t0, le scripteur a tapé la lettre a, que, quelques millisecondes plus tard, à l’instant t1, il a tapé la lettre suivante, qu’il a fait une pause de plusieurs secondes au milieu du mot, ou entre deux syntagmes, ou à la fin de la phrase, etc.38 Le traitement de texte fait perdre au scripteur – et au linguiste généticien qui voudra l’observer – la richesse et la polyvalence de la trace graphique. Mais il apporte au chercheur un foisonnement de données, une précision dans l’enregistrement des traces, qui sont sans équivalent dans le monde de l’écriture manuscrite.

Le changement d’échelle qui en résulte pose à nouveaux frais les questions auxquelles nous avons été confrontés au début de notre travail. Comment structurer cette masse d’informations pour les transformer en données analysables ? Quelles sont les unités de traitement pertinentes ? Comment seront-elles définies ? Quelle sera l’interaction des paramètres linguistiques (mots, morphèmes, syntagmes, phrases, …), des paramètres temporels (comment faire une typologie pertinente des pauses) et des paramètres topographiques (à quoi correspond un déplacement du curseur dans le texte déjà écrit) ? Si les actions élémentaires (ajouter, supprimer, remplacer, déplacer) semblent bien ne pas être affectées, qu’en est-il des opérations que l’observateur construit à partir d’elles ? Quels sont les effets de la puissance renforcée de l’instrument d’observation ? Peut-on considérer qu’il nous rapproche de ce que seraient les mécanismes cognitifs « réels » qui interviennent dans le processus de production écrite ?

Autant de questions passionnantes, qui montrent que la « linguistique génétique » a encore du pain sur la planche et que la recherche sur la production verbale écrite ne fait que commencer…

Notes

1  Rappelons qu’« avant-texte » désigne l’ensemble des documents écrits qui portent témoignage de l’élaboration progressive du texte.

2  Jean-Yves Pollock, Langage et cognition. Paris, P.U.F., 1997, p. 19.

3  Voir par exemple le n° 26 de Langages, « La grammaire générative en pays de langue allemande », Paris, 1972.

4  Pour une synthèse (envisagée davantage du point de vue de la lecture), cf. par exemple Rand J. Spiro, Bertram C. Bruce, William F. Brewer (eds), Theoretical Issues in Reading Compréhension.Perspectives from Cognitive Psychology, Linguistics, Artificial Intelligence, and Education. Hillsdale, N.J., Lawrence Erlbaum Associates, 1980.

5  Almuth Grésillon et Jean-Louis Lebrave, « Les manuscrits comme lieu de conflits discursifs ». La genèse du texte : les modèles linguistiques. Paris, Éditions du CNRS, 1982, p. 129.

6  Blanche-Noëlle Grunig, « Structure et processus ». Bulletin de la Société de Linguistique de Paris, t. XCI (1996), fasc. 1, p. 37-53.

7  Antoine Culioli, « Préface ». La genèse du texte, op. cit., p. 10.

8  Stéphane Robert, « Modèles linguistiques de production ». Production du langage (Michel Fayol, ed). Paris, Hermès Science Publications, 2002, p. 78 et suiv.

9  Flower, L. S., & Hayes, J. R., « The dynamic of composing : Making plans and juggling with constraints ». Cognitive processes in writing (L. W. Gregg & E. R. Steinberg, eds). Hillsdale, NJ, Lawrence Erlbaum Associates. p. 31-50.

10  Pour une synthèse, cf. M. Fayol, op. cit., en particulier les chapitres de Denis Alamargot et Lucile Chanquoy et celui de Thierry Olive.

11  Cette convergence s’est concrétisée en 2002 avec la création par le CNRS d’un réseau (GDR)« Approches pluridisciplinaires de la production verbale écrite » dirigé par Denis Alamargot. Voir plus loin.

12  Cf. par exemple Nina Catach (ed), Pour une théorie de la langue écrite. Paris, CNRS-Editions, 1988.

13  Cf. par exemple Jacques Anis (ed), Langue française n° 59. Le signifiant graphique. Paris, Larousse, 1983.

14  Cf. par exemple Jack Goody, La Raison graphique. La domestication de la pensée sauvage. Paris, Éditions de Minuit, 1979.

15  Le problème est entre temps devenu plus complexe avec l’écriture à l’ordinateur.

16  Antoine Culioli, op. cit., p. 10.

17  Pour une présentation synthétique, cf. par exemple le chapitre 6 dans Almuth Grésillon, Jean-Louis Lebrave, Catherine Viollet, Proust à la lettre. Les intermittences de l’écriture. Tusson, du Lérot, 1990.

18  Almuth Grésillon, « Les variantes de manuscrits : critères et degrés de pertinence ». La publication des manuscrits inédits (Louis Hay et Winfried Woesler, eds). Berne, Peter Lang Verlag, coll. « Jahrbuch für internationale Germanistik », Reihe A, Bd. 4, 1979, p. 179-189.

19  Cf. Almuth Grésillon et Jean-Louis Lebrave, art. cit. (note 5), p. 137, ou Jean-Louis Lebrave, « Le locuteur : la course au trésor ». Cahier Heine n° 3. Paris, 1984, p. 74-75.

20  Emile Benveniste, « L’appareil formel de l’énonciation ». Langages n° 17, 1970.

21  Ibid., p. 18.

22  Almuth Grésillon et Jean-Louis Lebrave (eds), La langue au ras du texte. Lille, P.U.L., 1984, p. 97 et suiv.

23  Ibid., p. 18.

24  La gestion de cette contrainte a joué un rôle déterminant dans les traitement informatiques élaborés pour structurer les données manuscrites. Cf. Jean-Louis Lebrave, Le traitement automatique des brouillons. Numéro spécial de Programmation et sciences humaines, Paris, 1984.

25  Cf. Almuth Grésillon, « Langage de l’ébauche : parole intérieure extériorisée ». Langages n° 147, « Processus d’écriture et marques linguistiques », 2002, 19-38

26  Antoine Culioli, art. cit., p. 10.

27  Cf. Jean-Louis Lebrave, Le traitement automatique des brouillons, op. cit.

28  Cf. Aurèle Crasson, « Représenter l’illisible ». Genesis 27, 2006, p. 163-164.

29  Cf. Irène Fenoglio et Jean-Gabriel Ganascia, « EDITE, un programme pour l’approche comparative de documents de genèse ». Genesis 27, 2006, p. 166-167, et Rudolf Mahrer, « La Génétique Assistée par Ordinateur : Medite au banc d’essai ou Du tout neuf pour le Tout-vieux. Ibid., p. 168-172.

30  Il est intéressant de relever que les algorithmes utilisés pour ces comparaisons (les informaticiens parlent d’alignement unilingue) sont ceux qui ont été développés en génétique biologique pour réaliser le séquençage du génome.

31  Irène Fenoglio anime une équipe à l’ITEM qui se consacre à l’exploration des manuscrits de Benveniste.

32  Cf. Claudine Fabre, Les brouillons d’écolier. Grenoble, Editions L’Atelier du texte, 1990, etClaudine Fabre, Réécrire à l'école et au collège. Thiron, ESF Éditeur, 2002.

33  Ce réseau vient de s’élargir à l’ensemble des chercheurs européens travaillant sur les processus de production écrite avec la création du réseau européen « The European Research Network on Learning to Write Effectively » (ERN-LWE).

34  Louis Hay, « Die dritte Dimension der Literatur ». Poetica, Amsterdam, vol. 16, 1984, cahier 3-4, p. 307-323.

35  Cf. Denis Alamargot et Jean-Louis Lebrave (sous presse), « A mutual contribution by cognitive psychology and genetic criticism to the study of professional writers ». European Psychologist, 2009, Volume 14, Issue 1.

36  Cf. par exemple Claire Doquet-Lacoste, « Indices et traces de l’activité métadiscursive des scripteurs : aspects de la réécriture ». Le français aujourd’hui, n° 144, 2004, p. 33-41.

37  A Lund, Sven Strömqvist et son équipe ont mis au point le logiciel Scriptlog ; cf. Sven Strömqvist, « Une approche expérimentale du processus d’écriture : l’enregistrement de la frappe au clavier ». Genesis n° 27, 2006, p. 45-58. A Anvers, l’équipe de Luuk Van Waes a développé le logiciel Inputlog, qui fonctionne en arrière-plan du logiciel commercial Word ; cf. Marielle Leijten et Luuk Van Waes, « Inputlog: A logging tool for the research of writing Enfin, à Poitiers, Denis Alamargot et David Chesnet ont mis au point le logiciel Eye and Pen, qui enregistre l’écriture manuscrite à partir d’une tablette graphique ; cf. G. Caporossi, D. Alamargot & D. Chesnet, « Using the computer to study the dynamics of handwriting processes ». Lecture Notes in Computer Science, 3245, 2004, p. 242-254. Scriptlog et Eye and Pen offrent en outre la possibilité d’enregistrer les mouvements oculaires du scripteur pendant qu’il écrit.

38  Sans même parler de l’enregistrement des mouvements oculaires, moins « écologique » puisqu’il suppose que le sujet accepte de porter un casque sur la tête et se prête de bonne grâce à une procédure expérimentale qui reste contraignante.

Pour citer cette page

Jean-Louis Lebrave et Almuth Grésillon, «Linguistique et génétique des textes : un décalogue», Item [En ligne],
Mis en ligne le: 16 février 2009
Disponible sur: http://www.item.ens.fr/index.php?id=384099.

Notice bibliographique

Le français moderne, numéro spécial : « Tendances actuelles de la linguistique française » Paris, CILF, 2008. (p. 37-49)

AccueilContactL'ItemRSSPodcast — Site propulsé par Lodel