Humanités Numériques

La composition de la Recherche s’articule entre les trois domaines imbriqués. Chaque thématique construit alors une vision interdisciplinaire de l’objet « discours numérique » qui accorde toute sa place à la définition, à l’enquête, à la diffusion des savoirs.

Un premier axe: la fouille de données et la valeur documentaire du discours numérique – Un premier axe de recherche est élaboré autour de la question du discours numérique et de sa valeur documentaire: à l’heure où se construisent de nouvelles sciences de la muséographie, de la reconstruction virtuelle et de la représentation des savoirs anciens, il est essentiel de faire émerger une recherche qui soit non seulement productrice de savoirs savants mais qui se pose la question de l’élaboration d’un discours encyclopédique qui transmette les contenus, se pose la question du modus operandi et se dote des moyens de valoriser son travail. 

Les travaux sur la terminologie se sont considérablement développés et renouvelés depuis une quinzaine d’années et l’étude diachronique, même plus rare et limitée à un domaine, n’échappe pas à ce mouvement, qu’il s’agisse de la période classique ou des périodes antérieures. Les nomenclatures, leur genèse, leurs modalités de constitution et leur implantation dans la langue ont suscité des travaux importants qui en font des objets d’études particulièrement stimulants à qui s’intéresse aux interactions entre histoire, conceptualisation, catégorisation et langue et littérature. On peut dans ce cadre distinguer une série de problématiques conceptuelles qui associent étroitement les différents champs disciplinaires représentés par l’équipe sans exclure la possibilité de s’ouvrir bientôt à de nouvelles orientations. En effet, la notion de discours, qui s’applique aussi bien au discours visuel, qu’iconographique ou sonore, est particulièrement efficace pour décrire les humanités sans le réduire à tel aspect doctrinaire.  Trois aspects du document fondent cette approche de l’Usage des Patrimoines numériques: 

  • Documents témoins : définition d’une langue scientifique et ses critères pour un état ancien de la langue, les processus de création et de stabilisation sémantique, la relation entre texte et lexème, figement , saillance, émergence et rémanence ;
  • Documents définitoires : évolution des théories, des domaines de savoirs ainsi que des textes (genre, époques, domaines) ; 
  • Documents critiques : analyse de l’écrit et des écrits; constitution de ressources numériques qui associent des données encyclopédiques (le texte littéraire et les données issues de la linguistique textuelle; l’analyse linguistique et l’exemple issu d’un corpus littéraire).

Un deuxième axe: la représentation numérique et la valorisation des données collectées – Peut-on penser une encyclopédie linguistique, littéraire, historique et numérique savante qui soit un recueil de savoirs partagés ?

Il s’agit de conceptualiser la valeur à proprement parler efficace du discours numérique dans le monde universitaire du XXIe siècle face à des équipes dans le monde qui travaillent couramment à l’invention des modes de diffusion des savoirs savants en Littérature et Sciences humaines. C’est aussi la question posée de la formalisation des publics à qui s’adressent les encyclopédies numériques et les recueils de discours numériques. Les premiers textes français médiévaux par exemple qui se consacraient à la diffusion des savoirs techniques, ce que nous appellerions sciences aujourd’hui, mettent en valeur la créativité des premiers auteurs. Ils dressent un panorama complet des connaissances accessibles d’une époque. La transmission de ces savoirs aujourd’hui construit un autre challenge que la constitution de la Grande Bibliothèque Du Droit illustre parfaitement : rendre accessibles des mots spécialisés désignant des notions inconnues du plus grand nombre sans en altérer la spécificité ni l’envergure originales. Cette problématique de la transmission, qui est au cœur de la question de la constitution d’un savoir numérique au XXIe siècle (la muséographie, l’encyclopédisme, l’université), ferait l’objet d’une investigation.

  • L’ergonomie : la question de la représentation des savoirs et de l’accès aux données trouve ici naturellement sa place, ainsi que l’élaboration d’une réflexion sur les technologies qui sont à la disposition du chercheur en LSHS;
  • L’accès aux données et les moteurs de recherche : l’accès aux données aujourd’hui se fait, pour le grand public, de manière naturelle sans que la langue ni la discipline ne soient plus un problème; les moteurs de recherches ont largement contribué à redéfinir le cadre programmatique de la représentation des savoirs. Il est normal qu’ADN investisse sa recherche dans ce qui serait à la fois une équipe productrice de données (de bases de données) mais aussi d’outils accessibles.

Un troisième axe : une épistémologie critique de l’information – En marge des travaux innovants portés par les équipes piliers de TTN, il est important de trouver un noyau orienté vers les différents modes d’analyses traditionnels du discours, posant le cadre et délimitant les orientations de la recherche interdisciplinaire:

  • L’analyse linguistique des documents : Sur le plan linguistique, trois thématiques sont retenues : la phraséologie, l’inférence et la linguistique textuelle ;
  • La critique documentaire : il s’agit de questionner la structuration textuelle, les procédures herméneutiques, la collecte de données nouvelles dans la discipline par enquêtes ;
  • L’enquête productrice de données : en plus de l’aspect informatique, le travail sera orienté vers l’ergonomie, notamment du point de vue de la visualisation des données, la mise en place de chaînes de traitements et des applications couvrant des domaines comme la linguistique textuelle, la traductologie, la recherche d’informations, la fouille de textes, l’aide à la prise de décision, etc.

Une problématique forte: l’éthique du sens

La mise en relation et le développement des réseaux témoignent d’un développement intéressant du rapport que nous entretenons à la documentation : toute archive devient accessible et exploitable quelle que soit la langue d’origine ou l’origine de son extraction. L’ancien français n’est pas en reste, qui voit aujourd’hui le nombre d’éditions électroniques et de fac-similés grandir, l’état de l’ancienne langue ne pouvant être ignoré par les grands projets de bibliothèques numériques. Toutefois, si aujourd’hui le traitement automatique des langues laisse envisager la possibilité dans un avenir lointain d’avoir accès à la synthèse de l’information de tout type de document quel que soit le niveau de pratique que le sujet parlant puisse avoir de la langue source du document, il serait inconcevable que les textes témoignant des états anciens des langues modernes rendus accessibles par la numérisation constituent des nœuds d’opacité inaccessibles aux machines modernes. Or l’ancien français est un état de langue qui ne nous est accessible aujourd’hui que par la consultation de documents écrits dont l’originalité est d’enregistrer des variations et des variantes liées au lieu et au moment de leur écriture. Le moyen pragmatique de résoudre ce paradoxe de la grande diffusion des textes et de leur relative inaccessibilité consiste dans la création d’une ressource dictionnairique exhaustive susceptible d’être projetée a posteriori sur des corpus au gré des besoins des utilisateurs. La pertinence des objectifs pourrait être évaluée à court terme avec la projection de la ressource sur des textes exemplaires à des fins de tri automatique sur critère morphosyntaxique. Sur le très long terme, l’existence d’une telle ressource ouvre la voie à la résolution de la question du traitement automatique de la modernisation des états de langue : une forme de traduction automatique français-français, un travail sur corpus fini au sein duquel l’outil informatique pourrait en théorie déployer l’étendue de la puissance de ses capacités de calcul sur un domaine empiriquement quantifiable et non amendable. Pourquoi enfin ne pas imaginer étendre ce travail au champ de toutes les langues romanes ?