Maître de Conférences à l’université Paris 13 depuis 2001
Habilité à diriger les recherche depuis 2014
ORCID ID
https://orcid.org/0000-0002-7133-3174
CV HAL
https://cv.archives-ouvertes.fr/fabriceissac
Thématiques de recherche & productions
Mon positionnement naturellement à l’intersection de la linguistique et des techniques liées au numérique guide mon activité de recherche. Il s’agit d’une démarche épistémologique et transdisciplinaire dont la langue ou le langage sont la pierre de touche. Le dénominateur commun de mes différents travaux est la notion de ressource. Ces dernières années les notions d’usage et de diachronie ont été au centre de mes préoccupations ; en témoigne mon implication dans le projet Créalscience (naissance du vocabulaire scientifique au moyen âge) et le réseau UDPN (Usage des patrimoines numérisés).
Lexique
Le mot est pensé jusqu’au 18 e siècle comme l’unité élémentaire linguistique porteuse de sens et c’est le passage du manuscrit à l’imprimerie qui consacre la notion de mot. Connue de la plupart des locuteurs elle est intuitivement perçue comme une unité élémentaire, supposée atomique, de la langue au sein d’une phrase. L’histoire des notions linguistiques montre que le mot est incontournable dans la modélisation des langues, même si cette notion préscientifique a, de tout temps, donné lieu à des attaques et à des tentatives de remplacement par d’autres notions à la définition plus précise (signe, morphème, lexème, monème, lexie, unité lexicale). Les premiers traitements sur des ressources numériques consistent à identifier les mots à partir d’un flux de caractères, ce n’est que lorsque cette étape est terminée que d’autres traitements peuvent être envisagés. Cette notion du mot, je l’aborde sous différents angles :
- La morphologie : j’ai présenté un modèle de représentation de la flexion proposant un formalisme de transformation sous forme de règles couplé à une description permettant la structuration de celles-ci. Je distingue deux niveaux : (i) comment, à partir d’une forme initiale, il est possible d’arriver à une forme dérivée ? (ii) comment organiser les règles pour les regrouper efficacement de manière à éviter la redondance qui, du strict point de vue de la gestion, est source d’erreurs ? ; Cette dissociation permet de rendre compte de la nature
fonctionnelle / relationnelle de la morphologie dans un cadre théorique réalisationnel. Ce même formalisme peut également être utilisé en analyse pour identifier la nature de certains néologismes. - Le figement : Le figement est un phénomène très complexe, très répandu et pour lequel il existe une abondante littérature tant pour son étude que pour sa description J’ai abordé cette notion en cherchant à répondre à deux questions : comment les représenter en tant que ressource numérique, comme dans le formalisme des grammaires d’arbres adjoints, et comment les identifier ? Je me suis inspiré pour le premier point à la fois des grammaires d’unification
et du modèle morphologique décrit supra ; le second point fait intervenir un ensemble de tests syntaxiques, sémantiques (inspiré par les travaux de Zellig S. Harris) et quantitatif afin d’exhiber un ensemble de candidats. Cette stratégie a aussi été utilisée afin de procéder à un alignement de termes dans le cadre de corpus bilingues.
Ressources
Élaborer une ressource linguistique morphologique est une tâche complexe qui dépasse la réalisation proprement dite du modèle. La constitution de la ressource elle-même est une activité toute différente et nécessite une connaissance parfaite à la fois du modèle formel et du modèle linguistiques.
Pour les différentes expérimentations auxquelles j’ai procédé, j’ai donc fait appel à des informateurs ; dans ce cas précis, faire appel à un locuteur natif ne suffit pas et c’est un linguiste natif qui tient le rôle d’informateur avec toutes les difficultés de communications inhérentes à ce type d’interactions.
Le travail réalisé sur l’ancien français l’a été en collaboration avec Xavier-Laurent Salvador tout d’abord dans l’objectif de constituer une ressource puis dans le cadre de l’ANR Créalscience. L’étude des verbes arabes s’est faite quant à elle en collaboration avec plusieurs collègues arabisants des universités de La Manouba et de Sousse. L’étude du polonais s’est faite en collaboration avec Alicja Hajok de l’université de Cracovie.
Dictionnairique
Regroupant des préoccupations anciennes, la morphologie en synchronie et en diachronie, et nouvelles, la dictionnairique le projet Crealscience à pour objectif la rédaction d’un lexique du XIIe-XVe siècle ; il s’agit d’un poste d’observation pour une recherche sur la genèse d’une terminologie en
français. Ce programme qui réunit un grand nombre de spécialistes – médiévistes, historiens des sciences et de la langues, linguistes, lexicographes – a permis de développer un grand nombre de problématiques liées à ces domaines et a permis d’en faire émerger de nouveaux. En effet, à une problématique purement dictionnairique se greffe la nécessité pour le lecteur moderne d’un dictionnaire notionnel. Outre ma participation en tant que rédacteur / correcteur de fiches, de la définition de la micro structure et
des choix à effectuer concernant les contenus, j’ai mené une réflexion sur la problématique de l’accès des savoirs anciens pour un public moderne. En effet, indépendamment des compétences du lecteur en ancien français et dans un des domaines des sciences concernés, l’information inconnue doit être accessible. J’ai donc développé une chaîne de traitements tirant partie des contraintes rédactionnelles pour créer un ensemble de graphes permettant de naviguer de manière onomasiologique dans le dictionnaire.
Logiciels (instruments pour le linguiste)
Mes projets de recherche m’ont conduit à développer un certain nombre d’outils prototypes afin de tester ou de valider certaines hypothèses. L’ensemble de ces productions représente un travail important et certainement utile à la communauté (même si une tâche d’empaquetage nécessaire à une diffusion plus large reste à faire). Les applications / bibliothèques sont développées en Python et sont publiées de manière informelle sous licence GPL3. Les différents logiciels peuvent être téléchargés à cette adresse : http://apps.bombadil.fr).
- Télanaute : Ce logiciel est un aspirateur web qui a la particularité d’effectuer un téléchargement ciblé. Il est possible de définir un certain nombre de critères, méta-linguistiques et / ou linguistiques, afin de constituer un corpus répondant à un besoin spécifique.
- Proteus : Implémentation du modèle de flexion (cf. supra) développé en vue de résoudre un certain nombre de problèmes liés à l’analyse et la génération morphologique.
- Corpindex : Une bibliothèque très complète et surtout évolutive et paramétrable pour la manipulation de très gros corpus. Cette bibliothèque a été utilisée pour notamment développer un étiqueteur morphosyntaxique pour le français basé sur des règles écrites manuellement, un outil
d’alignement d’expressions sur des bi-texte, un moteur de recherche linguistique (un site démonstration de faisabilité sur un corpus de faible taille – environ 12 millions de mots étiquetés, soit 150 romans – peut être consulté à cette adresse http://zenodote.bombadil.fr).
Corpus
- Corpus DH : Le corpus Droits de l’homme est une ressource de référence en matière d’information juridique électronique. Il est constitué de 28 conventions en deux ou trois langues et suit les recommandations TEI.
- DFSM : Le Dictionnaire de Français Scientifique Médiéval, élaboré dans le cadre du programme ANR Créalscience, a pour ambition de donner un inventaire des créations terminologiques dès le XIIe siècle et jusqu’au XVe siècle. Le dictionnaire – finalisé pour les lettre A, B et C – respecte
également les recommandation TEI.
Bibliographie
Vous devez être connecté pour poster un commentaire.