laboratoire Analyse et Traitement Informatique de la Langue Française (ATILF)
CNRS Université de Lorraine

Membre de
ILF
FEDER

Projet Definiens

Résumé

Le projet Definiens vise la structuration et le balisage sémantique des définitions du Trésor de la Langue Française informatisé (TLFi). Sa finalité est de développer une base lexicale du français proposant des définitions explicitement structurées et de travailler à la valorisation du TLFi, notamment dans le contexte d’applications en linguistique informatique ou en traitement automatique des langues (TAL). Dans la pratique, les participants de Definiens effectuent un travail d’annotation des définitions du TLFi au moyen d’un balisage XML qui permet d’enrichir le contenu informationnel de ces dernières. Definiens n’est donc pas, contrairement au grand projet RELIEF-RLF, un projet de nature lexicographique, et aucune réécriture ou révision des définitions n’est opérée.

Definiens a débuté en 2008 à l’Observatoire de linguistique Sens-Texte (OLST) de l’Université de Montréal, sous la direction d’Alain Polguère, dans le contexte d’un stage postdoctoral de Lucie Barque (maintenant, LDI Paris 13). Le projet s’est ensuite déplacé à l’ATILF, lors de la prise de fonction d’A. Polguère à l’Université de Lorraine (Nancy 2). Dans sa phase initiale, Definiens a bénéficié de financements provenant du Fonds de recherche sur la société et la culture du Québec (FQRSC) et du Conseil de recherches en sciences humaines du Canada (CRSH). Son intégration à l’ATILF s’est effectuée grâce à un financement interne du laboratoire.

Definiens est un projet conçu sur le long terme, qui permet aussi bien la construction de la ressource lexicale elle-même que la formation d’étudiants (par vacations) et la réflexion plus théorique sur la structuration des définitions lexicographiques.

Participants

Responsables

  • Lucie Barque (LDI, Paris 13)
  • Alain Polguère

    Étudiants ou membres de l’ATILF ayant œuvré comme annotateurs

  • Delphine Beauseroy
  • Jean-Luc Benoit
  • Candice Delaite
  • Anaïs Ferté
  • Charlène Kuhn
  • Veronika Lux-Pogodalla
  • Sandrine Pescarini
  • Rosina Savisaar
  • Dorota Sikora

    Collaborateurs à l’ATILF

  • Pascale Bernard
  • Sylvain Briat
  • Bertrand Gaiffe
  • Évelyne Jacquey
  • Étienne Petitjean
  • Jean-Marie Pierrel

    Collaborateurs externes

  • Paolo Frassi (Univ. de Vérone, Italie)
  • Igor Mel’čuk (OLST, Univ. de Montréal, Canada)
  • Alexis Nasr (LIF, Aix-Marseille 2)

    Annotateurs à l’OST (Montréal) en 2008-2009

  • Évelyne Arbour-Barbeau
  • Claudia Fecteau
  • Anne-Laure Jousse
  • Caroline Poudrier
  • Mélissa Samson-Fauteux
  • Olivier Taïs

Détail des objectifs

Tel qu’indiqué dans le résumé du projet, Definiens vise la construction d’une base lexicale du français, libre d’accès et à très large couverture, proposant pour chaque unité lexicale décrite une définition explicitement structurée.

Par définition explicitement structurée, on entend une définition lexicographique munie d’un balisage formel (ici, XML) indiquant :

1. la structure en composantes définitionnelles de type genre prochain et différences spécifiques – segmentation des définitions ;

2. le rôle joué par chaque composante dans la caractérisation du sens de l’unité lexicale définie par marquage sémantique et construction d’une hiérarchie d’étiquettes sémantiques – balisage sémantique des composantes.

Considérons la définition de la lexie flottage acception A, définition 1, du TLFi pour illustrer ces deux étapes d’annotation. Noter que toutes les définitions de la base Definiens sont délimitées par la balise <DEFI>.

<DEFI>Action de transporter du bois en le faisant flotter sur un cours d'eau</DEFI>

Étape 1 de segmentation :

Dans cette étape, trois types de balisage sont introduits :

1. Le contenu de <DEFI> qui correspond à une paraphrase véritable du sens défini est identifié par la balise <PARAPH>.

2. La composante centrale (= genre prochain) du contenu de <PARAPH> est identifiée par la balise <CC>.

3. Chaque composante périphérique est identifiée par la balise <CP>.

Cela donne, pour la définition considérée ici :

<DEFI><PARAPH><CC>Action de transporter</CC><CP>du bois</CP><CP>en le faisant flotter sur un cours d’eau</CP></PARAPH></DEFI>

Étape 2 de balisage sémantique :

Dans cette étape, deux attributs de nature sémantique sont introduits :

1. L’attribut étiq est introduit dans la balise <CC> pour spécifier l’étiquette sémantique de la lexie définie.

2. L’attribut rôle est introduit dans chaque balise <CP> pour spécifier l’apport informationnel de chaque composante périphérique au contenu de la composante centrale.

<DEFI><PARAPH étiq="transport"><CC>Action de transporter</CC><CP rôle="patient">du bois</CP><CP rôle="manière">en le faisant flotter sur un cours d'eau</CP></PARAPH></DEFI>

Actuellement, seule la phase 1 – segmentation des définitions – est en cours. Un premier échantillon des définitions du TLFi balisées dans le cadre de Definiens sera prochainement rendu disponible sur le site du CNRTL.

Bibliographie sur Definiens

  Annuaire | Contact | Courriel | Intranet | Plan d'accès | Autres sites | Crédits | Mentions légales