laboratoire Analyse et Traitement Informatique de la Langue Française (ATILF)
CNRS Université de Lorraine

Membre de
ILF
FEDER
Accueil > La recherche > Équipes > Lexique > Lexique et corpus > Projets passés et en cours de l’axe « Lexique et corpus »

Projets passés et en cours de l’axe « Lexique et corpus »

Annotation morpho-syntaxique de corpus oraux et écrits, 2011-

Ce projet réunit Christophe Benzitoun, Lolita Bérard, Évelyne Jacquey, Étienne Petitjean (équipe Ressources et Normalisation).

Le manque de corpus en français, écrits et surtout oraux, qui soient diffusables, normalisés (en TEI par exemple), échantillonnés et étiquetés en morphosyntaxe (parties du discours et lemmes) est un problème récurrent pour le TAL et la linguistique de corpus francophone. Or, l’étiquetage morphosyntaxique est indispensable ne serait-ce que pour effectuer le dénombrement global des formes différentes ou pour retrouver plus aisément certaines formes ambiguës. Les corpus oraux étiquetés, quant à eux, peuvent aussi être utiles aux systèmes de transcriptions automatiques. La récente initiative de (Ferraresi et al. 2008) et (Baroni et al. 2009) a probablement amélioré cet état de fait en mettant à disposition le corpus FrWac (corpus aspiré sur le Web selon une méthodologie reproductible, d’une taille de 1,8 milliards d’occurrences). Néanmoins, comme le soulignent ses concepteurs, la taille et le mode de constitution du corpus FrWac n’ont pour le moment pas permis de statuer précisément sur son contenu et donc son échantillonnage, aspect indispensable pour la description linguistique sur corpus. De la même manière, la mise à disposition du corpus de l’Est Républicain sur le site du CNRTL représente un progrès mais ce corpus n’est ni échantillonné, ni étiqueté dans sa forme téléchargeable. Par ailleurs, disposer d’un nouveau système automatisé d’étiquetage pour la base textuelle Frantext représenterait une amélioration notable de celle-ci au vu des réflexions menées par le groupe Frantext2 animé par Véronique Montémont. Le projet TCOF, enfin, a contribué avec d’autres à la mise à disposition de corpus oraux, alignés texte-son et normalisés en TEI, mais ces données ne sont pour l’instant ni échantillonnées, ni étiquetées en morphosyntaxe.
Face à ces lacunes, l’objectif premier du projet que nous présentons est de rendre disponible pour la communauté scientifique un étiqueteur en morphosyntaxe entraîné sur les données actuellement présentes sur le site du CNRTL, à savoir l’Est Républicain, les données orales de TCOF et les textes libres de droit de Frantext. Le travail réalisé pour « Frantext libre de droits » a pour objectif d’être directement utilisable pour étiqueter la future base textuelle Frantext2.
L’originalité du projet réside dans le fait d’aborder aussi bien les données écrites que les données orales, ce qui n’est pas le cas pour les autres systèmes d’étiquetage automatique.
Pour ce faire, nous allons entraîner l’étiqueteur TreeTagger sur différents types de données et proposer autant de fichiers de paramètres que de types de données distinctes, ce qui représente l’autre versant original de notre approche. Notre choix s’est porté sur ce logiciel car il est libre de droits, multi-plateformes, supporte les deux encodages les plus courants, ISO et UTF-8, et permet l’élaboration de fichiers de paramètres spécifiques à chaque corpus d’apprentissage utilisé. Ainsi, nous fournirons plusieurs fichiers distincts pour Frantext en fonction des regroupements par type de texte, ainsi qu’un autre fichier pour l’Est Républicain et encore un autre pour l’oral.

Sémantique et terminologie : projet ASTTIC, 2011 - 2012

Le projet ASTTIC (Annotation Sémantique et Terminologique de Textes pour leur Indexation et leur Catégorisation) a pour objectif la constitution de corpus textuels, annotés sémantiquement, terminologiquement diffusables et accessibles pour la communauté scientifique. Il se fonde sur les résultats et les observations issus de travaux antérieurs associant sémantique lexicale, sémantique textuelle et terminologie.
Le projet a plusieurs objectifs :

  • La mise au point, dans le domaine des sciences du langage, d’une méthodologie d’annotation de documents contribuant à l’amélioration de leur indexation (indexation assistée au sens documentaire). L’annotation suppose le repérage dans les textes des candidats termes caractéristiques du domaine et leur désambiguïsation sémantique et terminologique.
  • L’enrichissement d’un thesaurus du domaine grâce aux candidats termes mis en évidence lors des étapes de repérage et de désambiguïsation.
  • La catégorisation des textes en textes scientifiques (écrits pour des spécialistes par des spécialistes) ou en textes de vulgarisation scientifique (écrits pour le grand public par des spécialistes ou des journalistes scientifiques) en fonction de leur degré de généricité ou de spécificité.

Le repérage et l’extraction du vocabulaire des sciences du langage présentent une difficulté spécifique liée à la proximité entre le vocabulaire du domaine de spécialité et la langue courante (arbre est un terme en syntaxe et un mot de la langage courante – composition est un terme dans les deux sous-domaines que sont la syntaxe et la morphologie ainsi qu’un terme de musicologie et un mot de la langue courante)

Le projet a été élargi et étoffé pour être soumis à l’ANR CONTINT 2011. L’ANR Termith a pris le relais en novembre 2012.

Sémantique et syntaxe : projet ANCOR, 2010

Le projet ANCOR (Analyse des Nominalisations sur CORpus) est un partenariat entre deux équipes lorraines (équipe Lexique de l’ATILF & CELTED) et deux équipes nationales (UMR STL, Lille & EA CLILLAC, Paris 7). Il vise à étudier les propriétés morphosyntaxiques (détermination et pluralisation) des noms événementiels, c’est-à-dire des noms abstraits apparentés à un verbe et susceptibles de dénoter un événement. Notre hypothèse fondamentale est que la caractérisation de ces noms repose sur des usages, et non sur des classes prédéfinies comme le suggèrent notamment les travaux de (Grimshaw 1990).
L’objectif du projet, en voie de réalisation, est de vérifier si des hypothèses descriptives sur les noms événementiels (NE) formulées sur la base d’exemples construits se trouvent validées par des données attestées dans un corpus.

Actuellement, les membres du projet ANCOR sont impliqués dans une soumission à l’ANR Corpus et Outils 2011, projet NOMERIE.

Sémantique et morphologie : projet LEGERe, 2008 - 2010

Le projet LEGERe (LExique GEnératif de Référence pour le français)a pour objectif la conception et constitution d’un lexique sémantique du français en vue de son utilisation en TALN, et sa mise à disposition auprès de la communauté, via la plateforme du CNRTL. La conception de ce lexique repose sur deux types d’informations complémentaires acquises (semi-)automatiquement ; celles issues des règles de construction de lexèmes, par l’utilisation de l’analyseur morphologique DériF, et celles issues de l’exploitation du corpus lexicographique du TLF. Parmi les résultats attendus, seront traités par la morphologie : les adjectifs en –able (lavable), les verbes dénominaux (déneiger, emprisonner) et déadjectivaux (banaliser, électrifier), et les noms de procès (lavage, construction, gonflement) ; l’acquisition à partir du TLF se focalisera sur les noms d’instruments non construits (balai) et les noms composés N prep N (grain de blé, boîte à gants). Les résultats s’inscrivent dans le cadre formel du Lexique Génératif (LG) (Bouillon, 1997), (Pustejovsky, 1995), et relèvent du courant lexématique de la morphologie. Les partenaires du projet réunissent donc des compétences complémentaires indispensables à la réalisation de ces objectifs : Pierrette Bouillon (LG), Iveta Chovanovà (composition nominale), Georgette Dal (morphologie), Évelyne Jacquey (LG, TLF), Fiammetta Namer (Morphologie, DériF).

Traitement sémantique de corpus : projet DIXEM, 2006 - 2010

L’ère numérique modifie sensiblement les pratiques liées au texte. Les applications telles que la navigation sur Internet ou la Gestion Électronique de Documents (GED) sont demandeuses de nouvelles méthodologies et de nouvelles façons d’appréhender le texte. Comme elles ont les textes comme matériau d’étude privilégié, les sciences humaines et sociales sont tenues de renouveler le discours scientifique sur le texte dans cette perspective numérique.
La veille, la recherche d’information, l’analyse thématique et de façon plus générale toutes les activités liées au traitement des documents numériques, butent sur des problèmes de niveaux d’observation et d’observables. Le mot, ou des substituts tels que le lemme, constituent les principales unités linguistiques prises en compte, et lorsque l’on a recours à des lexiques sémantiques pour enrichir les textes, il s’agit dans la grande majorité des cas d’ontologies ou de thésaurus, lesquels ne constituent qu’une manière parmi d’autres de représenter le sens.
Le projet DIXEM a développé une perspective alternative dans laquelle un texte n’est plus considéré comme un sac de mots ni comme une suite de phrases, mais comme un ensemble de faisceaux de traits sémantiques. Ces faisceaux de traits sont discontinus, stabilisés en corpus et de taille variable (du mot au texte). Ils assurent la cohésion du texte et son intégration dans un corpus. On les appellera des formes sémantiques.
Cette notion de forme sémantique présente l’intérêt crucial d’être un objet empirique susceptible à la fois d’être étudié scientifiquement, et pouvant être assimilé, dans la perspective de l’ingénierie des connaissance, à un thème sémantique voire à un concept non lexicalisé. L’objectif de ce projet est donc de développer un dispositif expérimental (outil informatique, méthodes d’apprentissage statistique et ressource linguistique) visant à :
approfondir les connaissances actuelles sur les formes sémantiques connues et notamment référencées par la sémantique structurale,
en identifier de nouvelles que la théorie n’a pas su jusque là reconnaître faute d’une instrumentation adéquate, autrement dit,
créer de nouveaux observables sémantiques, textuels et lexicaux.

Le projet DIXEM a été soumis deux fois à l’ANR mais n’a pas été sélectionné.

Éléments bibliographiques

- Bouillon P. (1997) Polymorphie et sémantique lexicale : le cas des adjectifs. Éditions du Septentrion.
- Baroni M., Bernardini S., Ferraresi A., Zanchetta E. (2009) The WaCky Wide Web : A collection of very large linguistically processed Web-crawled corpora. Language Resources and Evaluation 43(3) : 209-226.
- Ferraresi A., Bernardini S., Picci G., Baroni M. (2008) Web corpora for bilingual lexicography : A pilot study of English/French collocation extraction and translation. In Proceedings of UCCTS : International Symposium on Using Corpora in Contrastive and Translation Studies.
- Grimshaw J. (1990) Argument Structure. MIT Press.
- Pustejovsky, J. (1995) The Generative Lexicon. Cambridge, MA : MIT Press.

  Annuaire | Contact | Courriel | Intranet | Plan d'accès | Autres sites | Crédits | Mentions légales