laboratoire Analyse et Traitement Informatique de la Langue Française (ATILF)
CNRS Université de Lorraine

Membre de
ILF
FEDER
Accueil > La valorisation > Partenariats > Partenariats internationaux

Partenariats internationaux

CLARIN

Plateforme européenne CLARIN (Common Language Resources and Technology Infrastructure)



DARIAH

1. Mise en place de Web Services pour l’accès à des informations lexicales sur le français
D’ores et déjà, le portail lexical du CNRTL (www.cnrtl.fr/portail) permet d’obtenir facilement, à partir d’une forme lexicale, les informations liées à la morphologie, les définitions lexicographiques, l’étymologie, les synonymes, les antonymes et des concordances via de simples adresses web renvoyant un contenu HTML (ex : www.cnrtl.fr/lexicographie/essai).
Nous nous proposons pour Dariah :
-  de réaliser un service web permettant d’obtenir les mêmes informations sous forme XML afin de pouvoir les intégrer dans des chaînes de traitement automatique.
-  de décrire le mode d’emploi de ces web service en français et en anglais
-  d’assurer la maintenance de ces web services.
Le volume concerné inclut le Trésor de la langue française informatisé, version informatique d’un dictionnaire de référence qui dans sa forme papier est édité en seize volumes mais les informations du portail lexical (qui portent sur la même nomenclature, c.a.d. les mêmes mots) vont bien au delà du seul TLFi.

2. Contribution aux actions internationales de normalisation :
Du fait de nos activités, nous sommes impliqués dans la normalisation de données liées à l’étude de la langue. Actuellement, nous participons à un groupe de l’ISO qui vise à la normalisation d’un format de métadonnées structurées et dans un groupe d’experts sur les éléments liées aux métadonnées dans ISOCAT.
De façon plus précise, nous avons également proposé (et implémenté) l’utilisation du langage de personnalisation de la TEI (ODD) pour personnaliser les métadonnées structurées au format défini dans le projet Clarin. Les quelques extensions au langage ODD nécessaires pour cela sont actuellement en discussion dans la communauté TEI.

3. Préparation, mise en place et distribution d’un vaste corpus de textes journalistiques outillé au format TEI P5 :
Nous mettons actuellement à disposition l’équivalent de deux années de l’Est Républicain encodées en TEI-P5 (www.cnrtl.fr/corpus/estrepublicain/). Nous nous proposons d’encoder 8 années supplémentaires ce qui permettrait de tendre vers un vaste corpus compatible avec les exigences de convergence de modèles d’exploitation statistique. Ce corpus est aujourd’hui mis à disposition tel quel, sans outil supplémentaire (à l’exception des outils TEI standards) et nous nous proposons à terme de l’outiller pour faciliter son exploitation.
Son volume permet des études linguistiques inaccessibles autrement : en particulier il a d’ores et déjà permis de tester des analyseurs syntaxiques sur de gros volumes (projet ANR passage). Un des intérêts de ce corpus est que grâce à une convention signée avec l’Est Républicain, l’ensemble du monde de la recherche peut utiliser le corpus sous une licence creative commons (By-NC-SA). Cet aspect sécurise, pour les acteurs académiques l’utilisation du corpus à des fins de recherche. En particulier des annotations supplémentaires sont possibles sans que le texte sur lequel reposent ces annotations risque de devenir indisponible.

TEI

Avec l’INIST et le LORIA, centre support pour l’Europe, du consortium international TEI (Text Encoding Initiative)



OLAC et INTERA

"Open Language Archives Community" et "Integrated European (language data) Resource Area"

Le laboratoire ATILF est aujourd’hui impliqué dans deux projets internationaux de réseau de présentation de méta-données correspondant aux ressources linguistiques informatisées sur les principales langues et, dans ce cadre, a la charge d’assurer la définition et la gestion des données sur le français. Ces deux projets très proche dans leurs finalités se distinguent par leur couverture géographique : INTERA - projet européen et OLAC : partenariat international, initié aux USA. Les ressources de l’ATILF seront joignables à travers un ensemble de méta-données et selon un protocole de moissonnage bien défini. Sur le plan technique, INTERA rejoint OLAC.

  • OLAC : "Open Language Archives Community"

OLAC est un partenariat entre des institutions associées pour créer une bibliothèque virtuelle de ressources linguistiques par deux moyens principaux : définir une norme concernant la meilleure façon d’archiver des ressources linguistiques et développer un réseau "d’entrepôts " et de services pour loger et accéder ces ressources.

  • INTERA : "Integrated European ( language data) Resource Area"

"Integrated European ( language data) Resource Area" est un projet appartenant au programme "e-content" de la Commission Européenne. L’action a comme but la mise en commun d’outils et de ressources linguistiques par plusieurs Institutions européennes pour créer un grand ensemble de méta-données interrogeables à distance. La finalité d’ INTERA consiste à créer une infrastructure facilitant l’accès à toutes ces ressources.

PatRom : Patronymica Romanica

Dictionnaire historique de l’anthroponymie romane

Le "Dictionnaire historique de l’anthroponymie romane (PatRom)" est une oeuvre collective réalisée par une équipe européenne composée par des centres nationaux et des collaborateurs libres et qui se propose comme but l’étymologisation du noyau commun des noms de famille romans d’origine lexicale.



ARTFL

Project for American and French Research on the Treasury of the French Language

Coopération entre le laboratoire ATILF et le département des Sciences de l’Homme et de la Société de l’Université de Chicago.



GEHLF : Groupe d’Étude en Histoire de la Langue Française

Dans le cadre de sa délégation auprès de l’ATILF ( 2001-2003), Philippe Caron a pu mener à son terme la version grand public du Dictionaire critique de la langue française de Féraud. En partenariat avec l’ARTFL de Chicago, cette version est interrogeable sous Philologic à la fois sur le site de Chicago (http://www.lib.uchicago.edu/efts/ARTFL/projects/dicos/FERAUD/) et, à partir de septembre 2003, sur le site miroir de Nancy. Par ailleurs une deuxième version affinée est envisagée et qui sera gérée sous le logiciel STELLA. Cette version intégrera le supplément manuscrit du Dictionaire critique (en mode-image) et permettra, grâce à un balisage XML, d’effectuer sur la base des requêtes beaucoup plus fines. Il serait ainsi en interface constante avec FRANTEXT.

  Annuaire | Contact | Courriel | Intranet | Plan d'accès | Autres sites | Crédits | Mentions légales