Partager cette page

RESTALOC

RESTALOC : Ressorgas pel Tractament Automatic de l'Occitan

Laboratoire : CLLE – Equipe de Linguistique

Responsable : Myriam Bras (CLLE-LL-OCRE)

Participants : Xavier Bach, Myriam Bras, Jean Sibille, Marianne Vergez-Couret (Université de Poitiers), partenariat avec Lo Congrès Permanent de la Lenga Occitana

Le groupe de linguistique occitane outillée de CLLE a produit ces dernières années les deux premiers corpus annotés linguistiquement pour l’occitan respectivement dans le cadre du projet ANR RESTAURE pour l’annotation morphosyntaxique, puis dans le cadre d’un projet européen POCTEFA LINGUATEC pour l’annotation syntaxique, et enfi dans le cadre du projet ANR DIVITAL pour une extension du corpus :

Le corpus RESTAURE est le premier corpus occitan annoté en parties du discours (POS). Il contient 12 000 mots ou tokens, et est libre d'accès. Il comporte des extraits de textes des 6 dialectes de l'occitan. L'annotation inclut le lemme, la catégorie morphosyntaxique, la traduction française du lemme. Les entités nommées sont également annotées.
Le corpus LINGUATEC, intitulé Tolosa Tree Bank (TTB), est le premier corpus occitan annoté en dépendances syntaxiques dans le cadre du projet international Universal Dependencies. Le corpus, de près de 25 000 tokens, est libre d'accès dépôt zenodo et dépôt UD). Il est constitué de textes en languedocien en majorité mais comporte aussi quelques phrases d'autres dialectes de l'occitann. L’annotation de chaque forme inclut le lemme, l'étiquette POS et la relation de dépendance syntaxique entre deux formes.

Dans le projet (RESorgas pel Tractament Automatic de l’OCcitan), nous souhaitons élargir le corpus annoté morphosyntaxiquement (POS) et syntaxiquement (DEP) à l’ensemble des dialectes de l’occitan et à une gamme de genres plus large (nous avons actuellement majoritairement des textes littéraires, scientifiques et journalistiques) jusqu’à atteindre également une taille suffisante pour que l’entrainement de l’outil d’annotation automatique permette d’obtenir des modèles assez performants et robustes pour annoter progressivement tous les textes de BaTelÒc.