RESTALOC


RESTALOC : Ressorgas pel Tractament Automatic de l'Occitan


Laboratoire : CLLE – Equipe de Linguistique

Responsable : Myriam Bras (CLLE)

Participants : Myriam Bras, Jean Sibille, Louise Esher, Clamença Poujade (CLLE), Marianne Vergez-Couret (Forellis, Université de Poitiers), partenariat avec Lo Congrès Permanent de la Lenga Occitana

Le groupe de linguistique occitane outillée de CLLE a produit ces dernières années les deux premiers corpus annotés linguistiquement pour l’occitan respectivement dans le cadre du projet ANR RESTAURE pour l’annotation morphosyntaxique, puis dans le cadre d’un projet européen POCTEFA LINGUATEC pour l’annotation syntaxique :

  1. Le corpus RESTAURE est le premier corpus occitan annoté en parties du discours (POS). Il contient 12 000 mots ou tokens, et est libre d'accès. Il comporte des extraits de textes des 6 dialectes de l'occitan. L'annotation inclut le lemme, la catégorie morphosyntaxique, la traduction française du lemme. Les entités nommées sont également annotées.
  2. Le corpus LINGUATEC est le premier corpus occitan annoté en dépendances syntaxiques dans le cadre du projet international Universal Dependencies. Le corpus, de près de 20 000 tokens, sera libre d'accès. Il est constitué de textes en languedocien. L’annotation inclut le niveau POS et le niveau des dépendances : relation syntaxique entre deux entités munies d’une étiquette POS.

Dans le projet (RESorgas pel Tractament Automatic de l’OCcitan), nous souhaitons élargir le corpus annoté morphosyntaxiquement (POS) et syntaxiquement (DEP) à l’ensemble des dialectes de l’occitan et à une gamme de genres plus large (nous avons actuellement majoritairement des textes littéraires, scientifiques et journalistiques) jusqu’à atteindre également une taille suffisante pour que l’entrainement de l’outil d’annotation automatique, TALISMANE, permette d’obtenir des modèles assez performants et robustes pour annoter progressivement tous les textes de BaTelÒc. L’entrainement de l’outil pourra s’appuyer sur des corpus annotés du catalan comme déjà expérimenté par Vergez et Urieli, et plus largement sur le partage de ressources et de méthodes entre ces deux langues proches sur le plan linguistique, et dont le traitement automatique confirme la proximité.