ParCoLoca

Laboratoire : CLLE – Equipe de Linguistique

Responsables : Myriam Bras (CLLE) et Dejan Stosic (CLLE)

Participants : Myriam Bras, Clamença Poujade, Jean Sibille, Dejan Stosic (CLLE), Fabrice Corrons (LLA-CREATIS).

ParCoLoca est un projet de constitution de corpus parallèles en occitan et en catalan, avec d’autres langues (français, espagnol, anglais, serbe). Il prendra appui sur la base textuelle multilingue ParCoLab destinée à la recherche en linguistique, à l’enseignement et à l’apprentissage de langues, conçue et dirigée par Dejan Stosic du laboratoire CLLE. Au départ corpus de textes alignés en français, serbe et anglais, ParCoLab s’est ouverte en 2018 aux langues de France grâce au projet ParCoLaF soutenue par la DGLFLF qui a permis l’intégration de quelques textes en occitan (http://parcolab.univ-tlse2.fr/parcolaf/). C’est aujourd’hui un grand corpus parallèle de textes en français, serbe, anglais, espagnol, occitan, de plus de 22.000.000 de mots, avec des alignements au niveau des phrases manuellement vérifiés, qui est interrogeable gratuitement en ligne. Le financement de la DGLFLF nous a permis de financer l’extension de la base au-delà de 3 langues, d’intégrer deux traductions occitanes de deux œuvres de littérature anglophone et de les aligner avec les textes en anglais, en français et en serbe.