ROC


ROC : Reconeissença Optica de Caractères per l'Occitan


Laboratoire : CLLE – Equipe de Linguistique

Responsables : Myriam Bras (CLLE) et Marianne Vergez-Couret (Forellis)

Participants : Myriam Bras (CLLE), Louise Esher (CNRS), Clamença Poujade (CLLE), Marianne Vergez-Couret (Forellis, Université de Poitiers), partenariats avec le CIRDOC et le Congrès Permanent de la Lenga Occitana

Le projet ROC (Reconeissença Optica de Caractèrs per l’occitan) s’élabore en étroite collaboration avec Assaf Urieli de la société Joliciel et avec le CIRDOC. Assaf Urieli a développé un logiciel libre de Reconnaissance Optique de Caractère (OCR), Jochre (Java Optical CHaracter REcognition), pour océriser les œuvres du Yiddish Book Center. Puis l’outil Jochre a été implémenté pour l’occitan au sein du laboratoire CLLE (Bras, Vergez-Couret). Cette nouvelle phase du projet prévoit le déploiement pour l’occitan d’un moteur de recherche Jochre Search contenant 50 textes scannés par le CIRDOC (1860-1910) et océrisés par Jochre, auxquels seront ajoutés les textes du projet Corpus Occitan d’Arièja. Le moteur de recherche permet 1) de rechercher une forme dans les textes océrisés pour en observer le contexte, 2) de mettre en correspondance ce contexte avec l’image scannée et 3), si nécessaire, corriger le résultat de l’océrisation pour le mettre en correspondance avec l’image.

Les tâches consisteront d’une part à tester le moteur de recherche et l’enrichir avec les textes du Corpus Occitan Arièja et d’autre part à mener une campagne, auprès des utilisateurs professionnels (CIRDOC, Congrès Permanent de la Lenga Occitana) et universitaires, pour les former et les encourager à participer à l’effort collectif en vue de l’amélioration de la qualité des textes numérisés.