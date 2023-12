Announcement

Présentation

Depuis quelques années, différents projets d’HTR (handwritten character recognition) de manuscrits en graphies non-latines (arabe, arménienne, chinoise, hébraïque, etc.), conservés dans des bibliothèques françaises, ont été menés à bien, notamment dans le cadre du programme CollEx-Persée, de projets ANR, ou des travaux du DataLab de la BnF.

La plupart parviennent à des taux de reconnaissance supérieurs à 90 %, mais avec une marge de progression qui semble limitée en l’état actuel des technologies employées, et un défi qui est celui de la correction des textes extraits.

Cette journée d’étude, organisée en partenariat par le BnF Datalab et le consortium Huma-Num DISTAM (Digital Studies Africa, Asia, Middle-East), se propose de faire un point sur ces avancées et ces défis avec les porteurs actuels de projets de reconnaissance automatique d’écriture en langues peu dotées. Il s’agira de s’interroger sur les capacités de progression des outils utilisés, sur ce que recouvrent exactement les taux de reconnaissance obtenus, sur les perspectives que cette mise à disposition massive d’extractions de textes manuscrits ouvre pour la recherche en termes de lecture distante et de traitement automatique de la langue ainsi que sur la normalisation des modèles et la publication des modèles et des données d’entrainement. On examinera enfin la place de l’HTR dans les programmes des établissements de conservation français, ainsi que l’intégration des extractions obtenues dans les bibliothèques numériques.

Programme

9h-9h15 Ouverture: BnF et DISTAM

9h15-10h15 L’HTR des textes en chinois classique

Marie Bizais-Lilig (université de Strasbourg) : Chi-Know-Po Corpus - La poésie dans l’économie des savoirs lettrés en Chine médiévale

10h15-10h45 L’HTR des textes en hébreu médiéval

Daniel Stoekl ben Ezra (EPHE et Equipex Biblissima +): MiDRASH, Migrations of Textual and Scribal Traditions via Large-Scale Computational Analysis of Medieval Manuscripts in Hebrew Script

10h45-11h00 Pause-café

11h00-12h30 L’HTR des textes en arabe maghrébin et oriental

Noëmie Lucas (université d’Edimbourg): Rasam- A Dataset for the Recogition and Analysis of Scripts in Arabic Maghrebi

12h30-13h30 Déjeuner

13h30-14h30 Table ronde 1 : Capacités de progression des outils utilisés, signification et implication des taux de reconnaissance obtenus

Modératrice : Mercedes Volait (CNRS-INHA, InVisu)

(CNRS-INHA, InVisu) Peter Stokes (EPHE et Equipex Biblissima +)

14h30-15h30 Table ronde 2 : Normalisation et publication des modèles, publication des données d’entraînement

Alix Chagué et Thibault Clérice (équipe ALMAnaCH, ENC et Inria, projet HTR United) Anne-Valérie Schweyer (CNRS-EHESS, Centre Asie du Sud -Est) et Jean-Christophe Burie (Laboratoire L3i, université de La Rochelle) (ANR ChamDoc)

15h30-15h45 Pause-café

15h45-16h45 Table ronde 3 : Place de l’HTR dans les programmes de numérisation et de coopération scientifique des établissements de conservation français

Sébastien Cretin (BnF)

(BnF) Benjamin Guichard et Gabriel Raupp (Bulac)

et (Bulac) Delphine Spicq (Collège de France)

16h45-17h Clôture