HomeL’HTR des langues peu dotées dans les programmes de recherche et des établissements de conservation français
Published on Tuesday, December 19, 2023
Abstract
Depuis quelques années, différents projets d’HTR (handwritten character recognition) de manuscrits en graphies non latines, conservés dans des bibliothèques françaises, ont été menés à bien. La journée d’étude se propose de faire un point sur ces avancées et ces défis avec les porteurs actuels de projets de reconnaissance automatique d’écriture en langues peu dotées.
Announcement
Présentation
Depuis quelques années, différents projets d’HTR (handwritten character recognition) de manuscrits en graphies non-latines (arabe, arménienne, chinoise, hébraïque, etc.), conservés dans des bibliothèques françaises, ont été menés à bien, notamment dans le cadre du programme CollEx-Persée, de projets ANR, ou des travaux du DataLab de la BnF.
La plupart parviennent à des taux de reconnaissance supérieurs à 90 %, mais avec une marge de progression qui semble limitée en l’état actuel des technologies employées, et un défi qui est celui de la correction des textes extraits.
Cette journée d’étude, organisée en partenariat par le BnF Datalab et le consortium Huma-Num DISTAM (Digital Studies Africa, Asia, Middle-East), se propose de faire un point sur ces avancées et ces défis avec les porteurs actuels de projets de reconnaissance automatique d’écriture en langues peu dotées. Il s’agira de s’interroger sur les capacités de progression des outils utilisés, sur ce que recouvrent exactement les taux de reconnaissance obtenus, sur les perspectives que cette mise à disposition massive d’extractions de textes manuscrits ouvre pour la recherche en termes de lecture distante et de traitement automatique de la langue ainsi que sur la normalisation des modèles et la publication des modèles et des données d’entrainement. On examinera enfin la place de l’HTR dans les programmes des établissements de conservation français, ainsi que l’intégration des extractions obtenues dans les bibliothèques numériques.
Programme
9 h - 9 h 15 – Ouverture
9 h 15 - 10 h 15 – L’HTR des textes en chinois classique
- Marie Bizais-Lilig (université de Strasbourg) : Chi-Know-Po Corpus- La poésie dans l’économie des savoirs lettrés en Chine médiévale
- Frédéric Constant (université de Nice) et Colin Brisson (EPHE - Centre de recherche sur les civilisations de l’Asie orientale) : COREL– Reconstitution de la législation de la Chine impériale tardive à partir de différents corpus
10h15 - 10h45 – L’HTR des textes en hébreu médiéval
- Daniel Stoekl ben Ezra (EPHE et Equipex Biblissima +) : MiDRASH, Migrations of Textual and Scribal Traditions via Large-Scale Computational Analysis of Medieval Manuscripts in Hebrew Script
10 h 45 - 11 h – Pause-café
11 h - 12 h 30 – L’HTR des textes en arabe maghrébin et oriental
- Noëmie Lucas (université d’Edimbourg) : Rasam- A Dataset for the Recognition and Analysis of Scripts in Arabic Maghrebi
- Antoine Perrier (CNRS-Iremam et Centre Jacques Berque) : Tarima- Écrire l’histoire au Maghreb aux périodes modernes et contemporaines
- Eric Vallet (université de Strasbourg) : HUNAI- Humanités numériques pour l’étude de l’arabe islamique
12 h 30 - 13 h 30 – Déjeuner
13 h 30 - 14 h 30 – Table ronde 1 : Capacités de progression des outils utilisés, signification et implication des taux de reconnaissance obtenus
Modératrice : Mercedes Volait (CNRS-INHA, InVisu)
Participants :
- Peter Stokes (EPHE et Equipex Biblissima +)
- Chahan Vidal-Gorène (Calfa Vision)
- Anais Wion (Institut des Mondes Africains, CNRS)
14 h 30 - 15 h 30 – Table ronde 2 : Normalisation et publication des modèles, publication des données d’entrainement
Modératrice : Marie Bizais-Lilig (université de Strasbourg)
Participants :
- Alix Chagué et Thibault Clérice (équipe ALMAnaCH, ENC et Inria, projet HTR United)
- Anne-Valérie Schweyer (CNRS-EHESS, Centre Asie du Sud-Est) et Jean-Christophe Burie (Laboratoire L3i, université de La Rochelle) (ANR ChamDoc)
- Daniel Stoekl ben Ezra (EPHE et Equipex Biblissima +)
15 h 30 - 15 h 45 – Pause-café
15 h 45 - 16 h 45 – Table ronde 3 : Place de l’HTR dans les programmes de numérisation et de coopération scientifique des établissements de conservation français
Modérateur : Chahan Vidal-Goréne (Calfa Vision)
Participants :
- Sébastien Cretin(BnF)
- Nathalie Pilet et Gabriel Raupp(Bulac);
- Delphine Spick (Collège de France)
16 h 45 - 17 h – Clôture
Subjects
- Epistemology and methodology (Main category)
- Zones and regions > Africa > North Africa
- Zones and regions > Asia > Middle East
- Zones and regions > Asia > Far East > China
- Zones and regions > Asia > Near East
- Zones and regions > Asia > Southeast Asia
- Mind and language > Epistemology and methodology > Corpus approaches, surveys, archives
- Mind and language > Epistemology and methodology > Digital humanities
Places
- Bibliothèque nationale de France, salle des conférences - 58 rue de Richelieu
Paris, France (75002)
Event attendance modalities
Full on-site event
Date(s)
- Wednesday, February 14, 2024
Keywords
- HTR, reconnaissance automatique des écritures manuscrites, écriture non latine, étude aréale, bibliothèque numérique
Reference Urls
Information source
- Benjamin Guichard
courriel : benjamin [dot] guichard [at] bulac [dot] fr
License
This announcement is licensed under the terms of Creative Commons CC0 1.0 Universal.
To cite this announcement
Géraldine Chatelard, « L’HTR des langues peu dotées dans les programmes de recherche et des établissements de conservation français », Study days, Calenda, Published on Tuesday, December 19, 2023, https://doi.org/10.58079/1cf2