HomeThe automatised transcription of manuscript sources with eScriptorium

Calenda - The calendar for arts, humanities and social sciences

The automatised transcription of manuscript sources with eScriptorium

La transcription automatisée de sources manuscrites avec eScriptorium

La transcripción automatizada de fuentes manuscritas con eScriptorium

*  *  *

Published on Monday, July 12, 2021 by João Fernandes

Summary

Cette formation a pour objet la transcription automatisée de sources manuscrites, en anglais HTR (Handwritten Text Recognition), via l’outil eScriptorium, une alternative libre à Transkribus, développée à l’université PSL en partenariat avec INRIA, qui s’appuie sur l’outil de transcription automatisée Kraken et qui montre ses fruits en termes d’efficacité et de disponibilité du code source. Cette formation sera centrée sur une écriture répandue en Péninsule Ibérique entre le XIIIe et le XVe siècle, représentée par un manuscrit du scriptorium du roi Alphonse X, le Sage (1221-1284), autour duquel tournera la formation, et à partir duquel sera produit un modèle de reconnaissance automatique qui sera publié par la suite. Il s’agira ici de faire dialoguer philologie et humanités numériques.

Este curso y seminario tiene como objetivo la transcripción automatizada de manuscritos, eninglés HTR (Handwritten Text Recognition), gracias al programa eScriptorium. eScriptorium es un software libre, a diferencia de otros programas como Transkribus,y está basado en la herramienta de transcripción automatizada Kraken. eScripto-rium ha mostrado resultados sólidos tanto en términos de eficacia y como en ladisponibilidad del código fuente. La formación se centrará en las grafías manuscritas conservadas en la penínsu-la ibérica entre los siglos XIII y XV, tomando como objeto de estudio un manuscritodel scriptorium del rey Alfonso X el Sabio (1221-1284). El manuscrito seleccionadose utilizará para producir un modelo de reconocimiento automático, que será poste-riormente publicado. Se pretende, por tanto, establecer un diálogo entre la filologíay las humanidades digitales.

Announcement

Formation-séminaire sur la transcription automatisée de sources manuscrites avec eScriptorium, Casa de Velázquez (Madrid), 23-24 septembre 2021

Organisation

  • María Díez Yáñez (UCM),
  • Matthias Gille Levenson (EHEHI & ENS de Lyon),
  • Irene Salvo García (UAM)

Présentation

Les jeudi 23 et vendredi 24 septembre 2021 se déroulera à la Casa de Velázquez une formation à la transcription automatisée de l’écriture manuscrite. Rassemblant des intervenants et intervenantes de plusieurs institutions espagnoles et françaises, elle a pour objet la transcription automatisée de sources manuscrites, en anglais HTR (Handwritten Text Recognition), via l’outil eScriptorium1, une alternative libre à Transkribus2, développée à l’université PSL en partenariat avec INRIA, qui s’appuie sur l’outil de transcription automatisée Kraken3 et qui montre ses fruits en termes d’efficacité et de disponibilité du code source.

Cette formation sera centrée sur une écriture répandue en Péninsule Ibérique entre le XIIIè et le XVè siècle, représentée par un manuscrit du scriptorium du roi Alphonse X, le Sage (1221-1284), autour duquel tournera la formation, et à partir duquel sera produit un modèle de reconnaissance automatique qui sera publié par la suite. Il s’agira ici de faire dialoguer philologie et humanités numériques.

Jeudi 23 septembre

Nous commencerons par une introduction aux écritures de la Péninsule au Moyen Âge, à la tradition paléographique castillane et à ses limites, pour présenter l’écriture du manuscrit choisi, ainsi que son texte et son histoire. Cette première séance sera animée par Leonor Zozaya-Montes (Universidad de Las Palmas de Gran Canarias-CHSC, IATEXT, Universidade de Coimbra). Suivra une intervention d’Irene Salvo García (UAM) pour présenter le texte et l’histoire du manuscrit étudié, et le situer dans la production alphonsine.

Dans un second temps, Peter Stokes (EPHE) et Benjamin Kiessling (PSL), membres de l’équipe de eScriptorium, disposeront de l’après-midi pour présenter l’outil, en commençant par une introduction à ce qu’est l’apprentissage supervisé4 et à ses méthodes. Le logiciel eScriptorium sera ensuite présenté, et les formé·es auront deux à trois heures pour transcrire une soixantaine de folios qui aura été répartie entre tous et toutes. Le modèle sera entraîné entre le premier et le deuxième jour.

Vendredi 24 septembre

Pour la première session du second jour, un moment sera consacré à l’évaluation quantitative et qualitative du modèle, pour en déterminer les forces et les faiblesses, et comprendre comment fonctionne un algorithme d’apprentissage supervisé (en se centrant sur les biais éventuels du corpus d’entraînement, i.e. le corpus produit par les participants et participantes).

La séance suivante, d’une à deux heures, sera dédiée à la post-acquisition du texte. En effet, en ce qui concerne le castillan médiéval – mais cela peut se généraliser à toutes les langues romanes médiévales –, restent deux problèmes principaux : la segmentation (gestion des “mots” et des espaces dans la phrase : les usages médiévaux sont différents des usages actuels), et la gestion des abréviations. Pour ce qui est des sources volumineuses, la segmentation et la gestion des abréviations doivent idéalement aussi être automatisées sous peine de voir le temps gagné par la transcription automatique perdu par ces deux tâches indispensables et très longues à réaliser à la main. Leonor Zozaya-Montes interviendra sur les méthodes et normes de transcription actuelles, leurs présupposés et leurs limites, puis nous verrons quelles sont les méthodes informatisées pour ces deux tâches, avec les outils les plus récents, et en étudiant deux méthodes possibles : la méthode algorithmique classique et la méthode par apprentissage, chacune ayant ses avantages et ses inconvénients. Les outils de segmentation et de gestion des abréviations pour le castillan médiéval comme pour d’autres langues romanes sont en cours de développement, c’est la raison pour laquelle l’événement que nous organisons tient à la fois de la formation et du séminaire.

Enfin, dans une conférence de clôture, Belén Almeida Cabrejas (Universidad de Alcalá) sera invitée à présenter le projet d’édition CHARTA5 et le corpus CODEA (Corpus de Documentos Españoles Anteriores a 18006), deux projets phares de l’édition et le traitement informatique des textes anciens et de donnés linguistiques dans l’histoire de l’espagnol.

La publication du modèle, dont l’autorité sera partagée entre les participants, les participantes et les organisateurs et organisatrices, donnera lieu à une soumission de data paper, éventuellement accompagné d’un retour pédagogique dans une revue spécialisée.

Organisation et encadrement

Espagne : María Díez Yáñez (UCM), Matthias Gille Levenson (EHEHI/ENS de Lyon), Irene Salvo García (UAM). France : Benjamin Kiessling (PSL), Peter Stokes (EPHE). Deux professeures espagnoles seront invitées à ouvrir et clôturer la formation, Belén Almeida (Universidad de Alcalá) et Leonor Zozaya-Montes (IATEXT, ULPGC - CHSC, Universidade de Coimbra).

Langue de la formation

La formation sera principalement proposée en anglais ; l’introduction, les conférences sur l’histoire du texte étudié et sur les normes de transcription et celle de clôture auront lieu en espagnol. L’intégralité des supports de cours (diapositives, etc.) sera en anglais.

Déroulé de la formation

Jeudi 23 septembre

  • 9h00-9h15 : Accueil des participant·es.

  • 9h15-12h15 : Introduction - Paléographie - Histoire de l’écriture étudiée (avec pause) (Leonor Zozaya-Montes).

  • 12h15-13h00 : Histoire du texte et du manuscrit étudié (Irene Salvo García).

  • 13h00-14h15 : Pause déjeuner.

  • 14h15-15h00 : L’apprentissage supervisé – introduction, fonctionnement et enjeux scientifiques (Peter Stokes et Benjamin Kiessling).

  • 15h00-16h30 : eScriptorium.

  • 16h30-16h45 : Pause.

  • 16h45-19h00 : Atelier pratique : transcription collaborative du manuscrit.

  • 19h00 : Fin de la première journée.

Vendredi 24 septembre

  • 9h00-9h15 : Accueil des participant·es.

  • 9h15-10h15 : Étude du modèle produit : qualités, défauts, biais de corpus éventuels (Peter Stokes et Benjamin Kiessling).

  • 10h15-11h45 : Normes de transcriptions et enjeux scientifiques (Leonor Zozaya-Montes).

  • 11h45-12h00 : Pause.

  • 12h00-13h30 : Après la transcription : segmentation et gestion des abréviations. État de la recherche (Matthias Gille Levenson).

  • 13h30-14h45 : Pause déjeuner.

  • 14h45-15h15 : Promouvoir utiliser eScriptorium dans son université : aspects techniques et financiers (Peter Stokes et Benjamin Kiessling).

  • 15h15-17h15 : Conférence de clôture : “La red CHARTA y el corpus CODEA” (Belén Almeida)

  • 17h15 : Fin de la formation, retours des participant·es.

Candidatures et modalités pratiques

Les candidatures devront être soumises via un formulaire sur le site de la Casa de Velázquez (ici)

avant le 2 août 2021.

Elles devront comprendre:

  • un CV synthétique (une page);

  • une page de présentation des recherches en cours ou à venir du ou de la candidate, comprenant un paragraphe expliquant en quoi la formation peut s’inscrire dans ce projet de recherche.

Nous offrons 20 places environ. La sélection sera rendue publique autour du 9 août 2021. Une modalité distancielle est envisagée, mais nous donnerons priorité au public sur place, si la situation sanitaire le permet. La session sur l’outil eScriptorium sera ouverte au plus grand nombre, en visioconférence. Un certificat de présence sera distribué à chaque participant·e à la fin de la formation.

Des chambres seront disponibles (aux frais des participants et participantes) à la Casa de Velázquez, en fonction de l’affluence fin septembre. Merci de nous contacter en amont en cas de nécessité.

Contacts

mariadiezy [at] ucm [point] es

matthias.gille-levenson [at] casadevelazquez [point] org

irene.salvo [at] uam [point] es

Lien vers l’événement.

Institutions partenaires et soutien financier

Cette formation est financée par la Casa de Velázquez, la Universidad Complutense de Madrid, la Universidad Autónoma de Madrid et la Communauté Autonome de Madrid (proyecto Canon Hispánico, 2019-T1_HUM-15228).

Références dans le texte

1 https://escripta.hypotheses.org/

2 https://readcoop.eu/transkribus/

3 https://dev.clariah.nl/files/dh2019/boa/0673.html

4 https://fr.wikipedia.org/wiki/Apprentissage_supervisé

5 https://www.corpuscharta.es/

6 http://corpuscodea.es/

Seminario de formación: transcripción automatizada de fuentes manuscritas con eScriptorium, Casa de Velázquez (Madrid), 23-24 de septiembre de 2021

Organización

  • María Díez Yáñez (UCM),
  • Matthias Gille Levenson (EHEHI & ENS de Lyon),
  • Irene Salvo García (UAM)

Presentación

El jueves 23 y viernes 24 de septiembre de 2021 tendrá lugar en la Casa de Velázquez (Madrid) un curso y seminario de formación sobre la transcripción automatizada de fuentes manuscritas. La formación, coordinada por instituciones españolas y francesas, tiene como objetivo la transcripción automatizada de manuscritos, en inglés HTR (Handwritten Text Recognition), gracias al programa eScriptorium1. Este programa ha sido creado en la universidad PSL (Paris Sciences & Lettres) en colaboración con el INRIA (Institut national de recherche en sciences et technologies du numérique). eScriptorium es un software libre, a diferencia de otros programas como Transkribus2, y está basado en la herramienta de transcripción automatizada Kraken3. eScriptorium ha mostrado resultados sólidos tanto en términos de eficacia y como en la disponibilidad del código fuente.

La formación se centrará en las grafías manuscritas conservadas en la península ibérica entre los siglos XIII y XV, tomando como objeto de estudio un manuscrito del scriptorium del rey Alfonso X el Sabio (1221-1284). El manuscrito seleccionado se utilizará para producir un modelo de reconocimiento automático, que será posteriormente publicado. Se pretende, por tanto, establecer un diálogo entre la filología y las humanidades digitales.

Jueves 23 de septiembre

El curso comenzará con una introducción a la paleografía peninsular de la Edad Media, con especial atención a los límites del estudio de esta tradición, y una presentación de la escritura del manuscrito elegido. Será impartida por Leonor Zozaya-Montes (Universidad de Las Palmas de Gran Canarias-CHSC, IATEXT, Universidade de Coimbra). Irene Salvo García (UAM) presentará a continuación el texto y la historia del manuscrito alfonsí. En la sesión de la tarde, Benjamin Kiessling (PSL) y Peter Stokes (EPHE), parte del equipo creador de eScriptorium, presentarán el programa, comenzando por una introducción a lo que llamamos aprendizaje supervisado4, a su funcionamiento y a su metodología. Los participantes dispondrán, una vez presentado el programa, de dos o tres horas para transcribir sesenta folios del manuscrito estudiado, que se repartirán previamente entre los asistentes. El modelo de lectura será creado por eScriptorium durante la noche del jueves al viernes.

Viernes 24 de septiembre

La jornada comenzará con una evaluación cuantitativa y cualitativa del modelo conseguido el día anterior, con el objetivo de determinar las fortalezas y debilidades de la herramienta y comprender mejor cómo funciona un algoritmo de aprendizaje supervisado (teniendo en cuenta tanto las limitaciones posibles del corpus de entrenamiento como de la transcripción producida por los participantes en la sesión de trabajo del día anterior).

La siguiente sesión, de aproximadamente dos horas, se dedicará a la “post-transcripción” del texto, es decir, al tratamiento de dos de los problemas recurrentes en la transcripción de las lenguas romances medievales: la segmentación de palabras y de espacios en la frase (ya que los usos medievales difieren de los actuales), y el desarrollo y la gestión de las abreviaturas. La consideración de estos dos aspectos es clave para que la lectura automatizada de manuscritos sea productiva y no deba verificarse manualmente una vez extraído el texto. En línea con la primera sesión, Leonor Zozaya-Montes presentará a continuación los métodos y normas de transcripción actuales, sus prejuicios y limitaciones. Matthias Gille Levenson completará la aproximación a la transcripción presentando los métodos informáticos que pueden aplicarse al manuscrito para resolver las cuestiones de segmentación y de abreviación. Para ello recurrirá a las herramientas disponibles más actuales, teniendo en cuenta dos metodologías posibles: el método algorítmico clásico y el método por aprendizaje, con sus respectivas ventajas y desventajas. Las herramientas de segmentación y gestión de abreviaturas para el castellano medieval, como para otras lenguas romances, están en proceso de desarrollo, precisamente por ello la formación propuesta aúna la modalidad de curso y de seminario.

La jornada del viernes terminará con la conferencia de clausura impartida por Belén Almeida Cabrejas (Universidad de Alcalá) que presentará el proyecto de edición CHARTA5 y el corpus CODEA (Corpus de Documentos Españoles Anteriores a 1800) 6. CHARTA y CODEA son dos proyectos fundamentales en el ámbito de la edición y del tratamiento informático de textos antiguos, así como para la recopilación de datos lingüísticos en la historia del español.

El modelo conseguido durante la formación, cuya autoría será compartida por los participantes y los responsables de la misma, podrá ser objeto de un “data paper” que se enviará a una revista especializada en el ámbito del tratamiento digital de textos.

Organizadores y formadores

España: María Díez Yáñez (UCM), Matthias Gille Levenson (EHEHI/ENS de Lyon), Irene Salvo García (UAM). Francia: Benjamin Kiessling (PSL), Peter Stokes (EPHE). Inaugurarán y clausurarán la formación Belén Almeida (Universidad de Alcalá) y Leonor Zozaya-Montes (IATEXT, ULPGC - CHSC, Universidade de Coimbra).

Idioma de la formación

El idioma de la formación será principalmente el inglés. La introducción, las conferencias sobre la historia del manuscrito seleccionado, las normas de transcripción y la conferencia de clausura se impartirán en español. La lengua de la totalidad de los materiales del curso (diapositivas, material de apoyo, etc…) será el inglés.

Programa del curso

Jueves 23 de septiembre

  • 9.00-9.15h: Recepción de los participantes.

  • 9.15-12.15h: Introducción - Paleografía – Historia de la escritura del manuscrito seleccionado (Leonor Zozaya-Montes).

  • 12.15-13.00h: Historia del texto del manuscrito seleccionado (Irene Salvo García).

  • 13.00-14.15h: Comida

  • 14.15-15.00h: Introducción, funcionamiento y desafíos científicos (Benjamin Kiessling et Peter Stokes).

  • 15.00-16.30h: eScriptorium.

  • 16.30-16.45: Pausa.

  • 16.45-19.00h: Taller práctico: transcripción colectiva del manuscrito.

  • 19.00h: Fin de la primera jornada.

Viernes 24 de septiembre

  • 9.00-9.15h: Recepción de los participantes.

  • 9 .15-10.15h: Estudio del modelo producido: calidad, defectos, sesgos posibles por la parcialidad del corpus (Benjamin Kiessling et Peter Stokes).

  • 10.15-11.45h: Normas de transcripción y desafíos científicos (Leonor Zozaya-Montes).

  • 11.45-12.00h: Pausa.

  • 12.00-13.30h: Después de la transcripción: segmentación y gestión de abreviaturas. Estado de la cuestión (Matthias Gille Levenson).

  • 13.30-14.45h: Comida.

  • 14.45-15.15h: Cómo promocionar el uso de eScriptorium en su propia universidad: aspectos técnicos y financieros (Benjamin Kiessling et Peter Stokes).

  • 15 .15-17.15h: Conferencia de clausura: La red CHARTA y el corpus CODEA (Belén Almeida)

  • 17.15h: Fin de la formación.

Solicitud y cuestiones prácticas

Las solicitudes deberán enviarse a través de la página web de la Casa de Velázquez (aquí)

antes del 2 de agosto de 2021 (incluido).

Deben contemplar:

  • un CV resumido (una página como máximo),

  • una presentación del proyecto de investigación donde figuren los motivos que justifican el interés en asistir al curso, así como las razones que explican la utilidad de la presente formación para la línea de investigación del solicitante.

La formación oferta 20 plazas. La lista de admitidos se publicará el 9 de agosto de 2021. La participación virtual es posible, aunque se dará prioridad a la presencia de los participantes si el contexto sanitario lo permite. Se emitirán certificados de participación tanto presencial como virtual, con un total de 16 horas de formación, al final de las jornadas.

El alojamiento en la Casa de Velázquez es posible (los gastos correrán a cargo de los interesados) en función de la afluencia registrada en septiembre. Los participantes que necesiten disponer del alojamiento deberán contactar previamente con los organizadores.

Contacto

mariadiezy@ucm.es

matthias.gille-levenson@casadevelazquez.org

irene.salvo@uam.es

Página web del evento.

Instituciones organizadoras

Esta formación está financiada por la Casa de Velázquez, la Universidad Complutense de Madrid, la Universidad Autónoma de Madrid y la Comunidad de Madrid (proyecto Canon Hispánico, 2019-T1_HUM-15228).

Referencias en el texto

1 https://escripta.hypotheses.org/

2 https://readcoop.eu/transkribus/

3 https://dev.clariah.nl/files/dh2019/boa/0673.html

4 https://es.wikipedia.org/wiki/Aprendizaje_supervisado

5 https://www.corpuscharta.es/

6 http://corpuscodea.es/

Places

  • C/ de Paul Guinard, 3
    Madrid, Kingdom of Spain (28012)

Date(s)

  • Monday, August 02, 2021

Keywords

  • eScriptorium, HTR, paléographie, transcription automatisée, philologie numérique

Contact(s)

  • Matthias Gille Levenson
    courriel : matthias [dot] gille-levenson [at] casadevelazquez [dot] org
  • Irene Salvo García
    courriel : irene [dot] salvo [at] uam [dot] es
  • María Díez Yáñez
    courriel : mariadiezy [at] ucm [dot] es

Information source

  • Matthias Gille Levenson
    courriel : matthias [dot] gille-levenson [at] casadevelazquez [dot] org

To cite this announcement

« The automatised transcription of manuscript sources with eScriptorium », Miscellaneous information, Calenda, Published on Monday, July 12, 2021, https://calenda.org/897044

Archive this announcement

  • Google Agenda
  • iCal
Search OpenEdition Search

You will be redirected to OpenEdition Search