HomeIT research and development course – Recalibrating and comparing images of pages from different copies of ancient digital books

IT research and development course – Recalibrating and comparing images of pages from different copies of ancient digital books

Stage en informatique recherche et développement – Recalage et comparaison d’images de pages provenant de différents exemplaires de livres anciens numérisés

Digital collation machine project, IT lab at the Centre d'études supérieures de la Renaissance (LI-CESR), Tours

Projet « machine à collationner » numérique, laboratoire d'informatique du Centre d'études supérieures de la Renaissance (LI-CESR), Tours

*  *  *

Published on Monday, January 08, 2018 by Céline Guilleux

Summary

Ce stage (master ou niveau bac+5) s’effectuera au sein du laboratoire d’informatique de l’université de Tours en collaboration étroite avec le programme « Bibliothèque virtuelles humanistes » du Centre d'études supérieures de la Renaissance (CESR). Le stagiaire sera encadré par une équipe d’informaticiens spécialistes du traitement d’images et suivi par l’équipe du CESR. Le stage vise à la mise en place d’un outil interactif capable de réaliser : la détection automatique ou sélection interactive de régions d’intérêt dans une collection d’images de documents anciens, la sélection de caractéristiques pertinentes pour la description et la classification, la mise en place et l'évaluation de moteurs de classification supervisés et non supervisés.

Announcement

Offre de stage en Informatique R&D niveau Bac+5 ou Master

Intitulé du stage

Recalage et comparaison d’images de pages provenant de différents exemplaires de livres anciens numérisés

Lieu , dates, indemnités

  • Laboratoire d’informatique, Polytech-Tours, 64 avenue Jean Portalis, 37200 Tours
  • Dates / Durée du stage : 5 ou 6 mois entre Février et Septembre 2018
  • Indemnités du stage : indemnités mensuelles légales en vigueur (580 euros/mois environ)

Résumé du contexte et des objectifs du stage

La numérisation de corpus massifs de livres anciens dans des bibliothèques du monde entier permet aujourd’hui au chercheur de disposer depuis son domicile des versions numériques de plusieurs exemplaires différents. Il devient alors indispensable de proposer aux usagers des outils d’aide à la comparaison de contenus d’images. Dans la continuité de la collaboration déjà existante entre le CESR de Tours et le Laboratoire Informatique de Tours, nous proposons un sujet de stage visant à la mise en place d’un outil interactif capable de réaliser automatiquement les tâches suivantes :
  • Détection automatique ou sélection interactive de Régions d’intérêt (ROI) dans une collection d’images de documents anciens provenant de plusieurs exemplaires d’un ouvrage.
  • Sélection de caractéristiques pertinentes pour la description et la classification de ces ROIs
  • Mise en place et évaluation de moteurs de classification supervisés et non supervisés permettant de catégoriser les ROI. Les différentes catégories pourront être définies par les experts du domaine (historiens du livre et de la littérature)

Définition et description des missions en termes scientifiques et informatiques

Ces dernières années, de nouvelles techniques d’analyse et de recherche d’images très performantes ont vu le jour notamment grâce, d’une part à un couplage avec des techniques de détection de points d’intérêt (SIFT, VLAD, …) et de template matching, et d’autre part grâce à leur couplage avec des techniques d’apprentissage automatique [1].

L’objectif de ce stage réside dans la mise en place de ce nouveau type d’approches dans le cadre de la comparaison de contenu d’images de documents anciens. Plus précisément, il s’agira ici de mettre en place une méthode de caractérisation et de classification de contenu textuel et graphique provenant de différents exemplaires d’images similaires (représentant a priori la même scène, constituer d’un contenu identique).
Les méthodes proposées pourront exploiter des informations contextuelles (voisinage, connaissance à priori injectées par l’expert…) ainsi que des méthodes récentes d’apprentissage automatique capable de travailler à partir de peu d’exemples (transfert learning) pour obtenir de bons résultats même à partir de peu d’exemples. Ces méthodes [2] [3] devront être adaptées pour être exploitées sur des images de types différents (images de documents anciens).

Observations

Ce stage s’effectuera au sein du Laboratoire d’informatique de l’Université de Tours afin de réactiver les collaborations fructueuses passées avec le programme « Bibliothèque Virtuelles Humanistes ». Le stagiaire pourra ainsi s’appuyer sur les outils développés dans le cadre d’anciennes collaborations, notamment les logiciels Agora et Rétro [4]. Il sera encadré par une équipe d’informaticiens spécialistes du traitement d’images et suivi étroitement par l’équipe du Centre d’études supérieures de la Renaissance.

Profil du candidat

Le candidat souhaité est un étudiant en Master ou dernière année d’une formation d’ingénieur en Informatique, avec des bonnes compétences en programmation (langage C# ou Java ou Python) et des connaissances en analyse d’images et/ou reconnaissance des formes.

Candidature

CV et lettre de motivation à envoyer à ramel@univ-tours.fr et remi.jimenes@univ-tours.fr

avant le 28 février 2018

Responsables du stage

Laboratoire d’informatique de Tours (EA 6300), équipe RFAI

  • Jean-Yves Ramel jean-yves.ramel@univ-tours.fr 

Centre d’études supérieures de la Renaissance de Tours , programme BVH

  • Rémi Jimenes remi.jimenes@univ-tours.fr
  • Toshinori Uetani toshinori.uetani@univ-tours.fr
  • Chiara Lastraioli chiara.lastraioli@univ-tours.fr

Références

[1] Y. LeCun, Y. Bengio, G. E. Hinton. Deep learning. Nature 521(7553): 436-444 (2015).
[2] Yejun Tang, Liangrui Peng, Qian Xu. CNN Based Transfer Learning for Historical Chinese Character Recognition... Published in: Document Analysis Systems (DAS), 2016
[3] Michele Alberti, Mathias Seuret, Vinaychandran Pondenkandath, Rolf Ingold, Marcus Liwicki. Historical Document Image Segmentation with LDA-Initialized Deep Neural Networks. ICDAR-HIP 2017 https://arxiv.org/abs/1710.07363
[4] J.-Y. Ramel, N. Sidere, et F. Rayar, « Interactive layout analysis, content extraction, and transcription of historical printed books using Pattern Redundancy Analysis », Literary and Linguistic Computing, Vol 28(2) ; p.301-314 June. 2013. URL DOI=10.1093/llc/fqs077.

Places

  • Laboratoire d’informatique, Polytech-Tours - 64 avenue Jean Portalis
    Tours, France (37200)

Date(s)

  • Wednesday, February 28, 2018

Attached files

Keywords

  • alignement, analyse d'image, classification, collation numérique, comparaison de contenu, digital humanities, document ancien, humanités numériques, Numérisation, Outils-Développement, recalage, reconnaissance des formes, RTR Image, stage

Contact(s)

  • Sandrine Breuil
    courriel : sandrine [dot] breuil [at] univ-tours [dot] fr

Information source

  • Sandrine Breuil
    courriel : sandrine [dot] breuil [at] univ-tours [dot] fr

To cite this announcement

« IT research and development course – Recalibrating and comparing images of pages from different copies of ancient digital books », Scholarship, prize and job offer, Calenda, Published on Monday, January 08, 2018, http://calenda.org/427666