AccueilIndexer les corpus numériques
Indexer les corpus numériques
Indexing digital corpuses
Publié le mardi 15 janvier 2019
Résumé
L'Institut d'histoire des représentations et des idées dans les modernités (IHRIM, UMR 5317) organise à l'universté Jean Monnet de Saint-Etienne les 1er février et 29 mars 2019 un séminaire sur l'indexation des corpus numériques. La constitution d’index est un véritable enjeu scientifique et technique, pour lequel il existe encore peu de documentation. Les index relèvent, avec l’annotation, de l’exploitation scientifique des textes édités : ils sont des outils de navigation dans le corpus et participent à sa compréhension en identifiant les personnes, les lieux et les œuvres mentionnés, ainsi que les matières traitées. L’exploitation de ces données aide par exemple à visualiser des réseaux de relations.
Annonce
Argumentaire
L'IHRIM (UMR 5317) organise à l'universté Jean Monnet de Saint-Etienne les 1er février et 29 mars 2019 un séminaire sur l'indexation des corpus numériques. La constitution d’index est un véritable enjeu scientifique et technique, pour lequel il existe encore peu de documentation. Les index relèvent, avec l’annotation, de l’exploitation scientifique des textes édités : ils sont des outils de navigation dans le corpus et participent à sa compréhension en identifiant les personnes, les lieux et les œuvres mentionnés, ainsi que les matières traitées. L’exploitation de ces données aide par exemple à visualiser des réseaux de relations.
Les référentiels et les notices d’autorités permettent d’uniformiser et de consolider les index grâce à l’emploi d’un vocabulaire contrôlé et de formes normalisées. Ils apportent des solutions au traitement des variantes des patronymes, des toponymes et des titres d’ouvrages. Dans la perspective du Linked Open Data, l’alignement sur des référentiels aide à enrichir les données d’un projet en les complétant avec d’autres ressources et bases de données (data.bnf.fr, IdREF, VIAF, ISNI).
Le séminaire, fondé sur le partage d’expériences d’ingénieurs et de chercheurs impliqués dans l’édition de corpus numériques, vise à définir les bonnes pratiques utiles à l’établissement d’index, pour identifier et documenter de manière univoque une notion ou une entité nommée : quels sont les référentiels à utiliser ? Comment valoriser au mieux son corpus ? Comment structurer ces données ? Quelles sont les solutions techniques ?
Ce séminaire propose des présentations générales, des échanges autour de projets en cours et une table-ronde technique, animée par des ingénieurs. Les participants sont invités à suivre les deux journées pour faire part de leurs questions lors de la table-ronde.
Programme
Séance 1 |1er février 2019
Des référentiels à la publication numérique
9h15 : Accueil
10h00 - 12H30 : Pratiques des référentiels
Présidence de séance : Philippe Colantoni (UJM, VP numérique)
- 10h30 | François Mistral (ABES, responsable d’IdRef) : IdRef : une offre de services à destination de la recherche pour enrichir les données et accroitre leur interopérabilité.
- 11h30 | Francesco Beretta (CNRS, responsable de l'axe Pôle histoire numérique du LARHRA) : Encodage sémantique de textes historiques et référentiels publics : retours d'expériences et perspectives.
14H – 17H : Indexation et corpus numériques (1)
Présidence de séance : Thomas Lebarbé (Université de Grenoble, coordinateur du Consortium Cahier)
- 14h | Emmanuelle Morlock (CNRS, HISOMA) : Indexation et qualification des contenus en TEI : méthodes, outils et exploitations possibles.
- 15h | Thierry Joliveau (UJM, EVS) : Retrouver, annoter, cartographier et analyser les entités spatiales nommées dans un corpus de romans parisiens.
- 16h | Laurent Capelli (CNRS, Huma-Num) : Collectes, enrichissements et normalisations sur ISIDORE, la plateforme d'accès aux données numériques des SHS.
Prochaine séance le 29 mars 2019
Catégories
- Épistémologie et méthodes (Catégorie principale)
- Esprit et Langage > Représentations > Histoire culturelle
- Esprit et Langage > Pensée > Histoire intellectuelle
- Esprit et Langage > Épistémologie et méthodes > Méthodes de traitement et de représentation
- Esprit et Langage > Épistémologie et méthodes > Humanités numériques
Lieux
- Bâtiment G salle G0.5, Université Jean Monnet - 33 rue du 11-Novembre
Saint-Étienne, France (42)
Dates
- vendredi 01 février 2019
- vendredi 29 mars 2019
Fichiers attachés
Mots-clés
- indexation, corpus numériques, référentiel, encodage, entité nommée, enrichissement
Contacts
- Emmanuelle Perrin
courriel : ihrim-seminaire-index [at] univ-st-etienne [dot] fr - Fabienne Vial-Bonnaci
courriel : ihrim-seminaire-index [at] univ-st-etienne [dot] fr
URLS de référence
Source de l'information
- Emmanuelle Perrin
courriel : ihrim-seminaire-index [at] univ-st-etienne [dot] fr
Licence
Cette annonce est mise à disposition selon les termes de la Creative Commons CC0 1.0 Universel.
Pour citer cette annonce
« Indexer les corpus numériques », Séminaire, Calenda, Publié le mardi 15 janvier 2019, https://doi.org/10.58079/11rq