AccueilD’Autrice à Zlataner : enrichissement linguistique et exploration des sites de presse dans les archives de l'internet à la Bibliothèque nationale de France (2010-2017)

D’Autrice à Zlataner : enrichissement linguistique et exploration des sites de presse dans les archives de l'internet à la Bibliothèque nationale de France (2010-2017)

From Autrice to Zlataner: enrichissement linguistique et exploration des sites de presse dans les archives de l'internet à la Bibliothèque nationale de France (2010-2017)

*  *  *

Publié le mercredi 26 septembre 2018 par Céline Guilleux

Résumé

Lors de la demi-journée d'étude du lundi 15 octobre, la Bibliothèque nationale de France (BnF), l'équipe Représentation des connaissances et langage naturelle du Laboratoire d'informatique et de Paris Nord (LIPN-RCLN) de l'université Paris 13 et le laboratoire Linguistique, langues, Parole (LILPA) de l'université de Strasbourg présenteront les principaux résultats du projet Néonaute. Ce projet, soutenu par la Délégation générale à la langue française et aux langues de France (DGLFLF) dans le cadre de l'appel à projet 2017 « Langues et numérique », vise à doter les observateurs de la langue française d’un moteur de recherche s'appuyant sur la collection « Actualités » du dépôt légal du web conservée à la BnF depuis 2010.

Annonce

Présentation

Le projet Néonaute est un projet financé de septembre 2017 à septembre 2018 par la Délégation générale à la langue française et aux langues de France (DGLFLF) dans le cadre de l'appel à projet 2017 « Langues et numérique » qui rassemble deux laboratoires de recherche (LIPN-RCLN UMR 7030 CNRS Université Paris 13 SPC ; LILPA EA 1339, Université de Strasbourg) et la Bibliothèque nationale de France (BnF).Le projet Néonaute vise à doter les observateurs de la langue française d’un moteur de recherche s'appuyant sur la collection « Actualités » du dépôt légal du web conservée à la BnF depuis 2010, comprenant plus de 10 To de données textuelles de la presse en ligne. L'objectif principal est d'enrichir les index disponibles avec les résultats d'une analyse linguistique automatique : analyse morphosyntaxique, détection des entités nommées (noms de personnes, de lieux et d'organisations), analyse thématique. Les différentes informations sont ensuite indexées et peuvent être interrogées. Trois cas d'utilisation sont également prévus, liés à la néologie et à son suivi en corpus. Néonaute se présente sous la forme d’une plateforme dotée de fonctionnalités de recherche avancée (exploitation de métadonnées, analyse linguistique automatique, visualisation interactive des résultats, recherche par liste de mots) avec un prototype disponible en ligne.

L'objectif de la demi-journée d'étude est de présenter les résultats principaux de ce projet,  les verrous encore à surmonter et d'envisager une suite à ces travaux.

Inscriptions

Toute personne intéressée est cordialement invitée à participer. Pour des raisons pratiques, l'inscription en ligne est obligatoire à l'adresse suivante : https://dautrice-a-zlataner.eventbrite.fr

Programme

  • 13h30-14h Café de bienvenue
  • 14h-14h15  Introduction par Loïc Depecker (délégué général à la langue française et aux langues de France) et Sylviane Tarsot-Gillery (directrice générale de la BnF)
  • 14h15-14h30 Présentation des collections du dépôt légal de l’internet par Peter Stirling (BnF)

14h30-16h15 Enrichissement linguistique des sites de presse archivés à la BnF (Données, métadonnées, outils)

Animateur : Christophe Gérard

  • 14h30-15h – De la collecte des sites à l'indexation des archives web / Sara Aubry (BnF)
  • 15h-15h30 – Analyses linguistiques et enrichissement des index / Loïc Galand (Univ. Paris 13, LIPN)
  • 15h30-15h45 – [Démo] Archives de l’internet Labs / Peter Stirling (BnF)
  • 15h45-16h15 – [Démo] Fonctionnalités de Néonaute / Emmanuel Cartier (Univ. Paris 13, LIPN)

16h15-16h30 Pause

16h30-17h15 Exploration des sites de presse archivés à la BnF (2010-2017) (Cas d’étude : méthodologie et premiers résultats)

Animateur : Emmanuel Cartier

  • 16h30-16h50 - Suivi des néologismes et/ou analyse automatique des thèmes / Christophe Gérard (Univ. de Strasbourg), Nicolas Scarcella (stagiaire)

  • 16h50-17h10 - Termes féminisés / Pierrette Crouzet-Daurat (DGLFLF), Gabrielle Le Tallec (Univ. Paris 13), Olivia Sanchez (stagiaire)

  • 17h15-18h00 Table ronde : mise en perspective par Thibault Grouas (DGFLF), Antoine Doucet (Université de La Rochelle, projet européen H2020 NewsEye) et les partenaires du projet.

18h00-19h00 Cocktail

Contact. emmanuel.cartier@lipn.univ-paris13.fr

Lieux

  • Salle 70, Bibliothèque nationale de France, Site François Mitterrand - Quai François Mauriac
    Paris, France (75013)

Dates

  • lundi 15 octobre 2018

Fichiers attachés

Mots-clés

  • linguistique, web, dépôt légal, néonaute

Contacts

  • Archives de l'internet
    courriel : depot [dot] legal [dot] web [at] bnf [dot] fr

URLS de référence

Source de l'information

  • Archives de l'internet
    courriel : depot [dot] legal [dot] web [at] bnf [dot] fr

Pour citer cette annonce

« D’Autrice à Zlataner : enrichissement linguistique et exploration des sites de presse dans les archives de l'internet à la Bibliothèque nationale de France (2010-2017) », Journée d'étude, Calenda, Publié le mercredi 26 septembre 2018, https://calenda.org/486790

Archiver cette annonce

  • Google Agenda
  • iCal