HomeNEWTextMining 2

NEWTextMining 2

État de l’art pour la fouille et l’analyse des corpus textuels

*  *  *

Published on Tuesday, May 14, 2024

Abstract

Cette école thématique sur les nouvelles méthodes pour la fouille et l’analyse des corpus textuels aura lieu du 30 septembre 2024 au vendredi 4 octobre 2024 au domaine du Lazaret à Sète. Après une première édition en 2022, notre projet d’école thématique continue de vouloir faire un état de l’art des techniques novatrices dans une thématique de plus en plus importante et pouvant avoir des conséquences fortes dans de multiples domaines. Pour l’édition 2024, après un nécessaire état des lieux, nous voudrions explorer comment des langages informatiques comme Python peuvent être utiles - ou pas - aux besoins actuels de fouilles de textes.

Announcement

Ecole thématique du lundi 30 septembre 2024, 9h, au vendredi 4 octobre 2024, 14h

Présentation

Ces dernières années ont vu la production de corpus textuels de plus en plus considérables pour les SHS, des exemples paradigmatiques étant donnés par la BNF, qui a rendu interrogeable par API le gigantesque fond documentaire de Gallica, ou encore par les corpus de tweets ou les bases d'archives patrimoniales.

En même temps, grâce en particulier à l'intelligence artificielle (machine learning, deep learning), des méthodes originales de fouille textuelle (text mining) et des outils logiciels beaucoup plus accessibles ont modifié les problématiques principales que sont

  1. Recherche d’information : moteurs de recherche plein texte, lemmatisation, recherche vectorielle, ontologie et thesaurus automatisé.
  2. Classification des textes : par apprentissage supervisé, par apprentissage non supervisé ; mesure de distance et de similarité entre textes
  3. Annotation linguistique et sémantique : métadonnées et enjeux de l’encodage en TEI, annotation linguistique et outils d’étiquetage POS ; repérage des entités nommées.
  4. Extraction d’information et analyse quantitative : analyse sémantique par vecteurs de mot, topic modeling, sentiment analysis, stylométrie.

Les utilisateurs ont des besoins d'analyse de texte de plus en plus sophistiqués, tels que la détection de la tonalité ou du sentiment, la reconnaissance de l'entité nommée, la classification de texte, etc.

Parmi les nouvelles techniques qui se sont imposées, on pourrait citer (liste non exhaustive) :

  1. web scraping pour extraire des données,
  2. méthodes de sentiments analysis,
  3. extraction d’information par l’usage de vecteurs de mots
  4. perspectives ouvertes par les modèles de langage (BERT, GPT-3).

Il y a donc d’importants besoins en fouille, analyse et classement des données textuelles et des réponses nombreuses, généralistes ou spécialisées.

L'analyse des données textuelles en masse est donc désormais possible par de multiples moyens, des plateformes comme Gargantex à des outils individuels comme le logiciel R et ses bibliothèques sans parler d'instruments comme Google Ngram Viewer. Ce sont les nouvelles perspectives pour la recherche ouvertes par ces solutions et ces corpus ayant émergé ces dernières années que vous voudrions explorer.

Face à ces technologies émergentes, il est important d’aller plus loin que la consultation de supports numériques et de saisir les enjeux tant méthodologiques qu’épistémologiques de ces technologies.

La possibilité accrue de fouilles de textes est aussi en train d'impacter de nombreuses disciplines scientifiques travaillant sur des corpus de sources.

Il s’agit alors d’ancrer dans ces disciplines des habitudes de méthodes d’analyse et d’exploitation de grandes masses de corpus textuels, tout en n’oubliant pas les attendus des principes FAIR et de la science ouverte, tant dans la mise à disposition de ces corpus que des résultats de la recherche.

Projet de l’école

1/ un état de l’art de techniques novatrices pour les pratiques et les outils d’analyse des données textuelles ;

2/ un questionnement sur l'utilisation de langages informatiques comme Pyhton pour répondre aux besoins actuels de fouilles de textes.

3/ un espace de rencontres et de controverses entre spécialistes des techniques et spécialistes des contenus.

L'édition 2024 sera particulier orientée sur l'utilisation - ou pas - du langage Python pour la fouille textuelle. Pourquoi utiliser Python ou pas ? Nous voudrions ainsi resituer son usage face aux demandes actuelles. Il ne s'agit donc pas de faire une école d'apprentissage de Python. Notre approche concrète sur de langage nous permettra d'aborder des problématiques générales : quels sont les biais dans l’interprétation ? quelle importance pour la durabilité du code ? comment questionner la scientificité des langages de programmation ?

La conclusion de l'école retournera vers les enjeux abordés lors de l’introduction : a‐t‐on besoin de textmining avec / pour ses données ?

Cette école thématique est ouverte aux chercheurs, enseignants chercheurs, ingénieurs d’étude et de recherche, doctorants, post-doctorants, CNRS ou universitaires, français ou étrangers, intéressés par les problématiques de la recherche d’information, la classification, l’annotation et l’extraction d’informations propres aux Humanités numériques.

Des connaissances de base sur l’encodage des documents, les principes généraux de la programmation, et un premier contact avec le langage Python seront recommandés.

Frais d'inscription

Agent CNRS : L’inscription à la formation est gratuite, les repas et les nuitées (du dimanche soir au vendredi midi) sont pris en charge par le Service Formation Permanente du CNRS. Pour le transport, s’adresser à votre délégation régionale d’appartenance.

  • Agent non CNRS : L’inscription à la formation est gratuite mais les frais d’hébergement et de restauration sont de 600,00 € TTC ; prise en charge de ces frais et des frais de transport par votre organisme de tutelle (université ou autre). 
  • Doctorants : L’inscription à la formation est gratuite mais les frais d’hébergement et de restauration sont de 400,00€ TTC ; prise en charge de ces frais et des frais de transport par votre université.

Modalités de participation

Pour participer à cette école thématique, merci de bien vouloir envoyer à l'adresse newtextmining2@sciencesconf.org

avant le 20 juin 2024 :

  • Un bref CV (3 pages maximum) 
  • Une lettre de motivation (1 page maximum)

Une réponse vous sera donnée au maximum fin juin 2024.

Équipe

L'école thématique sera animée par une équipe composée de :

  • Alexandre Delanoë, ISCPIF CNRS, voir sa page perso
  • Anne Garcia-Fernandez
  • Gaël Lejeune, STIH/CERES, Sorbonne Université, voir sa page perso
  • Antoine Silvestre de Sacy, Huma-Num, Sorbonne nouvelle
  • Laurent Vanni, Bases Corpus Langage, CNRS, voir sa page perso
  • Richard Walter, laboratoire Thalim, CNRS - ENS - Sorbonne nouvelle, voir sa présentation.

Ateliers proposés

Liste non exhaustive des ateliers proposés

Le programme définitif sera dévoilé début juin 2024.

  • Laurent Vanni : IA et analyse statistique de données textuelles. Regards croisés et implémentations

Cet atelier propose une étude comparative entre les méthodes statistiques classiques et le deep learning. Plus particulièrement les architectures de réseaux de neurones profonds de type Transformers (à l'origine des modèles GPTs et des LLMs) seront étudiées et comparées aux méthodes plus traditionnelles dans le but de dépasser le simple usage prédictif (probabiliste) de l'IA et aller vers "une herméneutique des sorties logicielles" (Rastier 2011. La mesure et le grain. Sémantique de corpus, Honoré Champion, 2011 p. 44). 

L'atelier sera découpé en trois parties (trois fois trois heures) avec un premier volet sur l'analyse statistique de données textuelles s'appuyant sur la manipulation de la plateforme Hyperbase (https://hyperbase.unice.fr, CNRS - UniCA). Une deuxième partie sera consacrée à l'étude des réseaux de neurones profonds standards (Embeddings, CNNs, RNNs). Enfin la dernière partie de l'atelier abordera les architectures de type Transformer à partir d'exemples d'implémentations en python et d'illustrations via Hyperbase.   Références: ---------------- Mayaffre Damon, Vanni Laurent (2021). L'intelligence artificielle des textes. Des algorithmes à l'interprétation. Honoré Champion, 2021. Vanni Laurent (2024). Hyperbase Web. (Hyper)Bases, Corpus, Langage. Corpus, 2024, 25, ⟨10.4000/corpus.8770⟩. ⟨hal-04523479⟩  

  • Antoine Silvestre de Sacy : Modélisation des textes littéraires avec notebooks  

L'atelier proposera l'utilisation de plusieurs notebooks Python pré-codés pour le traitement automatique de corpus textuels, allant des étapes de preprocessing des données (récupération des textes, lecture des corpus, nettoyage, annotation), d'implémentation de calculs statistiques et de mise en place d'algorithmes de machine learning (classification supervisées, non-supervisées) et de visualisations. L'objectif est de pouvoir comprendre le fonctionnement de ces notebooks pour des publics qui ne sont pas forcément experts en traitement de la donnée textuelle mais souhaitent pouvoir utiliser ces technologies en ayant conscience des méthodes utilisées et des biais statistiques potentiels. Nous présenterons en particulier le package PyMotifs qui vise à modéliser des faits de langue et à identifier des motifs textuels au sein d'un corpus, mais d'autres méthodes pourront être présentées et discutées.  

  • Gaël Lejeune : Fondamentaux puis "Vectorisation et Similarité"

Pour introduire l'école nous feront un rappel rapide des besoins fondamentaux pour la fouille de textes :

  • Manipulation des données d'entrée (exploitation des formats txt/json/csv/xml)
  • Utilisation les principaux types de structure de données utilisées pour le texte
  • Format de sortie utiles

Puis nous proposerons un travail plus avancé sur les techniques de vectorisation de textes (en mots, sous-mots chaînes de caractères contraintes ou libres) appliquées à différentes tâches de text mining :

  • Détection de doublons/quasi-doublons (textes, paragraphes, phrases)
  • Alignement de segments
  • Raffinage de données issues de Web Scraping
  • Exploitation de Données Bruitées (OCR, ASR ...) notamment pour l'extraction d'Entités Nommées
  • Alexandre Delanoe : GarganText

Présentation et initiation à l'outil GarganText, version 007 et son "textflow" (pipeline) pour réaliser des graphes et des phylomémies (graphes avec dimension temporelle).

Atelier de présentation de l'outil puis séquence tutorielle de travail sur l'outil avec les données des participants : voir les formats acceptés dans la documentation de GaranText

Places

  • Sète, France (34)

Event attendance modalities

Full on-site event


Date(s)

  • Thursday, June 20, 2024

Keywords

  • fouille de texte, python, encodage, corpus textuel

Contact(s)

  • Richard Walter
    courriel : richard [dot] walter [at] ens [dot] fr

Reference Urls

Information source

  • Richard Walter
    courriel : richard [dot] walter [at] ens [dot] fr

License

CC0-1.0 This announcement is licensed under the terms of Creative Commons CC0 1.0 Universal.

To cite this announcement

« NEWTextMining 2 », Summer School, Calenda, Published on Tuesday, May 14, 2024, https://doi.org/10.58079/11nz3

Archive this announcement

  • Google Agenda
  • iCal
Search OpenEdition Search

You will be redirected to OpenEdition Search