AccueilMéthodes et fouille de textes dans les humanités numériques

Méthodes et fouille de textes dans les humanités numériques

Methods and searching texts in the digital humanities

Formation intensive en analyse de texte assistée par ordinateur (ATO) à l’UQAM : Été 2018

Intensive training in computer assisted text analysis at the UQAM, summer 2018

*  *  *

Publié le jeudi 08 mars 2018 par Anastasia Giardinelli

Résumé

Avec la croissance exponentielle des documents textuels en format numérique, la recherche dans les sciences humaines nécessite de plus en plus de maitriser des méthodes computationnelles d’analyse de textes ainsi que plusieurs outils spécialisés. De nouvelles compétences méthodologiques sont devenues nécessaires autant pour des approches basées sur la fouille de texte que pour des approches qualitatives basées sur l’annotation. Lors de cette formation seront enseignées les bases nécessaires à l’analyse de corpus de textes numérisés, notamment le prétraitement des textes, ses modélisations computationnelles, l’analytique automatique, la visualisation des résultats et leurs interprétations.

Annonce

Présentation

Cette formation intensive en analyse de texte assistée par ordinateur se tiendra à l’UQAM (Université du Québec à Montréal) du 4 mai au 22 juin 2018. Elle est organisée par le Centre ATO en collaboration avec le LANCI (Laboratoire d'ANalyse Cognitive de l'Information) et avec l'appui du CIRST (Centre interuniversitaire de recherche sur la science et la technologie).

Argumentaire

Avec la croissance exponentielle des documents textuels en format numérique, la recherche dans les sciences humaines nécessite de plus en plus de maitriser des modèles et des méthodes computationnelles d’analyse de textes ainsi que plusieurs outils spécialisés. L’acquisition de ces nouvelles compétences méthodologiques est devenue nécessaire autant pour des approches basées sur la fouille de texte que des approches qualitatives basées sur l’annotation. Or, l’apprentissage de ces savoir-faire est peu accessible dans les cursus disciplinaires traditionnels en sciences humaines et sociales.

Cette formation, en mode laboratoire, vise à répondre à un besoin grandissant de la part des étudiant.es et des chercheurs des sciences humaines pour l’acquisition de l’ensemble des compétences nécessaires à l’analyse de corpus de textes numériques, notamment la constitution des corpus, le prétraitement des textes, la modélisation computationnelle, l’analytique automatique et la visualisation des résultats.

Objectifs et retombées

Cette édition de la formation s’appuie sur l’expérience et l’interdisciplinarité de ses formateurs pour offrir une formation intensive à deux approches (fouille et annotation de texte) de l’ATO qui se croisent rarement dans les publications et l’enseignement. En effet, chacune de ces approches possède actuellement sa communauté de pratique ainsi que ses outils informatiques, le Text mining d’un côté, et les Computer Assisted Qualitative Data Analysis Software pour l’annotation de texte, de l’autre. C’est pourquoi cette formation poursuit les objectifs généraux suivants :

  • Proposer une formation unique et intégrée de différentes approches et outils de l’ATO;
  • Combler l’absence d’une formation académique enseignant les bases techniques et théoriques de l’ATO nécessaires à sa pratique;
  • Favoriser la formation de chercheurs adaptés aux humanités numériques;
  • Décloisonner l’usage des outils en ATO en se conscientisant à l’interopérabilité entre outils et à la programmation informatique de base.

Au terme de cette formation, les étudiants inscrits devraient avoir atteint les compétences suivantes :

  • Être en mesure de se situer par rapport à la variété des approches de l’ATO (fouille de texte, analyses qualitatives des textes, traitement automatique de la langue);
  • Comprendre comment et pourquoi les sciences humaines s’intéressent à l’ATO;
  • Être capable d’analyser un corpus suivant deux approches en ATO (analyse de texte assistée par ordinateur) : les méthodes qualitatives (annotation sur mesure des textes) et quantitatives (fouille de textes);
  • Savoir distinguer les différentes dimensions d’analyse d’un corpus (métadonnée, document, structure d’un document, annotation, unité lexicale);
  • Se former par la pratique aux techniques et outils récents en ATO en les appliquant autant sur des corpus d’exercices qu’à ses propres corpus de recherche;
  • Se familiariser avec les méthodologies de l’analyse de textes assistée par ordinateur (fouille de textes et d’annotations de textes) et l’ensemble des opérations d’une chaîne de traitement : constitution du corpus, prétraitement, annotation, modélisation, analyse, évaluation et visualisation;
  • Maitriser les rudiments de la manipulation de scripts dans le langage de programmation R;
  • S’autonomiser quant à l’interopérabilité des données (importation/exportation) entre différents environnements.

Sous la forme de 7 jours (les vendredis) complets d’apprentissage par la pratique, cette formation intensive (offerte en français) est donnée à un groupe restreint par des experts à l’intersection des sciences humaines et de l’informatique. Pour un meilleur accompagnement et une meilleure appropriation des apprentissages, chaque séance sera espacée de la suivante d’une semaine et le ratio formateur/étudiant. e est très élevé afin de permettre aux participant.es de mieux appliquer les acquis sur leur propre corpus.

Inscription

L’inscription se fera soit par le biais du cours facultaire FSH8050 à l’UQAM (à partir du 5 mars), soit, pour ceux et celles ne souhaitant pas avoir l’accréditation du cours, en s’inscrivant gratuitement à la formation libre par courriel à formation2018ato@gmail.com, et ce

avant le 16 mars 2018

Dans ce dernier cas, une sélection des participants.es sera effectuée suite à une étude de dossier.

Prérequis

  • Être inscrit dans un programme de cycle supérieur ou en stage postdoctoral à l’UQAM, dans une autre université québécoise (CRÉPUQ) ou dans une autre province;
  • Cours de base en statistiques descriptives (moyennes, écart-type, pourcentages, etc.);
  • Compétences informatiques de base (logiciels bureautiques, gestion de fichiers, etc.);
  • Maitrise de l’anglais (lecture);
  • Intérêt pour l’apprentissage de la programmation informatique;
  • Une base en analyse qualitative est un atout;
  • Disposer d’un corpus pour l’analyse est un atout.

Comités scientifique

  • Élias RIZKALLAH — Professeur de sociologie (Centre ATO) à l’UQAM
  • Jean-Guy MEUNIER — Professeur retraité de philosophie (LANCI) à l’UQAM
  • Jean-François CHARTIER — Postdoctorant à l’Université de Montréal (EBSI)
  • Dominic FOREST, Professeur Université de Montréal (EBSI)
  • Ludovic LEBART — Directeur de recherche au CNRS (CNRS, France)

Contact

Pour plus d’informations, nous vous invitons à vous référer à la page web de la formation ou bien à contacter formation2018ato@gmail.com

Programme

Jour 1

4 mai 2018 : Introduction à l’ATO et à la fouille de texte

  • Humanités numériques et modélisation scientifique – Jean-Guy Meunier (UQAM)
  • Applications professionnelles de l’analyse de textes par ordinateur à l’ère des données massives – Dominic Forest (Université de Montréal)
  • Panoplie des analyses en ATO – Ludovic Lebart (UQAM)
  • Présentation du matériel pédagogique (corpus, bibliographie, plateformes, etc.)
  • Présentation par les participants des corpus personnels

Jour 2

11 mai 2018 : Prétraitement des corpus

  • Préparer, décrire et annoter un corpus à des fins d’analyse.
  • Prétraitement et analyse univariée
  • Opérations d’annotation manuelle et semi-automatique

Jour 3

18 mai 2018 : Analyse de cooccurrences

  • Présentation de l’hypothèse distributionnelle
  • Présentation de diverses matrices textuelles
  • Exercices de manipulation des matrices textuelles

Jour 4

25 mai 2018 : Regroupement automatique (clustering)

  • Analyse de spécificité/caractérisation
  • Les coefficients de pondération
  • Le filtrage des dimensions
  • Présentation de divers classifieurs
  • Exercices de classification

Jour 5

1er juin 2018 : Analyse « thématique » automatisée

  • Présentation de diverses méthodes d’analyse (SVD, PCA, CA, LDA)
  • Présentation du topic modeling
  • Exercices d’analyse à l’aide des méthodes présentées

Jour 6

8 juin 2018 : Mentorat et consolidation

Jour 7

15 juin 2018 : Apprentissage machine appliquée au texte

  • Approximation de fonction et exemplaires de la fonction
  • Sélection des traits (features)
  • Présentation de diverses méthodes d’apprentissage machine

Jour 8

22 juin 2018 : Croisements entre les différentes unités d’analyses et méthodes d’analyse

  • Croisements entre les unités textuelles et les annotations
  • Croisements entre les analyses supervisées et non supervisées
  • Illustration des résultats

Lieux

  • Montréal, Canada

Dates

  • vendredi 16 mars 2018

Mots-clés

  • humanité numérique, digital humanity, fouille de textes, text mining, fouille de données, data mining, analyse de texte, analyse conceptuelle, corpus, analyse qualitative, analyse quantitative, assistance computationnelle, ordinateur, apprentissage mac

Contacts

  • Francis Lareau
    courriel : formation2018ato [at] gmail [dot] com

Source de l'information

  • Francis Lareau
    courriel : formation2018ato [at] gmail [dot] com

Pour citer cette annonce

« Méthodes et fouille de textes dans les humanités numériques », Informations diverses, Calenda, Publié le jeudi 08 mars 2018, https://calenda.org/435601

Archiver cette annonce

  • Google Agenda
  • iCal