AccueilHistoire, langues et textométrie

AccueilHistoire, langues et textométrie

Histoire, langues et textométrie

History, languages and textometry

*  *  *

Publié le jeudi 07 juin 2018

Résumé

Du 17 au 19 janvier 2019, le Pôle informatique de recherche et d'enseignement en histoire (Pireh) – université Paris 1 organisera à la Sorbonne un colloque international consacré aux rapports entre histoire, langue et textométrie. L'objectif de cet évènement est de voir comment les historien·nes se sont approprié·es les méthodes informatiques et statistiques, qualitatives ou quantitatives, d'analyse des textes, quelles sont les nouvelles techniques qu'il peuvent mobiliser dans ce sens, et comment elles peuvent s'inscrire dans une démarche de recherche historique. Ce colloque est pensé comme un moment d'échange entre historiens de diverses périodes et spécialités, et plus généralement entre les différentes disciplines intéressées par l'analyse des textes (linguistique, sociologie, critique littéraire, mathématiques, informatique, etc.).

Annonce

Colloque international, Paris 17-19 janvier 2019

Argumentaire

Les méthodes d’analyse statistiques de textes (lexicométrie, textométrie, linguistique computationnelle, text mining, etc.) connaissent aujourd’hui d’importants développements dans tous les champs scientifiques et dans la société en général. Ces méthodes peuvent en effet répondre aux questions et aux intérêts d’acteurs multiples (entreprises privées, acteurs de la gestion publique, des milieux du renseignement, data-journalism, etc.). Elles prennent également une place croissante dans les sciences humaines et sociales, et notamment chez les chercheurs et chercheuses qui se réclament des humanités numériques. Ceci a donné lieu à de nombreux colloques, à des rencontres scientifiques régulières, telles que les JADT, et à plusieurs synthèses récentes (Léon & Loiseau 2016, Jenset & McGillivray 2017).

La position des historien·nes peut paraître paradoxale : leur travail repose en grande partie sur des textes utilisés comme sources, et les évolutions de l’historiographie moderne les ont conduits à accorder une attention toujours plus grande aux discours et aux représentations des acteurs du passé. La lexicométrie historique a à ce titre connu de grands succès et bénéficié d’une excellente visibilité dès les années 1970, notamment au Centre de lexicologie politique de l’ENS Fontenay/Saint-Cloud. Pourtant, malgré l’influence du linguistic turn et le développement d’outils informatiques à la fois plus puissants et plus accessibles, les usages de la textométrie en histoire se sont révélés plus dispersés par la suite, malgré d’incontestables succès (Genet 2011). La faible présence des historien·nes aux JADT est de ce point de vue symptomatique.

On entrevoit aujourd’hui un renouveau de l’approche textométrique en histoire, mais suivant une démarche différente, celle du text mining, pensée comme une aide au dépouillement d’archives textuelles massives issues de programmes de numérisation des sources (Projet Corpus de la BnF par exemple – Moiraghi 2018).

L’objectif de ce colloque est de dresser un panorama des utilisations actuelles des méthodes d’analyse statistique des textes en histoire, quelle que soit la période et l’espace étudiés, à un moment où le contexte intellectuel, social et technique invite ainsi à les repenser. Plusieurs questions peuvent être posées pour mieux comprendre leur place et leurs apports en histoire.

Axe 1 : L’historiographie du rapport entre langue et histoire

Depuis les débuts des relations entre histoire, linguistique et statistique lexicale, les historiens n’ont jamais cessé de réfléchir sur leurs pratiques (Robin 1973 ; Guilhaumou, Maldidier, Robin 1994 ; Genet 2011 ; Léon 2015 ; Léon & Loiseau 2016), et de nombreuses questions historiographiques restent ouvertes. S’interroger sur les relations entre la discipline historique, la langue et le discours implique ainsi de revenir sur les étapes fructueuses de cette histoire comme les travaux du laboratoire de lexicologie politique de l’ENS Fontenay/Saint-Cloud, ou ceux du laboratoire de statistiques linguistiques de l’Université de Nice. Mais aussi de réfléchir aux entreprises scientifiques et intellectuelles qui, bien qu’elles eurent une grande importance épistémologique, n’ont pas toujours été poursuivies avec la même intensité, telles que les recherches de Michel Pêcheux et de Denise Maldidier. De même, il reste à interroger les modalités des relations entre histoire, linguistique et textométrie, à l’image par exemple des parcours d’historiens comme Jacques Guilhaumou ou Régine Robin, qui se caractérisent par le passage d’un recours à la statistique lexicale à des démarches plus proches de l’histoire conceptuelle.

Axe 2 : Les renouvellements méthodologiques liés aux corpus

Sous-axe 2.1 : Vers des sources et objets linguistiques renouvelés pour la textométrie ?

En France, la lexicométrie historique s’est originellement attachée à l’étude de la littérature politique et syndicale. Si cette tradition demeure vivace (Mayaffre 2010) et touche parfois le grand public (Alduy 2017 ; Souchard, Wanich & Cuminal 1998), on peut se demander quels sont les autres types de sources soumis aujourd’hui par les historien·nes à cette approche. Certaines « langues » présentent de forts particularismes – celles des chartes, des câbles diplomatiques, ou encore du droit par exemple. D’autres sources se caractérisent par des conditions d’énonciation particulières (oralité, écrits de l’intime et du for privé, textes littéraires...). Quels sont alors les problématiques et les protocoles d’analyses les plus pertinents ?

La langue peut elle-même devenir objet d’histoire, en particulier lorsqu’elle fonctionne comme le vecteur d’un pouvoir. C’est par exemple ce qu’a montré Serge Lusignan en histoire sociolinguistique (Lusignan 2004 et 2012), dans une perspective plus qualitative. Les enjeux langagiers de la domination sont également au cœur d’approches historiographiques comme l’histoire du genre ou les postcolonial studies. On peut alors s’interroger sur la place des méthodes textométriques dans ces démarches et sur leur capacité à saisir les stratégies discursives et les faits de discours qui sont au cœur de leur analyse.

De nombreux champs de la discipline historique ont parallèlement été renouvélés par le « tournant documentaire » (archival turn – voir par exemple Chastang 2008 pour l’histoire médiévale ou Guyotjeannin 1995), consistant à considérer la source, l’archive, comme un objet construit dont l’étude des conditions de production et de conservation complète ou enrichit l’interprétation du contenu. Dans cette perspective, la lexicométrie perd-elle de son utilité ou peut-elle être réinvestie d’autres missions centrées sur le document lui-même, sur ses aspects formels, sa genèse ou son devenir ?

Sous-axe 2.2 : Les données textuelles à l’ère du big data et leurs relations aux historiens

L’outillage statistique de la lexicométrie suppose de disposer d’un corpus de textes non seulement représentatif mais aussi relativement important pour produire des résultats significatifs. Au-delà des débats sur la taille idéale d’un corpus lexicométrique en histoire, on peut se demander comment varier les échelles d’analyse en articulant des méthodes complémentaires (fouille de textes sur de gros corpus vs. analyse ciblée d’un lexique). La question prend d’autant plus d’importance que se multiplient les sources numérisées ou nativement numériques, tels que les écrits du Web. Comment les historiens peuvent-ils s’approprier ces gisements de données textuelles, et que peuvent-ils apporter, forts de leur expérience critique des sources, sur leur constitution et leur utilisation ? L’actualité des publications montre que ces transformations touchent toutes les périodes historiques et des objets variés, (Mayaffre 2010, Perreaux 2014, par exemple) et bouleversent la géographie de la recherche (Putnam 2016). Nous voudrions lors de ce colloque poursuivre et approfondir ce questionnement.

Axe 3 : Les développements de l’outillage statistique

Sous-axe 3.1 : La temporalité

Éviter l’anachronisme dans le sens des mots lorsque l’on étudie un corpus de manière diachronique est un souci ancien pour les historiens (Prost 1988). Les recherches dans ce domaine semblent aujourd’hui reprendre un intérêt nouveau notamment en ce qui concerne la visualisation de la temporalité (Ratinaud & Marchand 2014). Si on laisse parler les mots, la lexicométrie peut aider à dégager un temps lexical, des cycles utiles au travail de l’historien (Salem 1988). Il existe des méthodes statistiques (AFC, topic modeling...) permettant de percevoir des phénomènes de substitutions lexicales, mais les transformations sémantiques sont encore assez peu abordées en histoire. Existe t-il des moyens pour percevoir des évolutions sémantiques ? Peut-on retracer des influences sémantiques dans le temps ? Comment faire avec des données temporelles discontinues, parfois très espacées dans le temps ? Ces questions relèvent naturellement de la démarche de l’historien, qui travaille par définition sur la temporalité, mais elles prennent une importance particulière dans le domaine des écritures numériques qui, bien souvent, sont structurées de manière chronologique (Facebook, Twitter, etc.)

Sous-axe 3.2 : De nouveaux algorithmes pour la textométrie

Depuis l’ouvrage de Lebart et Salem (Lebart & Salem 1994), les outils statistiques se sont à la fois stabilisés et développés, et avec eux les protocoles d’analyse mis en œuvre dans les différents logiciels offerts en accès libre (autour de R par exemple, voir Bécue Bertaut 2018) ou via des plateformes Web. Les nouvelles méthodes que l’on voit naître permettent d’investir autrement des corpus, comme c’est le cas pour Linkage (http://linkage.fr) qui se propose d’introduire le texte dans les méthodes de classifications de réseaux sociaux. On pourrait également citer l’utilisation des topic models (Barron et alii, 2018) ou le développement récent d’algorithmes de deep learning reposant sur une approche par vecteur de mots (Embedding Layer, Word2Vec, GloVe). Les travaux utilisant ces méthodes (par exemple Levy & Goldberg 2014) laissent entrevoir de forts potentiels pour la description rapide des contenus des documents et leur comparaison. Comment les historiens peuvent-ils se les approprier ?

Sous-axe 3.3 : Approches informatiques plus qualitatives

L’outillage informatique utile à une démarche linguistique dans les sciences humaines et sociales n’est pas que statistique, comme en témoigne par exemple le logiciel Nooj, qui permet une formalisation fine des langues naturelles. Une telle approche présente un intérêt pour la connaissance de l’état d’une langue, mais elle permet aussi de l’aborder dans sa diachronie.

Plus largement, se pose la question des approches qualitatives qui doivent trouver toute leur place dans ce colloque. L’enjeu est bien de profiter de la richesse et de la complémentarité des approches qualitative et quantitative de la langue (Paveau 2012), et ainsi d’aborder le plus largement possible les rapports entre langue et histoire. Les contributions illustrant le bénéfice de l’utilisation de ces différentes méthodes seront les bienvenues.

Une bibliographie est en ligne sur https://histlangtexto.sciencesconf.org/

Un site dédié au colloque est en ligne : https://histlangtexto.sciencesconf.org/

Comité scientifique

  • Benjamin Deruelle (Université du Québec à Montreal)
  • Octave Julien (Université Paris 1 Panthéon Sorbonne)
  • Stéphane Lamassé (Université Paris 1 Panthéon Sorbonne)
  • Virgine Lethier (Université de Franche-Comté)
  • Aude Mairey (Université Paris 1 - CNRS)
  • Damon Mayaffre (Université Nice Sophia Antipolis)
  • Ian Milligan (Université de Waterloo)
  • Bénéficte Pincemin (CNRS - ENS de Lyon)
  • André Salem (Université Paris 3 Sorbonne Nouvelle)Max Silberztein (Université de Franche-Comté)

Comité d'organisation

  • Léo Dumont (Université Paris 1 Panthéon Sorbonne)
  • Octave Julien (Université Paris 1 Panthéon Sorbonne)
  • Stéphane Lamassé (Université Paris 1 Panthéon Sorbonne)

Modalités de participation

Deux types de communication (en français ou en anglais) sont acceptées :

  • des communications de 20 min proposées sous la forme d'un résumé de 5000 signes
  • des posters (au format A1) proposés sous la forme d'un résumé de 2500 signes

La date limite pour les dépôts des propositions est fixée au 22 juin 2018 ;

le dépôt se fait sur https://histlangtexto.sciencesconf.org/. Les communications retenues seront annoncées le 13 juillet après examen par le comité scientifique. Une version préliminaire du texte prononcé lors de la conférence sera attendue pour le 15 octobre. Les communications retenues seront destinées à être publiées dans un ouvrage collectif.

Un financement pour le transport des intervenants pourra être proposé en fonction des candidatures reçues.


Dates

  • vendredi 22 juin 2018

Mots-clés

  • textométrie,histoire,text mining,corpus,historiographie,lexicométrie

Contacts

  • Léo Dumont
    courriel : leo [dot] dumont [at] univ-paris1 [dot] fr

URLS de référence

Source de l'information

  • Léo Dumont
    courriel : leo [dot] dumont [at] univ-paris1 [dot] fr

Licence

CC0-1.0 Cette annonce est mise à disposition selon les termes de la Creative Commons CC0 1.0 Universel.

Pour citer cette annonce

« Histoire, langues et textométrie », Appel à contribution, Calenda, Publié le jeudi 07 juin 2018, https://doi.org/10.58079/10bs

Archiver cette annonce

  • Google Agenda
  • iCal
Rechercher dans OpenEdition Search

Vous allez être redirigé vers OpenEdition Search