Initiation in the statistical analysis of digital and textual data with DtmVic (Data and Text Mining: Visualisation, Inference, Classification)
S'initier à l'analyse statistique de données numériques et textuelles avec DtmVic (Data and Text Mining: Visualisation, Inférence, Classification)
Published on Tuesday, September 20, 2016
Abstract
L'unité régionale de formation à l'information scientifique et technique (Urfist) de Bordeaux organise une initiation à DtmVic sur le campus de Pessac le 10 octobre 2016. Le stage est gratuit pour les doctorants et les personnels du MENESR et des EPST. La formation s’adresse aux chercheurs intéressés par les méthodes quantitatives d’exploration de corpus et le text mining. Ainsi que le précise le Consortium Corpus écrits, « particulièrement adapté au traitement des questionnaires et des données d’enquête, DTM-VIC (Data and Text Mining – Visualization, Inference, Classification) est ainsi l’un des seuls outils permettant d’articuler les données textuelles et des données numériques ou nominales nombreuses ».
Announcement
Objectifs
‒ S’initier à la démarche de l’analyse statistique de données textuelles
‒ Mettre en oeuvre des méthodes statistiques sur des corpus variés : questions ouvertes, entretiens à partir de DtmVIC
DtmVic, logiciel téléchargeable gratuitement, est conçu pour l’analyse exploratoire multidimensionnelle des données numériques, nominales et textuelles.
Il permet de traiter des corpus textuels de grande taille et des données numériques
Programme
La formation s’adresse aux chercheurs intéressés par les méthodes quantitatives d’exploration de corpus et le text mining.
Ainsi que le précise le Consortium Corpus écrits, "particulièrement adapté au traitement des questionnaires et des données d’enquête, DTM-VIC (Data and Text Mining – Visualization, Inference, Classification) est ainsi l’un des seuls outils permettant d’articuler les données textuelles et des données numériques ou nominales nombreuses".
Quelques exemples d'objectifs de recherche possibles avec DtmVic :
- observer en corpus des typologies textuelles (discursives, génériques, etc.)
- tester une hypothèse de variation
- faire émerger en corpus les motifs textuels spécifiques à une typologie textuelle
‒ Initiation aux enjeux de l’analyse statistique et linguistique
‒ Typologies des textes ; cas des questions ouvertes dans les enquêtes
‒ Unités statistiques : mots, segments, lemmes, unités de contexte, partie de textes
‒ Outils de visualisation : analyses en axes principaux (composantes principales, correspondances discriminantes, de contiguïté), méthodes de classification (hiérarchiques, k-moyennes, mixtes, cartes de Kohonen)
‒ Éléments caractéristiques
‒ Validation des techniques de visualisation : ré-échantillonnage (bootstrap, bootstrap partiel, bootstrap total)
‒ Stratégies de traitement et discussions à partir des exemples
Exemples d'analyses réalisées à partir de DtmVic :
"Les Hospitalisations potentiellement évitables en Ile de France et l’accessibilité aux soins", R.J. Freund (EHESP département d'épidémiologie de Rennes 2), F. Tonnelier (IRDES) , J.-F. Philippon (département d'information médicale CH Agen)
"Social Representations of Older Adults Among Chilean Elders of Three Cities with Different Historical and Sociodemographic Background", in Journal of Cross-Cultural Gerontology, 2016, vol.31, n°2, p. 115-128, H. Sanchez, M. Huerta, C. Albala, C. Marquez
"Évolutions des représentations sociales du bien manger", 2014, T. Mathe, D. Beldame, P. Hebel
"What has been the impact of public dialogue in science and technology on UK policymaking? ", 2016, M.-L. Smallman (University College London)
"De l'humeur dépressive à la dépression chez l'adolescent: Statistiques et narrativité", 2012, A. Boulard
Intervenant : directeur de recherche CNRS et professeur à Télécom ParisTech, Ludovic Lebart est responsable du projet DtmVic et anime régulièrement des formations au sein de structures de recherche. L. Lebart est l'auteur de plusieurs ouvrages dédiés à la statistique exploratoire multidimensionnelle.
Ses travaux relèvent de la méthodologie du traitement statistique et informatique des vastes recueils de données individuelles, dont les fichiers d'enquêtes socio-économiques fournissent le domaine d'application principal. Ces traitements se situent en général soit en amont de la modélisation de type économétrique, soit dans des domaines d'investigation où celle-ci est exclue ou prématurée (données textuelles, importantes batteries de variables qualitatives par exemple).
Pré-requis
Se munir de ses corpus et de ses métadonnées
Infos pratiques, inscriptions
- S'inscrire
- La salle de formation se situe sur le campus de Pessac (arrêt de tram ligne B : "Montaigne Montesquieu"), au 1er étage de la bibliothèque universitaire Droit-Lettres
- 10/10/2016
- 9h30-17h30
Subjects
- Epistemology and methodology (Main category)
- Mind and language > Epistemology and methodology > Methods of processing and representation > Quantitative methods
- Mind and language > Epistemology and methodology > Auxiliary sciences of history
- Mind and language > Epistemology and methodology > Methods of processing and representation
- Mind and language > Epistemology and methodology > Corpus approaches, surveys, archives
- Mind and language > Epistemology and methodology > Digital humanities
Places
- Bibliothèque universitaire Droit-Lettres, 1er étage, salle de formation Urfist - 4 avenue Denis Diderot
Pessac, France (33)
Date(s)
- Monday, October 10, 2016
Keywords
- text and data mining, analyse statistique, données numériques et textuelles
Contact(s)
- Sabrina Granger
courriel : sabrina [dot] granger [at] u-bordeaux [dot] fr
Reference Urls
Information source
- Sabrina Granger
courriel : sabrina [dot] granger [at] u-bordeaux [dot] fr
License
This announcement is licensed under the terms of Creative Commons CC0 1.0 Universal.
To cite this announcement
« Initiation in the statistical analysis of digital and textual data with DtmVic (Data and Text Mining: Visualisation, Inference, Classification) », Miscellaneous information, Calenda, Published on Tuesday, September 20, 2016, https://doi.org/10.58079/vqu