AccueilS'initier à l'analyse statistique de données numériques et textuelles avec DtmVic (Data and Text Mining: Visualisation, Inférence, Classification)

S'initier à l'analyse statistique de données numériques et textuelles avec DtmVic (Data and Text Mining: Visualisation, Inférence, Classification)

Initiation in the statistical analysis of digital and textual data with DtmVic (Data and Text Mining: Visualisation, Inference, Classification)

*  *  *

Publié le mardi 20 septembre 2016 par João Fernandes

Résumé

L'unité régionale de formation à l'information scientifique et technique (Urfist) de Bordeaux organise une initiation à DtmVic sur le campus de Pessac le 10 octobre 2016. Le stage est gratuit pour les doctorants et les personnels du MENESR et des EPST. La formation s’adresse aux chercheurs intéressés par les méthodes quantitatives d’exploration de corpus et le text mining. Ainsi que le précise le Consortium Corpus écrits, « particulièrement adapté au traitement des questionnaires et des données d’enquête, DTM-VIC (Data and Text Mining – Visualization, Inference, Classification) est ainsi l’un des seuls outils permettant d’articuler les données textuelles et des données numériques ou nominales nombreuses ».

Annonce

Objectifs

‒ S’initier à la démarche de l’analyse statistique de données textuelles
‒ Mettre en oeuvre des méthodes statistiques sur des corpus variés : questions ouvertes, entretiens à partir de DtmVIC

DtmVic, logiciel téléchargeable gratuitement, est conçu pour l’analyse exploratoire multidimensionnelle des données numériques, nominales et textuelles.
Il permet de traiter des corpus textuels de grande taille et des données numériques

Programme

La formation s’adresse aux chercheurs intéressés par les méthodes quantitatives d’exploration de corpus et le text mining.
Ainsi que le précise le Consortium Corpus écrits, "particulièrement adapté au traitement des questionnaires et des données d’enquête, DTM-VIC (Data and Text Mining – Visualization, Inference, Classification) est ainsi l’un des seuls outils permettant d’articuler les données textuelles et des données numériques ou nominales nombreuses".

Quelques exemples d'objectifs de recherche possibles avec DtmVic :

  • observer en corpus des typologies textuelles (discursives, génériques, etc.)
  • tester une hypothèse de variation
  • faire émerger en corpus les motifs textuels spécifiques à une typologie textuelle

‒ Initiation aux enjeux de l’analyse statistique et linguistique
‒ Typologies des textes ; cas des questions ouvertes dans les enquêtes
‒ Unités statistiques : mots, segments, lemmes, unités de contexte, partie de textes
‒ Outils de visualisation : analyses en axes principaux (composantes principales, correspondances discriminantes, de contiguïté), méthodes de classification (hiérarchiques, k-moyennes, mixtes, cartes de Kohonen)
‒ Éléments caractéristiques
‒ Validation des techniques de visualisation : ré-échantillonnage (bootstrap, bootstrap partiel, bootstrap total)
‒ Stratégies de traitement et discussions à partir des exemples

Exemples d'analyses réalisées à partir de DtmVic :
"Les Hospitalisations potentiellement évitables en Ile de France et l’accessibilité aux soins", R.J. Freund (EHESP département d'épidémiologie de Rennes 2), F. Tonnelier (IRDES) , J.-F. Philippon (département d'information médicale CH Agen)

"Social Representations of Older Adults Among Chilean Elders of Three Cities with Different Historical and Sociodemographic Background", in Journal of Cross-Cultural Gerontology, 2016, vol.31, n°2, p. 115-128, H. Sanchez, M. Huerta, C. Albala, C. Marquez

"Évolutions des représentations sociales du bien manger", 2014, T. Mathe, D. Beldame, P. Hebel

"What has been the impact of public dialogue in science and technology on UK policymaking? ", 2016, M.-L. Smallman (University College London)

"De l'humeur dépressive à la dépression chez l'adolescent: Statistiques et narrativité", 2012, A. Boulard

Intervenant : directeur de recherche CNRS et professeur à Télécom ParisTech, Ludovic Lebart est responsable du projet DtmVic et anime régulièrement des formations au sein de structures de recherche. L. Lebart est l'auteur de plusieurs ouvrages dédiés à la statistique exploratoire multidimensionnelle.
Ses travaux relèvent de la méthodologie du traitement statistique et informatique des vastes recueils de données individuelles, dont les fichiers d'enquêtes socio-économiques fournissent le domaine d'application principal. Ces traitements se situent en général soit en amont de la modélisation de type économétrique, soit dans des domaines d'investigation où celle-ci est exclue ou prématurée (données textuelles, importantes batteries de variables qualitatives par exemple).

Pré-requis

Se munir de ses corpus et de ses métadonnées

Infos pratiques, inscriptions

  • S'inscrire
  • La salle de formation se situe sur le campus de Pessac (arrêt de tram ligne B : "Montaigne Montesquieu"), au 1er étage de la bibliothèque universitaire Droit-Lettres
  • 10/10/2016
  • 9h30-17h30

Lieux

  • Bibliothèque universitaire Droit-Lettres, 1er étage, salle de formation Urfist - 4 avenue Denis Diderot
    Pessac, France (33)

Dates

  • lundi 10 octobre 2016

Mots-clés

  • text and data mining, analyse statistique, données numériques et textuelles

Contacts

  • Sabrina Granger
    courriel : sabrina [dot] granger [at] u-bordeaux [dot] fr

Source de l'information

  • Sabrina Granger
    courriel : sabrina [dot] granger [at] u-bordeaux [dot] fr

Pour citer cette annonce

« S'initier à l'analyse statistique de données numériques et textuelles avec DtmVic (Data and Text Mining: Visualisation, Inférence, Classification) », Informations diverses, Calenda, Publié le mardi 20 septembre 2016, http://calenda.org/377687