AccueilStatistique et informatique pour les SHS

Statistique et informatique pour les SHS

Statistics and IT at the SHS

*  *  *

Publié le mardi 12 avril 2011 par Loïc Le Pape

Résumé

Les besoins et les méthodes de dépouillement des données se sont largement accrus an SHS depuis quelques années. Toutefois, bien qu’il existe aujourd’hui des catalogues assez fournis de logiciels gratuits ou libres, leur maîtrise n’est pas toujours au rendez-vous : au coût d’appropriation s’ajoutent en effet ceux de la recherche de chacun de ces logiciels et de leur évaluation, de leur test, de leur personnalisation, de leur intégration. Il y a sur ce point un véritable besoin de formalisation et de simplification des procédures. C’est dans cette perspective que l’équipe du PIREH(Histoire) a proposé aux équipes ARSCAN (Archéologie), SAMM (Mathématiques et Statistique) et CRI (Informatique) de l’Université Paris 1 de réfléchir aux solutions qui pourraient être apportées à cette problématique. Pour ce faire, nous proposons une série de séminaires qui visent à initier une dynamique scientifique et pluridisciplinaire.

Annonce

Présentation du séminaire 2011

Les besoins et les méthodes de dépouillement des données se sont largement accrus an SHS depuis quelques années du fait de l’émergence et de la concentration de programmes informatiques consacrés aux traitements et à l’exploration des données. Toutefois, bien qu’il existe aujourd’hui des catalogues assez fournis de logiciels gratuits ou libres, leur maîtrise n’est pas toujours au rendez-vous : au coût d’appropriation s’ajoutent en effet ceux de la   recherche de chacun de ces logiciels et de leur évaluation, de leur test, de leur personnalisation, de leur intégration. Ce gonflement pléthorique de l’offre technique et méthodologique peut rebuter les chercheurs, qui trouvent leurs missions déplacées (veille documentaire, activité d’ingénieur), et qui ne sont pas toujours satisfaits par les implicites épistémologiques des méthodes proposées. Il y a sur ce point un véritable besoin de formalisation et de simplification des procédures. C’est dans cette perspective que l’équipe du PIREH(Histoire) a proposé aux équipes ARSCAN (Archéologie), SAMM (Mathématiques et Statistique) et CRI (Informatique) de l’Université Paris 1 de réfléchir aux solutions qui pourraient être apportées à cette problématique. Pour ce faire, avec le soutien financier du Conseil Scientifique de Paris 1, nous proposons une série de séminaires qui visent à initier une dynamique scientifique et pluridisciplinaire. Ces séminaires se dérouleront sur deux ans, sous forme de 4 demi-journées par an et porteront sur les thèmes suivants :

  • Autour des méthodes de classification (25 février, 14h, PMF)
  • Visualisation de l’information, enjeux et perspectives (6 mai, date à confirmer)
  • Analyse des réseaux sociaux (23 juin, 14h, à Marseille lors des Journées MASHS)
  • Modélisation et protocoles de recherche en SHS (septembre 2011, à PMF)

1ere demi-journée : vendredi 25 février 2011

« Classification »

Centre PMF, 14h, salle C-20-13, 20 ème étage, 90, rue de Tolbiac, 75013 Paris, Métro Olympiades

Cette première demi-journée sera consacrée à l’usage des méthodes de classifications en SHS. La classification, qu’elle soit supervisée ou non supervisée, joue un rôle croissant dans ces disciplines où il est utile de regrouper les observations en groupes homogènes pour mieux les décrire et les interpréter. La classification non supervisée, appelée également classification automatique ou clustering, est, en particulier, très appréciée en SHS pour ses qualités de « synthétisation » de l’information contenue dans les données. La classification automatique est aujourd’hui associée à des méthodes de visualisation permettant une compréhension optimale des données. Cette demi-journée se propose de faire découvrir ou re-découvir ces méthodes au travers de paquets R et d’applications en SHS.

  • Julie Josse (Agrocampus Ouest, Rennes) : FactoMineR un package R d’analyse des données – Présentation des méthodes classiques et des dernières nouveautés.
  • Résumé : FactoMineR est un package du logiciel libre R dédié à l’analyse de données et utilisé en enseignement, en recherche et par des utilisateurs de différents domaines d’application. Il permet de réaliser des méthodes exploratoires dédiées à l’analyse d’un tableau de données (ACP, AFC, ACM, classification) et des méthodes multi-tableaux (AFM, AFM Hierarchique, AFM Duale). Toutes les analyses peuvent être effectuées par lignes de commande et à l’aide d’un menu déroulant convivial. Dans cette présentation, nous illustrerons ses principales fonctionnalités au travers d’exemples réels. Puis nous insisterons sur quelques développements récents : la fonction HCPC qui permet de réaliser un enchaînement analyse factorielle-classification et qui offre de nombreuses sorties graphiques, la prise en compte des données manquantes, etc.  
  • Patrice Gaubert (Erudite, Université Paris 12) : Combining Markov switching models and the detection of change-points with the SOM algorithm to explain a temporal process
  • Résumé : In the analysis of a temporal process, Kohonen maps may be used together with time-series (TS) algorithms. The initial research aimed at combining Kohonen algorithms and Markov switching models in order to suggest a periodization of the international bimetallism in the 19th century (Boyer-Xambeu, Deleplace, Gaubert, Gillard and Olteanu, 2006). In a posterior paper (IO2008, with G. Deleplace and I. Kamoun) the location of the major breakings occurring during the period of international bimetallism has been presented with a historical study linking them to special events, which operated as exogenous shocks on that system. The indicator of integration used was the spread between the highest and the lowest among the London, Paris, and Hamburg gold-silver prices. As a consequence, it seems appropriate in a further study to locate the breakings of another indicator of integration: the spread between a representative “national” gold-silver price and an arbitrated international gold-silver price taking into account the foreign exchange rates. At the same time it would be interesting to go further with the Markov switching model, trying more complete specifications. The algorithm used to detect change-points bring some help to find more accurate specifications. At the same time it gives a better understanding of the time process and some rationale to choose the sub-periods when grouping the classes produced by the SOM algorithm.

2ème demi-journée : vendredi 6 mai

« visualisation des données : enjeux et perspectives »

Centre PMF, 14h, salle C-20-13, 20ème étage, 90, rue de Tolbiac, 75013 Paris, Métro Olympiades

À l’intersection de la statistique et de la graphique, désormais dynamique, la visualisation des données n’est pas qu’un moyen dont l’objet serait de présenter des   résultats. Elle joue, en effet, un rôle clef dans la recherche, l’observation permettant   l’identification des phénomènes et l’émergence de questionnements nouveaux. Dans le sens   où elle permet l’établissement d’une démarche parfois qualifiée d’« émergentiste », elle   est pleinement heuristique. La représentation correcte des résultats et leur observation   est aussi la condition nécessaire afin de fixer les éléments d’une démarche en couvrant   des volumes importants de données et de l’interprétation. C’est enfin, le moyen privilégié de la communication des résultats. Tous ces points pourraient se retrouver   autour de trois verbes : découvrir, interpréter, communiquer.

L’informatique et singulièrement les technologies de l’Internet donnent une nouvelle importance à une discipline qui a aujourd’hui une histoire, et dont l’héritage nourrit les innovations contemporaines.

Ce vaste champ d’étude nous sera présenter à la fois par des professionnels de cette discipline et des mathématiciens pour lesquels il s’agit d’un point décisif dans la   construction de savoirs. Le tour de table de cette séance visera, ainsi, à interroger la   visualisation de données sous les aspects historiques, méthodologique et épistémologique. On peut citer cette année : http://www.uib.no/eurovis2011/ et La revue Modulad consacre des développements à ce domaine

  • Pierre Dragicevic (laboratoire INRIA, Aviz) : Nouvelles approches de visualisation interactive pour les réseaux sociaux 

    Résumé : La visualisation d’information est un domaine pluridisciplinaire qui étudie la représentation visuelle de grandes quantités d’information de nature essentiellement non numérique. La majeure partie de l’activité de recherche consiste à évaluer l’efficacité des représentations visuelles connues et à inventer de nouveaux moyens de représenter l’information et d’interagir avec ces représentations. Nous introduisons ce domaine ainsi que les domaines connexes de l’analyse visuelle et de l’interaction homme-machine en nous appuyant sur l’analyse de réseaux sociaux comme domaine d’application. En guise d’illustration, nous présenterons le travail de recherche effectué dans notre équipe (www.aviz.fr) et ferons la démonstration d’outils innovants tels que GraphDice (un outil d’exploration interactive de graphes multivariés) et GeneaQuilts (un outil d’exploration interactive de grandes généalogies).
  • Michel Verleyssen (Université catholique de Louvain) : Visualisation de données par projections non-linéaires 

    Résumé : La visualisation de données numériques appartenant à des espaces de grande dimension n’est pas un problème nouveau.   L’Analyse en Composantes Principales (ACP) et le MultiDimensional Scaling sont des méthodes traditionnelles de compression, aisément utilisées pour la visualisation.   Néanmoins, elles sont limitées à une transformation linéaire (une projection orthogonale) des données.   Dans de nombreux cas cette limitation est importante ; on peut montrer que si l’objectif est de conserver dans la visualisation les similarités qui existent entre les données en grande dimension, les méthodes linéaires accordent davantage d’importance aux similarités faibles qu’aux données qui sont proches, ce qui n’est pas naturel. Pour cette raison, diverses extensions non-linéaires de l’ACP et du MDS ont été proposées.   Elles permettent la visualisation de données complexes (en haute dimension) de façon plus naturelle, donc souvent plus utile.   Cet exposé retracera les différentes améliorations qui ont été apportées récemment aux méthodes de projection (linéaire ou non), ainsi que la façon d’évaluer la qualité de la représentation obtenue. abstract : Data visualization with nonlinear projection methods Visualizing high-dimensional numerical data is not a new challenge.   Principal Component Analysis (PCA) and MultiDimensional Scaling (MDS) are traditional compression methods, easily used for visualization.   However, they are limited to linear transformations (or orthogonal projections) of the data.   In many situations this drawback is severe.   If the objective is to keep in the visualization the similarities that exist between the high-dimensional data, one can show that linear methods give more weight to dissimilar data than to similar ones, which is not natural. For this reason, several nonlinear extensions to ACP and MDS have been proposed.   They allow us to project complex (high-dimensional) data in a more natural, therefore often more useful, way.   This talk will cover the recent improvements to (linear or not) projection methods, and the way to evaluate the quality of the resulting representation.

Les deux conférences seront suivies d’un tour de table de 40 minutes conduit par Eric Guichard, orienté autour d’une réflexion sur les méthodes de visualisation et leurs rapports à la recherche en science humaine, les expériences passés,   et les tendances actuelles.

Troisième demi-journée : 23 juin 2011

"Analyse des réseaux sociaux"

14h, à Marseille lors des Journées MASHS

Quatrième demi-journée : septembre 2011

Modélisation et protocoles de recherche en SHS

Lieux

  • 90 rue de Tolbiac (Centre Pierre Mendès France)
    Paris, France

Dates

  • vendredi 06 mai 2011
  • vendredi 25 février 2011
  • jeudi 23 juin 2011

Mots-clés

  • Paris1, pireh, analyse, données, visualisation, analyse de données, visualisation de données, statistique, informatique, histoire, histoire quantitative

Contacts

  • Benjamin Deruelle
    courriel : benjamin [dot] deruelle [at] univ-lille3 [dot] fr
  • Stéphane Lamassé
    courriel : stephane [dot] lamasse [at] univ-paris1 [dot] fr

Source de l'information

  • Benjamin Deruelle
    courriel : benjamin [dot] deruelle [at] univ-lille3 [dot] fr

Pour citer cette annonce

« Statistique et informatique pour les SHS », Journée d'étude, Calenda, Publié le mardi 12 avril 2011, http://calenda.org/204043