AccueilCorpus et outils en linguistique, langue et parole

Corpus et outils en linguistique, langue et parole

Corpus and tools in linguistics, "langue" and "parole"

*  *  *

Publié le mardi 26 février 2013 par Elsa Zotian

Résumé

Ce colloque international et interdisciplinaire s’intéresse aux travaux originaux et novateurs relatifs aux méthodes d’analyse de données empiriques, aux usages et aux statuts des données en sciences du langage. Il concerne tous les types de données provenant des sources variées (textes, documents sonores, multimédia, images, films, données du web, etc.) et l’ensemble des disciplines des sciences du langage, ainsi que d’autres disciplines scientifiques (par exemple, les STIC, l'informatique, la médecine, etc.) préoccupées par des problématiques résolument linguistiques. 

Annonce

Argumentaire

Ce colloque international et interdisciplinaire s’intéresse aux travaux originaux et novateurs relatifs aux méthodes d’analyse de données empiriques, aux usages et aux statuts des données en Sciences du Langage. Il concerne tous les types de données provenant des sources variées (textes, documents sonores, multimédia, images, films, données du web, etc.) et l’ensemble des disciplines des sciences du langage, ainsi que d’autres disciplines scientifiques (par ex. les STIC, informatique, médecine, etc.) préoccupées par des problématiques résolument linguistiques. Il prend place parmi certaines préoccupations d’appels à projets « Corpus » de l’ANR[1]. La constitution ou l’élaboration de corpus, de bases de données, la mise au point et l’exploitation d’outils de traitement et d’analyse représentent, pour les différentes disciplines des sciences du langage, des étapes primordiales de leurs activités de recherche. Les outils, qu’ils soient conceptuels, électroniques ou numériques, peuvent permettre des percées théoriques et la modélisation de faits cognitifs habituellement complexes.

Dans le domaine des textes, le traitement et l’accessibilité accrus des œuvres et des diverses données écrites offrent de nouvelles perspectives d’analyse des variations synchroniques et diachroniques des manuscrits, des tournures syntaxiques ou des constantes sémantiques.

En ce qui concerne l’écrit, les corpus permettent, dans une optique didactique par exemple, l’étude des erreurs et de leurs conséquences sur les performances et les apprentissages scolaires ou sur l’apprentissage d’une nouvelle langue.

Dans le domaine des langues, des procédés permettent de décrire, de définir des typologies, de documenter et d’archiver des corpus de diverses langues afin d’étudier, dans une perspective linguistique ou sociolinguistique, leur genèse et leur évolution, en prenant en compte, par exemple, la distribution régionale des variantes.

De même, dans le traitement automatique des langues naturelles, par exemple, les corpus représentent des sources pour construire et alimenter des ressources telles que les lexiques ou les grammaires électroniques. Le développement d'outils d'annotation, automatique ou non, des données ou de requêtes, enrichissent les ressources et ouvrent des perspectives nouvelles pour l'exploitation de ces données.

En production et en perception de la parole, l’utilisation des techniques de représentation en 3D ou de simulation numérique contribue à l’interprétation des données recueillies de façon parcellaire.

La constitution de corpus structurés ouvre ainsi des voies d’exploration pour les recherches dans les différentes disciplines des sciences du langage, y compris en analyse des discours, en rendant lisibles des sources de tous types (écrites, orales, audiovisuelles, etc.) et en facilitant leur exploration systématique, quantitative ou qualitative.

La disponibilité de corpus variés, de grande taille et d’outils adéquats pour leur exploration implique un changement dans les usages qu'on peut faire de ces ressources. Un grand volume de données extrait de corpus nécessite des choix méthodologiques et pratiques. La méthodologie de travail doit s'adapter aux nouvelles conditions, pour faire face au volume plus important de données disponibles. Le colloque se propose donc d'apporter un nouvel éclairage des usages que l'on fait des corpus actuellement disponibles dans tous les domaines des sciences du langage.

Quel que soit le domaine concerné, la notion d’erreur ou de bruit (rapport signal/bruit) doit être correctement traitée, puisque celle-ci est inhérente aux corpus ou aux données que le chercheur est amené à manier. On ne saurait, en conséquence, faire l’économie de l’analyse et de la gestion de données langagières écrites (fautes de frappe, fautes d’orthographe ou de grammaire, phrases inachevées, traductions inadéquates, etc.) ou orales (disfluences, dysphonies, etc.) déviantes, lors de l’analyse de certains de nos corpus ou lors de la construction de certains de nos outils. Les outils d'analyse automatique apportent aussi un taux d'erreurs sans doute faible mais qui peut néanmoins influencer les résultats de l'analyse linguistique. Des problèmes méthodologiques se posent sur le traitement de ces erreurs lors de l'analyse et dans une optique de construction de ressources.

Outre les questions de constitution et de traitement, le recours aux corpus amène aujourd’hui à réfléchir à la nature des données (données iconiques, multimodales, pluricodiques, etc.), à leur emploi (corpus comme objet vs. corpus comme support) ou encore leur validité (extension, attestation, etc.).

Enfin, les statuts, usages et mésusages des corpus et des outils seront également examinés par la prise en compte des questions de protection de la confidentialité des données personnelles et de respect des droits. Il s’agira de traiter clairement ces sujets liés aux contraintes d’exploitation des bases et des corpus, en évoquant les problèmes juridiques afférant aux documents initiaux et enrichis, à la protection des personnes et des libertés publiques, à la protection de la propriété intellectuelle et commerciale, etc.

Conditions de soumission

Les propositions de communication devront mettre en évidence, dans une des thématiques mentionnées ci-dessous :

1) soit l’étude d’une problématique relevant des sciences du langage, liée à l’analyse de corpus ou de données ;

2) soit une problématique permettant l'amélioration ou le développement de méthodes, d’outils et de procédures d'analyse nécessaires à l'exploitation scientifique de corpus ou d'ensembles de données dans un des domaines des sciences du langage ;

3) soit une réflexion sur les avantages et les limites des corpus et de leurs usages : les angles-morts d’un corpus, les questions restées en suspens après une exploration sur corpus, les réorientations nécessaires du questionnement après une constitution et exploration de corpus, le traitement des erreurs issues d’une annotation automatique. Dans cette optique, on pourra questionner les rapports entre intuition et travail empirique sur corpus, théorie et corpus, déduction et induction dans le rapport avec un corpus.

Dans tous les cas, la perspective adoptée par le colloque devra être respectée et explicitée.

Langues officielles du colloque : français et anglais

Les propositions de communication doivent comporter les indications suivantes :

  • Titre de la communication ;
  • Exposé de la problématique de l’étude donnant les détails pertinents ;
  • 4 à 5 mots-clés.

Elles devront se limiter de 2 à 4 pages, bibliographie incluse (Times 12, interligne 1,5).

Les dépots devront être anonymes

 Le dépôt des propositions sera effectué en ligne et seront soumises à l’évaluation par le comité scientifique du colloque et une équipe d’évaluateurs.

Date butoir pour les soumissions : 10/03/2013

Comité Scientifique

  • Aria ADLI  UR 1339 LiLPa – Université de Strasbourg - France
  • Antoine AUFRAY UR 1339 LiLPa – Université de Strasbourg - France
  • Delphine BERNHARD UR 1339 LiLPa – Université de Strasbourg - France
  • Maryvonne BOISSEAU UR 1339 LiLPa – Université de Strasbourg - France
  • Daniéla CAPIN UR 1339 LiLPa – Université de Strasbourg - France
  • Paul CAPPEAU Université de Poitiers - France
  • Dominique HUCK UR 1339 LiLPa – Université de Strasbourg - France
  • Daniel JACOB Romanisches Seminar – Université Albert Ludwigs Freiburg - Allemagne
  • Yves LAPRIE Equipe Parole LORIA – Université de Lorraine - France
  • Jean-Paul MEYER UR 1339 LiLPa – Université de Strasbourg - France
  • Bernd MÖBIUS FR4.7 Linguistique et phonétique computationnelle – Université de Saarland - Allemagne
  • Franck NEVEU Université Paris Sorbone IV - France
  • Pierre NOBEL UR 1339 LiLPa – Université de Strasbourg - France
  • Slim OUNI Equipe Parole LORIA – Université de Lorraine - France
  • Jean-Christophe PELLAT UR 1339 LiLPa – Université de Strasbourg - France
  • Pascal PERRIER Gipsa-Lab – Université de Grenoble - France
  • Stefan PFÄNDER Romanisches Seminar – Université Albert Ludwigs Freiburg - Allemagne
  • Jean-Marie PIERREL ATILF – Univeristy de Lorraine - France
  • Claus PUSH Romanisches Seminar – Université Albert Ludwigs Freiburg - Allemagne
  • Manfred PÜTZER FR4.7 Linguistique et phonétique computationnelle – Université de Saarland - Allemagne
  • Catherine SCHNEDECKER UR 1339 LiLPa – Université de Strasbourg - France
  • Rudolph SOCK UR 1339 LiLPa – Université de Strasbourg - France
  • Amalia TODIRASCU UR 1339 LiLPa – Université de Strasbourg - France
  • Jürgen TROUVAIN FR4.7 Linguistique et phonétique computationnelle – Université de Saarland - Allemagne
  • Agnès TUTIN LIDILEM – Université Stendhal Grenoble - France
  • Béatrice VAXELAIRE UR 1339 LiLPa – Université de Strasbourg - France

Catégories

Lieux

  • Strasbourg, France (67)

Dates

  • dimanche 10 mars 2013

Mots-clés

  • linguistique, langue, parole, corpus, outils

Contacts

  • Angelina Aleksandrova
    courriel : a [dot] aleksandrova [at] unistra [dot] fr

Source de l'information

  • Angelina Aleksandrova
    courriel : a [dot] aleksandrova [at] unistra [dot] fr

Pour citer cette annonce

« Corpus et outils en linguistique, langue et parole », Appel à contribution, Calenda, Publié le mardi 26 février 2013, http://calenda.org/238144