AccueilDiLiTAL – Diversité linguistique et TAL

DiLiTAL – Diversité linguistique et TAL

DiLiTAL – Linguistic diversity and NLP

XXIVe conférence sur le traitement automatique des langues naturelles (TALN)

24th natural language processing conference

*  *  *

Publié le mardi 07 mars 2017 par Céline Guilleux

Résumé

L’existence de différentes langues au sein d’une même population est une réalité quasi présente dans le monde entier. Ce qui induit à des problèmes de communication, notamment dans le manque d’outils et de ressources qui traitent les données linguistiques automatiquement. Ce constat a interpelé les communautés  du traitement automatique des langues à élargir leurs travaux à d’autres langues que celles habituellement traitées, aussi bien en raison de la préservation de la diversité dans le paysage linguistique des différents pays que dans un souci de former des ressources humaines qualifiées pour le traitement de ces langues dans une visée écolinguistique.

Annonce

Argumentaire

L’existence de différentes langues au sein d’une même population est une réalité quasi présente dans le monde entier. Ce qui induit à des problèmes de communication, notamment dans le manque d’outils et de ressources qui traitent les données linguistiques automatiquement. Ce constat a interpelé les communautés  du traitement automatique des langues à élargir leurs travaux à d’autres langues que celles habituellement traitées, aussi bien en raison de la préservation de la diversité dans le paysage linguistique des différents pays que dans un souci de former des ressources humaines qualifiées pour le traitement de ces langues dans une visée écolinguistique. En effet, différentes initiatives (au sein d’organisations internationales comme les Nations-Unies ou le Conseil de l'Europe) ont entrepris des actions pour favoriser la préservation de ces langues.

La nécessité de traiter automatiquement les langues peu dotées découle de besoins à la fois humains et scientifiques. Les travaux menés dans différents contextes montrent que la réalisation de ressources et d’outils pour ces langues répond à des besoins élémentaires de l'Humanité comme la santé, l'éducation, la culture etc. Les enjeux scientifiques représentent, donc, un vaste domaine que les chercheurs doivent investir. Dans cette optique, l’atelier DILITAL est consacré à une réflexion épistémologique, dont le but n’est pas seulement de réunir des chercheurs TAL travaillant sur les langues peu dotées, mais aussi de permettre au reste de la communauté de se rendre compte des enjeux et des difficultés rencontrées (absence de norme écrite dans certains cas, corpus libres de droits, codage et numérisation des graphies, etc.). En outre, cette initiative vise à identifier les différentes méthodes et techniques utilisées, réfléchir à la création d’un socle méthodologique commun dynamisant la construction et la mutualisation des ressources, ainsi qu’à transférer le savoir et le savoir-faire.       

L'atelier DILITAL s'articulera autour des axes suivants :

1. Ressources et corpus : production, standardisation et archivage

Dans cet axe, nous souhaitons explorer les initiatives actuelles et futures qui ont pour but de collecter et de structurer des données langagières (spécialisés ou généralistes) des langues peu dotées. Ces données (lexiques, corpus etc.) sont souvent utilisées pour l'entraînement des étiqueteurs morphosyntaxiques qui représentent, à leur tour, une étape préalable à des tâches plus complexes comme, par exemple, la traduction ou l’analyse syntaxique. Nous insisterons en particulier sur l'accessibilité et la portabilité des données linguistiques qui s'avère être l'un des problèmes majeurs des travaux sur les langues peu dotées. Les travaux sur la création des ressources open source seront particulièrement appréciées.

2. Outils pour le traitement des langues peu dotées

Dans ce deuxième axe, nous nous interrogerons sur la pertinence de l’utilisation d’outils existants pour des langues peu dotées et étudierons la manière dont ils gèrent le multilinguisme. En effet, depuis la conception de l'UTF-8 d'Unicode, le TAL s'est doté de la possibilité de diversifier son terrain d'action-recherche et a permis aux talistes de s'intéresser à d'autres langues que celles dites "majoritaires" (et de ce fait bien dotées) comme l'anglais, l'espagnol, le français, le chinois, le japonais et l'allemand. Dans une telle perspective, nous souhaitons réfléchir à une amélioration de la gestion du multilinguisme par l’inclusion de nouvelles graphies (et de nouveaux standards) dans une perspective TAL et identifier les contraintes méthodologiques auxquelles se heurtent les chercheurs lorsqu'ils travaillent sur une langue peu dotée avec des outils existants.

3. E-apprentissage et enseignement des langues peu dotées

Vu l’importance de l’enseignement et l’apprentissage dans la sauvegarde et la transmission des langues aux générations futures, DiLiTAL consacrera ce troisième axe à l’enseignement et l’apprentissage assistés par ordinateur des langues peu dotées. Dans cette optique, nous souhaitons, d’une part, faire l’état de lieu des études de recherche dans ce domaine et mettre en exergue les réalisations concernant l’exploitation du TAL, afin de dynamiser les échanges et les collaborations entre didacticiens et talistes ; et d’autre part, identifier les contraintes d’intégration des outils numériques des LPD dans les systèmes éducatifs, pour remédier aux problèmes socio-économiques. Nous souhaitons, également, apporter des pistes de réflexion sur les moyens d’optimiser l’apport numérique à la fois pour les enseignants et les apprenants.

4. Questions sociales, culturelles et éthiques

DiLiTAL sera l’occasion également d’établir une réflexion transfrontalière sur les possibilités de coopération en vue d’échange d’expériences pour œuvrer pour le développement du domaine du traitement automatique des langues dans les pays dans lesquels les langues peu dotées font partie du quotidien. Par ailleurs, nous souhaitons engager une réflexion sur la dimension éthique des processus de collecte, d'archivage et de traitement des données linguistiques qui se retrouvent, souvent, ancrés dans des contextes sociétaux où les codes et les mœurs sont méconnus ou sensiblement différents de ceux du chercheur. Notre but est de réfléchir à une méthodologie de terrain qui ne vise pas uniquement à ménager la science, mais qui se soucie aussi du sujet qui s'identifie par la langue qu'il parle, ainsi que du contexte socio-culturel dans son ensemble. Nous souhaitons également développer une réflexion sur la place du traitement automatique des langues comme facteur ou moteur des changements linguistiques, notamment dans le cadre des commissions terminologiques qui jouent également le rôle d’instances de codification des langues dans plusieurs pays du monde.

5. Retour d’expériences

Dans cet atelier, les contributions qui présentent un retour d’expériences de traitement de langues peu dotées seront particulièrement bienvenues. L’expertise des chercheurs qui ont travaillé sur les langues peu dotées peut donner lieu à des recoupements qui permettront de nourrir la réflexion épistémologique que DiLiTAL souhaite développer. Ces expériences pourront être utiles pour identifier les domaines auxquels la recherche-action en traitement automatique des langues peut contribuer. Un retour d’expériences sur les langues peu dotées, quel que soit le contexte, nous permettra d’identifier les convergences et les divergences dans les approches actuelles et constituera un apport considérable au sein de cet atelier.

Liste des thèmes traités (la liste ouverte si vous proposez d’ajouter d’autres thèmes):

  • Outils et ressources pour les LPD (y compris les outils existants qui se veulent « universels ») : mise en place et évaluation ;
  • Systèmes d’écriture et gestion du multilinguisme ;
  • Méthodologies (feuilles de route) pour la numérisation des LPD ;
  • Traitement des néologismes ;
  • TAL pour la normalisation et la codification des LPD ;
  • Intégration des LPD dans les systèmes éducatifs numériques.

Modalités de soumission et calendrier initial

Les participants sont invités à soumettre des articles de 6 à 8 pages (+ 1 à 2 pages pour les références) présentant des expériences ou des travaux de recherche originaux en rapport avec la thématique de l’atelier.

Les articles respecteront le format de la conférence (télécharger la feuille de style)

Les articles sélectionnés seront publiés dans les actes de l'atelier DiLiTAL (publication en ligne). Les critères de sélection sont conformes à ceux de la conférence principale.

Langues

La langue officielle de l’atelier est le français. Néanmoins, les soumissions en anglais sont acceptées pour les non-francophones.

Site web de soumission et procédure de dépôt :

1. Allez, tout d'abord, à l'adresse suivante et connectez-vous avec votre compte EasyChair : https://easychair.org/conferences/?conf=taln2017

2. Dans la liste des "Tracks", choisissez l'option "Atelier Diversité linguistique et TAL".

Informations importantes pour les auteurs :

Comme le processus de relecture est en double aveugle, les contributions ne doivent inclure ni les noms ni les affiliations des auteurs. En outre, les auto-références et les noms de projets qui révèlent l’identité des auteurs, comme par exemple, « Nous avons déjà démontré (Martin, 1991) » doivent être évitées. Les auteurs devront ainsi privilégier les citations telles que « Martin a précédemment démontré (Martin, 1991) ». Les remerciements seront omis dans la première soumission, et pourront être ajoutés dans la version définitive de l'article en cas d'acceptation.

Calendrier

Les dates retenues seront les suivantes :

  • 1er mai : date limite de réception des articles ;

  • 10 mai 2017 : date de retour des évaluations des articles et des modifications suggérées pour les versions définitives ;
  • 5 juin 2017 : date limite de renvoi des versions définitives des articles ;
  • 26 juin 2017 : date de l'atelier. 

Comité d'organisation

  • Fadoua ATAA ALLAH (IRCAM, Maroc)
  • Fatima AGNAOU (IRCAM, Maroc)
  • Khalid ANSAR (IRCAM, Maroc)
  • Aicha BOUHJAR (IRCAM, Maroc)
  • Siham BOULAKNADEL (IRCAM, Maroc)
  • Malika CHAKIRI (LABORATOIRE, Université Paris-Descartes)
  • Hammou FADILI (CNAM)
  • Jamal FRAIN (IRCAM, Maroc)
  • Jovan KOSTOV (EA 4514 PLIDAM, INALCO)
  • Alice MILLOUR (EA 4509 STIH, Paris-Sorbonne)
  • Satenik MKHITARYAN (EA 2520 ERTIM, INALCO)
  • Michael ZOCK (LIF, CNRS & Aix-Marseille Université)

Comité de programme

  • Meftaha AMEUR (IRCAM, Maroc)
  • Delphine BERNHARD (LILPA, Université de Strasbourg)
  • Laurent BESACIER (LIG, Université de Grenoble-Alpes)
  • Siham BOULAKNADEL (IRCAM, Maroc)
  • Ahmed BOUKOUSS (IRCAM, Maroc)
  • Violetta CAVALLI-SFORZA (UAI, Maroc)
  • Malika CHAKIRI (LABORATOIRE, Université Paris-Descartes)
  • Antoine CHALVIN (CREE, INALCO)
  • Khalid CHOUKRI (ELDA)
  • Rute COSTA (UNL, Portugal)
  • Anaïd DONABEDIAN (SeDyL, INALCO)
  • Hammou FADILI (CNAM)
  • Michel FRANCARD (UCL, Belgique)
  • Kim GERDES (LPP, Université Sorbonne Nouvelle – Paris 3)
  • Thibaut GROUAS (DGLFLF)
  • Benaissa ICHOU (IRCAM, Maroc)
  • Anne-Laure LIGOZAT (LIMSI, CNRS)
  • Mathieu MANGEOT (GETALP, Université de Chambéry)
  • Denis MAUREL (LI, Université de Tours)
  • Azzedine MAZROUI (FS-Oujda, Maroc)
  • Issouf MODI (MEN, Niger)
  • Kamal NAIT ZERRAD (LACNAD, INALCO)
  • Patrice POGNAN (PLIDAM, INALCO)
  • Sophie ROSSET (LIMSI, CNRS)
  • Max SILBERZTEIN (ELLIADD, Université Franche-Comté)
  • Hamid SOUIFI (IRCAM, Maroc)
  • Dejan STOSIČ (ERSS, Université de Toulouse Jean-Jaurès)
  • Izabella THOMAS (CRIT, Université de Franche-Comté)
  • Nora TIGZIRI (UMMTO, Algérie)
  • Mathieu VALETTE (ERTIM, INALCO)
  • Mickael ZOCK (LIF, CNRS & Aix-Marseille Université)
  • Farida YAMOUNI (UMMTO, Algérie)

Lieux

  • Université d'Orléans - 6 Avenue du Parc Floral
    Orléans, France (45100)

Dates

  • lundi 01 mai 2017

Mots-clés

  • TALN, langue peu dotée, diversité, production, standardisation, archivage, E-apprentissage, enseignement

Contacts

  • Dilital
    courriel : dilital2017 [at] gmail [dot] com

URLS de référence

Source de l'information

  • Hammou Fadili
    courriel : fadilih [at] cnam [dot] fr

Pour citer cette annonce

« DiLiTAL – Diversité linguistique et TAL », Appel à contribution, Calenda, Publié le mardi 07 mars 2017, http://calenda.org/398092