HomeCorpus de langues parlées peu dotées : de la constitution à l’exploitation des données

HomeCorpus de langues parlées peu dotées : de la constitution à l’exploitation des données

*  *  *

Published on Monday, December 12, 2022

Abstract

Une langue n’a d’existence pour la recherche qu’en fonction de la qualité de ressources préparées pour son exploitation. L’avènement, ces dernières années, de la linguistique dite de « corpus », l’élaboration de « bonnes pratiques » par une communauté de chercheurs qui travaillent sur les corpus et l’utilisation des technologies informatiques actuelles, permettent d’apporter des solutions innovantes pour la description des langues. Si les grandes langues véhiculaires, notamment européennes, ont très largement bénéficié de ces innovations, les langues peu dotées sont restées à l’écart de ce mouvement et ont accusé un retard important. L’objectif de cette première journée de « corpus de langues peu dotées » vise à permettre aux chercheurs travaillant sur ces langues de partager leurs expériences et leurs acquis dans ce domaine.

Announcement

Argumentaire

Une langue n’a d’existence pour la recherche qu’en fonction de la qualité de ressources préparées pour son exploitation. L’avènement, ces dernières années, de la linguistique dite de

« corpus », l’élaboration de « bonnes pratiques » par une communauté de chercheurs qui travaillent sur les corpus et l’utilisation des technologies informatiques actuelles, permettent d’apporter des solutions innovantes pour la description des langues. Si les grandes langues véhiculaires, notamment européennes, ont très largement bénéficié de ces innovations, les langues peu dotées sont restées à l’écart de ce mouvement et ont accusé un retard important.

Outre des raisons historiques et symboliques, puisqu’il s’agit essentiellement de variétés parlées vernaculaires, considérées jusqu’à très récemment comme peu dignes d’intérêt, les raisons de ce retard sont multiples. On peut évoquer ici les difficultés liées à l’édition des données orales, et les questions scientifiques et techniques sous-jacentes qu’elle soulève. La constitution, l’exploitation (notamment sous la forme d’investigation instrumentée) et la mise en commun de grands corpus de ces langues restent un objectif encore à atteindre, dont la première étape consiste à structurer une communauté de chercheurs aux pratiques sinon homogènes, du moins interopérables.

L’un des chantiers qu’une communauté structurée de chercheurs devrait rouvrir est celui de la transcription qui constitue un verrou à la documentation et l’exploitation outillée des données orales. Si, depuis une décennie, des projets visant à produire des ressources et des outils pour les langues peu dotées commencent à connaitre un regain d’intérêt, la profusion de modes de transcription, de formats et de conventions rend difficile leur exploitation.

L’objectif de cette première journée de « corpus de langues peu dotées », qui se tiendra à Fès, vise à permettre aux chercheurs travaillant sur ces langues de partager leurs expériences et leurs acquis dans ce domaine. Les questionnements sont nombreux, entre autres :

  • Quels enjeux théoriques, méthodologiques et technologiques de la transcription des langues peu dotées?
  • Quelle typologie des problèmes de transcription dans ces langues?
  • Quels sont les problèmes spécifiques à telle ou telle langues et quels sont les problèmes communs?
  • Quel mode de transcription (phonétique, phonologique, …) adopter pour accélérer l’exploitation et le partage des données?
  • Quelles conventions de transcription pourraient allier ergonomie et fiabilité tout en permettant des traitements automatiques (lemmatisation, catégorisation…)?

Les organisateurs de cette journée d’études se sont fixés pour objectif d’entamer une réflexion collective, à partir de terrains, de méthodes et d’approches théoriques très divers, dans le but de

mettre en commun des expériences et des acquis encore peu connus et dispersés et contribuer ainsi à harmoniser les pratiques et faciliter la manipulation et le partage des données.

Modalités de soumission

Les propositions de communication anonymes (titre, résumé de 500 mots maximum, mots clés, et références bibliographiques) seront à envoyer à corpuslanguesparlees@gmail.com

au plus tard le 15 janvier 2023.

Dans le corps du mail, préciser nom, prénom et affiliation institutionnelle.

Calendrier

  • 15 janvier 2023 : date limite de réception des propositions de communication
  • 15 février 2023 : notification aux auteurs
  • 15 mars 2023 : confirmation de participation
  • 27 avril 2023 : journée d’étude, Université Sidi Mohamed Ben Abdellah, Fès

Comité d’organisation

Coordination : Samira MOUKRIM (USMBA, Fès) & Lotfi ABOUDA (LLL, Université d’Orléans)

  • Bahija KHADIRI YAZAMI Faïza GUENNOUN HASSANI
  • Farid LAAMIRI Hakima LOUKILI Mohamed AZOUGARH Mounsif EL HOUARI

Organisé par

  • Discresor (CALL), Université Sidi Mohamed Ben Abdellah et le
  • Laboratoire Ligérien de Linguistique (UMR 7270), Université d’Orléans

Comité scientifique

  • Jamal ABARNOUS (Université Mohamed Premier, Oujda) Lotfi ABOUDA (LLL, Université d’Orléans)
  • Nacira ABROUS (CNRS, France)
  • Mohamed AFAKIR (Université Ibn Zohr, Agadir)
  • Mohamed AZOUGARH (FLS, Université Sidi Mohamed Ben Abdellah, Fès) Hammou BELGHAZI (IRCAM, Rabat)
  • Samia BELHAJ (FLS, Université Sidi Mohamed Ben Abdellah, Fès) Abdelhadi BELLACHHAB (Université de Nantes)
  • Nadia BEN ELAZMIA (EST, Université Moulay Ismail, Meknes) Ahmed BOUOUD (Université Hassan II, Casablanca)
  • Moulay Driss EL MAAROUF (FLS, Université Sidi Mohamed Ben Abdellah, Fès) Faïza GUENNOUN HASSANI (FLS, Université Sidi Mohamed Ben Abdellah, Fès) Moussa IMARAZENE (Université Mouloud Mammeri, Tizi Ouzou)
  • Bahija KHADIRI YAZAMI (FLS, Université Sidi Mohamed Ben Abdellah, Fès) Rachid LAABDELAOUI (IRCAM, Rabat)
  • Farid LAAMIRI (FLS, Université Sidi Mohamed Ben Abdellah, Fès) Hakima LOUKILI (FLS, Université Sidi Mohamed Ben Abdellah, Fès) Larbi MOUMOUCHE (FLS, Université Sidi Mohamed Ben Abdellah, Fès) Souad MOUDIAN (Université Chouaïb Doukkali, El Jadida)
  • Samira MOUKRIM (FLS, Université Sidi Mohamed Ben Abdellah, Fès) Ali OUASSOU (ESEF, Université Ibn Tofail, Kénitra)
  • Abdelaali TALMENSSOUR (Université Ibn Zohr, Agadir) Abdelmoutaleb ZIZAOUI (Université Ibn Zohr Agadir)

Subjects

Places

  • BP 59 Route Immouzer - Université Sidi Mohamed Ben Abdellah, Faculté des Lettres Saïs - Fès
    Fes, Kingdom of Morocco (30 000)

Event attendance modalities

Full on-site event


Date(s)

  • Sunday, January 15, 2023

Keywords

  • corpus, langue parlée peu dotée, transcription, convention, exploitation outillée

Information source

  • Samira Moukrim
    courriel : samiramoukrim [at] yahoo [dot] fr

License

CC0-1.0 This announcement is licensed under the terms of Creative Commons CC0 1.0 Universal.

To cite this announcement

« Corpus de langues parlées peu dotées : de la constitution à l’exploitation des données », Call for papers, Calenda, Published on Monday, December 12, 2022, https://doi.org/10.58079/1a67

Archive this announcement

  • Google Agenda
  • iCal
Search OpenEdition Search

You will be redirected to OpenEdition Search