Home« Sangkak-Challenge-AI » : challenge d’algorithme AI de détection de ressource d’entités nommées (NER) pour la langue Ghomala

Home« Sangkak-Challenge-AI » : challenge d’algorithme AI de détection de ressource d’entités nommées (NER) pour la langue Ghomala

*  *  *

Published on Monday, January 09, 2023

Abstract

Sangkak-Challenge-IA est un challenge inter datascientist et de chercheurs/ ingénieurs en traitement automatique des langues (TAL) visant à créer des solutions d’intelligence artificielle concrètes sur un jeu de données open-source en langues africaines. L’objectif de cette session est de challenger les participants sur la production d’algorithmes d’IA les plus performants pour détecter les entités nommés dans la langue Ghomala en prenant appui sur les travaux réalisés par le collectif Masahkane

Announcement

Présentation

Sangkak-Challenge-IA est un challenge inter datascientist et de chercheurs/ ingénieurs en traitement automatique des langues (TAL) visant à créer des solutions d’intelligence artificielle concrètes sur un jeu de données open-source en langues africaines. 

Merci de rejoindre notre communauté sur Slack pour en discuter !

Contexte

Le collectif Masahkane, dans le cadre d’un projet commun financé par Lacuna Fund 2022, a créé et évalué des corpus annotés NER, appelé African NER Datasets, dans 20 langues d’Afrique subsaharienne. Les corpus NER produits sous le format CoNLL-03 sont actuellement partagés en open accès sur leur répertoire Github officiel ou dans le dossier data_source de ce répertoire Github.

Les corpus produits ont été évalués sur des taches de NER en se focalisant sur les technologies d’apprentissage par transfert (Transformer) tels que AfriBERTA, AfroXLMR, XLM-R, mBERT, etc. Les résultats obtenus ont été détaillés dans un article accepté à la conférence EMNLP 2022 et accéssible à cette adresse https://arxiv.org/abs/2210.12391. A la lecture de ce document, nous constatons que le Ghomala, langue parlée à l’Ouest du Cameroun, a des résultats moins intéressants en terme de performance comparé aux autres langues évaluées.

Objectifs

L’objectif de cette session est de challenger les participants sur la production d’algorithmes d’IA les plus performants pour détecter les entités nommés dans la langue Ghomala en prenant appui sur les travaux réalisés par le collectif Masahkane. Ces questions peuvent vous orienter dans le choix de votre thématique : 

  • Quel algorithme d’IA serait plus approprié pour détecter les entités nommés en Ghomala et par extension aux langues bantu 
  • Comment mieux organiser les données pour ce type de tache en TAL ?
  • Le Ghomala peut-elle être traitée comme toutes les autres langues ? Doit-on parler d’une spécificité Ghomala en TAL ?
  • Quelle application pouvons-nous mettre en place pour aider les linguistes ou locuteurs ghomalaphones à mieux traiter ce problème ?
  • Quelle méthodologie serait mieux adaptée pour traiter ce type de tache ?
  • Une combinaison d’approche déterministe / probabiliste apporterait-elle un plus ? 

Dans tous les cas, c’est aux participants de définir leurs objectifs et approches pour proposer une solution de détection NER efficace sur ces données.

Qui peut participer au challenge ?

Ce challenge est ouvert à tous, sous-condition d’avoir les compétences et l’expérience requises au challenge proposé. Aucun examen de compétences ne sera exigé pour les participants, le comité du challenge examinera uniquement les propositions de solutions en amont des soumissions.

Par participant, nous attendons des individus ou des groupes d’individus. Seuls 8 participants maximum sont autorisés à participer au challenge.

Modalités de participation

Pour participer à cette session et challenger les autres participants :

Chaque participant ou groupe de participants devra s’approprier les corpus African NER Datasets en clonant ce répertoire git.

Vous deviez ensuite créer un répertoire dans votre propre espace Github en adoptant cette structure :

  • /data_source (étant la référence aux corpus NER Masahkane/facultatif)
  • /evaluation
  • /training
  • methodology.md
  • license.md

Vous devez ensuite proposer votre solution en respectant cette structure. Vous êtes libre d’ajouter d’autres dossiers ou fichiers supplémentaires de votre choix.

Renommez votre dossier par les initiales du challenge suivi de celui de votre projet (Exemple : SCIA-ENR: ENR étant les initiales de votre projet) et créez ensuite une branche indiquant un numéro de version (Exemple : 1) de votre projet et pushez là sur votre repertoire Github personnel. Vous pouvez aussi forker ce repertoire exemple qui vous donne un aperçu de cette structure. Nous utiliserons ce lien comme sous-module git du dossier propositions dans ce répertoire officiel du challenge.

Revenez sur ce repertoire et forkez le. Inscrivez votre proposition dans le fichier PARTICIPANTS suivant les champs fournis. Faites ensuite un pull request vers le repertoire officiel pour que le comité d’organisation valide votre proposition et lie votre repertoire à ce repertoire officiel.

Merci de respecter scrupuleusement cette procédure afin que le comité d’organisation puisse au mieux intégrer votre travail au répertoire officiel.

Informations utiles

Pour cette première session, nous souhaitons challenger les travaux du collectif Masakhane sur la détection des entités nommées en Ghomala (une des langues camerounaises parlée dans la région de l’Ouest Cameroun).

  • Site officiel : https://sangkak-challenge-ia.ntealan.net/
  • Thème : Name Entities Recognition (NER)
  • Données sources : MasakhaNER 2.0
  • Langue de travail : FR, EN
  • Langues africaines sources : bbj, bam, ewe, fon, hau, ibo, kin, lug, mos, nya, pcm , sna, swa, tsn, twi, wol, xho, yor, zul
  • Workshop prévu : Février 2023
  • Comment participer ? : Lien vers Github

Pour toute question complémentaire, n’hésitez pas à contacter le comité d’organisation du challenge par Mail ou sur la Slack platform.

Comité d'organisation

Ce challenge est organisé par NTeALan Research and Developpement en collaboration avec NTeALan Cameroun et NTeALan France.

  • Elvis Mboning (Lead Data scientist NLP/NLU/Chatbot)
  • Jean-Marc Bassahak (Lead Motion Design and web developer)
  • Jules Assoumou (Vice rector of University of Ngaoundéré)
  • Tatiana Moteu (Data Scientist / PhD Student)

Places

  • Paris, France (75000)

Event attendance modalities

Full online event


Date(s)

  • Saturday, February 25, 2023

Keywords

  • langue africaine, NER, NLP, IA, data science, ressource, NTeALan Social Network, Ghomala, TAL, langue camerounaise

Contact(s)

  • Mboning Elvis
    courriel : sangkak-challenge-ia [at] ntealan [dot] org

Information source

  • Elvis Mboning
    courriel : levismbonig [at] ntealan [dot] org

License

CC0-1.0 This announcement is licensed under the terms of Creative Commons CC0 1.0 Universal.

To cite this announcement

« « Sangkak-Challenge-AI » : challenge d’algorithme AI de détection de ressource d’entités nommées (NER) pour la langue Ghomala », Miscellaneous information, Calenda, Published on Monday, January 09, 2023, https://doi.org/10.58079/1aa9

Archive this announcement

  • Google Agenda
  • iCal
Search OpenEdition Search

You will be redirected to OpenEdition Search