AccueilCatCod 2008. Catalogage et codage de corpus oraux

CatCod 2008. Catalogage et codage de corpus oraux

Deuxième appel à communications

*  *  *

Publié le jeudi 18 septembre 2008

Résumé

Le nombre d'enregistrements oraux numérisés et disponibles pour l'étude et la description des langues est longtemps resté relativement faible. Avec l'essor du web et des capacités de stockage, de diffusion et de traitement, il est devenu abordable pour des petites structures (par ex. des laboratoires de recherche) de diffuser elles-mêmes leurs ressources orales. Nous souhaitons dans ce colloque faire le point sur les initiatives majeures dans le monde de la gestion des documents numériques, ayant potentiellement une influence importante pour la standardisation, en mettant l'accent sur deux aspects particuliers qui sont : le catalogage d'une ressource orale et son codage.

Annonce

CatCod 2008

Deuxième appel à communications pour les Premières rencontres internationales pour le catalogage et le codage de corpus oraux

du 4 - 5 Décembre 2008 à l'Université d'Orléans, France

http://www.catcod.org

Le nombre d’enregistrements oraux numérisés et disponibles pour l’étude et la description des langues est longtemps resté relativement faible et ceux-ci étaient confinés dans des agences spécialisées qui en assuraient le partage. Avec l’essor du web et des capacités de stockage, de diffusion et de traitement, il est devenu abordable pour des plus petites structures (par ex. des laboratoires de recherche) de diffuser elles-mêmes leurs ressources orales. Nous sommes désormais à une étape clé où la capitalisation des efforts de numérisation des données linguistiques devient possible, ceci afin de former la base empirique de nouveaux projets de recherche. L’observation des normes de codage et de catalogage de ce type de ressources dans les différents projets existants en France et en Europe, montre une grande hétérogénéité des pratiques. Alors que ces mêmes projets se sont montés dans le but de faciliter l’accès, le partage ou la conservation des données, on constate que cette diversité des formats, des codages et des protocoles utilisés limitent justement ces objectifs.

Nous souhaitons dans ce colloque faire le point sur les initiatives majeures dans le monde de la gestion des documents numériques, ayant potentiellement une influence importante pour la standardisation, en mettant l’accent sur deux aspects particuliers qui sont : le catalogage d’une ressource orale et son codage.

Le catalogage

La croissance récente et rapide du nombre d’enregistrements oraux disponibles sur le web demande à être accompagnée d’un effort important de description et de référencement afin que ces données soient accessibles facilement, ne soient pas noyées dans le masse et que la gestion en soit facilitée. Il convient à ce titre de distinguer des pratiques de catalogage qui ont pour vocation le suivi du cycle de vie d’un projet de constitution de ressources, de celles qui ont pour vocation à guider l’exploitation, ou la conservation et la diffusion de ces ressources. Cette activité de catalogage est d’autant plus importante et urgente que les opérations de manipulations sur cette masse de données augmentent elles aussi (échange, maintenance, recherche, etc.). Certaines communautés se sont déjà fortement organisées et ont parfois établi des normes comme le Dublin-Core pour ce qui concerne les ressources sur le web, ou depuis plus longtemps les normes MARC maintenues par la bibliothèque du congrès pour la description des ressources bibliographiques. Plus récemment enfin, des communautés plus restreintes en linguistique ont établi des propositions de catalogage (OLAC, IMDI). Il existe maintenant suffisamment d’expériences dans l’utilisation de ces propositions pour en faire la critique, proposer des améliorations, des pistes de réflexion et pour établir une charte minimale à respecter par ceux qui souhaitent s’engager dans la diffusion de ressources orales linguistiques afin d’en faciliter l’échange et plus généralement l’utilisation scientifique.

Le codage

Si le catalogage est essentiel à l’identification des ressources et à la comparaison rapide entre elles, le codage est pour sa part essentiel à la description de l’interprétation du contenu de la ressource elle-même, et à son exploitation pour des études particulières. Si le codage d’une transcription de vidéo ou de son est bien un travail d’explicitation d’une interprétation établie du point de vue d’une discipline d’un objet de recherches, alors on constate là également une très grande diversité de pratiques. Les recensements opérés lors des initiatives successives EAGLES, MATE puis ISLE ont démontré la difficulté d’appréhender l’étendue des divers systèmes de codage. La spécification d’un outil logiciel d’annotation universel peut être une voie d’accès à des ressources codées de façon standardisée, comme cela a été suggéré par ISLE. Mais cela ne nous dispense pas de faire le travail communautaire consensuel de catégorisation, de dénomination et de structuration des phénomènes se trouvant au sein des ressources si l’on souhaite une réelle interopérabilité des données en vue d’exploitations multiples et futures. Il s’agit donc de commencer le travail de standardisation du codage des corpus oraux comme cela a déjà commencé pour les corpus textuels avec la TEI.

Contrôle qualité

En supposant obtenus un compromis sur le catalogage et sur le codage des données orales, il est alors nécessaire de se donner des règles et des outils de vérification de la conformité de données particulières aux principes établis. Nous souhaitons donc également faire le point dans ce colloque sur les pratiques de contrôle de la qualité des ressources.

Topics of interest / Thématiques

- description and cataloguing of spoken resources
- distribution
- specification of tools
- research applications
- archiving
- publishing of language corpora
- annotation
- version control
- cataloguing and coding standards
- comparison of resources
- multimodal and multimedia transcription
- annotation schemes
- interoperability
- evaluation, quality control

- description et référencement des données orales
- diffusion
- spécification d'outils
- exploitation scientifique
- conservation

- édition de corpus

- annotation
- versionning
- standards de catalogage et de codage
- comparaison des ressources
- transcription multimodale et multimédia
- schémas d'annotation
- interopérabilité
- évaluation, contrôle qualité

Important dates / Calendrier

Initial Call for papers / Date de l'appel à communication : 11 July /
juillet 2008
Submission deadline / Date de soumission des résumés : 30 September /
septembre 2008
Evaluation deadline / Réponse de l'évaluation : 30 October / octobre 2008

Workshop date and place / Date et lieu du colloque

4-5 December / décembre 2008 at Université d'Orléans

Submissions

- Paper submissions should not exceed 2 pages in length.
- The abstract should be sent as an attachment in WORD, PDF or RTF
format. If this is not possible, send the abstract to the postal address shown below.
- At the top of the abstract, outside the typing area, put the title.
- Your name should only appear in e-mail message carrying the attached abstract.
- Special fonts: If your abstract uses any special fonts, there are two
options:
i. In addition to the document in WORD or RTF format, send a PDF document.
ii. Send a paper copy to the address shown below.
- When sending the email submission, please follow this format (use the numbering system given below):
1. Title of abstract:
2. Name:
3. Address:
4. Affiliation:
5. Status (faculty, student):
6. Email address:
7. Fax:
8. Phone numbers:

Send abstracts to: catcod2008@ens-lsh.fr .

If you are unable to send an abstract in an electronic format, mail it to:

CatCod 2008
s/c M. Plisson
Laboratoire LLL
Université d'Orléans - UFR Lettres, Langues et Sciences Humaines
10 Rue de Tours - BP 46527 - 45065 ORLEANS Cedex 2 FRANCE

Propositions de communication

- les résumés des communications ne doivent pas dépasser deux pages.
- les résumés sont à envoyer au format WORD, PDF ou RTF.
Si ce n'est pas possible par voie électronique, envoyez votre document à l'adresse postale mentionnée plus bas.
- en entête du résumé, mentionner le titre de votre communication.
- votre nom ne doit apparaître que dans le courriel accompagnant votre résumé.
- si vous utilisez des caractères spéciaux dans votre résumé, il y deux solutions :
i. en plus du document WORD ou RTF, envoyez un document PDF
ii. envoyez un document papier au Comité Catcod
- dans le courriel qui accompagne votre résumé, indiquez les information suivantes en respectant la numérotation :
1. Titre du résumé
2. Nom de l'auteur (ou des auteurs)
3. Adresse
4. Organisme
5. Statut (Etudiant, Chercheur, etc.)
6. Adresse électronique
7. N° de fax
8. N° de téléphone

Envoyez votre résumé à catcod2008@ens-lsh.fr .

Si vous ne pouvez pas envoyer le résumé par voie électronique, envoyez votre courrier à :

CatCod 2008
s/c M. Plisson
Laboratoire LLL
Université d'Orléans - UFR Lettres, Langues et Sciences Humaines
10 Rue de Tours - BP 46527 - 45065 ORLEANS Cedex 2 FRANCE

Program Committee / Comité de programme

  • Jean-Yves Antoine (Université F. Rabelais Tours)
  • Claude Barras (LIMSI-CNRS)
  • Steven Bird (University of Melbourne & LDC University of Pennsylvania)
  • Lou Burnard (Oxford University Computing Services)
  • Pascal Cordereix (BNF, Paris)
  • Benoît Habert (ENS-LSH, Lyon)
  • Serge Heiden (ENS-LSH, Lyon)
  • Nancy Ide (Vassar College)
  • Michel Jacobson (Ministère de la Culture, Paris)
  • Laurent Romary (MPI Berlin-INRIA)
  • Emmanuel Schang (Université d'Orléans)
  • Richard Walter (CNRS, Université d'Orléans)
  • Peter Wittenburg (Max-Planck-Institute for Psycholinguistics, Nijmegen)

Organisation Commitee / Comité d'organisation

  • Serge Heiden (ENS-LSH, Lyon)
  • Michel Jacobson (Ministère de la Culture, Paris)
  • Emmanuel Schang (Université d'Orléans)
  • Richard Walter (CNRS, Université d'Orléans)

Sponsors

Agence Nationale pour la Recherche (ANR) : projet VARILING

Information and Contact / Informations et Contact

Email: catcod2008@ens-lsh.fr
Web: http://www.catcod.org

Lieux

  • Université d'Orléans
    Orléans, France (45)

Dates

  • mardi 30 septembre 2008

Mots-clés

  • corpus, enregistrement, audio, vidéo, transcription, oral, standardisation, catalogage, métadonnées, codage, format

URLS de référence

Source de l'information

  • Serge Heiden
    courriel : slh [at] ens-lsh [dot] fr

Pour citer cette annonce

« CatCod 2008. Catalogage et codage de corpus oraux », Appel à contribution, Calenda, Publié le jeudi 18 septembre 2008, http://calenda.org/195492