Calenda - The calendar for arts, humanities and social sciences

Building Modern Research Corpora: the Evolution of Web Archiving and Analytics

Constituer des corpus pour la recherche contemporaine : de l’archivage du web à son analyse

Annual conference of the International Internet Preservation Consortium (IIPC)

Conférence annuelle du consortium international pour la préservation de l’internet (IIPC)

*  *  *

Published on Friday, November 15, 2013 by Elsa Zotian

Summary

Cette conférence vise à offrir un forum où les chercheurs, bibliothécaires, archivistes et autres « humanistes numériques » échangent des idées, des besoins, des méthodes et des outils qui pourront être utilisés pour la constitution et l’exploitation collaboratives de corpus d’archives du web, ou des jeux de données qui en sont tirés.

This conference aims to propose a forum where researchers, librarians, archivists and other digital humanists will exchange ideas, requirements, methods and tools that can be used to collaboratively build and exploit web archive corpora and datasets.

Announcement

Chaque année, le consortium international pour la préservation de l’internet (IIPC) organise une conférence d’une journée, ouverte au public, dans le cadre de son assemblée générale. Elle aura lieu le 19 mai 2014 à Paris, à la Bibliothèque nationale de France.

Le thème de cette année est : « Constituer des corpus pour la recherche contemporaine : de l’archivage du web à son analyse ».

Argumentaire

Depuis plus de 15 ans, bibliothèques, archives et autres institutions scientifiques ou patrimoniales se lancent dans des projets d’archivage du web. Les premiers projets s’intéressaient surtout à la collecte des contenus, en s’efforçant de capturer un ensemble de documents liés entre eux, et de reconstituer leurs différentes strates au fil du temps. Au même moment, les études sur le web se développaient, influençant les usages possibles des archives du web par les chercheurs et les universitaires. De nouveaux besoins ont émergé. Si l’objectif de constituer des collections d’intérêt général reste valide, les institutions et les chercheurs impliqués dans l’archivage du web doivent aussi collaborer pour constituer des corpus spécifiques.

En outre, « naviguer sur le web comme le faisait à l’époque » n’est plus le seul moyen d’accéder à des contenus web archivés. Les méthodes développées pour analyser de larges jeux de données – comme la fouille de données ou de liens – sont adaptables aux archives du web. Ces collections ont donc vocation à devenir les composantes de projets ou d’infrastructures majeures dans le domaine des humanités ou des sciences sociales. Analysées à l’aide de protocoles et d’outils performants, elles peuvent apporter une connaissance inestimable sur les sociétés contemporaines.

Cette conférence vise à offrir un forum où les chercheurs, bibliothécaires, archivistes et autres « humanistes numériques » échangent des idées, des besoins, des méthodes et des outils qui pourront être utilisés pour la constitution et l’exploitation collaboratives de corpus d’archives du web, ou des jeux de données qui en sont tirés. Les contributions peuvent porter sur :

  • des modèles de collaboration entre institutions d’archivage et chercheurs ;
  • des méthodes et des outils pour réaliser des analyses de données sur les archives du web ;
  • des exemples d’études réalisées sur des archives du web ;
  • des méthodes alternatives de collecte de contenus web.

La participation est libre mais une inscription préalable est obligatoire.

Conditions de soumission

Les résumés (une page maximum) doivent être envoyés à Peter Stirling (peter.stirling@bnf.fr)

le 1er décembre au plus tard.

Les résultats seront communiqués le 6 janvier 2014.

Les résumés doivent être soumis en anglais mais les conférenciers pourront intervenir entre anglais ou en français. Une traduction simultanée (français/anglais) sera disponible.

Les présentations seront publiées sur le site de l’IIPC, mais il n’y aura pas de publication d’actes. Les intervenants qui souhaitent une publication sont invités à envoyer en parallèle leur résumé à Alexandria, The Journal of National and International Library and Information Issues, pour son édition spéciale consacrée à l’archivage du web (en anglais uniquement : les résumés sont dus pour le 13 décembre. Plus d’informations sur www.manchesteruniversitypress.co.uk/journals/alx ou de la part du responsable de la publication, Monica Blake, à l’adresse info@blakeinformation.com).

Dans la même semaine, des espaces seront disponibles pour organiser des ateliers ou des formations sur des outils, des concepts ou des questions relatives à l’archivage du web. Les années précédentes, ces ateliers ont porté sur les questions juridiques, la formation à Hadoop, ou le « crowdsourcing » pour l’archivage du web. Les ateliers seront tenus les jeudi 22 et vendredi 23 mai 2014.

Les propositions d’ateliers (deux pages maximum) doivent être envoyées à Peter Stirling (peter.stirling@bnf.fr)

le 1er décembre au plus tard.

Les résultats seront communiqués le 6 janvier 2014.

Conditions d'évaluation

Les propositions seront évaluées par un comité composé de praticiens et de chercheurs dans le domaine de l’archivage du web.

Les membres du comité sont :

  • Abbie Grotke, Bibliothèque du Congrès (USA)
  • Gildas Illien, Bibliothèque nationale de France
  • Rosalie Lack, California Digital Library (USA)
  • Hansueli Locher, Bibliothèque nationale suisse
  • Leïla Medjkoune, Internet Memory Foundation (Pays-Bas / France)
  • Claude Mussou, Institut national de l’Audiovisuel
  • Clément Oury, Bibliothèque nationale de France
  • Mary Pitt, responsable des programmes et de la communication de l’IIPC

Le consortium international pour la préservation de l’internet est une organisation qui se consacre à l’amélioration des outils, des standards, et des bonnes pratiques dans le domaine de l’archivage du web. Il promeut la collaboration internationale ainsi que l’accès et l’utilisation les plus larges possible des archives du web pour la recherche et le patrimoine culturel. Pour plus d’information sur l’IIPC, voir http://netpreserve.org.

Each year the IIPC holds a day-long public conference in conjunction with their General Assembly. It will be held at the Bibliothèque nationale de France in Paris, on 19th May 2014.

This year’s theme is Building Modern Research Corpora: the Evolution of Web Archiving and Analytics.

Argument

Libraries, archives and other heritage or scientific organizations have been systematically collecting web archives for over 15 years. Early stages of web archiving projects were mainly focused on tackling the challenges of harvesting web content, trying to capture an interlinked set of documents, and to rebuild its different layers through time. Institutions, especially those on a national level, were also defining their legal and institutional mandates. Meanwhile, approaches to web studies developed and influenced researchers’ and academics’ use of web archives. New requirements have emerged. While the objective of building generic collections remains valid, web archiving institutions and researchers also need to collaborate in order to build specific corpora – from the live web or from web archives.

 At the same time, “surfing the web the way it was” is no longer the only way of accessing archived web content. Methods developed to analyse large datasets – such as data or link mining – are applicable to web archives. Web archive collections can thus be a component of major humanities and social sciences projects and infrastructures. With relevant protocols and tools for analysis, they will provide invaluable knowledge of modern societies.

This conference aims to propose a forum where researchers, librarians, archivists and other digital humanists will exchange ideas, requirements, methods and tools that can be used to collaboratively build and exploit web archive corpora and datasets. Contributions are sought that will present:

  • models of collaboration between archiving institutions and researchers,
  • methods and tools to perform data analytics on web archives,
  • examples of studies performed on web archives,
  • alternative ways of archiving web content.

Attendance will be free but registration is obligatory.

Submission guidelines

Abstracts (no longer than one page) should be sent to Peter Stirling (peter.stirling@bnf.fr)

by 1st December 2013.  

Acceptance will be notified on 6th January 2014.

Abstracts should be submitted in English but speakers may present in English or French. Simultaneous translation (French/English) will be offered to the audience.

Final presentations will be published on the IIPC website, but no proceedings of the conference will be published. Those submitting a presentation proposal who also wish to propose a paper for publication are encouraged to send in parallel their abstract to Alexandria, The Journal of National and International Library and Information Issues, for its special issue on web archiving (abstracts due Friday 13th December 2013; more information on www.manchesteruniversitypress.co.uk/journals/alx  or from the editor, Monica Blake, at info@blakeinformation.com).

Limited, half-day time-slots are also available for workshops or training for specific web archiving tools, concepts, or issues. Past workshops included a legal issues discussion, hands-on Hadoop training, and a Crowdsourcing exercise.

Workshops will be held on Thursday 22nd and Friday 23rd May 2014.

Proposals for workshops (no longer than 2 pages) should be sent to Peter Stirling (peter.stirling@bnf.fr)

by 1st December 2013.  

Acceptance will be notified on 6th January 2014.

Evaluation

All proposals will be reviewed by a program committee made up of web archiving practitioners and researchers in the IIPC.  The committee members are:

  • Abbie Grotke, Library of Congress
  • Gildas Illien, Bibliothèque nationale de France
  • Rosalie Lack, California Digital Library
  • Hansueli Locher, Swiss National Library
  • Leïla Medjkoune, Internet Memory Foundation
  • Claude Mussou, Institut national de l’Audiovisuel
  • Clément Oury, Bibliothèque nationale de France
  • Mary Pitt, communication and program officer of the IIPC

The International Internet Preservation Consortium is a membership organization dedicated to improving the tools, standards, and best practices of web archiving while promoting international collaboration and the broad access and use of web archives for research and cultural heritage.

Places

  • Bibliothèque nationale de France - Quai François Mauriac
    Paris, France (75013)

Date(s)

  • Sunday, December 01, 2013

Keywords

  • archivage de l'internet, analyse de corpus, humanités numériques, web studies, digital humanities, corpus analytics, archiving

Contact(s)

  • Peter Stirling
    courriel : peter [dot] stirling [at] bnf [dot] fr
  • Clément Oury
    courriel : clement [dot] oury [at] bnf [dot] fr

Information source

  • Peter Stirling
    courriel : peter [dot] stirling [at] bnf [dot] fr

To cite this announcement

« Building Modern Research Corpora: the Evolution of Web Archiving and Analytics », Call for papers, Calenda, Published on Friday, November 15, 2013, https://calenda.org/263892

Archive this announcement

  • Google Agenda
  • iCal