AccueilRepenser la robustesse et la fiabilité en recherche : les chercheurs face à la crise de la reproductibilité

*  *  *

Publié le jeudi 08 novembre 2018 par Anastasia Giardinelli

Résumé

Les chercheurs sont confrontés au fait de ne pouvoir obtenir les mêmes résultats soit en reprenant les mêmes méthodes et/ou les mêmes données soit en s’appuyant sur de nouveaux jeux de données et/ou d’autres méthodes poursuivant le même objectif de recherche. Le problème de la fidélité et de la réitération des résultats se pose à l’échelle collective comme individuelle. Il serait tentant de s’en référer à la conception poppérienne de la science selon laquelle l’erreur et sa réfutation résident au cœur même du processus scientifique. Mais le phénomène prend une ampleur telle que les notions mêmes de résultat et de fiabilité sont remises en cause. Au-delà des problèmes inhérents à la production des données et de leur analyse, les chercheurs doivent composer avec un système éditorial qui n’incite ni à reconnaître les résultats négatifs ni les auto-rétractations.

Annonce

Présentation

L'unité régionale de formation à l'information scientifique et technique (Urfist) de Bordeaux organise le 29/03/2019 une journée d'étude dédiée à la problématique de la reproductibilité en recherche. La journée est organisée en partenariat avec :

  • l'Inria (centre Bordeaux - Sud-Ouest),
  • la délégation Aquitaine du CNRS,
  • l'Université de Bordeaux

S'inscrire, consulter le programme détaillé : inscription gratuite pour tous publics et obligatoire

Les chercheurs sont confrontés au fait de ne pouvoir obtenir les mêmes résultats soit en reprenant les mêmes méthodes et/ou les mêmes données soit en s’appuyant sur de nouveaux jeux de données et/ou d’autres méthodes poursuivant le même objectif de recherche. Le problème de la fidélité et de la réitération des résultats se pose à l’échelle collective (i.e. unité de recherche, spécialistes d’une même discipline) comme individuelle (i.e. : reproductibilité spatio-temporelle (Desquilbet 2018).

Le sujet de la reproductibilité est ancien (Barba 2018) et d’aucuns considèrent qu’il vaut mieux évoquer un changement de paradigme de la recherche plutôt qu’une crise (Fanelli 2018). Il serait tentant de s’en référer à la conception poppérienne de la science selon laquelle l’erreur et sa réfutation résident au cœur même du processus scientifique. Mais le phénomène prend une ampleur telle que les notions mêmes de résultat et de fiabilité sont remises en cause. Si les réplications ne sont pas possibles, quelle est la valeur des travaux précédents s’ils s’avèrent non reproductibles (Zwaan et al. 2017) ?

Les causes de cette crise ne relèvent pas forcément de manquements délibérés à l’intégrité scientifique (i.e. : p-hacking, HARK, selective reporting, etc.) : des méthodes statistiques mal employées, notamment en raison de la sophistication croissante des méthodes (Wilcox et Rousselet 2018) ; des jeux de données mal proportionnés ; des interprétations problématiques de la p-value (Lakens et al. 2017) et plus généralement, un problème de puissance statistique qui perdure depuis des décennies (Lilienfeld et Waldman 2014 ; Lakens et Albers 2017). La liste n’est pas exhaustive. Au-delà des problèmes inhérents à la production des données et de leur analyse, les chercheurs doivent composer avec un système éditorial qui n’incite ni à reconnaître les résultats négatifs ni les auto-rétractations. Les dead-ends sont souvent omises et les travaux présentant les résultats positifs bénéficient des faveurs des éditeurs des revues qualifiantes. Les pratiques éditoriales scientifiques sont jugées inadaptées pour faire face aux défis de la reproductibilité (Cornelius 2018; Yale Law School Roundtable on Data and Code Sharing 2010), y compris lorsque les éditeurs affichent une politique volontariste de partage des données (Frankenhuis et Nettle 2018; Stodden 2011). Enfin, le système d’évaluation actuel n’accorde pas une place majeure aux études de réplication.

Mais de nombreux projets voient le jour, y compris dans des domaines réputés imprenables eu égard à la nature des données observées (Milcu et al. 2018), de nouvelles formes éditoriales émergent et l’environnement même de production des connaissances scientifiques évolue.

Dans ce contexte, comment penser les notions de robustesse et de fiabilité dans des domaines disciplinaires variés ?

Quelle place accorder à l’incertitude ? Quel équilibre trouver entre standardisation et dynamique exploratoire ? Comment aborder la question de la reproductibilité notamment dans des disciplines avec des données rares ou non répétables ?

Sources détaillées sur la page web de la journée

S'inscrire, consulter le programme détaillé : inscription gratuite pour tous publics et obligatoire

Infos pratiques

Overview (titres provisoires)

  • « Repenser la signifiance statistique », Guillaume Rousselet, Université de Glasgow
  • « Curate science : a web platform to crowdsource the transparency and replicability of published scientific findings », Etienne Le Bel, Université de Louvain
  • « Assisted Authoring for avoiding inadequate claims in scientific reporting », Patrick Paroubek, LIMSI (Laboratoire de recherche en Informatique pluridisciplinaire), CNRS
  • « Ecotron : de quoi la reproductibilité de la recherche peut-elle être le nom en écologie et en agronomie ? », Alexandru Milcu, Centre d’écologie fonctionnelle et évolutive, CNRS
  • « rOpenSci, revues de packages R par les pairs pour une recherche reproductible », Maëlle Salmon, rOpenSci
  • « ReScience X : projet de revue dédiée à la reproductibilité expérimentale en psychologie », Etienne Roesch, Université de Reading

Programme détaillé, voir les publications associées aux exposés

Programme détaillé

8h45-9h15 : accueil des participants

9h15-9h30 : allocution de bienvenue, Centre Inria Bordeaux-Sud-Ouest

Titres des interventions provisoires

9h30-10h : « Repenser la signifiance statistique », Guillaume Rousselet, Université de Glasgow

Selon G. Gigerenzer (Gigerenzer 2018), les « rituels statistiques » et le système de croyances collectives qui les accompagne affectent bien plus la recherche que la logique du publish or perish. La p-value et les NHST peuvent donner lieu à des interprétations fallacieuses davantage liées à un défaut de méthodologie qu’à une volonté de frauder (Benjamin et al. 2018; Gelman et Stern 2006; Lakens et Schönbrodt 2014; Randall et Welser 2018; Reinhart 2015). En 2015, la revue Basic and Applied Social Psychology a ainsi décidé de ne plus rendre publics les tests de représentativité statistique. Par ailleurs, le seuil de signifiance statistique peut varier d’une discipline à l’autre (Lakens 2017; Randall et Welser 2018).

Dans ce contexte, comment (re)penser la signifiance statistique ? Quels sont les enjeux actuels dans le domaine des méthodes statistiques ? Quelle place accorder à la notion d’incertitude et à la flexibilité académique (Forstmeier, Wagenmakers, et Parker Timothy 2017)? Faut-il abaisser le seuil de la p-value ainsi que certains auteurs le préconisent (Benjamin et al. 2018)? Ou s’agit-il au contraire d’une solution techniciste et inadaptée (Gelman et Stern 2006; Lakens et al. 2017) ? Quelles réponses apporter aux chercheurs non statisticiens de formation ? Quelle place pour l’ « auto-rétractation » ?

  • Benjamin, Daniel J., James O. Berger, Magnus Johannesson, Brian A. Nosek, E.-J. Wagenmakers, Richard Berk, Kenneth A. Bollen, et al. 2018. « Redefine Statistical Significance ». Nature Human Behaviour 2 (1): 6. https://doi.org/10.1038/s41562-017-0189-z.
  • Gelman, Andrew, et Hal Stern. 2006. « The Difference Between “Significant” and “Not Significant” is not Itself Statistically Significant ». The American Statistician 60 (4): 328‑31. https://doi.org/10.1198/000313006X152649.
  • Gigerenzer, Gerd. 2018. « Statistical Rituals: The Replication Delusion and How We Got There. Statistical Rituals: The Replication Delusion and How We Got There ». Advances in Methods and Practices in Psychological Science 1 (2): 198‑218. https://doi.org/10.1177/2515245918771329.
  • Lakens, Daniel, Federico G. Adolfi, Casper Albers, Farid Anvari, Matthew A. J. Apps, Shlomo Engelson Argamon, Marcel A. L. M. van Assen, et al. 2017. « Justify Your Alpha: A Response to “Redefine Statistical Significance” ». PsyArXiv, septembre. https://doi.org/10.17605/OSF.IO/9S3Y6.
  • Lakens, Daniel, et Felix Schönbrodt. 2014. « Experience Statistics : Distribution of Cohen’s d, p-values, and power curves for an independent two-tailed t-test ». 2014. http://www.shinyapps.org/showapp.php?app=http://lmpp10e-mucesm.srv.mwn.de:3838/felix/lakens_pcurve/&by=Daniel%20Lakens&title=P-value%20distribution%20and%20power%20curves%20for%20an%20independent%20two-tailed%20t-test&shorttitle=P-value%20distribution%20and%20power%20curves.
  • Randall, David, et Christopher Welser. 2018. The Irreproducibility Crisis of Modern Science. Causes, Consequences, and the Road to Reform. New York: National Association of Scholars.
  • Wilcox, Rand R., et Guillaume A. Rousselet. 2018. « A Guide to Robust Statistical Methods in Neuroscience ». Current Protocols in Neuroscience 82 (janvier): 8.42.1-8.42.30. https://doi.org/10.1002/cpns.41.

10h-10h20 : échanges avec le public

10h20-10h40 : pause-café

10h40-11h10 : « Curate Science: Nutritional Labels for Scientific Transparency », Etienne LeBel, Université de Louvain

« Science requires transparency. No platform currently exists, however, to ensure that published scientific articles comply with the relevant transparency standards. Curate Science aims to solve this problem by building a community web platform for researchers to label, link, and organize the method/data transparency, result reproducibility, and replications of published findings. Think “nutritional labels for scientific articles.” The platform allows researchers to identify transparently reported research and track replications of published effects, which will maximize the re-use, efficiency, and value of research. The platform will also expedite systemic/institutional reforms for various research stakeholders by allowing journals, universities, and funders to ensure that their articles, employees, and grantees, respectively, comply with the appropriate transparency standards. » E. Le Bel

11h10-11h30 : échanges avec le public

11h30-12h : « Assisted Authoring for avoiding inadequate claims in scientific reporting », Patrick Paroubek, LIMSI (Laboratoire de recherche en Informatique pluridisciplinaire), CNRS

« […] An important aspect of scientific reports is the claims that they contain. These can be drawn from references to other works through citation, as well as from the analysis of the theoretical and experimental results of the reported study. The complexity of the task and a variety of other factors are sometimes responsible for the presence of inadequate reporting in published studies that may escape the scrutiny of authors, peer-reviewers, editors and readers.

Scientific misinformation, which can be aggravated over successive citations, must be avoided, in particular when scientific reports can be at the origin of important decisions, for instance in clinical practice. Growing concern about the effects of inadequate reporting has recently motivated studies in the field of “research on research”. Distorted presentation of results following a variety of strategies, or “spins”, has for instance been shown to be present in as many as 60% of a set of abstract conclusions of randomized controlled trials. There is thus a need to assist scientific authors in identifying possible instances of inadequate claims in their reports. The hypothesis explored in this research project is that Natural Language Processing techniques can be leveraged to implement efficient interactive strategies to avoid inadequate reporting. »

Début du projet : nov. 2016 ; durée du projet : 36 mois ; porteur : CNRS

  • MiRoR Project. (2016, janvier 25). Scientific programme MiRoR : Methods in Research on Research. Consulté 13 juin 2018, à l’adresse http://miror-ejd.eu/scientific-programme/

12h-12h20 : échanges avec le public

12h20-13h30 : buffet sur place offert

13h30-14h : « Ecotron : de quoi la reproductibilité de la recherche peut-elle être le nom en écologie et en agronomie ? », Alexandru Milcu, Centre d’écologie fonctionnelle et évolutive, CNRS

« Afin d'évaluer dans quelle mesure la recherche en écologie ou en agronomie utilisant des environnements contrôlés, tels que les serres et les chambres de culture, est affectée par la crise de reproductibilité, 14 laboratoires de recherche publique de 5 pays européens ont associé leurs efforts pour reproduire une même expérimentation, mais avec différents niveaux d’hétérogénéité.» (CNRS 2018)

  • CNRS. 2018. « Recherche scientifique : limiter la « crise de reproductibilité » ». 2018. http://www.cnrs.fr/inee/communication/breves/b334.html.
  • Milcu, Alexandru, Ruben Puga-Freitas, Aaron M. Ellison, Manuel Blouin, Stefan Scheu, Grégoire T. Freschet, Laura Rose, et al. 2018. « Genotypic Variability Enhances the Reproducibility of an Ecological Study ». Nature Ecology & Evolution 2 (2): 279. https://doi.org/10.1038/s41559-017-0434-x.

14h-14h20 : échanges avec le public

14h20-14h40 : pause

14h40-15h10 : « rOpenSci, revues de packages R par les pairs pour une recherche reproductible », Maëlle Salmon, rOpenSci

« rOpenSci est une communauté de chercheurs et de développeurs informatiques collaborant pour créer des paquets R pour soutenir la science ouverte et reproductible. Certains de ces paquets sont créés et maintenus par le personnel de rOpenSci, d’autres par des volontaires. Pour assurer la qualité de tous les paquets, rOpenSci a un système de revue des paquets par des pairs […]. Ce système est transparent et accessible sur GitHub. »

  • Salmon, Maëlle. 2018. « Notre Système de Revue de Paquets En Revue : Présenter et Analyser ROpenSci Onboarding ». présenté aux Septièmes Rencontres R, Rennes.
  • « rOpenSci | Where is the value in package peer review? » s. d. Consulté le 6 avril 2018. https://ropensci.org/blog/2018/04/06/peer-review-value/.

15h10-15h30 : échanges avec le public

15h30-16h : « ReScience X : projet de revue dédiée à la reproductibilité expérimentale en psychologie », Etienne Roesch, Université de Reading

D’aucuns considèrent les études de réplication inadaptées à certains domaines de recherche en raison de la nature des données traitées (ex. phénomènes naturels, études cliniques, etc.). Les détracteurs des études de réplication considèrent que ces travaux ont une valeur moindre que les études originales. Comment soutenir le développement d’études de réplication alors que le système d’évaluation des chercheurs met peu l’accent sur ce type de productions scientifiques ? Certains auteurs soulignent aussi l’impact psychologique des études de réplication : ne risquent-elles pas de fragiliser les auteurs de l’étude initiale ? Comment conduire un dialogue entre équipes ? Zwaan et ses co-auteurs évoquent une nouvelle modalité de collaboration entre chercheurs : « adversarial collaboration »(Zwaan et al. 2017).

La revue ReScience X transpose dans le domaine de la psychologie expérimentale le principe de la revue ReScience, fondée en 2015 par Konrad Hinsen et Nicolas Rougier. ReScience est une revue dédiée aux études de réplication dans le domaine des sciences computationnelles.

  • Rougier, Nicolas P., Konrad Hinsen, Frédéric Alexandre, Thomas Arildsen, Lorena Barba, Fabien C. Y. Benureau, C. Titus Brown, et al. 2017. « Sustainable computational science: the ReScience initiative ». PeerJ Computer Science 3 (septembre): e142. https://doi.org/10.7717/peerj-cs.142.

16h-16h20 : échanges avec le public

Sources

Barba, Lorena A. 2018. « Terminologies for Reproducible Research ». arXiv:1802.03311 [cs], février. http://arxiv.org/abs/1802.03311.

Benureau, Fabien, et Nicolas Rougier. 2017. « Re-run, Repeat, Reproduce, Reuse, Replicate: Transforming Code into Scientific Contributions ». arXiv:1708.08205 [cs], août. http://arxiv.org/abs/1708.08205.

Cornelius, Stephen. 2018. « Scholarly publishing is stuck in 1999 ». Stephen Cornelius (blog). 15 avril 2018. https://medium.com/@stphencornelius/scholarly-publishing-is-stuck-in-1999-507ab9bb06f5.

Desquilbet, Loïc. 2018. « Répétabilité, reproductibilité, et concordance de méthodes de mesure ». https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0ahUKEwiBy6qMy4fbAhXEfFAKHQRBDp8QFgguMAA&url=https%3A%2F%2Feve.vet-alfort.fr%2Fmod%2Fresource%2Fview.php%3Fid%3D13266&usg=AOvVaw1ZbfUQpfig29zCNvqtcvuv.

Fanelli, Daniele. 2018. « Is Science Really Facing a Reproducibility Crisis, and Do We Need It To? » Proceedings of the National Academy of Sciences 115 (11): 2628‑31. https://doi.org/10.1073/pnas.1708272114.

Frankenhuis, Willem, et Daniel Nettle. 2018. « Open Science is Liberating and Can Foster Creativity ». Open Science Framework, février. https://doi.org/10.17605/OSF.IO/EDHYM.

Goodman, Steven N., Daniele Fanelli, et John P. A. Ioannidis. 2016. « What Does Research Reproducibility Mean? » Science Translational Medicine 8 (341): 341ps12-341ps12. https://doi.org/10.1126/scitranslmed.aaf5027.

Ioannidis, John P. A. 2005. « Why Most Published Research Findings Are False ». PLOS Medicine 2 (8): e124. https://doi.org/10.1371/journal.pmed.0020124.

Lakens, Daniel, Federico G. Adolfi, Casper Albers, Farid Anvari, Matthew A. J. Apps, Shlomo Engelson Argamon, Marcel A. L. M. van Assen, et al. 2017. « Justify Your Alpha: A Response to “Redefine Statistical Significance” ». PsyArXiv, septembre. https://doi.org/10.17605/OSF.IO/9S3Y6.

Lakens, Daniel, et Casper Albers. 2017. « When power analyses based on pilot data are biased: Inaccurate effect size estimators and follow-up bias ». PsyArXiv, juillet. https://doi.org/10.17605/OSF.IO/B7Z4Q.

Lilienfeld, S.O., and I.D. Waldman, eds. 2014. “Maximizing the Reproducibility of Your Research.” Psychological Science Under Scrutiny: Recent Challenges and Proposed Solutions, February. https://doi.org/. 

Milcu, Alexandru, Ruben Puga-Freitas, Aaron M. Ellison, Manuel Blouin, Stefan Scheu, Grégoire T. Freschet, Laura Rose, et al. 2018. « Genotypic Variability Enhances the Reproducibility of an Ecological Study ». Nature Ecology & Evolution 2 (2): 279. https://doi.org/10.1038/s41559-017-0434-x.

MiRoR Project. 2016. « Scientific Programme MiRoR : Methods in Research on Research ». Projet MiRoR (blog). 25 janvier 2016. http://miror-ejd.eu/scientific-programme/.

Nuijten, Michèle B., Chris H. J. Hartgerink, Marcel A. L. M. van Assen, Sacha Epskamp, et Jelte M. Wicherts. 2016. « The Prevalence of Statistical Reporting Errors in Psychology (1985–2013) ». Behavior Research Methods 48 (4): 1205‑26. https://doi.org/10.3758/s13428-015-0664-2.

Stodden, Victoria. 2011. « Trust Your Science? Open Your Data and Code ». Amstat News, 2.

Wilcox, Rand R., et Guillaume A. Rousselet. 2018. « A Guide to Robust Statistical Methods in Neuroscience ». Current Protocols in Neuroscience 82 (janvier): 8.42.1-8.42.30. https://doi.org/10.1002/cpns.41.

Yale Law School Roundtable on Data and Code Sharing. 2010. « Reproducible Research ». Computing in Science & Engineering 12 (5): 8‑13. https://doi.org/10.1109/MCSE.2010.113.

Zwaan, Rolf A., Alexander Etz, Richard E. Lucas, et M. Brent Donnellan. 2017. « Making Replication Mainstream ». Behavioral and Brain Sciences, octobre, 1‑50. https://doi.org/10.1017/S0140525X17001972.

Lieux

  • Inria, centre Bordeaux - Sud-Ouest, salle Ada (3ème étage) - 200 avenue de la vieille tour
    Talence, France (33)

Dates

  • vendredi 29 mars 2019

Mots-clés

  • reproductibilité, science ouverte, open science, édition scientifique

Contacts

  • Sabrina Granger
    courriel : sabrina [dot] granger [at] u-bordeaux [dot] fr

URLS de référence

Source de l'information

  • Sabrina Granger
    courriel : sabrina [dot] granger [at] u-bordeaux [dot] fr

Pour citer cette annonce

« Repenser la robustesse et la fiabilité en recherche : les chercheurs face à la crise de la reproductibilité », Journée d'étude, Calenda, Publié le jeudi 08 novembre 2018, https://calenda.org/503287

Archiver cette annonce

  • Google Agenda
  • iCal