Il est temps de repenser le processus de publication en apprentissage automatique

Je fais partie du conseil consultatif de NeurIPS et du conseil de l’ICLR, et je participe à l’organisation des conférences à plusieurs niveaux depuis de nombreuses années. J’ai participé à des discussions avec les comités des programmes sur la manière d’améliorer ces conférences, mais les discussions portent généralement sur de petits changements. Je me demande s’il n’est pas temps de repenser le processus global de publication dans le domaine de l’apprentissage automatique.

Le paysage a changé au cours des dernières décennies. Cela est dû en grande partie à la popularité d’arXiv, qui a considérablement accéléré le cycle de découverte et de diffusion de l’information. De nombreuses conférences publient aujourd’hui des articles sur l’apprentissage automatique (par exemple, mon groupe publie principalement à NeurIPS, ICML et ICLR, mais aussi dans les grandes conférences sur la vision par ordinateur et le traitement du langage naturel), ce qui signifie que nous passons d’une échéance à l’autre tous les deux mois environ.

La culture de la recherche a également changé au cours des dernières décennies. Elle est plus compétitive, plus rapide et met beaucoup de pression sur tout le monde. Le domaine s’est développé de façon exponentielle. Les étudiants sont plus protecteurs de leurs idées et pressés de les sortir, de peur que quelqu’un d’autre ne travaille sur le même sujet ailleurs, et en général un doctorat se termine avec au moins 50 % de documents de plus que ce que j’ai cumulé il y a 20 ou 30 ans.

Le domaine est presque entièrement passé à un modèle d’articles de conférence (une grande partie de l’informatique l’a fait aussi), et un article de conférence n’a pas la chance d’être aussi bien révisé qu’un article de revue typique, car il profite rarement de nombreuses révisions, typiques des publications scientifiques, qui permettent d’améliorer les articles. Nous sommes donc plus productifs, en apparence, mais ce stress et ce rythme rapide de production ont un prix sur la profondeur et la qualité des articles que nous produisons. De nombreux articles finissent par être soumis alors qu’ils ne l’auraient pas été dans le passé. Ils peuvent contenir des erreurs, manquer de rigueur ou ne représenter qu’une faible avancée.

Dans la précipitation qui précède la date de tombée d’une conférence, de nombreux articles sont produits, mais le temps manque pour les vérifier correctement. De plus, la course à la publication d’un nombre toujours plus grand d’articles (surtout en tant que premier auteur ou coauteur) est un fardeau écrasant. D’un autre côté, je suis convaincu que certaines des avancées les plus importantes ont été le fruit d’un processus plus lent, qui donnait le temps de réfléchir profondément, de prendre du recul et de vérifier soigneusement les choses. La pression a un effet négatif sur la qualité de la science que nous générons. J’aimerais que nous pensions à faire de la « science lente » (consultez le manifeste de Slow Science !).

C’est ce sentiment qui m’a incité à réfléchir à un modèle de publication différent pour l’apprentissage automatique, qui présente une certaine similitude avec ce qui a été expérimenté ailleurs (par exemple, par VLDB). J’ai communiqué mes réflexions au conseil d’administration de NeurIPS, et j’aimerais maintenant vous en faire part. Voici le contenu de mon message au conseil :

Je voudrais qu’il y ait davantage de discussions sur les idées visant à améliorer le processus de publication dans son ensemble en apprentissage automatique, la révision étant un élément crucial. J’aimerais certainement savoir ce que vous en pensez.

J’ai l’impression qu’en plus de minimiser les incitations à la révision, notre système actuel encourage les petits progrès. Cela crée beaucoup de pression sur les étudiants de troisième cycle (et les chercheurs en général) pour qu’ils soumettent autant d’articles que possible à chaque date de tombée. Les étudiants viennent parfois me voir deux mois avant la date de tombée pour me demander si j’ai des idées sur ce qui pourrait être réalisé en deux mois.

De plus, nous avons maintenant de nombreuses conférences sur l’apprentissage automatique (notamment NeurIPS, ICML et ICLR) dont le contenu et la communauté coïncident largement. D’une conférence à l’autre, les gens se contentent donc de soumettre de nouveau leurs travaux refusés et de constituer un nouvel échantillon d’examinateurs (et dans le tumulte, l’article finit par être accepté, après avoir utilisé beaucoup de ressources de la communauté). De plus, comme tous les bons examinateurs sont demandés à des semaines précises de l’année, il est plus difficile pour les responsables de secteurs de trouver l’examinateur approprié pour leur article (contrairement à ce qui se passe dans les revues).

Cela rappelle un modèle différent, où les articles sont d’abord soumis à une revue à publication rapide (qui pourrait être le JMLR dans ce cas) et où les comités des programmes de chaque conférence choisissent ensuite les articles qu’ils préfèrent dans la liste des articles déjà acceptés et révisés (et notés). Cela suppose que les auteurs sont intéressés par la présentation de leur travail à une conférence.

Autrefois, les conférences étaient importantes pour accélérer le cycle de la recherche et faire connaître les idées rapidement. Mais, maintenant, nous avons arXiv qui joue beaucoup mieux ce rôle, de sorte que les conférences, en plus de permettre de socialiser, devraient servir à sélectionner les travaux à mettre en évidence et à présenter oralement, à offrir une sélection diversifiée des meilleures et plus importantes idées qui surgissent dans notre communauté, et à permettre aux chercheurs de se synchroniser avec ces progrès. Il n’est même pas nécessaire que ce soit des travaux super récents ; il peut s’agir de travaux réalisés il y a un an ou deux et dont les répercussions viennent de commencer à se faire sentir.

Le système de dates de tombée des conférences incite à soumettre des travaux à moitié terminés (souvent sans les corriger adéquatement par la suite si le document est accepté et en passant plutôt à une autre publication). S’il y avait une échéance souple implicite (parce qu’actuellement, si je soumets mon article au JMLR, je ne suis pas sûr de la date à laquelle il sera accepté et s’il pourra être sélectionné par une conférence), cela inciterait à fignoler davantage l’article plutôt que de le soumettre trop tôt. En outre, les rétroactions plus riches fournies dans le cadre de la publication dans une revue devraient produire au final des résultats de meilleure qualité. Et le fait que le travail soit publié dans une revue faciliterait la collaboration entre les chercheurs en apprentissage automatique et ceux d’autres disciplines qui préfèrent les revues aux conférences.

Je suppose que c’est là le début de la discussion. Les nombreux chercheurs qui ont participé au processus de conférence et de revue en apprentissage automatique auraient certainement des choses intéressantes à dire pour l’améliorer. Et tous les membres de cette communauté qui soumettent ou révisent des articles ont des idées sur ce qui fonctionne et ce qui ne fonctionne pas. Réfléchissons ensemble et voyons comment nous pouvons à la fois améliorer la qualité de notre science et nos vies en tant qu’êtres humains.

P.S.: Poursuivons la discussion ici.

Photo par Brian Erickson sur Unsplash