Guillaume Cabanac est un chercheur en informatique à l'Université Paul Sabatier et membre junior de l'Institut universitaire de France (IUF). Il se spécialise dans l'analyse de texte et a fait partie, en 2021, de la liste des top 10 chercheurs de Nature pour son travail permettant de détecter des articles scientifiques frauduleux. Son travail est … Continuer la lecture de « Des algorithmes pour la chasse à la fraude scientifique? »
Extrait :
Dans nos travaux avec Cyril Labbé et Alexander Magazinov, nous ne parlons pas des revues prédatrices, nous parlons des revues, de la “haute couture”, des revues qui ont un impact factor chez Springer ou chez Wiley par exemple. Nous travaillons, ensemble, sur cette détection de papiers « bidons ». C’est du travail volontaire sur Zoom, en pleine pandémie, poussés par l’intérêt intellectuel. Il y a également cette prise de conscience que ce que l’on trouve, via nos travaux, est important pour la communauté scientifique.
Binaire : Quel genre de fraude peut être détectée par l’outil que vous avez développé tous les trois ?
Guillaume : Pour expliquer comment fonctionne notre outil et ce qu’il détecte, j’aime utiliser une métaphore liée au crime. Ce que nous avons créé c’est un logiciel qui agit comme un indic ; il va d’abord fureter et mettre son nez partout et ensuite il va aller voir le commissaire de temps en temps pour lui dire : “Tu devrais aller voir ça parce que là, c’est louche.” Le commissaire et ses détectives vont pouvoir cibler un individu particulier dans la ville. Imaginons que dans cette ville il y est 16 000 personnes, grâce à l’indic il saura que c’est cette personne sur les 16 000 qui est intéressante à surveiller. En fait, en science, il y a beaucoup de gens qui sont prêts à aider à débusquer et expliquer les problèmes de certaines publications scientifiques. Mais, sans outils, à l’image du commissaire, sans les renseignements d’un indic, ils ne savent pas où regarder. Des publications indexées dans “Dimensions” par exemple, il y en a 120 000 000, et environ 6 000 000 par an, ce qui fait 16 000 par jour, un nombre bien trop conséquent pour que chacune soit passée à la loupe. Tout comme le commissaire, les scientifiques ne peuvent pas surveiller 16 000 choses différentes par jour. Je me suis dit que j’allais créer un logiciel qui aide à savoir où regarder. Le logiciel passe au peigne fin l’ensemble de la littérature scientifique en cherchant ces fameuses ‘tortured phrases’, les expressions torturées. Les expressions torturées sont le résultat d’une tentative de manipulation de la part des fraudeurs.
Maintenant il faut comprendre le principe du paper mill. Un paper mill, c’est une entreprise, bien souvent en Chine et en Inde, qui vend des articles préparés sur commande. Il faut savoir qu’un scientifique est soumis à l’évaluation par son organisme de recherche qui lui demande d’atteindre des quotas. Par exemple, dans l’équivalent des CHU en Chine, il faut faire, comme en France, de l’enseignement, de la recherche et aussi opérer. Et peut être encore plus qu’en France, il faut atteindre ces quotas, autrement on est licencié. Il y a donc des personnels des hôpitaux qui vont voir les paper mills et contre de l’argent, ils vont faire fabriquer un article. La commande ressemble à quelque chose comme “Moi, je travaille sur le rein, il faudrait tester l’effet de telle protéine sur le rein et reporter les résultats.” Les paper mills, bien qu’on puisse penser qu’ils sont formés en science, ne sont tout de même pas des chercheurs. Ce qu’ils font, vraisemblablement, c’est une sorte d’état de l’art ou ils trouvent des articles intéressants sur le thème imposé. Ne sachant pas faire un vrai état de l’art, bien réfléchi et bien articulé, ils font ce qu’on appelle un lazy survey, c’est-à-dire qu’ils vont dire “X a fait ça”, “Y a fait ça”, “Z a fait ça”. Les paragraphes qu’ils écrivent commencent comme ça avec la citation de l’article suivi d’un copié paraphrasé collé du résumé de l’article cité. Pourquoi pas un copié/collé directement ? Parce que les maisons d’édition ont des logiciels détecteurs de plagiat. Les paper mills utilisent une technique qui va remplacer les mots par des synonymes. Donc pour « cancer du sein », le logiciel pioche un synonyme pour “cancer”, par exemple “péril”, et un synonyme pour “du sein”, par exemple “poitrine”. On obtient donc “péril de la poitrine” pour remplacer “cancer du sein”. De la même façon, “Intelligence artificielle”, devient “conscience contrefaite”. Une publication de ‘paper mills’ pourra donc contenir une phrase telle que “La voiture autonome dans la ville se guidera par sa conscience contrefaite.”
Ces phrases torturées, nous en avons trouvées quelques-unes au début avec mes deux collègues et nous avons pioché des articles qui les contenaient. Une forme de ‘grep’ généralisé sur toute la littérature. Et en lisant les paragraphes qu’il y a autour, nous pouvions trouver de plus en plus de phrases torturées. Par effet boule de neige, nous les ajoutions dans une liste et avant de recommencer le processus entier. Et notre logiciel Problématic Paper Screener (PPS), remontait donc de plus en plus d’articles de recherche à chaque fois. En résumé, PPS est finalement cet indic qui va lister les papiers candidats à ce qu’on appelle une “réévaluation par des humains”. Par exemple, un article qui en contient sept, il n’y a aucun doute sur le fait qu’il est issu d’un ‘paper mill’ et nous invitons la communauté scientifique, via le site de PPS, à regarder les phrases torturées, prendre un screenshot et apporter la preuve du problème et le poster sur Pubpeer, la plateforme de relecture post publication.
Mon cas est typique, je ne suis pas expert biomédical mais j’arrive quand même à lire les papiers qui sont remontés par notre logiciel et signaler les phrases torturées.
Mais le détail de la science et les problèmes dans la science biomédicale c’est un autre sujet, qui est lui bien complexe. Je poste donc sur Pubpeer le papier concerné et les experts qui ne savaient pas où regarder, pour aider à protéger la science, peuvent commencer là car ils le voient sur la file d’accueil de Pubpeer. Et si on trouve des phrases torturées dans l’état de l’art et que le papier expose une expérience ou des études on peut être quasi sûr que les experts du domaine vont pouvoir trouver beaucoup d’autres problèmes.
Via
Communication IRIT