L'outil d'apprentissage automatique COVID-19 assimile les documents de recherche

Ajouter à mes favoris

Voir la traduction automatique

#Actualités du secteur

{{{sourceTextContent.title}}}

{{{sourceTextContent.subTitle}}}

{{{sourceTextContent.description}}}

Un groupe de spécialistes des matériaux du Lawrence Berkeley National Laboratory (Berkeley Lab), qui passent généralement leur temps à rechercher des matériaux à haute performance pour les thermoélectriques ou les cathodes de batterie, a construit l'outil d'exploration de texte. Leur quête pour développer des techniques d'exploration de textes et de données pouvant aider à répondre aux questions prioritaires liées à COVID-19 découle de l'appel à l'action lancé par la Maison Blanche le 16 mars.

À l'époque, l'ensemble de données de recherche ouvert COVID-19 (CORD-19) de la littérature scientifique sur COVID-19, SARS-CoV-2 et le groupe des coronavirus disposait de la plus vaste collection de littérature sur les coronavirus lisible par machine pour l'exploration de données et de textes, avec plus de 29 000 articles.

Une fois que l'équipe du Berkeley Lab s'est mise au travail, son prototype était opérationnel en une semaine ; au bout d'un mois, l'outil avait recueilli plus de 61 000 documents de recherche. Environ 8 000 portaient spécifiquement sur COVID-19 et le reste sur des sujets connexes, tels que d'autres virus et les pandémies en général. Ils estiment que 200 nouveaux articles sont publiés chaque jour sur le coronavirus. "Dans les 15 minutes suivant la mise en ligne de l'article, il sera sur notre site web", a déclaré Amalie Trewartha, une post-doctorante qui est l'un des principaux développeurs.

L'outil a été mis en service cette semaine lorsque l'équipe du Berkeley Lab a publié une version améliorée qui permet à l'utilisateur de rechercher des "documents connexes" et de trier les articles à l'aide d'un réglage de la pertinence basé sur l'apprentissage automatique. COVIDScholar recommandera également des résumés similaires et triera automatiquement les articles dans des sous-catégories, telles que les tests ou la dynamique de transmission, permettant aux utilisateurs d'effectuer des recherches spécialisées.

Les développeurs ont créé des scripts automatisés pour récupérer les nouveaux papiers (y compris les papiers de préimpression), les nettoyer et les rendre consultables. Au niveau le plus élémentaire, COVIDScholar agit comme un simple moteur de recherche - bien qu'il soit hautement spécialisé et considéré comme la plus grande collection de documents à sujet unique sur COVID-19 - selon les développeurs.

L'équipe d'experts en intelligence artificielle va maintenant entraîner ses algorithmes à rechercher des connexions inaperçues entre les concepts. "Vous pouvez utiliser les représentations générées pour les concepts des modèles d'apprentissage machine afin de trouver des similitudes entre des choses qui ne se produisent pas réellement ensemble dans la littérature, afin de trouver des choses qui devraient être connectées mais ne l'ont pas encore été", a déclaré John Dagdelen, un étudiant diplômé de l'Université de Californie à Berkeley et chercheur au Berkeley Lab qui est l'un des principaux développeurs.

Plus loin, l'équipe prévoit de travailler avec des chercheurs de la division de génomique environnementale et de biologie des systèmes du Berkeley Lab et de l'Institut de génomique innovant de l'Université de Californie à Berkeley pour améliorer les algorithmes de COVIDScholar. L'idée est de synthétiser les systèmes de manière à permettre aux chercheurs de découvrir de nouvelles connexions dans leurs données, a déclaré M. Dagdelen.

L'ensemble de l'outil fonctionne sur les superordinateurs du National Energy Research Scientific Computing Center (NERSC), une installation pour utilisateurs du DOE Office of Science située au Berkeley Lab. Le moteur de recherche et le portail en ligne sont alimentés par la plateforme Spin cloud du NERSC.

Il faut souligner la rapidité avec laquelle l'équipe a pu itérer des idées pour les expérimenter. Le groupe a passé trois ans à faire du traitement du langage naturel pour la science des matériaux et a construit un outil similaire, appelé MatScholar, un projet soutenu par l'Institut de recherche Toyota et Shell.