Un gant bourré de capteurs apprend les signes de la main de l'homme by Massachusetts Institute of TechnologyDirectIndustry

Ajouter à mes favoris

Voir la traduction automatique

#Actualités du secteur

{{{sourceTextContent.title}}}

{{{sourceTextContent.subTitle}}}

{{{sourceTextContent.description}}}

Les chercheurs ont mis au point un gant tricoté à faible coût, appelé "gant tactile extensible" (STAG), équipé d'environ 550 petits capteurs répartis sur presque toute la main. Chaque capteur capte les signaux de pression au fur et à mesure que les humains interagissent avec les objets de diverses façons. Un réseau neuronal traite les signaux pour "apprendre" un ensemble de données de modèles de signaux de pression liés à des objets spécifiques. Ensuite, le système utilise cet ensemble de données pour classer les objets et prédire leur poids en se sentant seul, sans avoir besoin de saisie visuelle.

Dans un article publié dans Nature, les chercheurs décrivent un ensemble de données qu'ils ont compilé à l'aide de STAG pour 26 objets courants, dont une canette de soda, des ciseaux, une balle de tennis, une cuiller, un stylo et une tasse. À l'aide de l'ensemble de données, le système a prédit les identités des objets avec une précision pouvant atteindre 76 %. Le système peut également prédire le poids exact de la plupart des objets dans un rayon d'environ 60 grammes.

Des gants similaires à base de capteurs utilisés aujourd'hui coûtent des milliers de dollars et ne contiennent souvent qu'une cinquantaine de capteurs qui capturent moins d'informations. Même si le STAG produit des données à très haute résolution, il est fabriqué à partir de matériaux disponibles dans le commerce pour un total d'environ 10 $.

"Les humains peuvent bien identifier et manipuler les objets parce que nous avons un retour tactile. Lorsque nous touchons des objets, nous nous sentons autour de nous et nous nous rendons compte de ce qu'ils sont. Les robots n'ont pas cette riche rétroaction ", a déclaré Subramanian Sundaram, un ancien étudiant diplômé du Laboratoire d'informatique et d'intelligence artificielle (CSAIL). "Nous avons toujours voulu que les robots fassent ce que les humains peuvent faire, comme faire la vaisselle ou d'autres tâches. Si vous voulez que les robots fassent ces choses, ils doivent être capables de manipuler les objets très bien."

Les chercheurs ont également utilisé l'ensemble de données pour mesurer la coopération entre les régions de la main pendant les interactions entre objets. Par exemple, lorsqu'une personne utilise l'articulation du milieu de son index, elle utilise rarement son pouce. Mais le bout de l'index et du majeur correspond toujours à l'utilisation du pouce.

Se joindre à Sundaram sur le papier, c'est : Petr Kellnhofer et Jun-Yan Zhu, post-doctorants de la CSAIL, Yunzhu Li, étudiant diplômé de la CSAIL, Antonio Torralba, professeur à l'EECS et directeur du MIT-IBM Watson AI Lab, et Wojciech Matusik, professeur associé en génie électrique et informatique, responsable du groupe Fabrication informatique.

STAG est laminé avec un polymère électriquement conducteur qui modifie la résistance à la pression appliquée. Les chercheurs ont cousu des fils conducteurs à travers des trous dans le film de polymère conducteur, du bout des doigts jusqu'à la base de la paume. Les fils se chevauchent d'une manière qui les transforme en capteurs de pression. Lorsqu'une personne portant le gant sent, soulève, tient et fait tomber un objet, les capteurs enregistrent la pression à chaque point.

Les fils se connectent du gant à un circuit externe qui traduit les données de pression en "cartes tactiles", qui sont essentiellement de brèves vidéos de points grandissant et rétrécissant à travers un graphique de la main. Les points représentent l'emplacement des points de pression et leur taille représente la force - plus le point est grand, plus la pression est grande.

À partir de ces cartes, les chercheurs ont compilé un ensemble de données d'environ 135 000 images vidéo à partir d'interactions avec 26 objets. Ces cadres peuvent être utilisés par un réseau neuronal pour prédire l'identité et le poids des objets et fournir des informations sur l'emprise humaine.

Pour identifier les objets, les chercheurs ont conçu un réseau neuronal convolutionnel (CNN), qui sert habituellement à classifier les images et à associer des modèles de pression spécifiques à des objets spécifiques. Mais l'astuce consistait à choisir des cadres parmi différents types de poignées pour obtenir une image complète de l'objet.

L'idée était d'imiter la façon dont les humains peuvent tenir un objet de différentes manières afin de le reconnaître, sans utiliser leur vue. De même, la CNN des chercheurs choisit jusqu'à huit images semi-aléatoires à partir de la vidéo qui représentent les prises de vue les plus dissemblables - disons, en tenant une tasse du bas, du haut et de la poignée.

Mais CNN ne peut pas se contenter de choisir des images aléatoires parmi les milliers d'images de chaque vidéo, ou il ne choisira probablement pas des poignées distinctes. Au lieu de cela, il regroupe des cadres similaires, ce qui donne des grappes distinctes correspondant à des prises uniques. Ensuite, il extrait une base de sondage de chacune de ces grappes, s'assurant ainsi d'avoir un échantillon représentatif. Ensuite, le CNN utilise les modèles de contact qu'il a appris en formation pour prédire la classification d'un objet à partir des trames choisies.

"Nous voulons maximiser la variation entre les trames pour donner le meilleur apport possible à notre réseau ", a déclaré Kellnhofer. "Tous les cadres à l'intérieur d'un même groupe doivent avoir une signature similaire qui représente les mêmes façons de saisir l'objet. L'échantillonnage à partir de plusieurs grappes simule un humain essayant interactivement de trouver différentes préhensions tout en explorant un objet."

Pour l'estimation du poids, les chercheurs ont construit un ensemble de données distinct d'environ 11 600 images à partir de cartes tactiles d'objets ramassés par le doigt et le pouce, tenus et déposés. Notamment, le CNN n'a pas été formé sur les cadres sur lesquels il a été testé, ce qui signifie qu'il ne pouvait pas apprendre à simplement associer le poids à un objet. Lors des essais, une seule trame a été entrée dans le CNN. Essentiellement, le CNN détecte la pression autour de la main causée par le poids de l'objet et ignore la pression causée par d'autres facteurs, comme le positionnement de la main pour éviter que l'objet ne glisse. Il calcule ensuite le poids en fonction des pressions appropriées.