Voir la traduction automatique
Ceci est une traduction automatique. Pour voir le texte original en anglais cliquez ici
#Actualités du secteur
{{{sourceTextContent.title}}}
Un gant bourré de capteurs apprend les signes de la main de l'homme
{{{sourceTextContent.subTitle}}}
Portant un gant rempli de capteurs lors de la manipulation d'une variété d'objets, les chercheurs du MIT ont compilé un énorme ensemble de données qui permet à un système d'IA de reconnaître des objets par le seul toucher. L'information pourrait être utilisée pour aider les robots à identifier et à manipuler des objets, et pourrait aider à la conception de prothèses.
{{{sourceTextContent.description}}}
Les chercheurs ont mis au point un gant tricoté à faible coût, appelé "gant tactile extensible" (STAG), équipé d'environ 550 petits capteurs répartis sur presque toute la main. Chaque capteur capte les signaux de pression au fur et à mesure que les humains interagissent avec les objets de diverses façons. Un réseau neuronal traite les signaux pour "apprendre" un ensemble de données de modèles de signaux de pression liés à des objets spécifiques. Ensuite, le système utilise cet ensemble de données pour classer les objets et prédire leur poids en se sentant seul, sans avoir besoin de saisie visuelle.
Dans un article publié dans Nature, les chercheurs décrivent un ensemble de données qu'ils ont compilé à l'aide de STAG pour 26 objets courants, dont une canette de soda, des ciseaux, une balle de tennis, une cuiller, un stylo et une tasse. À l'aide de l'ensemble de données, le système a prédit les identités des objets avec une précision pouvant atteindre 76 %. Le système peut également prédire le poids exact de la plupart des objets dans un rayon d'environ 60 grammes.
Des gants similaires à base de capteurs utilisés aujourd'hui coûtent des milliers de dollars et ne contiennent souvent qu'une cinquantaine de capteurs qui capturent moins d'informations. Même si le STAG produit des données à très haute résolution, il est fabriqué à partir de matériaux disponibles dans le commerce pour un total d'environ 10 $.
Le système de détection tactile pourrait être utilisé en combinaison avec la vision par ordinateur traditionnelle et les ensembles de données basés sur les images pour donner aux robots une compréhension plus humaine de l'interaction avec les objets.
"Les humains peuvent bien identifier et manipuler les objets parce que nous avons un retour tactile. Lorsque nous touchons des objets, nous nous sentons autour de nous et nous nous rendons compte de ce qu'ils sont. Les robots n'ont pas cette riche rétroaction ", a déclaré Subramanian Sundaram, un ancien étudiant diplômé du Laboratoire d'informatique et d'intelligence artificielle (CSAIL). "Nous avons toujours voulu que les robots fassent ce que les humains peuvent faire, comme faire la vaisselle ou d'autres tâches. Si vous voulez que les robots fassent ces choses, ils doivent être capables de manipuler les objets très bien."
Les chercheurs ont également utilisé l'ensemble de données pour mesurer la coopération entre les régions de la main pendant les interactions entre objets. Par exemple, lorsqu'une personne utilise l'articulation du milieu de son index, elle utilise rarement son pouce. Mais le bout de l'index et du majeur correspond toujours à l'utilisation du pouce.
"Nous montrons de façon quantifiable, pour la première fois, que si j'utilise une partie de ma main, je suis susceptible d'utiliser une autre partie de ma main, " a-t-il dit.
Les fabricants de prothèses peuvent potentiellement utiliser l'information pour, disons, choisir les endroits optimaux pour placer les capteurs de pression et aider à adapter les prothèses aux tâches et aux objets avec lesquels les gens interagissent régulièrement.
Se joindre à Sundaram sur le papier, c'est : Petr Kellnhofer et Jun-Yan Zhu, post-doctorants de la CSAIL, Yunzhu Li, étudiant diplômé de la CSAIL, Antonio Torralba, professeur à l'EECS et directeur du MIT-IBM Watson AI Lab, et Wojciech Matusik, professeur associé en génie électrique et informatique, responsable du groupe Fabrication informatique.
STAG est laminé avec un polymère électriquement conducteur qui modifie la résistance à la pression appliquée. Les chercheurs ont cousu des fils conducteurs à travers des trous dans le film de polymère conducteur, du bout des doigts jusqu'à la base de la paume. Les fils se chevauchent d'une manière qui les transforme en capteurs de pression. Lorsqu'une personne portant le gant sent, soulève, tient et fait tomber un objet, les capteurs enregistrent la pression à chaque point.
Les fils se connectent du gant à un circuit externe qui traduit les données de pression en "cartes tactiles", qui sont essentiellement de brèves vidéos de points grandissant et rétrécissant à travers un graphique de la main. Les points représentent l'emplacement des points de pression et leur taille représente la force - plus le point est grand, plus la pression est grande.
À partir de ces cartes, les chercheurs ont compilé un ensemble de données d'environ 135 000 images vidéo à partir d'interactions avec 26 objets. Ces cadres peuvent être utilisés par un réseau neuronal pour prédire l'identité et le poids des objets et fournir des informations sur l'emprise humaine.
Pour identifier les objets, les chercheurs ont conçu un réseau neuronal convolutionnel (CNN), qui sert habituellement à classifier les images et à associer des modèles de pression spécifiques à des objets spécifiques. Mais l'astuce consistait à choisir des cadres parmi différents types de poignées pour obtenir une image complète de l'objet.
L'idée était d'imiter la façon dont les humains peuvent tenir un objet de différentes manières afin de le reconnaître, sans utiliser leur vue. De même, la CNN des chercheurs choisit jusqu'à huit images semi-aléatoires à partir de la vidéo qui représentent les prises de vue les plus dissemblables - disons, en tenant une tasse du bas, du haut et de la poignée.
Mais CNN ne peut pas se contenter de choisir des images aléatoires parmi les milliers d'images de chaque vidéo, ou il ne choisira probablement pas des poignées distinctes. Au lieu de cela, il regroupe des cadres similaires, ce qui donne des grappes distinctes correspondant à des prises uniques. Ensuite, il extrait une base de sondage de chacune de ces grappes, s'assurant ainsi d'avoir un échantillon représentatif. Ensuite, le CNN utilise les modèles de contact qu'il a appris en formation pour prédire la classification d'un objet à partir des trames choisies.
"Nous voulons maximiser la variation entre les trames pour donner le meilleur apport possible à notre réseau ", a déclaré Kellnhofer. "Tous les cadres à l'intérieur d'un même groupe doivent avoir une signature similaire qui représente les mêmes façons de saisir l'objet. L'échantillonnage à partir de plusieurs grappes simule un humain essayant interactivement de trouver différentes préhensions tout en explorant un objet."
Pour l'estimation du poids, les chercheurs ont construit un ensemble de données distinct d'environ 11 600 images à partir de cartes tactiles d'objets ramassés par le doigt et le pouce, tenus et déposés. Notamment, le CNN n'a pas été formé sur les cadres sur lesquels il a été testé, ce qui signifie qu'il ne pouvait pas apprendre à simplement associer le poids à un objet. Lors des essais, une seule trame a été entrée dans le CNN. Essentiellement, le CNN détecte la pression autour de la main causée par le poids de l'objet et ignore la pression causée par d'autres facteurs, comme le positionnement de la main pour éviter que l'objet ne glisse. Il calcule ensuite le poids en fonction des pressions appropriées.
Le système pourrait être combiné avec les capteurs déjà installés sur les articulations des robots qui mesurent le couple et la force pour les aider à mieux prédire le poids de l'objet.
"Les articulations sont importantes pour prédire le poids, mais il y a aussi des composantes importantes du poids du bout des doigts et de la paume de la main que nous capturons ", dit Sundaram.