Voir la traduction automatique
Ceci est une traduction automatique. Pour voir le texte original en anglais cliquez ici
#Livres blancs
{{{sourceTextContent.title}}}
Comment les sondes d'image de Neuromorphic volent des tours de l'oeil humain
{{{sourceTextContent.subTitle}}}
En donnant la priorité aux parties dynamiques d'une scène, les machines peuvent saisir des images plus efficacement
{{{sourceTextContent.description}}}
Quand Eadweard Muybridge a-t-il installé ses appareils-photo chez Leland Stanford ? ferme de cheval de s Palo Alto en 1878, il pourrait à peine n'avoir imaginé la révolution qu'il était sur le point pour étinceler. Muybridge a calé une douzaine ou plus les appareils-photo séparés utilisant des fils de déclenchement de sorte qu'elles aient déclenché dans un ordre du rapide-feu qui enregistrerait un de Stanford ? pur sangs de s à la vitesse. Les résultats photographiques ont fini une discussion parmi emballer des fervents, établissant qu'un cheval galopant a brièvement chacune des quatre jambes outre de la terre ? bien qu'il se produise tellement rapidement il ? s impossible pour que n'importe qui voie. Plus important, Muybridge bientôt a figuré dehors comment rejouer des copies des images qu'il a prises des démarches animales d'une manière dont a incité ses sujets à sembler se déplacer.
Générations de film et de caméras vidéo, y compris aujourd'hui ? les meilleurs systèmes de formation image de s, peuvent tracer leur lignée de nouveau à Muybridge ? appareils-photo boxy de s. Naturellement, l'équipement moderne emploie les détecteurs à semi-conducteur au lieu des plaques de verre, et le nombre d'armatures qui peuvent être prises chaque seconde est énormément plus grand. Mais la stratégie de base est identique : Vous capturez un ordre des images immobiles, qui une fois jouées en arrière donnent rapidement à la visionneuse l'illusion du mouvement.
Si les images doivent être analysées par un ordinateur plutôt que vues, là ? s aucun besoin de s'inquiéter de si l'illusion soit bonne, mais vous pourrait encore devoir enregistrer un bon nombre d'armatures chaque seconde pour dépister l'action correctement.
En fait, même avec un taux d'armature élevé, votre équipement peut ne pas être jusqu'à la tâche : Celui que vous essayiez d'analyser pourrait changer trop rapidement. Qu'alors faites-vous ? Beaucoup d'ingénieurs répondraient à cette question en recherchant des manières d'amplifier le taux d'image vidéo utilisant l'électronique avec une sortie plus élevée. Nous arguons du fait que vous ? d soit plus aisé reconsidérant le problème entier et concevant votre équipement visuel ainsi fonctionne-t-cela moins comme Muybridge ? les appareils-photo de s et fonctionne à la place plutôt ses yeux.
La stratégie générale de créer les systèmes de signal-traitement électroniques inspirés par les biologiques s'appelle la technologie neuromorphic. Pendant des décennies, cet effort a été un exercice dans la recherche pure, mais au cours des 10 dernières années ou ainsi, nous et d'autres investigateurs avions poursuivi cette approche pour établir les systèmes pratiques de vision. Pour comprendre comment un oeil artificiel de la sorte nous ? le VE étudiant peut surpasser même une caméra vidéo à grande vitesse, nous a laissés disabuse d'abord vous de l'idée que la manière la vitesse visuelle que moderne fonctionne est sensible.
Imaginez pour un instant qui vous ? essai re d'analyser quelque chose qui se produit vraiment rapide par exemple un pichet jetant un base-ball. Si vous essayez d'utiliser une caméra vidéo conventionnelle, qui enregistre à quelque chose comme 30 ou peut-être même à 60 images par seconde, vous ? coup manqué de ll plus du mouvement du pichet ? bras de s comme il fouette la boule vers le plat. Peut-être quelques armatures attraperont son bras dans différentes positions. Mais vous ? capture de ll relativement peu d'information d'intérêt, avec le langage figuré beaucoup superflu du pichet ? monticule de s, le gazon d'intra-champ, et d'autres parties invariables du fond. C'est-à-dire, la scène vous record serez under-- et oversampled en même temps !
Là ? s aucune manière d'éviter ce problème étant donné que toutes les pièces de la sonde d'image dans votre appareil-photo partagent une source commune de synchronisation. Tandis que cette faiblesse gagnait ? t soit un problème pour une visionneuse occasionnelle, si vous vouliez qu'un ordinateur analysât des nuances du pichet ? le mouvement de bras de s, vos données sera affligeant insatisfaisant. Dans certains cas, le post-traitement sophistiqué pourrait vous laisser dériver les résultats que vous avez voulus. Mais cette approche de force brutale vous échouerait dans les environnements avec la puissance limitée, la largeur de bande, et les ressources informatiques comme sur les dispositifs mobiles, les bourdons de multicopter, ou d'autres genres de petits robots.
La communauté de machine-vision a été coincée avec ce problème de base pendant des décennies. Mais la situation peut bientôt changer pour le meilleur pendant que nous et d'autres chercheurs développons l'équipement qui prélève différentes parties de la scène à différents taux, imitant comment l'oeil fonctionne. Avec une telle vitesse, ces parties de la scène qui contiennent des mouvements rapides sont prélevées rapidement, tout en lent-changeant des parties sont prélevées aux taux inférieurs, descendant toute la manière à zéro si rien ne change.
L'obtention des caméras vidéo pour fonctionner cette manière est rusée, parce que vous mettez ? t savent à l'avance que les parties de la scène changeront et comment rapidement ils fera ainsi. Mais comme nous exposons dans ce qui suit, l'affaire d'oeil humain et de cerveau avec ce problème toute l'heure. Et les récompenses de copier comment elles fonctionnent seraient énormes. Non seulement ferait-elle les sujets à changement rapide ? explosions, insectes en vol, brisant le verre ? plus favorable à l'analyse, il permettrait également les caméras vidéo sur des smartphones et d'autres dispositifs à piles aux mouvements ordinaires record utilisant beaucoup moins de puissance.
Les ingénieurs comparent souvent l'oeil à une caméra vidéo. Il y a quelques similitudes à être sûres, mais dans la vérité l'oeil est une création beaucoup plus compliquée. En particulier, les gens ? les rétines de s mettent ? lumière de tour de t juste dans les signaux électriques : Ils traitent le rendement de l'oeil ? cellules de photorécepteur de s des manières sophistiquées, capturant la substance d'intérêt ? changements spatiaux et temporels ? et envoyant cette information au cerveau d'une façon étonnamment efficace.
Savoir à quel point cette approche fonctionne pour des yeux, nous et d'autres étudient les systèmes de machine-vision dans lesquels chaque Pixel ajuste son propre prélèvement en réponse aux changements de la quantité de lumière d'incident qu'elle reçoit. Ce qui ? s requis pour mettre en application cet arrangement est des circuits électroniques qui peuvent dépister les amplitudes de chaque Pixel sans interruption et enregistrer des changements de ces Pixel seulement qui décalent dans le niveau lumineux par une certaine quantité prescrite très petite.
Cette approche s'appelle le prélèvement de niveau-croisement. Dans le passé, certains les ont exploré utilisant elle pour des signaux audio ? par exemple, pour vous réduire la quantité de données ? d doivent enregistrer avec le prélèvement habituel de constant-taux. Et les chercheurs scolaires avaient établi des analogues électroniques de la rétine en silicium pour des recherches depuis la fin des années 1980. Mais seulement dans la décennie passée ayez les ingénieurs essayés pour appliquer le niveau-croisement prélevant à l'acquisition en temps réel pratique des images.
Inspiré par la biologie de l'oeil et du cerveau, nous avons commencé à développer des encres en poudre contenant des rangées de sondes opérantes indépendamment de Pixel dans le 2000s tôt. Dans nos appareils-photo plus récents, chaque Pixel est fixé à un détecteur de niveau-croisement et à un circuit séparé d'exposition-mesure. Pour chaque Pixel individuel, l'électronique détectent quand l'amplitude de ce Pixel ? le signal de s atteint un seuil précédemment établi au-dessus ou au-dessous du niveau de signal dernier-enregistré, lequel au point le nouveau niveau est alors enregistré. De cette façon chaque Pixel optimise son propre prélèvement selon les changements de la lumière qu'il rentre.
Avec cet arrangement, si la quantité de lumière atteignant un Pixel indiqué change rapidement, que le Pixel est prélevé fréquemment. Si rien ne change, le Pixel cesse d'acquérir ce qui s'avérerait juste être l'information superflue et va ralenti jusqu'à ce que les choses commencent à se produire encore dans son champ visuel minuscule. Les circuits électroniques ont associé aux sorties de ce Pixel une nouvelle mesure plutôt comme un changement est détecté, et il maintient également la position dans la rangée de sonde du Pixel éprouvant ce changement. Ces sorties, ou ? événements ? sont codés selon une représentation d'événement d'adresse appelée de protocole, qui est sortie de Tailleur Mead ? laboratoire de s chez Caltech au début des années 90. Le train des événements telles sorties d'une sonde de vision ressemble ainsi au train des transitoires que vous voyez quand vous mesurez des signaux voyageant le long d'un nerf.
La clef est que l'information visuelle n'est pas acquise ou n'est pas enregistrée comme série habituelle d'armatures complètes séparées par des millisecondes. En revanche, il ? s produit à un taux beaucoup plus élevé ? mais seulement des parties de l'image où il y a de nouvelles lectures. En conséquence, juste l'information qui est appropriée est acquise, transmis, stocké, et par la suite traité par des algorithmes de machine-vision.
Nous avons conçu les circuits de niveau-croisement et d'enregistrement dans notre appareil-photo pour réagir avec la vitesse de flambage. Avec notre équipement, les temps par acquisition de données et de lecture de quelques dizaines de nanosecondes sont possibles dans des scènes brillamment allumées. Pour les niveaux standard de pièce-lumière, l'acquisition et la lecture exigent quelques dizaines de micro-secondes. Ces taux ont lieu au delà de tout sauf au delà d'aujourd'hui disponible des caméras vidéo à grande vitesse les plus sophistiquées, centaines de calcul des coûts d'appareils-photo des milliers de dollars. Et même si vous pourriez se permettre un tel appareil-photo, il vous inonderait avec la plupart du temps l'information sans valeur. L'échantillonnage de différents Pixel à différents taux, d'une part, réduit pas simplement le coût d'équipement mais également la puissance d'énergie, la largeur de bande de transmission, et les conditions de mémoire ? avantages qui se prolongent bien au delà de l'étape d'acquisition. Mais vous ? le ll gaspillent avantages si tout que vous faites est reconstruit une série d'images vidéo ordinaires des données de sorte que vous puissiez appliquer des algorithmes à traitement d'images conventionnels.
Pour ouvrir entièrement le potentiel des sondes eyelike de vision, vous devez abandonner la notion entière d'une image vidéo. Ce peut être dur pour obtenir votre tête autour, mais dès que vous ferez cela, devenez-vous libéré, et les suivants vous traitant font-ils aux données peuvent-ils résoudre les choses que vous pourriez autrement facilement manquer ? y compris les mouvements détaillés de bras de notre pichet hypothétique de base-ball.
Est-ce que ceci font, bien que, vous ? le ll doivent repenser comment vous traitez les données, et vous ? le ll doivent écrire probablement le nouveau code au lieu d'employer une bibliothèque standard de vidéo-analyse. Mais les formulations mathématiques appropriées pour ce nouveau genre de caméra vidéo sont simples et élégantes, et elles rapportent quelques algorithmes très efficaces. En effet, en s'appliquant de tels algorithmes au rendement de nos sondes autosampling de vision, nous pouvions prouver que certaines tâches en temps réel de vision pourraient être courues à un taux de dix même aux centaines de kilohertz, tandis que les techniques armature-basées conventionnelles de vidéo-analyse se sont appliquées à la même situation complétée dehors à des 60 hertz péniblement lent.
Un autre avantage d'analyser les trains de données de données presque continues de nos sondes eyelike au lieu d'une série d'images vidéo conventionnelles est que nous pouvons faire l'bon usage de la synchronisation de signal, juste comme les neurones biologiques font. C'est peut-être meilleur expliqué avec un exemple spécifique.
Supposez que vous avez voulu concevoir un robot mobile qui emploie un système de machine-vision pour diriger son environnement. Clairement, avoir une carte à trois dimensions des choses autour de lui serait utile. Ainsi vous ? d aucun équipement de doute le robot avec deux appareils-photo légèrement séparés de sorte qu'il ait eu la vision stéréo. Que beaucoup est assez simple. Mais maintenant vous devez programmer son cerveau robotique pour analyser les données qu'il reçoit de ses appareils-photo et tour qui dans une représentation de l'espace à trois dimensions.
Si les deux appareils-photo enregistrent quelque chose distincte ? laissé ? s l'indiquent ? personne de SA faisant un pas devant le robot ? il ? s assez facile d'établir combien lointain la personne est. Mais supposez que deux personnes différentes entrent dans le robot ? champ visuel de s en même temps. Ou six personnes. Établissant lesquels est ce qui dans les deux vues d'appareil-photo obtient maintenant plus provocant. Et sans pouvoir s'assurer des identités pour certain, le robot ne pourra pas déterminer la position à trois dimensions de chacun de ces obstacles humains.
Avec des sondes de vision du type nous ? le VE étudiant, de telles opérations assorties deviennent plus simple : Vous devez juste rechercher des coïncidences dans les lectures des deux appareils-photo. Si les Pixel des appareils-photo séparés enregistrent des changements très au même instant, ils observent presque certainement le même événement. L'application de quelques essais géométriques standard aux coïncidences observées peut plus loin clouer vers le bas l'allumette.
Tobi Delbrück et d'autres à ETH Zurich a démontré la puissance de cette approche en 2007 en construisant un gardien de but robotique de petite taille du football à l'aide d'une sonde eyelike qui était largement semblable au nôtre. Il a eu un temps de réaction au-dessous de 3 millisecondes. (Peter Schmeichel, mangent votre coeur dehors.) Étiez-vous à essayer de réaliser cette vitesse à l'aide d'une caméra vidéo conventionnelle, vous ? le besoin de d de trouver un qui pourrait enregistrer quelques centaines d'images par seconde, et le fardeau informatique seraient énormes. Mais avec Delbrück ? la sonde dynamique neuromorphic de vision de s, l'ordinateur courant son gardien de but du football sautillait le long à une seule charge d'unité centrale de traitement de 4 pour cent.
Comparé aux techniques visuelles standard, les sondes neuromorphic de vision offrent la vitesse accrue, la plus grande dynamique, et l'épargne en coût informatique. En conséquence, tâches exigeantes de machine-vision ? comme tracer l'environnement dans à trois dimensions, dépister les objets multiples, ou répondre rapidement aux actions perçues ? peut courir aux taux de kilohertz sur le matériel à piles bon marché. Ainsi ce genre d'équipement tiendrait compte de ? toujours-sur ? l'entrée visuelle sur les dispositifs mobiles intelligents, qui est actuellement impossible en raison de la quantité de puissance de telles tâches informatique intenses consomment.
Une autre application normale des sondes neuromorphic de vision est dans des implants rétiniens électroniques pour reconstituer la vue à ceux dont la vision a été perdue à la maladie. En effet, deux de nous (Posch et Benosman) ont aidé à fonder la vision de Pixium, une compagnie française qui a développé un implant rétinien neuromorphic, qui subit maintenant des tests cliniques. À la différence des implants de concurrence en cours de développement, qui sont armature basée, Pixium ? l'utilisation de produits de s événement-a basé le prélèvement pour fournir à des patients la stimulation visuelle. En ce moment, ces implants peuvent donner à des patients seulement une capacité générale de percevoir la lumière et les formes. Mais la technologie devrait s'améliorer vite au cours des prochaines années et peut-être un jour pourra-t-il offrir les personnes qui ont perdu leur vision normale la capacité d'identifier des visages ? toute la grâce aux rétines artificielles a inspiré par les vraies.
Vous pouvez s'attendre à ce que les sondes eyelike de vision se transforment d'aujourd'hui disponible pilote de conceptions en les formes qui jouent par la suite un grand rôle dans la technologie, la robotique, et plus médicaux. En effet, il wouldn ? t nous étonnent s'ils prouvaient juste comme séminal que Muybridge ? appareils-photo en bois de s.
Cet article est à l'origine paru dans la copie As ? Donnant à machines les yeux Humanlike. ?
Au sujet des auteurs
Ralph Etienne-Cummings et co-auteurs Christoph Posch et Ryad Benosman travaillent ensemble sur les systèmes neuromorphic de vision. Etienne-Cummings travaille à l'Université John Hopkins ; Posch et Benosman sont à l'institut de la vision, à Paris. Le trio ? la recherche commune de s s'est développée hors de leurs réunions fréquentes à un atelier d'été sur la technologie neuromorphic en tellurure, Colo. ? Beaucoup de notre collaboration est sortie de cet atelier ? dit Etienne-Cummings. ? Et beaucoup de montagne faisant du vélo. ?
{{medias[11821].description}}
{{medias[11822].description}}