Une théorie de l'apprentissage des tâches motrices

Je vais montrer qu'un mécanisme d'auto-organisation est à l'oeuvre dans l'apprentissage des tâches motrices.

Dans ce but, je considère la tâche consistant à maintenir un pendule en position renversée en contrôlant la position de son axe le long d'un axe horizontal.

Le mécanisme de contrôle est une carte auto-organisatrice de Kohonen avec 64 cellules, dont les entrées sont l'angle et la vitesse angulaire du pendule. L'angle est de 0 en bas, pi/2 à droite, et pi en haut. Quand le pendule est à gauche, nous considérons son symétrique, c'est-à-dire que nous prenons l'opposé de l'angle et de la vitesse angulaire du pendule et de l'accélération de son axe. Les poids des entrées sont appelés "champ réceptif".

Le mouvement du pendule est contrôlé en donnant une accélération à son axe en fonction de la cellule du réseau activée (on sait qu'une seule est activée à la fois dans une carte auto-organisatrice). La valeur de l'accélération en fonction de la cellule activée est appelée "champ projectif".

Ma théorie est que le champ réceptif seul est concerné dans l'apprentissage des tâches motrices. Le comportement du système est modifié en réglant les poids d'entrée (par le mécanisme d'apprentissage habituel, non supervisé d'une carte auto-organisatrice), tandis que l'ensemble des actions possibles reste le même pendant tout le processus : le résultat du processus dépend de ce que le système peut faire (de par sa constitution), pas de ce qu'il doit faire comme dans les processus d'apprentissage supervisés.

Le champ projectif n'étant pas concerné dans le processus d'apprentissage, on doit le déterminer à la main avant le départ. Pour l'expérimentation présente, il a été trouvé par tâtonnement. Le paysage ci-dessous représente l'accélération en fonction des coordonnées de la cellule activée dans la carte auto-organisatrice.

Une autre manière de calculer le champ projectif serait par algorithme génétique, avec par exemple le temps passé par le pendule au dessus de son axe comme fonction de fitness. Si on inclut la taille et la topologie du réseau comme paramètres additionnels à optimiser, on obtient un modèle très plausible de ce qui est à l'oeuvre dans les organismes vivants réels, sachant que la carte auto-organisatrice elle-même a déjà une bonne plausibilité biologique.

Pourquoi les coefficients du champ projectif devraient-ils apparaître génétiquement ? Hé bien, dans notre modèle, un coefficient dans le champ projectif (en tant que force de l'action déclenchée par l'activation d'un neurone) est en fait indistingable d'une caractéristique physique en tant que telle : ce pourrait être la force d'un muscle, par exemple. C'est pourquoi il ne doit pas être inclus dans le réglage des poids de la session d'apprentissage, mais plutôt dans un processus évolutif qui décidera de ce que le système pourra faire (marcher ? on a besoin de jambes, ...), et comment (avec quelle force, quelle rapidité, ...).

Voici une applet de démonstration du système envisagé. Quelquefois on peut voir un comportement intéressant : la faculté du système de lever le pendule et de le garder en équilibre pendant un moment.

Voici quelques données quantitatives sur le comportement du système sans et avec apprentissage. Le temps passé au-dessus de l'axe est calculé sur 1000 sessions individuelles de 1000 itérations (100 secondes) chacune. Les sessions avec apprentissage consistent en une session préliminaire d'apprentissage effectif de 1000 itérations, suivie d'une session additionnelle de 1000 itérations pour l'évaluation.

Voici le code source des applets de démonstration.

Références

[1] Helge Ritter, Thomas Martinetz, and Klaus Schulten. Textbook: Neural Computation and Self-Organizing Maps: An Introduction. Addison-Wesley, New York, revised English edition, 1992

created on Sat Jan 6 2001