Système de classeurs

Contenus

L’objectif du système de classeurs est d’optimiser le gain en fonction de l’exposition aux stimuli d’un environnement spécifique au problème. Ceci est réalisé en gérant l’attribution de crédit pour les règles qui s’avèrent utiles et en recherchant de nouvelles règles et de nouvelles variations sur les règles existantes à l’aide d’un processus évolutif.

Les acteurs du système de classeurs comprennent des détecteurs, des messages, des effecteurs, des commentaires et des classificateurs. Les détecteurs sont utilisés par le système pour percevoir l’état de l’environnement. Les messages sont les paquets d’informations transmis des détecteurs au système. Le système effectue le traitement des informations sur les messages, et les messages peuvent entraîner directement des actions dans l’environnement.

Les effecteurs contrôlent les actions du système sur et dans l’environnement. En plus du système percevant activement via ses détecteurs, il peut également recevoir un retour dirigé de l’environnement (gain). Les classificateurs sont des règles de condition-action qui fournissent un filtre pour les messages. Si un message satisfait la partie conditionnelle du classificateur, l’action du classificateur se déclenche. Les règles agissent comme des processeurs de messages. Un message est une chaîne de bits de longueur fixe.

Un classificateur est défini comme une chaîne ternaire avec un alphabet en {1, 0, #}, où le # représente peu importe (correspondant à 1 ou 0).

La boucle de traitement du système est la suivante:

Les messages de l’environnement sont placés dans la liste des messages.
Les conditions de chaque classificateur sont vérifiées pour voir si elles sont satisfaites par au moins un message dans la liste des messages.
Tous les classificateurs satisfaits participent à un concours, ceux qui gagnent affichent leur action dans la liste des messages.
Tous les messages dirigés vers les effecteurs sont exécutés (provoquant des actions dans l’environnement).
Tous les messages de la liste des messages du cycle précédent sont supprimés (les messages persistent pour un seul cycle).

Les systèmes de classeurs sont adaptés aux problèmes présentant les caractéristiques suivantes : événements perpétuellement nouveaux avec un bruit important, exigences continues en temps réel pour l’action, objectifs définis implicitement ou inexactement, et gains ou renforts clairsemés qui ne peuvent être obtenus qu’à travers de longues séquences de tâches.

Le taux d’apprentissage pour le gain, l’erreur et la fitness attendus d’un classificateur se situent généralement dans la plage [0,1; 0,2]. La fréquence d’exécution de l’algorithme génétique doit se situer dans la plage [25; 50]. Le facteur d’actualisation utilisé dans les programmes en plusieurs étapes se situe généralement autour de 0,71. L’erreur minimale selon laquelle les classificateurs sont considérés comme ayant une précision égale est généralement de 10% de la récompense maximale. La probabilité de croisement dans l’algorithme génétique est généralement de l’ordre de [0,5; 1.0]. La probabilité de muter une position unique dans un classeur dans l’algorithme génétique est généralement comprise entre [0,01; 0,05].

Le seuil d’expérience pendant la suppression du classificateur est généralement d’environ 20. Le seuil d’expérience pour un classificateur pendant la subsomption est généralement d’environ 20. Les valeurs initiales pour le gain, l’erreur et l’adéquation attendus d’un classificateur sont généralement petites et proches de zéro. La probabilité de sélectionner une action aléatoire à des fins d’exploration est généralement proche de 0,5. Le nombre minimum d’actions différentes qui doivent être spécifiées dans un ensemble de correspondances est généralement le nombre total d’actions possibles dans l’environnement pour l’entrée.

La subsomption doit être utilisée sur les domaines problématiques qui contiennent des règles bien définies pour mapper les entrées aux sorties.