Sistema de llenado

Sistema de llenado

El objetivo del sistema clasificador es optimizar la ganancia en función de la exposición a estímulos de un entorno de problema específico. Esto se logra gestionando la concesión de créditos por reglas que resulten útiles e investigando nuevas reglas y nuevas variaciones de las reglas existentes mediante un proceso evolutivo.

Los actores en el sistema de archivo incluyen sensores, mensajes, efectores, comentarios y clasificadores. Los detectores son utilizados por el sistema para percibir el estado del medio ambiente. Los mensajes son los paquetes de información transmitidos desde los detectores al sistema. El sistema procesa la información de los mensajes y los mensajes pueden conducir directamente a acciones en el medio ambiente.

Los efectores controlan las acciones del sistema sobre y en el medio ambiente. Además de que el sistema percibe activamente a través de sus detectores, también puede recibir retroalimentación dirigida del entorno (ganancia). Los clasificadores son reglas de condición-acción que proporcionan un filtro para los mensajes. Si un mensaje satisface la parte condicional del clasificador, se activa la acción del clasificador. Las reglas actúan como procesadores de mensajes. Un mensaje es una cadena de bits de longitud fija.

Un clasificador se define como una cadena ternaria con un alfabeto en {1, 0, #}, donde # representa lo que sea (correspondiente a 1 o 0).

El ciclo de procesamiento del sistema es el siguiente:

  1. Los mensajes del entorno se colocan en la lista de mensajes.
  2. Se comprueban las condiciones de cada clasificador para ver si al menos un mensaje de la lista de mensajes las cumple.
  3. Todos los clasificadores satisfechos participan en un concurso, los que ganan muestran su acción en la lista de mensajes.
  4. Todos los mensajes dirigidos a los efectores se ejecutan (provocando acciones en el entorno).
  5. Todos los mensajes de la lista de mensajes del ciclo anterior se eliminan (los mensajes persisten solo durante un ciclo).

Los sistemas Binder son adecuados para problemas con las siguientes características: eventos perpetuamente nuevos con mucho ruido, demandas continuas de acción en tiempo real, metas implícitas o inexactas establecidas y escasas ganancias o refuerzos que solo pueden lograrse mediante largas secuencias de tareas.

La tasa de aprendizaje de la ganancia, el error y la aptitud esperados de un clasificador suele estar en el rango [0,1; 0,2]. La frecuencia de ejecución delalgoritmo genético debe estar en el rango [25; 50]. El factor de descuento utilizado en programas de varios pasos suele rondar el 0,71. El error mínimo que los clasificadores consideran que tienen igual precisión suele ser 10% de la recompensa máxima. La probabilidad de cruce en el algoritmo genético es generalmente del orden de [0,5; 1.0]. La probabilidad de mutar una sola posición en un clasificador en el algoritmo genético suele estar entre [0,01; 0,05].

El umbral de experiencia durante la supresión del clasificador suele ser de alrededor de 20. El umbral de experiencia de un clasificador durante la subsunción suele ser de alrededor de 20. Los valores iniciales de ganancia esperada, error y ajuste de un clasificador son generalmente pequeños y cercanos a cero. La probabilidad de seleccionar una acción aleatoria con fines de exploración suele ser cercana a 0,5. El número mínimo de acciones diferentes que se deben especificar en un conjunto de coincidencias suele ser el número total de acciones posibles en el entorno para la entrada.

La subsunción debe usarse en dominios problemáticos que contienen reglas bien definidas para mapear entradas y salidas.

ES
FR
FR
EN
ES
Salir de la versión móvil