Contenido
PalancaSistema de llenado
El objetivo del sistema de clasificación es optimizar la ganancia en función de la exposición a estímulos de un entorno específico del problema. Esto se logra administrando la asignación de crédito para las reglas que resultan útiles e investigando nuevas reglas y variaciones de las reglas existentes mediante un proceso evolutivo.
Los actores en el sistema de archivo incluyen sensores, mensajes, efectores, comentarios y clasificadores. Los detectores son utilizados por el sistema para percibir el estado del medio ambiente. Los mensajes son los paquetes de información transmitidos desde los detectores al sistema. El sistema procesa la información de los mensajes y los mensajes pueden conducir directamente a acciones en el medio ambiente.
Los efectores controlan las acciones del sistema sobre y en el medio ambiente. Además de que el sistema percibe activamente a través de sus detectores, también puede recibir retroalimentación dirigida del entorno (ganancia). Los clasificadores son reglas de condición-acción que proporcionan un filtro para los mensajes. Si un mensaje satisface la parte condicional del clasificador, se activa la acción del clasificador. Las reglas actúan como procesadores de mensajes. Un mensaje es una cadena de bits de longitud fija.
Un clasificador se define como una cadena ternaria con un alfabeto en {1, 0, #}, donde # representa lo que sea (correspondiente a 1 o 0).
El ciclo de procesamiento del sistema es el siguiente:
- Los mensajes del entorno se colocan en la lista de mensajes.
- Se comprueban las condiciones de cada clasificador para ver si al menos un mensaje de la lista de mensajes las cumple.
- Todos los clasificadores satisfechos participan en un concurso, los que ganan muestran su acción en la lista de mensajes.
- Todos los mensajes dirigidos a los efectores se ejecutan (provocando acciones en el entorno).
- Todos los mensajes de la lista de mensajes del ciclo anterior se eliminan (los mensajes persisten solo durante un ciclo).
Los sistemas Binder son adecuados para problemas con las siguientes características: eventos perpetuamente nuevos con mucho ruido, demandas continuas de acción en tiempo real, metas implícitas o inexactas establecidas y escasas ganancias o refuerzos que solo pueden lograrse mediante largas secuencias de tareas.
La tasa de aprendizaje para la ganancia, el error y la aptitud esperados de un clasificador suele estar en el rango [0,1; 0,2]. La frecuencia de ejecución de laalgoritmo genético debe estar en el rango [25; 50]. El factor de descuento utilizado en los programas de varios pasos suele rondar el 0,71. El error mínimo que se considera que los clasificadores tienen la misma precisión suele ser 10% de la recompensa máxima. La probabilidad de cruce en el algoritmo genético es generalmente del orden de [0.5; 1.0]. La probabilidad de mutar una sola posición en un libro de trabajo en el algoritmo genético suele estar entre [0.01; 0,05].
El umbral de experiencia durante la supresión del clasificador suele ser de alrededor de 20. El umbral de experiencia para un clasificador durante la subsunción suele ser de alrededor de 20. Los valores iniciales para la ganancia esperada, el error y la adecuación de un clasificador suelen ser pequeños y cercanos a cero. La probabilidad de seleccionar una acción aleatoria para la exploración es generalmente cercana a 0.5. El número mínimo de acciones diferentes que deben especificarse en un conjunto de coincidencias suele ser el número total de acciones posibles en el entorno para la entrada.
La subsunción debe usarse en dominios problemáticos que contienen reglas bien definidas para mapear entradas y salidas.