Perceptron - Sistemas complejos e IA

Contenido

Perceptrón

El Perceptron está inspirado en el procesamiento de información de una sola célula neuronal (llamada neurona). Una neurona acepta señales de entrada a través de su axón, que transmite la señal eléctrica al cuerpo celular. Las dendritas transmiten la señal a las sinapsis, que son las conexiones de las dendritas de una célula con los axones de otras células. En una sinapsis, la actividad eléctrica se convierte en actividad molecular (moléculas de neurotransmisores que cruzan la hendidura sináptica y se unen a los receptores). El enlace molecular desarrolla una señal eléctrica que se transmite al axón de las células conectadas.

El objetivo de procesamiento de información de la técnica es modelar una función dada cambiando los pesos internos de las señales de entrada para producir una señal de salida esperada. El sistema se entrena utilizando un método de aprendizaje supervisado, donde el error entre la salida del sistema y una salida esperada conocida se presenta al sistema y se utiliza para modificar su estado interno. El estado se mantiene en un conjunto de pesos en las señales de entrada. Los pesos se utilizan para representar una abstracción del mapeo de los vectores de entrada a la señal de salida para los ejemplos a los que se expuso el sistema durante el entrenamiento.

El Perceptron se compone de una estructura de datos (pesos) y procedimientos separados para formar y aplicar la estructura. La estructura es realmente solo un vector de peso (uno para cada entrada esperada) y un término de sesgo.

El siguiente algoritmo proporciona una pseudocódigo para aprender el Perceptrón. Se inicializa un peso para cada entrada más un peso adicional para un sesgo constante que casi siempre se establece en 1.0. La activación de la red en un patrón de entrada dado se calcula de la siguiente manera:

donde n es el número de pesos y entradas, x_ki es el atributo k-ésimo en el patrón de entrada i-ésimo, y w_bias es el peso del sesgo. Los pesos se actualizan de la siguiente manera:

donde w_i es el i-ésimo peso en los tiempos t y t + 1, α es la tasa de aprendizaje, e (t) y a (t) son la salida real esperada en el momento t, y x_i es la i-ésima entrada. Este proceso de actualización se aplica a cada peso por turno (así como al peso sesgado con su entrada).

El Perceptron se puede usar para aproximar funciones lineales arbitrarias y se puede usar para problemas de regresión o clasificación. El Perceptron no puede aprender un mapeo no lineal entre los atributos de entrada y salida. El problema XOR es un ejemplo clásico de un problema que el Perceptron no puede aprender.

Los valores de entrada y salida deben normalizarse de manera que cada x esté en [0; 1]. La tasa de aprendizaje α en [0; 1] controla la cantidad de cambio que tiene cada error en el sistema, las enseñanzas más bajas son comunes, como 0.1. Los pesos se pueden actualizar en línea (después de la exposición a cada patrón de entrada) o en lotes (después de que se haya observado un número fijo de patrones). Las actualizaciones por lotes deberían ser más estables que las actualizaciones en línea para algunos problemas complejos.

Se utiliza un peso de polarización con una señal de entrada constante para garantizar la estabilidad del proceso de aprendizaje. Una función de transferencia por pasos se usa comúnmente para transferir la activación a un valor de salida binaria 1<–activación ≥ 0, de lo contrario 0. Se recomienda exponer el sistema a patrones de entrada en un orden aleatorio diferente para cada iteración. Los pesos iniciales suelen ser pequeños valores aleatorios, generalmente en [0; 0,5].