Art 2
Art 2
Art 2
Resumen
Se compara el desempeño de dos métodos diferentes para controlar los estados de un sistema simulado de un tanque,
utilizando los conceptos de Programación Dinámica Heurística. El desempeño es medido en términos de su capacidad
de aprendizaje, tiempo de entrenamiento y manejo del ruido. El objetivo de los algoritmos es hacer que la temperatura
del tanque siga una referencia dada. Para esta tarea, el Enfoque Estocástico aprende a controlar el sistema más
ágilmente; sin embargo, el Enfoque Determinístico maneja mejor el ruido en la salida del sistema. Más aún, si la señal
de referencia está constantemente variando, el Enfoque Determinístico controla mejor el sistema.
Abstract
The performance of two methods is compare on controlling the states of a simulated tank system using Heuristic
Dynamic Programming concepts. The performance is measure in terms of learnability, training time and noise
handling. The goal of the algorithms is to make the tank’s temperature track a given reference. For this task, the
Stochastic Aproach method learned to control the system faster; however, the Deterministic Approach handled the
system’s output noise better. Nevertheless, if the reference signal is constantly changing, the Deterministic Approach
would prove to control better the system.
La solución que la teoría de control clásica Las ventajas de estas estrategias residen en
señala, está basada en el concepto del lazo de que no requieren conocer la función de la
retroalimentación, como se presenta en la Figura 2. planta explícitamente, como se describe en la
ecuación (1).
Un controlador, C, es construido con la capacidad
de alterar, u, la señal de entrada al sistema, tal La idea detrás de estos algoritmos está basada
que el error, e = r – y, se mantenga cerca de cero. en el hecho de que existe un sistema con ciertos
La desventaja de este método es que, para diseñar estados iniciales. Para llevar la salida del sistema
el controlador, se requiere la función de la planta a una cierta referencia, los estados del sistema
f en la ecuación (1). deben ser trasladados a otros valores. La Figura
6 muestra esta situación para un sistema de dos
Una red neuronal hace uso de aprendizaje estados.
no lineal, procesamiento en paralelo y de
generalización, haciendo esta técnica la opción Aplicando al sistema una señal de entrada
inteligente cuando la función de la planta no se determinada, u(t) - una tarea específica del
conoce. Muchos intentos se han realizado para controlador-, los estados X = (X0, X1) se trasladan
aplicar redes neuronales multicapa al campo del a los valores óptimos, pero únicamente si el
control automático. Estos controladores pueden sistema es controlable. Estos valores son óptimos
ser clasificados en tres grandes áreas: porque en ese punto en el espacio, producen
la salida deseada. Sin embargo, hay cientos
• Control Supervisado: Una red neuronal de caminos que el sistema puede tomar. Por lo
aprende el mapeo desde las entradas, y traslada tanto, el diseñador debe seleccionar uno de estos
las entradas hasta las acciones deseadas, por caminos tal que se minimice un determinado
medio del entrenamiento de lo que debe hacer indicador.
la red neuronal (Asada y Liu, 1991).
Utilizando la teoría de programación dinámica
• Control Inverso: Una red neuronal aprende (PD), muchas técnicas distintas se han
el comportamiento inverso del sistema desarrollado para resolver este problema (White
(Psaltis, Sideris y Yamamura, 1988). Este tipo y Jordan, 1988). El punto radica en mover los
de control puede presentar serios problemas estados del sistema para que produzcan la salida
si la función f no tiene inversa. deseada. Sin embargo, la entrada de control que
se aplica al sistema se selecciona de tal forma que
• Control Adaptivo Neuronal: Una red minimice un criterio de desempeño, J (x, u), que
neuronal es utilizada para identificar el el diseñador preliminarmente ha establecido. PD
comportamiento del sistema y predecir futuras alcanza el menor índice de desempeño tomando
salidas del proceso utilizando una red neuronal un paso a la vez en el camino óptimo desde (t)
como emulador (Narendra y Parthasarathy, hasta (t + 1), y adicionando el mínimo costo de
1990). El controlador está basado en la estar en (t + 1) hasta el estado final (tf). La Figura
minimización del error predicho. 7 describe la situación.
GÓlCHER: Control adaptivo utilizando... 89
Ahora el problema de seleccionar el camino óptimo Para implementar PDH se deben construir dos
se ha descompuesto en pasos simples. Básicamente, redes neuronales: una que predice J *t , t f , llamada la
un indicador de desempeño es minimizado con la Red Crítica (del verbo criticar), y otra para generar
restricción correspondiente al modelo de la planta. la acción de control u(t), denominada la Red de
Acción. La Figura 8 muestra sus conexiones.
Un índice de desempeño típico J(x,u) es
Aunque existen pequeñas diferencias, la mayoría
de implementaciones PDH usualmente siguen los
(3) pasos básicos, que se describen a continuación.
Con un modelo de la planta, los estados futuros Esta idea puede ser implementada con un simple
pueden ser estimados si una acción u es tomada. algoritmo, el cual perturba u para calcular la
Esto permite calcular si el futuro indicador de derivada. Otra opción es construir una red
desempeño es menor que el costo presente. neuronal y enseñarle con:
cuales se obtienen haciendo un barrido a través Este barrido por el espacio de estados es posible en
de la entrada desde el estado de 1 °C a 80 °C, y el marco de la simulación, pero en el caso de un
seleccionando valores aleatorios para la entrada sistema físico, puede no ser posible, dado que, no
de control. Las salidas meta son las respuestas se conoce cuál entrada de control genera un estado
que el proceso exhibe para esos patrones. La red determinado. Por lo tanto, el barrido debe realizarse
neuronal es enseñada utilizando el método de explorando el espacio de estados, tan sabiamente
retropropagación por lote. como sea posible con la entrada de control.
En la Figura 13, el error es graficado contra 40 °C. La pendiente de la curva decrece conforme
las épocas de aprendizaje. Con setecientas el número de épocas aumenta, dado que la derivada
épocas, el error es aproximadamente cero; esto del futuro costo descontado tiende a cero. En la
significa que la red neuronal aprende muy bien Figura 15 se observa como la acción de control,
los patrones de entrenamiento, pero no tiene una u, está minimizando el costo futuro descontado,
buena generalización en el resto del espacio de haciendo la pendiente siempre negativa.
entradas. Muchos puntos de parada se probaron
y en quinientas épocas se encuentra que la red Después de que la salida ha alcanzado 40 °C, la
generaliza bien. El aprendizaje del modelo de la referencia se cambia a 60 °C. De nuevo, de la Figura
planta es laborioso, aunque la planta es lineal, de 16, le toma al sistema alrededor de cuatrocientas
una entrada y una salida. Es considerablemente cincuenta épocas para lograr la meta. Las épocas
difícil conocer el mejor punto para detener el se pueden traducir en pasos en el tiempo, con el
entrenamiento, dado que el conjunto de patrones conocimiento de un periodo de muestreo:
de validación es el resto del espacio positivo
bidimensional del conjunto de entrada.
Paso en el tienpo = (época) • (periodo de muestreo)
Una vez que la red neuronal generaliza bien el (10)
modelo de la planta, el sistema de control se simula
con un estado inicial de 25 °C y una referencia a Adicionalmente, el sistema se prueba con ruido en
alcanzar de 40 °C. La Figura 14 muestra que la la salida del proceso térmico. El ruido adicional
Red Crítica ha aprendido a predecir el futuro costo corresponde a una distribución normal con medio
descontado. Asimismo, el estado, después de un 2 y desviación estándar 0,5 °C (Figura 17). Le
hundimiento en las primeras épocas, comienza a toma al sistema aproximadamente mil épocas en
seguir la referencia. En cuatrocientos cincuenta alcanzar la referencia, en donde tiene una mínima
épocas, la salida está prácticamente cerca de los oscilación.
Figura 17. Enfoque Determinístico: Salida de temperatura con referencia incluyendo ruido.
Fuente: (El autor).
Ambas arquitecturas de Programación Dinámica Asada, H. & Liu , S. (1991). Transfer of human
Heurística aprenden a controlar el sistema térmico. skills to neural net robot controllers. Robot
No obstante, el Enfoque Estocástico es más and Automation, 7(23), 2442-2448.
rápido que el enfoque Determinístico. Por otro
lado, si la referencia tiene constantes cambios, Gullapalli, V. (1990). A stochastic learning
el Enfoque Determinístico trabaja mejor, ya que algorithm for real-value functions. IEEE
no tiene que aprender la función del proceso de Transactions on Neural Networks, 3(1),
nuevo, y porque la red neuronal del modelo de la 671-692.
planta continúa aprendiendo en línea.
Miller, K., Sutton, T. & Werbos, H. (1990).
El entrenamiento del modelo de la planta es una Neural networks for control. Cambridge,
tarea laboriosa. El proceso simulado en este artículo MA: The MIT Press.
es muy sencillo. Se eligió de esta manera para
poder llevar el control de los procesos internos de Narendra, K. & Parthasarathy, K. (1990).
las redes neuronales. En la práctica, no obstante, las Identification and control of dynamical
redes neuronales son útiles en el área del control systems using neural Networks. IEEE
automático cuando se tienen plantas no lineales con Transactions on Neural Networks, 1(1),
múltiples entradas y salidas. El tiempo de aprendizaje 4-27.
de estas funciones incrementará significativamente,
haciendo el Enfoque Estocástico más conveniente. Psaltis, D., Sideris, A. & Yamamura, A.A.
(1988). A multilayered neural network
La selección de la función de refuerzo puede controller. IEEE Control Systems Magazine,
ser también una tarea laboriosa y si la selección 4(1), 17-20.
correcta no se realiza, la Red SRV podría requerir
más épocas para controlar la planta. White, D. A. & Jordan, M.I. (1988). Optimal
Control: A Foundation for Intelligent
No obstante, para sistemas con señales ruidosas, Control. Handbook for Intelligent Control,
es mejor utilizar el Enfoque Determinístico por 1(4), 717-756.
su probada superioridad ante el ruido.
Sobre EL autor
5. Trabajos Futuros
Luis A. Gólcher Barguil
Trabajos futuros deben estudiar el desempeño de Ingeniero Eléctrico.
estos enfoques en sistemas no lineales – en donde Máster en Ciencias de la Ingeniería Eléctrica
las redes neuronales son más útiles dado que no Profesor de la Escuela de Ingeniería Eléctrica de
se requiere linealizar la planta – con múltiples la Universidad de Costa Rica.
entradas y salidas, para determinar en dónde se Teléfono: 506 8837.9460.
desempeñan mejor. Correo electrónico: luis.golcher@gnecorp.com