Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
0% encontró este documento útil (0 votos)
28 vistas17 páginas

Art 2

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 17

Ingeniería 17 (2): 87-102, ISSN: 1409-2441; 2007.

San José, Costa Rica

CONTROL ADAPTIVO UTILIZANDO PROGRAMACIÓN


DINÁMICA HEURÍSTICA

Luis Alejandro Gólcher Barguil

Resumen

Se compara el desempeño de dos métodos diferentes para controlar los estados de un sistema simulado de un tanque,
utilizando los conceptos de Programación Dinámica Heurística. El desempeño es medido en términos de su capacidad
de aprendizaje, tiempo de entrenamiento y manejo del ruido. El objetivo de los algoritmos es hacer que la temperatura
del tanque siga una referencia dada. Para esta tarea, el Enfoque Estocástico aprende a controlar el sistema más
ágilmente; sin embargo, el Enfoque Determinístico maneja mejor el ruido en la salida del sistema. Más aún, si la señal
de referencia está constantemente variando, el Enfoque Determinístico controla mejor el sistema.

Palabras clave: control, adaptivo, neuronal.

Abstract

The performance of two methods is compare on controlling the states of a simulated tank system using Heuristic
Dynamic Programming concepts. The performance is measure in terms of learnability, training time and noise
handling. The goal of the algorithms is to make the tank’s temperature track a given reference. For this task, the
Stochastic Aproach method learned to control the system faster; however, the Deterministic Approach handled the
system’s output noise better. Nevertheless, if the reference signal is constantly changing, the Deterministic Approach
would prove to control better the system.

Key words: control, adaptive, neural.

Recibido: 10 de enero del 2008 • Aprobado: 20 de febrero del 2008

En las décadas pasadas, se ha desarrollado una gran 1. Introducción


variedad de métodos para controlar los procesos
industriales [1]. Entre estos se encuentran los que Suponga que se tiene un sistema de una entrada y
se basan en la teoría de Programación Dinámica una salida, como el que se muestra en la Figura 1.
[5]. Este trabajo compara dos enfoques diferentes
para implementar un algoritmo de programación El sistema transforma la señal de entrada, u, en
dinámica en el control de la temperatura de un una señal, y, tal que
tanque. El estudio está motivado por la falta de
comparaciones entre estos distintos métodos. (1)

en donde f es una función lineal o no-lineal y x


son los estados del sistema. Ahora, presuma que
la señal de salida, y, del sistema necesita ser igual
a un valor constante, r. Esto conlleva al problema
Figura 1. Diagrama de bloques del sistema. de determinar cuál entrada, u, produce la salida
Fuente: (El autor). deseada, r, llamada la referencia.
88 Ingeniería 17 (2): 87-102, ISSN: 1409-2441; 2007. San José, Costa Rica

Figura 2. Sistema de control con retroalimentación.


Fuente: (El autor).

La solución que la teoría de control clásica Las ventajas de estas estrategias residen en
señala, está basada en el concepto del lazo de que no requieren conocer la función de la
retroalimentación, como se presenta en la Figura 2. planta explícitamente, como se describe en la
ecuación (1).
Un controlador, C, es construido con la capacidad
de alterar, u, la señal de entrada al sistema, tal La idea detrás de estos algoritmos está basada
que el error, e = r – y, se mantenga cerca de cero. en el hecho de que existe un sistema con ciertos
La desventaja de este método es que, para diseñar estados iniciales. Para llevar la salida del sistema
el controlador, se requiere la función de la planta a una cierta referencia, los estados del sistema
f en la ecuación (1). deben ser trasladados a otros valores. La Figura
6 muestra esta situación para un sistema de dos
Una red neuronal hace uso de aprendizaje estados.
no lineal, procesamiento en paralelo y de
generalización, haciendo esta técnica la opción Aplicando al sistema una señal de entrada
inteligente cuando la función de la planta no se determinada, u(t) - una tarea específica del
conoce. Muchos intentos se han realizado para controlador-, los estados X = (X0, X1) se trasladan
aplicar redes neuronales multicapa al campo del a los valores óptimos, pero únicamente si el
control automático. Estos controladores pueden sistema es controlable. Estos valores son óptimos
ser clasificados en tres grandes áreas: porque en ese punto en el espacio, producen
la salida deseada. Sin embargo, hay cientos
• Control Supervisado: Una red neuronal de caminos que el sistema puede tomar. Por lo
aprende el mapeo desde las entradas, y traslada tanto, el diseñador debe seleccionar uno de estos
las entradas hasta las acciones deseadas, por caminos tal que se minimice un determinado
medio del entrenamiento de lo que debe hacer indicador.
la red neuronal (Asada y Liu, 1991).
Utilizando la teoría de programación dinámica
• Control Inverso: Una red neuronal aprende (PD), muchas técnicas distintas se han
el comportamiento inverso del sistema desarrollado para resolver este problema (White
(Psaltis, Sideris y Yamamura, 1988). Este tipo y Jordan, 1988). El punto radica en mover los
de control puede presentar serios problemas estados del sistema para que produzcan la salida
si la función f no tiene inversa. deseada. Sin embargo, la entrada de control que
se aplica al sistema se selecciona de tal forma que
• Control Adaptivo Neuronal: Una red minimice un criterio de desempeño, J (x, u), que
neuronal es utilizada para identificar el el diseñador preliminarmente ha establecido. PD
comportamiento del sistema y predecir futuras alcanza el menor índice de desempeño tomando
salidas del proceso utilizando una red neuronal un paso a la vez en el camino óptimo desde (t)
como emulador (Narendra y Parthasarathy, hasta (t + 1), y adicionando el mínimo costo de
1990). El controlador está basado en la estar en (t + 1) hasta el estado final (tf). La Figura
minimización del error predicho. 7 describe la situación.
GÓlCHER: Control adaptivo utilizando... 89

Figura 3. Control Supervisado.


Fuente: (El autor).

Figura 4. Control Inverso.


Fuente: (El autor).

Figura 5. Control Adaptivo.


Fuente: (El autor).
90 Ingeniería 17 (2): 87-102, ISSN: 1409-2441; 2007. San José, Costa Rica

Figura 6. Espacio de estados de un sistema de segundo orden.


Fuente: (El autor).

Figura 7. Enfoque de la Programación Dinámica.


Fuente: (El autor).
GÓlCHER: Control adaptivo utilizando... 91

Si se representa el mínimo índice de desempeño o 2. Programación Dinámica


el mínimo costo con J *tʼt f , que se puede alcanzar Heurística
desde el paso (t) hasta el paso (tf), entonces PD
establece que Un enfoque de PD es llamado Programación
Dinámica Heurística (PDH) (White y Jordan,
1988); éste comparte la idea de una tercera red
(2) neuronal del Control Adaptivo Neuronal, como
se describió anteriormente. Una entrada de
excitación, u(t), es seleccionada tal que minimice
los valores futuros de una función de costo J *t +1,
en donde J tʼt +1 es el costo de tomar un paso en t f . La minimización se obtiene calculando una
el camino óptimo y J * t t +1, tf es el mínimo costo función J ^t , t f para predecir la suma descontada
alcanzable desde el paso t + 1hasta tf . del costo futuro.

Ahora el problema de seleccionar el camino óptimo Para implementar PDH se deben construir dos
se ha descompuesto en pasos simples. Básicamente, redes neuronales: una que predice J *t , t f , llamada la
un indicador de desempeño es minimizado con la Red Crítica (del verbo criticar), y otra para generar
restricción correspondiente al modelo de la planta. la acción de control u(t), denominada la Red de
Acción. La Figura 8 muestra sus conexiones.
Un índice de desempeño típico J(x,u) es
Aunque existen pequeñas diferencias, la mayoría
de implementaciones PDH usualmente siguen los
(3) pasos básicos, que se describen a continuación.

Para un entrenamiento en línea, los pasos básicos


de PDH, en el paso t, son:
en donde y es la salida del sistema, r es la señal
de referencia, ρ es el factor costo y u es la entrada 1. Obtenga y almacene los estados del sistema
al sistema. x(t).

Si ρ es cero, la forma de minimizar J (x, u) es 2. Con la Red Crítica genere J ^t , t f .


seleccionando una entrada u tal que y = r. Si ρ es
mayor que cero, entonces un factor de energía de 3. Con la Red de Acción calcule u(t) = Ax(t).
entrada es incorporado al índice de desempeño.
Esto implica que un valor mínimo de entrada, u, 4. Obtenga x(t + 1), ya sea esperando hasta t + 1 o
se debe seleccionar tal que y = r. prediciendo x(t + 1) = f(x(t), u(t)).

Es necesario predecir el término del lado izquierdo 5. Calcule


de la ecuación (2) y el segundo término del lado
derecho de la misma ecuación. Después de haber
predicho estos términos, la mejor acción, u, que (4)
minimiza estos dos términos, debe ser encontrada.
Una forma de determinar este valor es predecir
J *t +1, t f para todos los posibles valores de u en el donde el primer término en el lado derecho
paso t + 1; y luego evaluar cuál acción causa el de la ecuación es el costo de tomar un paso
menor J *t +1, t f . El problema con este enfoque es en el camino óptimo; el último término
que requiere de una gran cantidad de cálculos en el lado derecho de la ecuación es el
computacionales. En la próxima sección, otro indicador de desempeño para x(t + 1), y la
enfoque es presentado. constante λ (entre 0 y 1) es un factor de
92 Ingeniería 17 (2): 87-102, ISSN: 1409-2441; 2007. San José, Costa Rica

descuento para futuras predicciones. El estimado J^ t + 1, t f (x + 1). Por simplicidad, se asume


factor de descuento controla la longitud que J es explícitamente independiente de u(t) o
del horizonte finito, sobre el cual ocurre la que ρ es cero. Si ρ es mayor que cero, entonces
planificación. se requiere adicionar otra entrada a la Red Crítica,
u(t). El modelo de la planta es una red neuronal
6. Actualice la Red Crítica en t con que ha aprendido la función f en ecuación (1).
Esta red neuronal debe aprender el modelo antes
de implementar el aprendizaje en línea PDH.
(5) Una vez que tiene la habilidad de generalizar
correctamente el proceso real, puede seguir
aprendiendo durante el entrenamiento en línea.
7. Actualice la Red de Acción en t .

8. Repita los pasos del 1 al 7 hasta que el error


del estimado de la Red Crítica y de la Red de
Acción se encuentre dentro de un rango pre-
especificado.

El paso 7 se puede desarrollar en dos formas


distintas, las cuales conllevan a diferentes
arquitecturas para implementar PDH.

La primera se denomina Enfoque Determinístico


y está basada en la arquitectura mostrada en la
Figura 9 (Miller, Sutton y Werbos, 1990).

Se compone de dos redes neuronales. El papel de


la Red Crítica es calcular J t , t f (x), el indicador de
desempeño, estimando J^ t , t f (x). La Red Crítica Figura 9. Enfoque Determinístico.
aprende por la Ecuación (5) con un indicador Fuente: (El autor).

Figura 8. Arquitectura General de PDH.


Fuente: (El autor).
GÓlCHER: Control adaptivo utilizando... 93

Con un modelo de la planta, los estados futuros Esta idea puede ser implementada con un simple
pueden ser estimados si una acción u es tomada. algoritmo, el cual perturba u para calcular la
Esto permite calcular si el futuro indicador de derivada. Otra opción es construir una red
desempeño es menor que el costo presente. neuronal y enseñarle con:

Básicamente u debe ser seleccionada tal que


J^ t + 1, t f (x + 1) sea mínimo. Esto puede ser
ejecutado calculando las derivadas parciales del (6)
indicador de desempeño futuro con respecto a
u, tomándolos de la Red Crítica y el modelo de
la planta:
donde B es un factor de escalamiento, el cual
provee usualmente una convergencia más rápida
y un aumento de estabilidad.

El segundo punto de vista es el Enfoque


Con esta ecuación, la acción u se selecciona Estocástico, y está basado en la arquitectura de
tal que su derivada sea siempre negativa. Si u la Figura 11.
produce una derivada negativa, entonces esta
acción está minimizando J^ t + 1, t f . Si u produce Se compone de dos redes neuronales: la Red
una derivada positiva, entonces la acción está Crítica y la Red SRV (por sus siglas en inglés,
maximizando J^ t + 1, t f y la dirección de la acción Stochastic Real Value Network). La Red Crítica
debe ser cambiada. La Figura 10 muestra esta tiene la misma función que su homólogo en el
situación. Enfoque Determinístico, y si le enseña con la

Figura 10. Seleccionando la acción, u.


Fuente: (El autor).
94 Ingeniería 17 (2): 87-102, ISSN: 1409-2441; 2007. San José, Costa Rica

misma función de error en ecuación(5). La Red


SRV (Gullapalli, 1990) explora el espacio de (8)
entradas para maximizar una señal de refuerzo, r,

Consecuentemente, la única forma de minimizar


(7) la ecuación(8) es haciendo y = r.

En ambos enfoques, la Red Crítica es la misma.


De esta forma, para maximizar el refuerzo que Esta consiste de una unidad de entrada, una
la Red SRV recibe de una acción determinada, capa intermedia de tres unidades, y una unidad
la salida u tiene que minimizar el costo presente. de salida. Las capas están completamente
Dado que un modelo de la planta no se construye, interconectadas. La función de activación de las
el sistema tiene que esperar hasta el siguiente unidades está determinada por:
paso, t + 1, para obtener x(t + 1) en el algoritmo
PDH, (paso 4).
(9)
3. Estudio de Simulación

Un sistema térmico es controlado utilizando el La Red Crítica aprende utilizando el método


algoritmo PDH, tal que permita establecer una Diferencias Temporales, TD(0).
comparación entre los dos enfoques. La Figura
12 describe el proceso. Dado que es un sistema 3.1 Enfoque Determinístico
de primer orden, hay un único estado, el cual
corresponde a la salida del sistema, y(k). La red neuronal que modela la planta consiste
de dos unidades de entrada, una para el estado
El problema de control se establece como un x(k), y la otra para entrada de control, u (t); cinco
problema de seguimiento, en el intento de alcanzar unidades en la capa intermedia, y una unidad en
la temperatura del tanque a una determinada la salida x(k + 1). Las capas están completamente
referencia. Por lo tanto, la función de costo en interconectadas. El conjunto de entrenamiento
tomar un paso en el camino óptimo, es: consiste de ochenta patrones de entrada, los

Figura 11. Enfoque Estocástico.


Fuente: (El autor).
GÓlCHER: Control adaptivo utilizando... 95

cuales se obtienen haciendo un barrido a través Este barrido por el espacio de estados es posible en
de la entrada desde el estado de 1 °C a 80 °C, y el marco de la simulación, pero en el caso de un
seleccionando valores aleatorios para la entrada sistema físico, puede no ser posible, dado que, no
de control. Las salidas meta son las respuestas se conoce cuál entrada de control genera un estado
que el proceso exhibe para esos patrones. La red determinado. Por lo tanto, el barrido debe realizarse
neuronal es enseñada utilizando el método de explorando el espacio de estados, tan sabiamente
retropropagación por lote. como sea posible con la entrada de control.

Figura 12. Sistema térmico simulado.


Fuente: (El autor).

Figura 13. Enfoque Determinístico: Modelo de la Planta.


Fuente: (El autor).
96 Ingeniería 17 (2): 87-102, ISSN: 1409-2441; 2007. San José, Costa Rica

En la Figura 13, el error es graficado contra 40 °C. La pendiente de la curva decrece conforme
las épocas de aprendizaje. Con setecientas el número de épocas aumenta, dado que la derivada
épocas, el error es aproximadamente cero; esto del futuro costo descontado tiende a cero. En la
significa que la red neuronal aprende muy bien Figura 15 se observa como la acción de control,
los patrones de entrenamiento, pero no tiene una u, está minimizando el costo futuro descontado,
buena generalización en el resto del espacio de haciendo la pendiente siempre negativa.
entradas. Muchos puntos de parada se probaron
y en quinientas épocas se encuentra que la red Después de que la salida ha alcanzado 40 °C, la
generaliza bien. El aprendizaje del modelo de la referencia se cambia a 60 °C. De nuevo, de la Figura
planta es laborioso, aunque la planta es lineal, de 16, le toma al sistema alrededor de cuatrocientas
una entrada y una salida. Es considerablemente cincuenta épocas para lograr la meta. Las épocas
difícil conocer el mejor punto para detener el se pueden traducir en pasos en el tiempo, con el
entrenamiento, dado que el conjunto de patrones conocimiento de un periodo de muestreo:
de validación es el resto del espacio positivo
bidimensional del conjunto de entrada.
Paso en el tienpo = (época) • (periodo de muestreo)
Una vez que la red neuronal generaliza bien el (10)
modelo de la planta, el sistema de control se simula
con un estado inicial de 25 °C y una referencia a Adicionalmente, el sistema se prueba con ruido en
alcanzar de 40 °C. La Figura 14 muestra que la la salida del proceso térmico. El ruido adicional
Red Crítica ha aprendido a predecir el futuro costo corresponde a una distribución normal con medio
descontado. Asimismo, el estado, después de un 2 y desviación estándar 0,5 °C (Figura 17). Le
hundimiento en las primeras épocas, comienza a toma al sistema aproximadamente mil épocas en
seguir la referencia. En cuatrocientos cincuenta alcanzar la referencia, en donde tiene una mínima
épocas, la salida está prácticamente cerca de los oscilación.

Figura 14. Enfoque Determinístico: Red Crítica.


Fuente: (El autor).
GÓlCHER: Control adaptivo utilizando... 97

Figura 15. Enfoque Determinístico: Seguimiento de temperatura.


Fuente: (El autor).

Figura 16. Enfoque Determinístico: Seguimiento de temperatura.


Fuente: (El autor).
98 Ingeniería 17 (2): 87-102, ISSN: 1409-2441; 2007. San José, Costa Rica

Figura 17. Enfoque Determinístico: Salida de temperatura con referencia incluyendo ruido.
Fuente: (El autor).

3.1 Enfoque Estocástico En la Figura 21, la señal de refuerzo se grafica


contra la entrada de la planta, con el fin de
La red neuronal SRV consiste de una unidad, la simbolizar el carácter exploratorio de la Red
cual tiene una entrada y una salida. Su entrada SRV. En las primeras épocas, la Red SRV
corresponde al estado actual del proceso, y su salida encuentra que necesita aumentar la temperatura,
corresponde a la entrada de control del proceso, u. entonces, la entrada de control aumenta su valor.
Después, aprende que la temperatura es muy alta
El estado inicial se establece en 25 °C y la y la entrada de control disminuye. Conforme el
referencia en 40 °C. La Red Crítica aprende estado se acerca a la referencia, la entrada de la
nuevamente a predecir el futuro costo descontado, planta tiende a cero.
como se muestra en la Figura 18.
Después de que la salida ha alcanzado 40°C,
La salida en las primeras épocas da un gran salto la referencia se cambia a 60 °C. De nuevo, se
hasta 110 °C. Luego, el sistema comienza a seguir la observa que se toma unas novecientas épocas para
referencia conforme la señal de refuerzo se aproxima alcanzar la nueva referencia, (Figura 22).
a 1, su valor máximo, (Ver Figura 19). Entre
quinientas y ochocientas épocas, la salida oscila Asimismo, el sistema se prueba con ruido a
alrededor de 40 °C con menores valores, conforme la salida del proceso, (Figura 23). Le toma al
las épocas aumentan, (Figura 20). En novecientas sistema aproximadamente cuatro mil épocas para
épocas, las salida sólidamente alcanza la referencia. mantener la salida alrededor de 40 °C.
GÓlCHER: Control adaptivo utilizando... 99

Figura 18. Enfoque Estocástico: Red Crítica.


Fuente: (El autor).

Figura 19. Enfoque Estocástico: Señal de Refuerzo.


Fuente: (El autor).
100 Ingeniería 17 (2): 87-102, ISSN: 1409-2441; 2007. San José, Costa Rica

Figura 20. Enfoque Estocástico: Seguimiento de temperatura.


Fuente: (El autor).

Figura 21. Enfoque Estocástico: Señal de refuerzo.


Fuente: (El autor).
GÓlCHER: Control adaptivo utilizando... 101

Figura 22. Enfoque Estocástico: Seguimiento de temperatura.


Fuente: (El autor).

Figura 23. Enfoque Estocástico: Salida con referencia incluyendo ruido.


Fuente: (El autor).
102 Ingeniería 17 (2): 87-102, ISSN: 1409-2441; 2007. San José, Costa Rica

4. Discusión REFERENCIAS BIBLIOGRÁFICAS

Ambas arquitecturas de Programación Dinámica Asada, H. & Liu , S. (1991). Transfer of human
Heurística aprenden a controlar el sistema térmico. skills to neural net robot controllers. Robot
No obstante, el Enfoque Estocástico es más and Automation, 7(23), 2442-2448.
rápido que el enfoque Determinístico. Por otro
lado, si la referencia tiene constantes cambios, Gullapalli, V. (1990). A stochastic learning
el Enfoque Determinístico trabaja mejor, ya que algorithm for real-value functions. IEEE
no tiene que aprender la función del proceso de Transactions on Neural Networks, 3(1),
nuevo, y porque la red neuronal del modelo de la 671-692.
planta continúa aprendiendo en línea.
Miller, K., Sutton, T. & Werbos, H. (1990).
El entrenamiento del modelo de la planta es una Neural networks for control. Cambridge,
tarea laboriosa. El proceso simulado en este artículo MA: The MIT Press.
es muy sencillo. Se eligió de esta manera para
poder llevar el control de los procesos internos de Narendra, K. & Parthasarathy, K. (1990).
las redes neuronales. En la práctica, no obstante, las Identification and control of dynamical
redes neuronales son útiles en el área del control systems using neural Networks. IEEE
automático cuando se tienen plantas no lineales con Transactions on Neural Networks, 1(1),
múltiples entradas y salidas. El tiempo de aprendizaje 4-27.
de estas funciones incrementará significativamente,
haciendo el Enfoque Estocástico más conveniente. Psaltis, D., Sideris, A. & Yamamura, A.A.
(1988). A multilayered neural network
La selección de la función de refuerzo puede controller. IEEE Control Systems Magazine,
ser también una tarea laboriosa y si la selección 4(1), 17-20.
correcta no se realiza, la Red SRV podría requerir
más épocas para controlar la planta. White, D. A. & Jordan, M.I. (1988). Optimal
Control: A Foundation for Intelligent
No obstante, para sistemas con señales ruidosas, Control. Handbook for Intelligent Control,
es mejor utilizar el Enfoque Determinístico por 1(4), 717-756.
su probada superioridad ante el ruido.

Sobre EL autor
5. Trabajos Futuros
Luis A. Gólcher Barguil
Trabajos futuros deben estudiar el desempeño de Ingeniero Eléctrico.
estos enfoques en sistemas no lineales – en donde Máster en Ciencias de la Ingeniería Eléctrica
las redes neuronales son más útiles dado que no Profesor de la Escuela de Ingeniería Eléctrica de
se requiere linealizar la planta – con múltiples la Universidad de Costa Rica.
entradas y salidas, para determinar en dónde se Teléfono: 506 8837.9460.
desempeñan mejor. Correo electrónico: luis.golcher@gnecorp.com

También podría gustarte