Conceptos Sobre Control Óptimo
Conceptos Sobre Control Óptimo
Conceptos Sobre Control Óptimo
Optimización dinámica: busca responder la pregunta, ¿Cuál es el valor óptimo para cada
período de tiempo de una variable de elección? Por tanto, debemos encontrar un valor
para cada momento en el intervalo de tiempo relevante para el problema (el que
eventualmente puede ser infinito). Lo que queremos encontrar ahora es una función, y no
solo un único valor (como en la optimización estática).
La idea es que cada función nos estará dando valores distintos del funcional que estemos
maximizando. Tenemos que elegir entonces la función que nos dé el mayor valor (si es
un problema de maximización).
Supongamos que tenemos los siguientes caminos para transportar una carga desde el
punto inicial A hasta el terminal Z. El costo del transporte depende del largo del camino
y de la topografía del mismo (por tanto, no necesariamente la línea recta es la más
conveniente). En este ejemplo buscamos minimizar costos, eligiendo el camino óptimo.
El funcional: V [y(t)]. Mapea funciones en valores (en el ejemplo anterior podía ser el
costo del transporte entre A y Z). Al maximizarlo (o minimizarlo) nos permite elegir la
función óptima. Distintos puntos terminales del problema: (a) t = T (problema con línea
vertical terminal) (consumo a lo largo de T años); (b) y = Z (problema con línea horizontal
terminal) (meta inflación) y (c) Z = φ(T) (curva terminal) (calidad vs rapidez).
En los problemas de control óptimo tenemos 3 variables relevantes en vez de las 2 que
veníamos viendo. Ahora, además de V (funcional) y de y (variable de estado) tenemos u
(variable de control). La variable u es la que le da nombre a esta teoría y que pasará a
ocupar el escenario central del problema (relegando a y a un rol secundario). Esto será así
siempre y cuando a través de u logremos afectar el camino que sigue y. Por tanto, en
nuestro problema ahora deberemos tener una ecuación que vincule a ambas variables:
𝑑𝑦
= 𝑦̇ (𝑡) = 𝑓[𝑡, 𝑦(𝑡), 𝑢(𝑡)]
𝑑𝑡
Sujeto a:
𝜕𝑃(𝑡)
= −𝐸(𝑡)
𝜕𝑡
P(0) = P0, P(T) libre
K = R−1(BTS + NT)
Para un modelo de espacio de estado de tiempo discreto, u[n] = –Kx[n] minimiza
J = ∑∞ 𝑇 𝑇 𝑇
𝑛=0{𝑥 𝑄𝑥 + 𝑢 𝑅𝑢 + 2𝑥 𝑁𝑢}
sujeto a x[n + 1] = Ax[n] + Bu[n].
[K,S,e] = LQR(A,B,Q,R,N) es una sintaxis equivalente para los modelos de tiempo
continuo con dinámica ̇x = Ax + Bu.
[K,S,e] = dlqr(A,B,Q,R,N)
[K,S,e] = dlqr(A,B,Q,R,N) calcula la matriz de ganancia óptimo K tal que la ley de estado
de respuesta
u[n] = −Kx[n]
minimiza la cuadrática función de costos
J(u)=∑∞ (𝑥[𝑛]𝑇𝑄𝑥[𝑛] + 𝑢[𝑛]𝑇𝑅𝑢[𝑛] + 2𝑥[𝑛]𝑇𝑁𝑢[𝑛])
𝑛=0
close
all
% Initial Conditions
x0 = [3; % 3 radians
0]; % 0 rad/s
% System Dynamics
A = [0 1;
0.01 0];
B = [0;
1];
C = [1 0];
D = 0;
% Control Law
Q = [1 0; % Penalize angular error
0 1]; % Penalize angular rate
R = 1; % Penalize thruster effort
K = lqr(A,B,Q,R);