Metodos Numericos Definitivo
Metodos Numericos Definitivo
Metodos Numericos Definitivo
Clase teórica 1: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
.
x = ±(a1 a2 . . . an . . .) · 10N −1 , (a1 6= 0).
.
x = ±10N ( a1 a2 . . . an . . .)10 , (a1 6= 0).
. .
c = 2 · 108 + 9 · 107 + . . . + 5 · 101 + 8 · 100 = (2 99792458) · 108 = 109 ( 299792458)10 .
. .
~ = 6 · 10−34 + 6 · 10−35 + . . . + 0 · 10−38 + 7 · 10−39 = (6 62607) · 10−34 = 10−33 ( 662607)10 .
Nota 1.1.2. La expresión anterior para los números reales no es única. Por ejemplo,
x = 00 999 . . . = 10 000 . . .
Se puede demostrar que se consigue la unicidad de representación como suma de potencias de 10 si se impone la
condición de que exista un conjunto de índices infinito I ⊂ N tal que ai 6= 9, ∀i ∈ I (véase ejercicios del Tema 1).
A continuación generalizamos esta representación de los números reales considerando potencias enteras de un número
natural fijo cualquiera B ∈ N, B ≥ 2, al que denominamos base.
Teorema 1.1.3. (Expresión de un número real en base B). Sean x ∈ R \ {0} y B ∈ N, B ≥ 2. Existen σ = ±1,
N ∈ Z y ai ∈ {0, 1, . . . , B − 1}, ∀i ≥ 1, con a1 6= 0, tales que
∞
X aj
N
= ± a1 B N −1 + a2 B N −2 + . . . + am B N −m + . . . .
x = σB j
B
j=1
.
x = σB N ( a1 a2 . . .)B
.
donde σ denota el signo de x, N − 1 el exponente, ( a1 a2 . . .) la mantisa y B la base.
Clase teórica 1: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
Ejemplo 1.1.4.
. .
x := (7 75)10 = 10( 775)10 = 7 · 100 + 7 · 10−1 + 5 · 10−2
. .
= 1 · 22 + 1 · 21 + 1 · 20 + 1 · 2−1 + 1 · 2−2 = (111 11)2 = 23 ( 11111)2 .
(
−1, si x < 0,
Demostración (del Teorema 1.1.3). Tomamos σ =signo(x) = de modo que x = σ|x|.
1, si x > 0,
G
Como B ≥ 2, los intervalos [B j−1 , B j ), j ∈ Z, forma una partición de (0, +∞), esto es, R+ = [B j−1 , B j ),
j∈Z
G
donde denota unión disjunta de conjuntos. Luego, existirá un único N ∈ Z tal que |x| ∈ [B N −1 , B N ), y por tanto
1 |x|
0< ≤ N < 1.
B B
|x| 1
Sea x1 := N . Luego, ≤ x1 < 1, y x = σ|x| = σB N x1 . Definimos a1 := bx1 · Bc, de modo que x1 · B =
B B
a1 + x2 , con 0 ≤ x2 < 1. Además, a1 6= 0, pues si a1 = 0 entonces x2 = x1 · B ≥ 1 (absurdo).
Continuamos el proceso inductivamente definiendo:
• Veamos que aj ∈ {0, 1, . . . , B − 1} para todo j ≥ 1. Claramente aj = bxj · Bc ∈ Z y, como 0 ≤ xj < 1, entonces
0 ≤ B · xj < B y 0 ≤ bxj · Bc ≤ B − 1.
∞
X aj aj xj+1
• Veamos finalmente que x1 = j
. En efecto, como xj · B = aj + xj+1 , se tiene que xj = + , ∀j ≥ 1.
B B B
j=1
Luego,
X aj n
a1 x2 a1 a2 x3 xn+1
x1 = + = + 2 + 2 = ... = j
+ , con 0 ≤ xn+1 < 1, ∀n ∈ N.
B B B B B B Bn
j=1
n
X aj xn+1 1
Por tanto, 0 ≤ x1 − = < n −→ 0 (pues B ≥ 2). En definitiva,
Bj Bn B n→∞
j=1
n ∞
X aj X aj
x1 = lim j
= .
n→∞ B Bj
j=1 j=1
2
PARA AMPLIAR:
∞
X aj
Nota 1.1.5. La expresión del Teorema 1.1.3, x = σB N no es única. Por ejemplo, en base 2,
Bj
j=1
.
4 = (100)2 = 23 ( 100)2
. .
= (11 111 . . .)2 = 22 ( 111 . . .)2 .
Se puede garantizar la unicidad si se impone que exista un conjunto de índices infinito I ⊂ N tal que ai 6= B − 1, ∀i ∈ I,
o equivalentemente, que para todo n ∈ N exista ν ≥ n tal que aν 6= B − 1 (véase ejercicios del Tema 1).
Clase teórica 1: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 2: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Ejemplo 1.1.6. .
1. Expresar x = (A7 F 4)16 en base 10.
En el sistema hexadecimal: A = 10, B = 11, C = 12, D = 13, E = 14 y F = 15. Luego, x = 10 · 161 + 7 · 160 +
15 · 16−1 + 4 · 16−2 = 1670 953125.
. . . .
Luego, (0 16)10 = (0 1252525 . . .)8 = (0 125)8 y x = (143 125)8 = 83 ( 143125)8 . .
En la práctica se suele aproximar δxA por δxe A := |x − xA | a efectos de acotar el error relativo, puesto que xA es
|xA |
conocido y x no (véase ejercicios del Tema 1).
Definición 1.2.2. (Corte y redondeo a m cifras). Sea x ∈ R expresado en base B ≥ 2 como x = σB N ( a1 a2 . . .)B , .
con σ = ±1, N ∈ Z, ai ∈ {0, 1, . . . , B − 1} y a1 ≥ 1. Dado m ∈ N, m ≥ 1, introducimos las aproximaciones por
i) corte a m cifras:
(m)
xC .
= σB N ( a1 a2 . . . am )B .
[(.a a . . . a . si (.a
(m)
xR = σB N ≥ 12 .
1 2 m )B + ( 0| . {z
. . 01})B ], m+1 am+2 . . .)B
(m)
Clase teórica 2: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
Cuando B es par -lo cual es habitual en la práctica-, el criterio anterior para la aproximación por redondeo a m
cifras se reduce simplemente a am+1 < B2 o am+1 ≥ B2 , respectivamente.
Ejemplo 1.2.3. Hallar las aproximaciones por corte y redondeo a 4 cifras para los siguientes números.
(4) (4)
x xC xR
.
(21 9053)10 .
(21 90)10 .
(21 91)10
(1.00111) 2 (1.001) 2 . .
(1 010)2 = (1 01)2
(0.573751) 8 (0.5737) 8 (0.5740)
= (0.574) 8 8
(1.01111) 3 (1.011) 3 (1.011) (pues (.11) = < )
3 3
4
9
1
2
(1.011111) 3 (1.011) 3 (1.011) (pues (.111) =
3 < ) 3
13
27
1
2
(1.011112) 3 (1.011) 3 (1.012) (pues (.112) =
3 > ) 3
14
27
1
2
.
Proposición 1.2.4. Sean x ∈ R, x = σB N ( a1 a2 . . .)B , con a1 ≥ 1, y xC
(m) (m)
y xR sus aproximaciones por corte y
redondeo a m cifras, respectivamente. Entonces
(m) (m)
a) ∆xC ≤ B N −m y ∆xR ≤ 12 B N −m ;
(m)
.
Ahora respecto a xR , primero si ( am+1 am+2 . . .)B < 12 , entonces:
(. 00 .
(m)
|x − xR | = B N . . . 0} a
| {z m+1 am+2 . . .)B = B N −m ( am+1 am+2 . . .)B < 21 B N −m .
(m)
.
En segundo lugar, si ( am+1 am+2 . . .)B ≥ 12 , entonces |xR | > |x| y
(m)
(m) (m)
|x − xR | = |xR | − |x| = B N ( 0| . {z
. . 01})B − ( 00 . .
. . . 0} am+1 am+2 . . .)B
| {z
(m) (m)
= BN (B −m − B −m ( .am+1 am+2 . . .)B )
≤ B N (B −m − 1 −m
2B ) = 12 B N −m .
2. En base B = 10 tendremos que xA tiene (al menos) m c.s.c. si y solo si ∆xA ≤ 00 5 · 10N −m .
Clase teórica 2: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 3: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Ejemplo 1.2.7. Determinar el número de cifras significativas correctas en las siguientes aproximaciones.
√
.
1. Sea x = 2 = 10 414213 . . . = 101 ( 1414213 . . .), de modo que N = 1 .
- Para xA1 = 10 41: ∆xA1 = 00 00421 . . . < 00 005. Luego, m = 2 + 1 = 3 c.s.c.
2
- Para xA2 = 10 42: ∆xA2 = 00 00578 . . . < 00 006 < 00 05. Luego, m = 1 + 1 = 2 c.s.c.
1
.
2. Sea x = e5 = 1480 4131591 . . . = 103 ( 1484131591 . . .), de modo que N = 3 .
- Para xA1 = 1480 41315: ∆xA1 = 00 0000091 . . . < 00 00005 = 5 · 10−5 = 1
2 · 10−4 .
Luego, N − m = −4 y m = N + 4 = 7 c.s.c.
- Para xA2 = 1480 41316: ∆xA2 = 00 00000089 . . . < 00 000005 = 5 · 10−6 = 1
2 · 10−5 .
Luego, N − m = −5 y m = N + 5 = 8 c.s.c.
.
3. Sea x = 00 003149514 = 10−2 ( 3149514), de modo que N = −2 .
- Para xA1 = 00 003149: ∆xA1 = 00 000000514 < 00 00000 5, y m = 5 + (−2) = 3 c.s.c.
5
.
Proposición 1.2.8. Sea una aproximación xA ' x, con x = σB N ( a1 a2 . . .)B , a1 ≥ 1.
1 1−m .
a) Si xA tiene m c.s.c. respecto a x, entonces δxA ≤ 2a1 B
1
b) Si xA ' x con δxA ≤ B 1−m entonces xA tiene (al menos) m c.s.c. respecto a x.
2(1 + a1 )
Demostración.
∆xA 1 1−m
a) Por hipótesis, ∆xA ≤ 21 B N −m y, además, |x| ≥ a1 B N −1 . Luego, δxA = ≤ B .
|x| 2a1
1
b) ∆xA = |x|δxA ≤ B 1−m |x|, siendo |x| ≤ B N (a1 B −1 + (B − 1)(B −2 + B −3 + . . .)) = (a1 + 1)B N −1 .
2(1 + a1 ) | {z }
=B −1
1
Luego, ∆xA ≤ B N −m . 2
2
Nota 1.2.9. (Propagación de errores en las operaciones básicas).
Clase teórica 3: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
Observemos que en la expresión δxA +δyA +δxA ·δyA , si δxA , δyA son suficientemente pequeños, entonces δxA ·δyA
es despreciable frente a δxA + δyA . Por ello en la práctica pondremos
Para dar un poco más de rigor a esta última expresión, introducimos la siguiente notación:
Con esto, dado que δxA + δyA + δxA · δyA ≤ (δxA + δyA )(1 + δxA ), tomando ε cualquier cota superior de δxA
(δxA ≤ ε), se obtiene que
δ(xA · yA ) ≤ δxA + δyA + δxA · δyA ≤ (δxA + δyA )(1 + δxA ) ≤ (δxA + δyA )(1 + ε),
En lo que sigue asumimos que δxA , δyA < 1 (lo cual es habitual en la práctica).
1 δxA
iii) δ ≤ . δxA . No se demostrará en clase.
xA 1 − δxA
xA
iv) δ . δxA + δyA . Esta propiedad es consecuencia directa de ii)-iii).
yA
Clase teórica 3: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
PARA AMPLIAR:
Nota 1.2.11. En particular, si δxA ≤ 21 B −m , como 1 + a1 ≤ B, se obtendría que
1 −m 1 1−m 1
B = B ≤ B 1−m
2 2B 2(1 + a1 )
y, según la proposición previa, xA tendría al menos m c.s.c. respecto a x. Algunos autores toman la condición δxA ≤
1 −m
2B como definición del número de cifras significativas correctas en una aproximación.
Justificación de la propiedad iii).
iii) En efecto:
1 1
−
1 x xA |x − xA | 1 1 1 δxA
δ = = = ≤ = −1
= ,
xA 1 |xA | x x (δxA ) − 1 1 − δxA
1+ −1
x xA − x xA − x
donde la desigualdad intermedia es consecuencia de la desigualdad triangular inversa y de que δxA < 1:
x x
1+ ≥ − 1 = (δxA )−1 − 1 = (δxA )−1 − 1.
xA − x xA − x (δxA )−1 >1
1 δxA
Finalmente, observar que = 1 + δxA + O((δxA )2 ) y por tanto . δxA .
1 − δxA | {z } 1 − δxA
<ε
Justificación de la propiedad vi).
√
vi) Si n ∈ N, n ≥ 1: δ( n xA ) . n1 · δxA . En efecto:
x − xA
= r r r !
n
xA n xA 2 n xA n−1
x 1+ + + ... +
x x x
xA xA − x xA − x
Ahora bien, = +1≥1− = 1 − δxA , siendo 0 < 1 − δxA ≤ 1. Por tanto
x x x
√ δxA
δ( n xA ) ≤ √ p p .
1+ n
1 − δxA + n
(1 − δxA )2 + . . . + n
(1 − δxA )n−1
Como ar ≥ as si r ≤ s, cuando a ∈ [0, 1], sigue que
√ δxA δxA 1
δ( n xA ) ≤ =
n−1
p
1 + (n − 1) (1 − δxA )n−1
n n p
n n−1
1+ (1 − δxA ) −1
n
2
δxA 1 + 1 − 1 δxA + O((δxA )2 ) . δxA
=
n n n
| {z }
<ε
Clase teórica 3: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 4: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
.
F := x = σB N ( a1 a2 . . . at )B / σ = ±1, Nmin ≤ N ≤ Nmax , ai ∈ {0, 1, . . . , B − 1}, a1 6= 0 ∪ {0} .
Nota 1.3.2. (Algunas propiedades del conjunto F := F(B, t, Nmin , Nmax )).
Observemos que la mantisa de los números en F varía entre B −1 y 1 − B −t . En definitiva, F ⊂ [−xmax , −xmin ] ∪
{0} ∪ [xmin , xmax ]. En particular, si x ∈ R es tal que |x| > xmax o 0 < |x| < xmin entonces x 6∈ F (se habla de
overflow o underflow, respectivamente).
F
iii) Para cada N , Nmin ≤ N ≤ Nmax , en el intervalo [B N −1 , B N ) F contiene exactamente (B − 1)B t−1 números, y
están equiespaciados a distancia B N −t .
. .
En efecto, si x ∈ F ∩ [B N −1 , B N ), entonces x = B N ( a1 . . . at )B , donde la mantisa ( a1 . . . at )B toma (B − 1)B t−1
valores posibles dados por
.
( a1 . . . at )B = B −1 + jB −t , j = 0, 1, . . . , (B − 1)B t−1 − 1, y x = B N −1 + jB N −t .
B = 2, t = 3
I J K
B Nmin B Nmin +2
Clase teórica 4: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
Ejemplo 1.3.3. En las calculadoras científicas usuales se emplea el sistema F(10, 10, −98, 100) (algunas de ellas incluso
trabajan internamente con mantisas de hasta 15 cifras). En este sistema:
(t) (t)
Proposición 1.3.4. Sean x ∈ R, xmin ≤ |x| ≤ xmax , y xR y xC las aproximaciones a x por redondeo y corte a t
(t) (t)
cifras, respectivamente. Entonces, xR , xC ∈ F y
(t) (t)
|x − xR | 1 |x − xC |
≤ B 1−t y ≤ B 1−t .
|x| 2 |x|
1
Nota 1.3.5. El error relativo máximo por redondeo en F es u := B 1−t que se denomina unidad de redondeo
2
o precisión de la máquina. La cantidad εM := B 1−t = 2 u se denomina épsilon de la máquina. Observar que εM
coincide con la distancia del número 1 al siguiente número en F puesto que
(t) (t)
Demostración (de la Proposición 1.3.4). Si |x| = xmax entonces xR = xC = x y el resultado es obvio. Si |x| < xmax
entonces |x| ∈ [B N −1 , B N ) para algún N , Nmin ≤ N ≤ Nmax , y B N −1 + jB N −t ≤ |x| < B N −1 + (j + 1)B N −t , para
algún j ∈ {0, 1, . . . , (B − 1)B t−1 − 1}.
|x|
B N −1 (j) (j + 1) BN
|{z}
B N −t
(t) (t) (t)
Luego, es claro que xC = σ(B N −1 + jB N −t ) ∈ F, con |x − xC | ≤ B N −t , mientras que xR = σ(B N −1 + jB N −t ) o
(t) (t)
xR = σ(B N −1 + (j + 1)B N −t ) ∈ F, con |x − xR | ≤ 12 B N −t . Como |x| ≥ B N −1 , se obtiene el resultado directamente. 2
Nota 1.3.6. Muchos procesadores (INTEL, DEC, SUN,...), lenguajes de programación (C++, Java,...) y software
(Matlab, Octave,...) usan aritmética finita de precisión doble (64 bits, binary64) basada en el sistema F(2, 53, 3 −
210 , 210 ) = F(2, 53, −1021, 1024), de modo que
Clase teórica 4: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 5: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Nota 1.3.7. Dado el conjunto F = F(B, t, Nmin , Nmax ), el único elemento de F en el intervalo (−xmin , xmin ) =
(−B Nmin −1 , B Nmin −1 ) es x = 0. Muchos sistemas de punto flotante prácticos incluyen números, denominados desnor-
malizados, en (−xmin , xmin ).
Definición 1.3.8. Dado el sistema F = F(B, t, Nmin , Nmax ) de números normalizados en punto flotante, se llama
conjunto de números desnormalizados a:
.
FD := x = σB Nmin ( 0a2 . . . at )B / σ = ±1, ai ∈ {0, 1, . . . , B − 1}, a2 + . . . + at > 0 .
El sistema ampliado de números en punto flotante en base B, con mantisa de longitud t y rango de exponentes [Nmin −
1, Nmax − 1] es F
b := F(B,
b t, Nmin , Nmax ) = F(B, t, Nmin , Nmax ) ∪ FD .
ii) Si x ∈ FD entonces x
bmin ≤ |x| ≤ x bmin = B Nmin −t y x
bmax , donde x bmax = xmin − x
bmin . En efecto,
x
bmin . . . 01})B = B Nmin −t ,
= B Nmin ( |0 . {z
(t)
bmax = B Nmin
x (.0 (B − 1) . . . (B − 1)) B = B Nmin (B − 1)(B −2 + . . . + B −t )
| {z }
(t−1)
= B Nmin (B −1 − B −t ) = B Nmin −1 − B Nmin −t = xmin − x
bmin .
x
bmin x
min
b
z}|{ z}|{
0 x
bmin bmax xmin
x xmax
bmin = ±j · B Nmin −t ,
x = ±j · x j = 1, . . . , B t−1 − 1 .
−xmin −b
xmax xmin 0
−b x
bmin bmax xmin
x
b 53, −1021, 1024), esto es, el sistema de aritmética de precisión doble (64
Ejemplo 1.3.10. En el sistema ampliado F(2,
bits), el menor y mayor número desnormalizado es, respectivamente,
Clase teórica 5: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
Nota 1.3.12. (Formato IEEE-754 en precisión simple (32 bits)). En la aritmética de precisión simple (32 bits,
b 24, 3 − 27 , 27 ) = F(2,
binary32) se considera el conjunto F(2, b 24, −125, 128).
• Números normalizados:
.
x = σ · 2N ( 1 a2 . . . a24 )2 = x = (−1)s 2N −1 ( 1 .a . . . a
2 24 )2
donde s ∈ {0, 1}, N − 1 ∈ {−126, . . . , 127} y a2 , . . . , a24 ∈ {0, 1}. Introducimos el sesgo S = 127 y el
exponente sesgado M , con M − 127 = N − 1, de modo que M ∈ {1, . . . , 254}. M se escribe en binario con
8 bits: M = (m7 . . . m0 )2 , mi = 0, 1, con 0 < 7i=0 mi < 8. Luego,
P
s m7 . . . m0 a2 . . . a24
|{z} | {z } | {z }
signo exponente mantisa
sesgado reducida
Este formato se conoce como IEEE-754 de 32 bits para números normalizados. Este formato incluye las siguientes
excepciones.
• Números desnormalizados:
24
.
x = (−1)s 2−125 ( 0 a2 . . . a24 )2 = (−1)s 2−126 ( 0 .a . . . a
2 24 )2 , con
X
ai > 0 .
i=2
• ±Infinito: s 1 .(8)
. . 1 0 (23)
... 0 .
P24
• NaN (Not a Number, 00 , 0 · ∞, ∞ − ∞, 1∞ , . . .): s 1 .(8)
. . 1 a2 . . . a24 con i=2 ai > 0.
x = 0 00011010 01010101010101010101010 .
x = −2−84 ( 10 .
. . 01})2 = −2−85 − 2−108 .
| .{z
(24)
.
ii) x = 0 0 . . . 0 0 . . . 011 : x = 2−125 ( |00 . {z
. . 011})2 = 2−148 + 2−149 .
(24)
Clase teórica 5: Notas de clase. Tema 1. Teoría de Errores. Aritmética del ordenador.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Ejemplo 2.1.1. La ecuación x = cos x tiene una única raíz real α ∈ (0, π2 ):
2
y=x
1
y = cos x
−1 α1 π
2 3
2
−1
Q
Un tipo particular de ecuaciones de interés son las polinómicas p(x) = 0, con p ∈ n un polinomio de grado n.
Para n ≥ 5 no existen fórmulas en términos de radicales para expresar sus raíces. El siguiente teorema permite acotar
superior e inferiormente las raíces de un polinomio.
Proposición 2.1.2. Sea p(x) = an xn + an−1 xn−1 + . . . + a1 x + a0 ∈ n , con an 6= 0. Si α es raíz de p(x), entonces
Q
|ai | 1 |ai |
|α| ≤ 1 + M , con M := max . Si además a0 6= 0, α 6= 0, entonces |α| ≥ 1+m , con m := max .
0≤i≤n−1 |an | 1≤i≤n |a0 |
1+M
(1 + m)−1
Demostración.
• Como p(α) = 0: |an | · |α| n = |a n−1 + . . . + a α + a | ≤ |a n−1 + . . . + |a | · |α| + |a |. Luego, |α|n ≤
n−1 α 1 0 n−1 | · |α| 1 0
M |α|n−1 + . . . + |α| + 1 . Si, por reducción al absurdo, |α| > 1 + M , entonces
|α|n − 1 |α|n − 1
|α|n ≤ M · <M· = |α|n − 1. Absurdo. Luego, |α| ≤ 1 + M.
|α| − 1 M
n
• Consideremos pe(x) = xn · p x1 = xn · an x1 + . . . + a1 x1 + a0 = a0 xn + a1 xn−1 + . . . + an . Si α 6= 0 es raíz de
|ai |
|α|−1 ≤ 1 + m , con m := max .
1≤i≤n |a0 |
2
Q
Nota 2.1.3. Dado un polinomio p ∈ n y un punto x0 podemos evaluar p(x) y sus derivadas sucesivas en x0 de modo
eficiente mediante el algoritmo de Horner :
p0 (x0 ) p00 (x0 ) p(n) (x0 )
puesto que p(x) = p(x0 ) + 1! (x − x0 ) + 2! (x − x0 )2 + . . . + n! (x − x0 )n , poniendo q0 (x) := p(x) :
Ejemplo 2.1.4. Acotar superior e inferiormente las raíces de p(x) = x4 − 4x3 + 7x2 − 5x − 2. Evaluar p(j) (−1),
0 ≤ j ≤ 4, mediante el algoritmo de Horner.
|ai | |ai | 7
Primero, M := max = 7, mientras que m := max = . Como p(0) 6= 0, si α es raíz de p entonces
0≤i≤3 |a4 | 1≤i≤4 |a0 | 2
2
(1 + m)−1 ≤ |α| ≤ 1 + M ⇐⇒ ≤ |α| ≤ 8.
9
Ahora, respecto al algoritmo de Horner:
1 −4 7 −5 −2
−1 −1 5 −12 17
p(−1) = 15
1 −5 12 −17 15
p0 (−1)
= −35 ⇒ p0 (−1) = −35
−1 −1 6 −18
1!
00
p (−1)
1 −6 18 −35 =⇒ 2! = 25 ⇒ p00 (−1) = 50
−1 −1 7
p000 (−1)
= −8 ⇒ p000 (−1) = −48
3!
1 −7 25
−1 −1 p(4) (−1)
4! = 1 ⇒ p(4) (−1) = 24.
1 −8
En lo que sigue consideramos una ecuación arbitraria f (x) = 0 con f continua en un intervalo [a, b] de tal modo
que existe una única raíz α ∈ [a, b], siendo α raíz simple, esto es, f (α) = 0, pero f 0 (α) 6= 0.
∗ Método de la bisección: es un método numérico para aproximar raíces de ecuaciones basado en el Teorema de
Bolzano. Sea f (x) continua en [a, b] tal que f (a) · f (b) < 0 y α raíz única en (a, b).
a1 +b1
- Definir [a1 , b1 ] := [a, b] y hallar c1 := 2 .
bn − an
- Para n ≥ 1 y dado ε > 0, mientras f (cn ) 6= 0 y ≥ ε, definir
2
[an , cn ], si f (an ) · f (cn ) < 0,
[an+1 , bn+1 ] :=
[cn , bn ], si f (an ) · f (cn ) > 0,
Ejemplo 2.1.6. Probar que la ecuación x = cos x posee una única raíz en el intervalo [0, π2 ]. Aproximarla mediante
bisección con un error menor que una décima. ¿Cuántas iteraciones de dicho método serán necesarias para aproximarla
con un error menor que una milésima?
La función f (x) = x − cos x es continua en toda la recta real y, en virtud del teorema de Bolzano, posee un cero α
en el intervalo [0, π2 ] ya que f (0) = −1 < 0 y f ( π2 ) = π2 > 0. Dado que f 0 (x) = 1 + sen x > 0 siempre que x ∈ [0, π2 ], la
función es estrictamente creciente en dicho intervalo, y su gráfica sólo podrá cortar al eje OX una única vez en dicho
intervalo.
2 0 (−) π
4 = 00 7853 . . . (+) π 0
8 = 0 3926 . . . (−) π 0
8 = 0 3926 . . .
3 π 0 π
= 00 7853 . . . 3π 0 π 0
8 = 0 3926 . . . (−) 4 (+) 16 = 0 5890 . . . (−) 16 = 0 1963 . . .
0 0 0
4 3π
16 = 0 5890 . . . (−) π
4 = 00 7853 . . . (+) 7π
32 = 0 6872 . . .
π
32 = 0 09817 . . .
Luego, la aproximación c4 = 7π 0
32 = 0 6872 . . . garantiza un error absoluto menor que una décima. Finalmente, si se desea
−3
|εn | ≤ 10 , tendremos que imponer
π
2
≤ 10−3 ⇒ 1000π ≤ 2n+1 ⇒ n + 1 ≥ log2 (1000π) = 110 61 . . .
2n
Así que como mínimo debe exigirse n + 1 = 12, esto es, n = 11 iteraciones del método de la bisección. Observar que
|ε10 | ≤ 2π11 = 00 001533 . . . y |ε11 | ≤ 2π12 = 00 0007669 . . .
f (xn )
xn+1 = xn − , n ≥ 0.
f 0 (xn )
Nota 2.2.1. 1. El método de Newton-Raphson surge de aproximar f (α) = 0 por medio del polinomio de Taylor de
orden 1 de f alrededor de la iteración xn :
f (xn )
y despejando de esta última relación: α ' xn − .
f 0 (xn )
2. Alternativamente, xn+1 es la abscisa del punto de corte con OX de la recta tangente a la curva y = f (x) en el
punto (xn , f (xn )):
f (xn )
y − f (xn ) = f 0 (xn )(x − xn ) =⇒ x = xn − 0 .
y=0 f (xn )
(x0 , f (x0 ))
y = f (x)
(x1 , f (x1 ))
α
x2 x1 x0
3. La implementación del método de Newton-Raphson requiere garantizar que f (xn ) esté definido y que f 0 (xn ) 6= 0,
para todo n ≥ 0. Por otra parte, el método no siempre es convergente. Por ello, en general es necesario que x0
esté suficientemente próximo a α.
(x2 , f (x2 ))
y = f (x)
(x0 , f (x0 ))
x0
x3 x1 α x2 x4
(x1 , f (x1 ))
(x3 , f (x3 ))
Nota 2.2.2. Demostraremos en la clase siguiente que el método de Newton-Raphson converge localmente con orden
|f 00 (α)|
de convergencia 2, mientras que la constante C0 := da una medida de la tasa de convergencia.
2|f 0 (α)|
Ejemplo 2.2.3. Aplicar el método de Newton-Raphson a la ecuación x − cos x = 0, partiendo de x0 = π2 , y computar
las estimaciones de la tasa de convergencia sabiendo que α ' 00 7390851332.
Tendremos f (x) = x − cos x, con f 0 (x) = 1 + sen x, así que el método de Newton queda definido como xn+1 =
xn − cos xn
xn − , n ≥ 0, x0 = π2 . Operando con 10 cifras correctas:
1 + sen xn
|xn −α|
xn |xn − α| f (xn ) f 0 (xn ) |xn−1 −α|2
x0 = 10 570796327 00 8317111936 10 570796327 2 —
x1 = 00 7853981634 40 631303018 · 10−2 70 829138221 · 10−2 10 707106781 00 06695115971
x2 = 00 7395361335 4 510003001 · 10−4
0 7 548746825 · 10−4
0 10 673945288 00 2102666699
x3 = 00 7390851781 40 489084954 · 10−8 70 512986654 · 10−8 10 673612062 00 2207009297
x4 = 00 7390851332 0 · 10−10 0 · 10−10 10 673612029 —
|f 00 (α)|
Podemos comprobar que f 0 (α) ' 10 673612029 y C0 := ' 00 2208053959.
2|f 0 (α)|
Teorema 2.2.4. (Convergencia local del método de Newton-Raphson). Sea f ∈ C 2 ([a, b]) y α ∈ (a, b) raíz de
f (x) = 0, con f 0 (α) 6= 0. Existe δ > 0 tal que si |x0 − α| < δ entonces la sucesión xn+1 = xn − ff0(xn)
(xn ) verifica que
i) |xn+1 − α| < δ, n ≥ 0.
max |f 00 (x)|
2 1 |x−α|≤δ
ii) |xn+1 − α| ≤ Cδ |xn − α| , n ≥ 0, con Cδ := .
2 min |f 0 (x)|
|x−α|≤δ
iii) lim xn = α .
n→∞
xn+1 − α f 00 (α)
iv) Si xn 6= α, n ≥ 0, entonces lim = .
n→∞ (xn − α)2 2f 0 (α)
Demostración. Como f 0 (α) 6= 0 y f 0 ∈ C([a, b]), existe δ > 0 tal que Iδ := (α − δ, α + δ) ⊂ [a, b] y f 0 (x) 6= 0,
max |f 00 (x)|
|x−α|≤δ 00
0
∀x ∈ Iδ . Luego min |f (x)| > 0. Como Cδ := 21 −→ |f (α)| (pues f ∈ C 2 alrededor de α), podemos tomar
x∈Iδ min |f 0 (x)| δ→0 2|f 0 (α)|
|x−α|≤δ
δ suficientemente pequeño de tal modo que Kδ := δ · Cδ < 1. Tomemos entonces x0 ∈ Iδ . Dado xn ∈ Iδ veamos que
xn+1 ∈ Iδ y que |xn+1 − α| ≤ Cδ |xn − α|2 : 0 = f (α) = f (xn ) + f 0 (xn )(α − xn ) + 21 f 00 (ξn )(α − xn )2 , con ξn ∈ Iδ
comprendido entre xn y α. Despejando:
En particular, |xn+1 − α| ≤ Cδ |xn − α|2 (ver ii)) y |xn+1 − α| ≤ Cδ · δ · |xn − α| = Kδ · |xn − α| ≤ Kδ · δ < δ (ver i)).
Además, como |xn+1 − α| ≤ Kδ · |xn − α| ≤ (Kδ )n+1 · |x0 − α|, con Kδ < 1, sigue que lim xn = α (ver iii)). Como
n→∞
xn+1 − α f 00 (α)
también ξn −→ α, sigue que, si xn =
6 α, n ≥ 0, entonces lim = . Esto concluye la prueba. 2
n→∞ n→∞ (xn − α)2 2f 0 (α)
Nota 2.2.5. (Cotas prácticas del error).
i) Sea m1 := min |f 0 (x)| y supongamos que m1 > 0. Entonces
x∈[a,b]
|f (xn )|
|f (xn )| = |f (xn ) − f (α)| = |f 0 (ξn )| · |xn − α| ≥ m1 · |xn − α| y |xn − α| ≤ .
(T V M ) m1
Esta cota de error absoluto se puede usar en cualquier método numérico como criterio de parada de las iteraciones.
ii) Denotando M2 := max |f 00 (x)|, para el método de Newton-Raphson tendremos que
x∈[a,b]
f 00 (ξn ) f 00 (ξn )
f (xn+1 ) = f (xn ) + f 0 (xn )(xn+1 − xn ) + (xn+1 − xn )2 = (xn+1 − xn )2 .
| {z } 2 2
= 0
(def. xn+1 )
|f (xn+1 )| M2
Luego, |xn+1 − α| ≤ ≤ |xn+1 − xn |2 . Denotando TOLn := |xn − xn−1 | , otro criterio práctico con-
m1 2m1
siste en prefijar una cantidad positiva TOL e iterar hasta que TOLn ≤ TOL (criterio de la tolerancia de error ).
En el caso del método de Newton-Rahpson, el desarrollo previo garantiza que
M2
|xn − α| ≤ · TOL2n .
2m1
Ejemplo 2.2.6. Aplicar el método de Newton-Raphson con x0 = π2 a la ecuación x − cos x = 0 en el intervalo [0, π2 ]
para aproximar α ' 00 7390851332. Computar |xn − α|, |f m
(xn )|
1
M2
, TOLn y 2m 1
· TOL2n .
En el intervalo [0, π2 ] tenemos para f (x) = x − cos x que m1 = M2 = 1. Operando con 10 c.s.c.:
|f (xn )| M2
xn |xn − α| m1 TOLn 2m1 · TOL2n
x0 = 10 570796327 00 8317111936 10 570796327 — —
x1 = 00 7853981634 40 631303018 · 10−2 70 829138221 · 10−2 00 7853981634 00 3084251375
x2 = 00 7395361335 40 510003001 · 10−4 70 548746825 · 10−4 40 586202988 · 10−2 10 051662892 · 10−3
x3 = 00 7390851781 40 489084954 · 10−8 70 512986654 · 10−8 40 509554092 · 10−4 10 016803906 · 10−7
x4 = 00 7390851332 0 · 10−10 0 · 10−10 40 489084910 · 10−8 0 · 10−10
Nota 2.2.7. Dada la ecuación f (x) = 0, en general el método de Newton-Raphson solo converge si x0 está suficien-
temente próximo a la raíz α (convergencia local). No obstante, el siguiente teorema nos indica que, bajo condiciones
especiales, el método puede converger cualquiera que sea x0 ∈ [a, b] (convergencia global). Este resultado de convergencia
global no se demostrará en clase.
Teorema 2.2.8. (Convergencia global del método de Newton-Raphson). Sea f ∈ C 2 ([a, b]) verificando
f (xn )
Entonces f (x) = 0 tiene una única raíz α ∈ (a, b) y la sucesión xn+1 = xn − , n ≥ 0, está contenida en [a, b]
f 0 (xn )
xn+1 − α f 00 (α)
y converge a α para cualquier x0 ∈ [a, b]. Además, la convergencia es cuadrática, esto es, lim 2
= 0 y
n→∞ (xn − α) 2f (α)
M2
|xn+1 − α| ≤ |xn − α|2 , n ≥ 0, con m1 := min |f 0 (x)|, M2 := max |f 00 (x)|.
2m1 x∈[a,b] x∈[a,b]
Ejemplo 2.2.9. Demostrar que el método de Newton-Raphson aplicado a x − cos x = 0 converge cuadráticamente a
la única raíz de dicha ecuación en el intervalo [0, π2 ] para todo x0 ∈ [0, π2 ].
La función f (x) = x − cos x verifica todas las condiciones del teorema de convergencia global del método de Newton-
Raphson en el intervalo [0, π2 ]:
• f ∈ C 2 ([0, π2 ]),
• f (0) = −1 < 0 y f ( π2 ) = π
2 > 0,
f (0) π f ( π2 ) π π
• =1≤ − 0, = ≤ − 0.
f 0 (0) 2 f 0 ( π2 ) 4 2
Luego, f (x) = 0 tiene una única raíz α ∈ (0, π2 ) y el método de Newton-Raphson converge a ella cuadráticamente para
todo valor de arranque x0 ∈ [0, π2 ].
PARA AMPLIAR:
Nota 2.2.10. Respecto a las hipótesis ii)-iii) del Teorema 2.2.8 pueden darse cuatro situaciones distintas, pero todas
ellas se reducen, mediante cambio de variable adecuado, a asumir que f 0 (x) > 0 y f 00 (x) ≥ 0, ∀x ∈ [a, b]. En efecto:
f 0 > 0, f 00 ≥ 0 f 0 < 0, f 00 ≥ 0
a α b a α b a α b a α b
f 0 > 0, f 00 ≤ 0 f 0 < 0, f 00 ≤ 0
• fe0 (x) = f 0 (−x) > 0, • fe0 (x) = −f 0 (−x) > 0, • fe0 (x) = −f 0 (x) > 0,
fe00 (x) = −f 00 (−x) ≥ 0. fe00 (x) = f 00 (−x) ≥ 0. fe00 (x) = −f 00 (x) ≥ 0.
−f (−e
xn ) f (−exn ) −f (e
xn )
•x en −
en+1 = x 0
, •x en −
en+1 = x 0
, •x en −
en+1 = x 0
,
f (−exn ) −f (−e xn ) −f (e
xn )
f (−e
xn ) f (−e
xn ) f (e
xn )
−e
xn+1 = −e
xn − 0
, −e
xn+1 = −e
xn − 0
, x en −
en+1 = x 0
,
f (−e
xn ) f (−e
xn ) f (e
xn )
xn := −e
xn , xn → −α. xn := −e
xn , xn → −α. en , xn → α.
xn := x
Demostración (del Teorema 2.2.8). Por ii)-iii) y teniendo en cuenta la nota previa podemos asumir sin pérdida
de generalidad que f 0 > 0 y f 00 ≥ 0 en [a, b]. Como f es continua y estrictamente creciente en [a, b], con f (a) · f (b) < 0,
entonces existe un único punto α ∈ (a, b) tal que f (α) = 0. Además f (x) < 0, ∀x ∈ [a, α), y f (x) > 0, ∀x ∈ (α, b].
f (x) f (x)f 00 (x)
Definamos g(x) := x − 0 y veamos que g([a, b]) ⊆ [α, b]. Observamos primero que g 0 (x) = y por tanto
f (x) f 0 (x)2
g 0 ≤ 0 en [a, α) y g 0 ≥ 0 en (α, b].
• Dado x ∈ [a, α], puesto que g es decreciente en dicho intervalo:
f (a) f (a)
g(x) ≥ g(α) = α y g(x) ≤ g(a) = a − 0
≤a+ 0 ≤ a + (b − a) = b.
f (a) f (a) iv)
3. En el método de la secante, xn+1 representa la abscisa del punto de corte con OX de la recta secante a la curva
y = f (x) por los puntos (xn−1 , f (xn−1 )) y (xn , f (xn )):
f (xn ) − f (xn−1 ) f (xn ) · (xn − xn−1 )
y − f (xn ) = · (x − xn ) =⇒ x = xn − = xn+1 .
xn − xn−1 (y=0) f (xn ) − f (xn−1 )
4. La implementación del método de la secante requiere que f (xn−1 ) y√f (xn ) estén definidas y que f (xn−1 ) 6= f (xn ).
Veremos que el método converge localmente a α con orden p = 1+2 5 =: ϕ ' 10 618 (número áureo).
y = f (x)
xn+1
xn α xn−1
Ejemplo 2.3.2. Aplicar el método de la secante con x0 = π2 y x1 = 0 a la ecuación x − cos x = 0 para aproximar
α ' 00 7390851332. Computar |xn − α| a efectos ilustrativos de la convergencia.
Operando con 10 cifras correctas:
f (xn )−f (xn−1 )
xn |xn − α| f (xn ) f [xn−1 , xn ] = xn −xn−1
x0 = 10 570796327 00 8317111936 10 570796327 —
x1 =0 00 7390851332 −1 10 636619772
x2 = 00 6110154704 00 1280696629 0
−0 2080503951 10 296120382
x3 = 00 7715332725 3 244813929 · 10−2
0 50 469081138 · 10−2 10 636835310
x4 = 00 7381207410 90 643922218 · 10−4 −10 613674629 · 10−3 10 685130801
x5 = 00 7390783371 60 796154286 · 10−6 −10 137410850 · 10−5 10 673253029
x6 = 00 7390851347 10 447930999 · 10−9 20 423274738 · 10−9 10 673609518
x7 = 00 7390851332 0 · 10−10 0 · 10−10 10 673609518
Observamos que el orden de convergencia en el error |xn − α| está comprendido entre uno y dos (1 < p < 2).
Nota 2.3.3. Abordamos a continuación el estudio de convergencia local del método de la secante. Para ello observemos
en primer lugar lo siguiente:
1. Dados xn−1 , xn con f (xn−1 ) 6= f (xn ) (en particular xn−1 6= xn ), entonces xn+1 6= xn o bien f (xn+1 ) = f (xn ) = 0.
En efecto:
f (xn ) · (xn − xn−1 )
xn+1 = xn − y xn+1 = xn =⇒ f (xn ) = 0 = f (xn+1 ).
f (xn ) − f (xn−1 ) (xn−1 6=xn )
2. Podemos definir diferencias divididas de orden dos (en tres nodos) recursivamente como:
f (c) − f (b) f (b) − f (a)
f [b, c] − f [a, b] −
f [a, b, c] := = c−b b−a ,
c−a c−a
resultando que
f (a) f (b) f (c) f (a) f (b) f (c)
f [a, b, c] = + + = 0 + +
(b − a)(c − a) (a − b)(c − b) (a − c)(b − c) π (a) π 0 (b) π 0 (c)
siendo π(x) := (x − a)(x − b)(x − c) el polinomio nodal. En particular, f [a, b, c] es una función simétrica de los
nodos a, b y c (distintos dos a dos).
1 00
3. Si f ∈ C 2 entonces f [a, b, c] = f (ξ) , donde ξ está comprendido entre a, b y c.
2!
En efecto, suponiendo sin pérdida de generalidad que a < b < c (por la simetría de la diferencia dividida), y
desarrollando f (a) y f (c) por Taylor de orden dos alrededor de x = b se obtiene que, para ciertos ξ1 ∈ (b, c) y
ξ2 ∈ (a, b),
f 0 (b) + 21 f 00 (ξ1 )(c − b)) − f 0 (b) − 21 f 00 (ξ2 )(b − a)
f [a, b, c] =
c− a
1 00 c−b
= 2 f (ξ1 ) c−a + f (ξ2 ) c−a 00 b−a
.
Tomando λ := c−ac−b
> 0 sigue que 1 − λ = c−a b−a
> 0 y f 00 (ξ1 ) c−a
c−b
+ f 00 (ξ2 ) c−a
b−a
= λf 00 (ξ1 ) + (1 − λ)f 00 (ξ2 ) es
00 2
una combinación
convexa de valores de f . Como f ∈ C , por el Teorema de los Valores Intermedios resulta que
f 00 (ξ1 ) c−a + f 00 (ξ2 ) c−a = f 00 (ξ), para cierto punto ξ comprendido entre ξ1 y ξ2 , y por tanto entre a, b y c.
c−b b−a
Proposición 2.3.4. Sea f ∈ C 2 (I) siendo I un intervalo que contiene a α, raíz simple de f (x) = 0. Si xn−1 , xn ∈ I,
f (xn )
con f (xn ) 6= f (xn−1 ), y xn+1 = xn − , entonces
f [xn−1 , xn ]
f 00 (ξn )
xn+1 − α = (xn − α)(xn−1 − α) , ξn , ηn ∈ (min{xn−1 , xn , α}, max{xn−1 , xn , α}).
2f 0 (ηn )
Demostración. Suponemos que xn−1 , xn 6= α pues en otro caso la propiedad es obvia (tanto si xn−1 = α como si
xn = α se deduce directamente que xn+1 = α). Entonces:
f (xn ) − f (α) xn − α f (xn ) − f (α)
xn+1 − α = (xn − α) − = f [xn−1 , xn ] −
f [xn−1 , xn ] f [xn−1 , xn ] xn − α
xn − α xn − α
= (f [xn , xn−1 ] − f [α, xn ]) = · f [α, xn , xn−1 ] · (xn−1 − α)
f [xn−1 , xn ] f [xn−1 , xn ]
1 00
2 f (ξn )
= (xn − α)(xn−1 − α),
f 0 (ηn )
con ξn , ηn comprendidos entre xn−1 , xn y α. 2
Clase teórica 10: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
Nota 2.3.5. El resultado previo nos dice que para el método de la secante el error en una iteración es proporcional al
producto de los errores en las dos iteraciones previas:
max |f 00 (x)|
1 |x−α|≤δ
|xn+1 − α| ≤ Cδ |xn − α| · |xn−1 − α|, con Cδ := ,
2 min |f 0 (x)|
|x−α|≤δ
siendo δ suficientemente pequeño y f 0 (α) 6= 0. Además, observemos que en caso de convergencia (xn −→ α) entonces
n→∞
ii) lim xn = α .
n→∞
ϕ−1 √
|f 00 (α)|
|xn+1 − α| 1+ 5
iii) Si xn 6= α, n ≥ 0, entonces lim = , con ϕ = ' 10 618 el número áureo
n→∞ |xn − α|ϕ 2|f 0 (α)| 2
(ϕ2 = ϕ + 1).
iv) En particular, existe una constante Mδ > 0 tal que |xn+1 − α| ≤ Mδ |xn − α|ϕ , ∀n ≥ 0.
√
1+ 5
Nota 2.3.7. Este resultado nos dice que el método de la secante converge localmente con orden ϕ = ' 10 618.
√ 2
5−1
Este número verifica que ϕ−1 = ϕ − 1 = ' 00 618 ∈ (0, 1), ϕ2 = 1 + ϕ, ϕ−2 = 2 − ϕ ' 00 382 ∈ (0, 1).
2
Demostración (del Teorema 2.3.6, sólo apartados i) y ii)).
i) Como f 0 (α) 6= 0, existe δ > 0 tal que f 0 (x) 6= 0, ∀x ∈ Iδ = (α−δ, α+δ) y f es estrictamente monótona en Iδ . Tomamos
δ 1 tal que Kδ := δ · Cδ < 1. Si xn−1 , xn ∈ Iδ , con xn−1 6= xn , entonces f (xn−1 ) 6= f (xn ) y xn+1 está bien definido
(además, xn+1 6= xn a menos que xn = α). Definamos ej := |xj − α|, j ≥ 0. Como en+1 ≤ Cδ en · en−1 ≤ (δ · Cδ )δ < δ,
entonces xn+1 ∈ Iδ . Esto prueba i).
ii) Definamos también Ej := Cδ ej , j ≥ 0. Entonces, En+1 ≤ En · En−1 , n ≥ 1, siendo E0 , E1 < δ · Cδ = Kδ < 1. Luego
1 n+1
siendo Fn el enésimo número de Fibonacci Fn = √ ϕn+1 − −ϕ−1 . Como Fn −→ ∞ y Kδ < 1, sigue que
5 n→∞
1
En −→ 0 y en = En −→ 0. Luego, lim xn = α. Esto prueba ii).
n→∞ Cδ n→∞ n→∞
√ 2.3.8. Una explicación alternativa de por qué el orden de convergencia del método de la secante es p = ϕ =
Nota
1+ 5 en+1
es la siguiente. Asumiendo la existencia del límite lim p = Q para algún p > 1 (lo cual constituye el paso
2 n→∞ en
más delicado de la prueba del Teorema 2.3.6), y si C0 6= 0, entonces debe ser que p = ϕ y que Q = C0ϕ−1 . En efecto:
en p−1
en+1 en+1 2 2
0 6= C0 = lim = lim p · p · (en−1 )p −p−1 = Qp · lim (en−1 )p −p−1 .
n→∞ en · en−1 n→∞ en en−1 n→∞
Clase teórica 10: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
−1
Como en−1 −→ 0, debe ser que p2 −p−1 = 0 y Qp = C0 , esto es, como p > 1, p = ϕ y Q = C0ϕ = C0ϕ−1 . Observar que
n→∞
2 −p−1 2 −p−1
si fuese p2 − p − 1 > 0 entonces lim (en−1 )p = 0, mientras que si p2 − p − 1 < 0 entonces lim (en−1 )p = ∞,
n→∞ n→∞
lo cual es absurdo en ambos casos.
Finalizamos esta sección con un teorema convergencia global para el método de la secante en las mismas condiciones
que para el caso del método de Newton-Raphson (ver Teorema 2.2.8).
Teorema 2.3.9. (Teorema de convergencia global del método de la secante). Sea f ∈ C 2 ([a, b]) verificando
las mismas cuatro hipótesis del Teorema 2.2.8. Entonces f (x) = 0 tiene una única raíz α ∈ (a, b) y la sucesión
f (xn )
xn+1 = xn − , n ≥ 1, está contenida en [a, b] y converge a α para cualesquiera x0 , x1 ∈ [a, b] (x0 6= x1 ).
f [xn , xn−1 ] √
|f (α)| ϕ−1
00
1+ 5 |xn+1 − α|
Además, la convergencia es de orden p = ϕ = , esto es, lim = y
2 n→∞ |xn − α|ϕ 2|f 0 (α)|
M2
|xn+1 − α| ≤ |xn − α||xn−1 − α|, n ≥ 0, con m1 := min |f 0 (x)|, M2 := max |f 00 (x)|.
2m1 x∈[a,b] x∈[a,b]
y = f (x)
x1 < α < x0
a = x1 x2 x4 x5 α x6 x0 x3
b
Clase teórica 10: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
PARA AMPLIAR:
Nota 2.3.10. 1. Observar que, en el Teorema 2.3.6, iv) es consecuencia directa de iii), pues de la existencia del
|xn+1 − α|
límite lim = C0ϕ−1 claramente se deduce que |xn+1 − α| ≤ Mδ |xn − α|ϕ , n ≥ 0, para cierta constante
n→∞ |xn − α|ϕ
Mδ > 0.
No obstante, esta propiedad de acotación es más sencilla de probar que la propia existencia del límite. Veamos
en+1 en+1
entonces una prueba directa de este hecho: sean Pn := , n ≥ 1, y Qn := , n ≥ 0. Sabemos por la
en · en−1 eϕ
n
Proposición 2.3.4 que Pn −→ C0 . Observamos en primer lugar que se verifica que Qn+1 · (Qn−1 )ϕ−2 · (Pn )ϕ−1 = Pn+1 .
n→∞
En efecto
en ϕ−2
ϕ−1
ϕ−2 ϕ−1 en+2 en+1
Qn+1 · (Qn−1 ) · (Pn ) = · ·
eϕ
n+1 eϕ
n−1 en · en−1
−(ϕ2 −ϕ−1)
= en+2 · e−1 −1
n+1 · en · en−1 = Pn+1 .
(ϕ2 =ϕ+1)
Pn+1 Pn+1
Partiendo de que Qn+1 = · (Qn−1 )2−ϕ , como lim = C02−ϕ , considerando M = 1 + C02−ϕ , existe
Pnϕ−1 n→∞ Pnϕ−1
Pn+1
N = N (δ) ∈ N tal que ≤ M , ∀n ≥ N . Para n < N podemos tomar Lδ = Lδ (N ) ≥ 1 tal que Qn ≤
Pnϕ−1
Lδ · M ϕ+1 , 0 ≤ n ≤ N. Ahora observamos que si Qj−1 ≤ Lδ · M ϕ+1 para algún j ≥ N entonces
donde la última desigualdad es consecuencia de que Lδ , M ≥ 1 y 0 < 2 − ϕ < 1, 2 < ϕ + 1. En definitiva, por inducción
sobre n ≥ N obtenemos que Qn ≤ Lδ · M ϕ+1 , ∀n ∈ N, y la propiedad de acotación sigue con Mδ = Lδ · M ϕ+1 . 2
Pn+1
2. De la identidad Qn+1 = · (Qn−1 )2−ϕ , si existe el límite Q = lim Qn entonces, como ya sabemos,
Pnϕ−1 n→∞
ϕ−1
Q = C0 , pues:
ϕ
Q = C02−ϕ · Q2−ϕ =⇒ Qϕ−1 = C02−ϕ =⇒ Q = C02−ϕ = C0ϕ−1 .
(ϕ−1=ϕ−1 )
En primer lugar, ya sabemos que se verifica que Qn+1 · (Qn−1 )ϕ−2 · (Pn )ϕ−1 = Pn+1 . Así resulta que
Pn+1
Qn+1 = · (Qn−1 )2−ϕ , n ≥ 1.
Pnϕ−1
Pj+1
Denotemos ahora ηj+1 := , j ≥ 1, y η1 := Q1 , η0 := Q0 . Sabemos que ηn −→ C02−ϕ . Sea r := 2 − ϕ ∈ (0, 1).
Pjϕ−1 n→∞
Entonces
2 0 1 n−1 n
• Q2n+1 = η2n+1 (Q2n−1 )r = η2n+1 · η2n−1
r (Q2n−3 )r = . . . = η2n+1
r r
· η2n−1 · . . . · η3r · η1r .
2 0 1 n−1 n
• Q2n = η2n (Q2n−2 )r = η2n · η2n−2
r (Q2n−4 )r = . . . = η2n
r · ηr r
2n−2 · . . . · η2 · η0r .
Probaremos que lim Q2n = C0ϕ−1 . Análogamente se tendrá que lim Q2n+1 = C0ϕ−1 , y en consecuencia lim Qn =
n→∞ n→∞ n→∞
∞
1 1
C0ϕ−1 .
X
j
Observar que r = = = ϕ.
1−r ϕ−1
j=0
Clase teórica 10: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 4
1o ) Si C0 = 0, entonces puesto que ηn −→ C02−ϕ = 0, se tiene en particular que |ηn | ≤ K, ∀n ≥ 0, para alguna
n→∞
ε
constante fija K ≥ 1. Dado ε > 0, existe N ∈ N tal que |η2n | < ϕ < 1, para n > N . Luego, para n > N
K
n N n n n ε rn−j
n−j n−j n−j n−j
Y Y Y Y Y
|Q2n | = |η2j |r = |η2j |r · |η2j |r ≤ Kr ·
Kϕ
j=0
P∞ j
ε j=0
1 j=N +1 j=0 j=N +1
<K j=0 r · = ε,
Kϕ
ε
donde la última desigualdad es consecuencia de que K ≥ 1 y ϕ
< 1. Luego, en efecto, lim Q2n = 0 = C0ϕ−1 .
K n→∞
2o ) Si C0 > 0, tomemos logaritmos en la expresión para Q2n y denotemos Sn := log Q2n y ηbn := log η2n , n ≥ 0.
Entonces:
n
X
0 1 n−1 n
Sn = r · ηbn + r · ηbn−1 + . . . + r · ηb1 + r · ηb0 = rj · ηbn−j .
j=0
Observar que lim ηbn = log C02−ϕ = (2 − ϕ) log C0 =: ηb. En virtud de la existencia de este último límite podemos
n→∞
poner |b
ηn | ≤ M , n ≥ 0, para alguna constante M > 0. Veamos finalmente que lim Sn = ϕ · ηb. Dado que ϕ · ηb =
n→∞
ϕ(2 − ϕ) log C0 = (ϕ − 1) log C0 = log(C0ϕ−1 ), esto concluiría la prueba pues esto implicaría que lim Q2n = C0ϕ−1 . Sea
n→∞
entonces ε > 0:
∞
ε X ε
∃N1 ∈ N tal que ∀n ≥ N1 : |b
ηn − ηb| < y ∃N2 ∈ N tal que rj < .
2ϕ 2(2M + |b
η |)
j=N2 +1
Clase teórica 10: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 5
pues f > 0 en x1 ∈ (α, b] (y f 0 > 0). Además, por la Proposición 2.3.4, tenemos que
f 00 (ξ1 )
x2 − α = (x1 − α)(x0 − α) ≥ 0 , ξ1 , η1 ∈ (α, x0 ).
2f 0 (η1 )
Luego, x2 ≥ α y x2 ∈ [α, x1 ). Razonando por inducción sobre n se deduce entonces que x0 > x1 > x2 > x3 > . . . ≥ α,
esto es, {xn }∞
n=0 es monótona decreciente y acotada en [α, b]. Por tanto, existe L := lim xn y L ∈ [α, b]. Como f y f
0
n→∞
f (L)
son continuas, L verifica que L = L − , y en consecuencia f (L) = 0. Por unicidad de raíz en [a, b], L = α.
f [L, L]
2o ) Supongamos que x1 < α < x0 (ver figura anterior). Entonces, puesto que f < 0 en [a, α), tendremos ahora que
x2 ∈ (x1 , α]. En efecto,
f (x1 ) f (x1 ) f 00 (ξ1 )
x2 = x1 − = x1 − 0 > x1 , x2 − α = (x1 − α)(x0 − α) ≤ 0.
f [x1 , x0 ] f (χ0 ) 2f 0 (η1 )
Ahora, con x1 < x2 ≤ α, veamos que x3 ∈ [α, b] (no necesariamente x3 ≤ x0 ). De hecho,
f 00 (ξ2 )
x3 − α = (x2 − α)(x1 − α) ≥ 0 , ξ2 , η2 ∈ (x1 , α).
2f 0 (η2 )
Por otra parte,
f (x2 ) f (x1 ) f (x1 ) f (x1 ) f (a)
x3 = x2 − = x1 − = x1 − 0 < x1 − 0 ≤a− 0 ≤ a + (b − a) = b
f [x2 , x1 ] f [x2 , x1 ] f (χ1 ) f (x1 ) f (a)
con χ1 ∈ (x1 , x2 ), donde la primera desigualdad es consecuencia de que f (x1 ) < 0 y de que f 0 es creciente, y la segunda
f (x)
desigualdad es consecuencia de que g(x) = x − 0 decrece en [a, α].
f (x)
Seguidamente, con x2 ≤ α ≤ x3 deducimos análogamente que x4 ∈ [x2 , α]. Con x4 ≤ α ≤ x3 , de nuevo x5 ∈ [x4 , α].
Y con x4 ≤ x5 ≤ α, nuevamente se deduce x6 ∈ [α, b]. Mediante inducción obtenemos dos subsucesiones:
x1 ≤ x2 ≤ x4 ≤ x5 ≤ x7 ≤ x8 ≤ . . . ≤ α monótona creciente y acotada en [a, α]
y
x0 , x3 , x6 , x9 , . . . ∈ [α, b] (no necesariamente monótona decreciente).
No obstante, en particular, tendremos que existe L1 ∈ [a, α] tal que {x3n+1 , x3n+2 }∞
n=0 −→ L1 , y por tanto la
n→∞
subsucesión {x3n }∞
n=0 también es convergente puesto que
f (x3n+2 ) f (L1 )
x3n+3 = x3n+2 − −→ L1 − := L0 .
f [x3n+2 , x3n+1 ] n→∞ f [L1 , L1 ]
Veamos finalmente que L0 = L1 = α. Para ello observamos que
f (x3n+1 )
x3n+2 = x3n+1 − , n ≥ 0,
f [x3n+1 , x3n ]
f (L1 )
y haciendo n → ∞ se obtiene que L1 = L1 − , de modo que f (L1 ) = 0, L1 = α y, por tanto, L0 = L1 = α.
f [L1 , L0 ]
En definitiva, tenemos para la sucesión completa que {xn }∞ ∞ ∞
n=0 → α y {xn }n=0 ⊂ [a, b] (con {x3n }n=0 ⊂ [α, b] y
∞
{x3n+1 , x3n+2 }n=0 ⊂ [a, α]).
3o ) Supongamos que x0 , x1 < α (y sin pérdida de generalidad que x0 < x1 ). Entonces, razonando como en el caso 2o )
(ver la iteración x3 de dicho caso) resultará que x2 ∈ [α, b]. Luego tendremos x1 < α ≤ x2 y continuamos como en el
caso 2o ) para deducir que
a ≤ x0 ≤ x1 ≤ x3 ≤ x4 ≤ x6 ≤ x7 ≤ . . . ≤ α con {x3n , x3n+1 }∞
n=0 −→ α n→∞
y
x2 , x5 , x8 , . . . ∈ [α, b] con {x3n+2 }∞
n=0 −→ α.
n→∞
2
Clase teórica 10: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 11: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
2. La función g(x) se denomina función de iteración y existen múltiples formas de definirla para una ecuación
concreta f (x) = 0 dada. Además, no toda función de iteración g(x) produce un método de punto fijo convergente.
√
Ejemplo 2.4.2. Sea la ecuación x2 − 3 = 0 y α = 3 ' 10 732050808, y consideremos las funciones de iteración
3 1 3
g1 (x) := x2 + x − 3, g2 (x) := y g3 (x) := x+ . Es sencillo comprobar que x2 − 3 = 0 ⇐⇒ x = gi (x), i = 1, 2, 3.
x 2 x
Partiendo de x0 = 2, generamos la siguiente tabla para cada una de las tres iteraciones funcionales:
n + 1 xn+1 = g1 (xn ) = x2n + xn − 3 xn+1 = g2 (xn ) = x3n xn+1 = g3 (xn ) = 12 xn + x3n
1 3 10 5 10 75
2 9 2 10 732142857 . . .
3 87 10 5 10 732050810 . . .
.. .. .. ..
. . . .
Observamos que la√iteración xn+1 = g1 (xn ) es divergente, xn+1 = g2 (xn ) es oscilante, mientras que xn+1 = g3 (xn )
es convergente (a α = 3). Veremos en el desarrollo de esta sección que el carácter√ de la convergencia de una iteración
funcional guarda relación con el valor g 0 (α). Observemos también que g10 (α) = 2 3+1 > 1, g20 (α) = −1 y g30 (α) = 0 < 1.
−1
Ejemplo 2.4.3. Si c(x) es una función no nula, entonces f (x) = 0 ⇐⇒ x = x + c(x) · f (x). Tomando c(x) := se
f 0 (x)
f (x)
obtiene la función de iteración g(x) = x − que define al método de Newton-Raphson. Luego, éste es un caso de
f 0 (x)
particular de iteración de punto fijo.
Nota 2.4.4. (Interpretación gráfica del método de punto fijo). Los puntos fijos de x = g(x) son las abscisas de
los puntos de corte entre y = x y la gráfica de y = g(x).
y = g(x)
y=x
α
α α
Clase teórica 11: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
En las siguientes gráficas ilustramos que, según la magnitud y signo de g 0 (α), la iteración de punto fijo xn+1 = g(xn )
puede converger (de forma monótona u oscilante), diverger (de forma monótona u oscilante) o bien oscilar.
y=x y=x
y = g(x)
y = g(x)
α x2 x1 x0 x1 x3 α x2 x0
0 < g 0 (α) < 1 −1 < g 0 (α) < 0
(convergencia monótona) (convergencia oscilante)
y = g(x)
y=x
y = g(x)
y=x
x3
α x0 x1 x2 x1 α x0 x2 x4
y=x
y = g(x)
x2 = x0 α x1 = x3
g 0 (α) = −1
(oscilación)
Definición 2.4.5. Sea g : A → A, A ⊆ R cerrado. g es una función contractiva en A si existe K, 0 ≤ K < 1, tal que
|g(x) − g(y)| ≤ K|x − y|, ∀x, y ∈ A.
Clase teórica 11: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
√
Ejemplo 2.4.6. Comprobar que g(x) = x es contractiva en el intervalo [1, a], ∀a > 1.
√ √ √ √
( x − y)( x + y) |x − y| 1 √ √
|g(x) − g(y)| = √ √ =√ √ ≤ |x − y|, ∀x, y ∈ [1, a] (pues x, y ≥ 1).
x+ y x+ y 2
Nota 2.4.7. Si g es contractiva en A (con constante de contracción 0 ≤ K < 1) entonces es uniformemente continua
ε
en A. En efecto, dados x0 ∈ A y ε > 0, tomando δ = (independiente de x0 ) sigue que
K +1
|g(x) − g(x0 )| ≤ K|x − x0 | < Kδ < ε, ∀x ∈ A, con |x − x0 | < δ.
El siguiente resultado garantiza la existencia y unicidad de punto fijo para funciones contractivas, así como la conver-
gencia de la iteración de punto fijo independientemente del valor inicial.
Teorema 2.4.8. (Teorema del punto fijo de Banach). Sea g : A → A, A ⊆ R cerrado, una función contractiva,
con constante de contracción 0 ≤ K < 1. Entonces:
K Kn
|xn − α| ≤ |xn − xn−1 | ≤ |x1 − x0 | , n ≥ 1.
1−K 1−K
Demostración.
• Si α y α
b fueran dos puntos fijos de g, entonces |α − α
b| = |g(α) − g(b
α)| ≤ K|α − αb|. Luego, (1 − K)|α − α
b| ≤ 0 y como
0 ≤ K < 1, sigue que α = α b. Por tanto, si existe punto fijo entonces debe ser único.
• Sea x0 ∈ A arbitrario y xn+1 = g(xn ), n ≥ 0. En particular,
(1 − K)ε
Así, dado ε > 0, existe n0 ∈ N tal que si n > n0 , entonces K n < , y para todo ` ≥ 1 se tiene que
1 + |x1 − x0 |
|xn+` − xn | < ε. Por tanto, {xn }n≥0 es una sucesión de Cauchy en el conjunto cerrado A, y en consecuencia converge
a un punto α ∈ A.
• Finalmente, α es un punto fijo de g pues g es continua: α = lim xn+1 = lim g(xn ) = g( lim xn ) = g(α). Además,
n→∞ n→∞ n→∞
haciendo ` → ∞ en la acotación del punto anterior, se tiene que
K Kn
|α − xn | ≤ |xn − xn−1 | ≤ |x1 − x0 |.
1−K 1−K
2
Clase teórica 11: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 12: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
Nota 2.4.9. El teorema del punto fijo asegura la existencia y unicidad de punto fijo para funciones contractivas en
conjuntos cerrados A ⊆ R. Además, la iteración funcional converge a dicho punto fijo independientemente del valor
inicial x0 ∈ A. Por otra parte, el teorema establece cotas del error y permite estimar de antemano el número de
iteraciones necesarias para obtener dicho punto fijo con un error menor que una cantidad ε:
K
Criterio de parada: |xn − α| ≤ − xn−1 | < ε ⇒ |xn − xn−1 | < 1−K
1−K |xn K ε.
ε(1−K)
log |x1 −x0 |
Kn
Número de iteraciones: |xn − α| ≤ 1−K |x1 − x0 | < ε ⇒ n > .
log K
Teorema 2.4.10. (Convergencia global del método de punto fijo). Sea g ∈ C 1 ([a, b]) tal que g([a, b]) ⊆ [a, b] y
|g 0 (x)| ≤ K < 1, ∀x ∈ [a, b]. Entonces,
xn+1 − α
iii) Si xn 6= α, n ≥ 0, entonces lim = g 0 (α) .
n→∞ xn − α
Demostración.
• Veamos que g es contractiva en [a, b] con constante de contracción K. Esto probaría i) y ii) en virtud del Teorema
del Punto Fijo de Banach. Sean x, y ∈ [a, b]. Usando el Teorema del Valor Medio (TVM),
• Para probar iii), xn+1 − α = g(xn ) − g(α) = g 0 (ξn ) · (xn − α), donde ξn está comprendido entre xn y α. Luego,
(T V M )
xn+1 − α
lim = lim g 0 (ξn ) = g 0 (α), donde la última igualdad es consecuencia de que g 0 es continua y xn −→ α. 2
n→∞ xn − α n→∞ n→∞
Ejemplo 2.4.11. Demostrar que la ecuación x = cos x tiene una única solución α ∈ [0, 1] y que el método de punto
fijo xn+1 = cos xn converge a α para todo x0 ∈ [0, 1].
En efecto, tomando g(x) = cos x, se tiene que g 0 (x) = −sen x ∈ (−sen 1, 0) y |g 0 (x)| ≤ sen 1 =: K < 1, ∀x ∈ [0, 1]. Por
el teorema de convergencia global del método de punto fijo, x = g(x) tiene un único punto fijo α ∈ [0, 1], y xn+1 = cos xn
sen 1 (sen 1)n
converge oscilante a α, para todo x0 ∈ [0, 1]. Además, |xn − α| ≤ |xn − xn−1 | ≤ |x1 − x0 |.
1 − sen 1 1 − sen 1
Nota 2.4.12. Sea α un punto fijo de g(x), con g continua y derivable en un entorno de α. Si |g 0 (α)| > 1 entonces la
sucesión xn+1 = g(xn ) no converge a α (a menos que exista n0 ∈ N tal que xn0 = α, en cuyo caso xn = α para todo
n ≥ n0 ).
En efecto, como |g 0 (α)| > 1 y |g 0 | es continua, existe δ > 0 tal que |g 0 (x)| ≥ Kδ > 1, ∀x ∈ Iδ := (α − δ, α + δ). Si, por
reducción al absurdo, xn+1 = g(xn ) convergiera a α, entonces, dado δ > 0, existiría n0 ∈ N tal que |xn − α| < δ, para
n ≥ n0 .
Supongamos sin pérdida de generalidad que xn0 6= α. Entonces, para todo m ∈ N, por el Teorema del Valor Medio,
|xm+1+n0 − α| = |g(xm+n0 ) − g(α)| = |g 0 (ξm )||xm+n0 − α| ≥ Kδ |xm+n0 − α|, con ξm comprendido entre xm+n0 y α.
Esto implica que |xm+1+n0 − α| ≥ Kdm+1 |xn0 − α|, para todo m ≥ 0. Como Kδ > 1 y xn0 6= α, eligiendo m tal que
Kdm+1 |xn0 − α| ≥ δ se obtiene que |xm+1+n0 − α| ≥ δ, lo cual contradice que |xn − α| < δ, para n ≥ n0 . 2
Definición 2.4.13. Sea {xn }n≥0 ⊂ R una sucesión convergente a α ∈ R. Se dice que la convergencia es de orden al
menos p, p ≥ 1, si existe C ≥ 0 tal que
|xn+1 − α|
lim = C.
n→∞ |xn − α|p
Clase teórica 12: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
{xn }n≥0 converge a α con orden exacto p, si no es convergente de orden q para q > p. En tal caso, la constante C (con
C < 1 si p = 1) se denomina tasa de convergencia. Si p = 1 se dice que la convergencia es lineal; si p = 2, cuadrática;
si p = 3, cúbica; si 1 < p < 2, superlineal.
Nota 2.4.14. El método de Newton-Raphson
√ es localmente convergente de orden p = 2, mientras que el método de la
1+ 5 0
secante lo es de orden p = 2 ' 1 618.
Teorema 2.4.15. (Convergencia local del método de punto fijo). Sea α un punto fijo de g(x), con g continua y
derivable en un entorno de α, tal que |g 0 (α)| < 1. Existe δ > 0 tal que si |x0 −α| < δ entonces la sucesión xn+1 = g(xn ) ,
n ≥ 0, verifica
i) |xn − α| < δ, ∀n ≥ 0, y lim xn = α. En particular, la convergencia es monótona si 0 < g 0 (α) < 1, y oscilante si
n→∞
−1 < g 0 (α) < 0.
ii) Si g ∈ C p en un entorno de α con g 0 (α) = . . . = g (p−1) (α) = 0 y g (p) (α) 6= 0, para algún p ≥ 2, entonces la
xn+1 − α g (p) (α)
convergencia es de orden p, siendo lim = .
n→∞ (xn − α)p p!
(p) (p)
En particular, |xn+1 − α| ≤ Gδ |xn − α|p , ∀n ≥ 0, con Gδ := 1
p! max |g (p) (x)|.
|x−α|<δ
Demostración.
i) Sea δ > 0 tal que Kδ := max |g 0 (x)| < 1 y tomemos Iδ := (α − δ, α + δ). Si g 0 (α) 6= 0 podemos asumir además
|x−α|<δ
que signo(g 0 (x)) =signo(g 0 (α)), ∀x ∈ Iδ . Por el Teorema del Valor Medio, xn+1 − α = g 0 (ξn )(xn − α), donde ξn está
comprendido entre xn y α. Luego, si xn ∈ Iδ entonces también ξn ∈ Iδ y |xn+1 − α| ≤ Kδ |xn − α| ≤ |xn − α| < δ. En
particular, xn+1 ∈ Iδ y |xn+1 − α| ≤ Kδn+1 |x0 − α| −→ 0. El carácter monótono u oscilatorio de la convergencia sigue
n→∞
de la relación xn+1 − α = g 0 (ξn )(xn − α), y del signo de g 0 (α) si g 0 (α) 6= 0.
ii) Considerando desarrollo de Taylor hasta orden p en torno a α,
xn+1 = g(xn ) = g(α + (xn − α))
g (p−1) (α) g (p) (ξn )
= g(α) + g 0 (α)(xn − α) + . . . + (xn − α)p−1 + (xn − α)p
(p − 1)! p!
g (p) (ξn )
=α+ (xn − α)p ,
p!
donde ξn está comprendido entre xn y α. Luego,
xn+1 − α g (p) (ξn ) g (p) (α) (p)
lim = lim = y |xn+1 − α| ≤ Gδ |xn − α|p , ∀n ≥ 0.
n→∞ (xn − α)p n→∞ p! p!
2
Ejemplo 2.4.16. Deducir del teorema de convergencia local del método de punto fijo que el método de Newton-Raphson
es localmente convergente de orden (al menos) 2.
f (x)
En efecto, tomemos la función de iteración g(x) := x − 0 . Asumiendo f ∈ C 3 en un entorno de α, con f (α) = 0 (y
f (x)
f 0 (α) 6= 0), es sencillo comprobar que g(α) = α y que
f (x)f 00 (x)
g 0 (x) = −→ g 0 (α) = 0,
f 0 (x)2
f 0 (x)2 f 00 (x) − 2f (x)f 00 (x)2 + f (x)f 0 (x)f 000 (x) f 00 (α)
g 00 (x) = −→ g 00 (α) = 6= 0 (en general).
f 0 (x)3 f 0 (α)
xn+1 − α f 00 (α)
Así, como ya conocemos, el orden de convergencia será p = 2, con lim = .
n→∞ (xn − α)2 2f 0 (α)
Clase teórica 12: Notas de clase. Tema 2. Resolución numérica de ecuaciones no lineales.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 13: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
que en forma vectorial se escribe como Ax = b, con A = (aij )ni,j=1 ∈ Mn (C), b = (bi )ni=1 , x = (xi )ni=1 ∈ Cn , siendo
Mn (C) el conjunto de matrices cuadradas de orden n con coeficientes en C.
Generalmente supondremos que A es regular (det(A) 6= 0), de modo que la solución es única y está dada por
x = A−1 b (aunque en la práctica no es recomendable el cálculo de A−1 ). Estudiaremos métodos que permiten reducir la
resolución del sistema Ax = b a la solución de uno o dos sistemas triangulares, que son fácil y eficientemente resolubles
por sustitución hacia detrás o hacia delante.
~ Resolución de un sistema triangular superior U x = y por sustitución hacia atrás.
u11 x1 + u12 x2 + . . . + u1n xn = y1 u11 u12 . . . u1n x1 y1
u22 x2 + . . . + u2n xn = y2 u22 . . . u2n x2 y2
.. .. .. .. ⇐⇒ .. · .. = .. ⇐⇒ U x = y.
..
. . . .
. . . .
u xnn n = yn 0 unn xn yn
Si U es regular, esto es, si uii 6= 0, 1 ≤ i ≤ n, entonces la resolución por sustitución hacia atrás conduce a
X n
xi = yi − uij xj /uii , i = n, n − 1, . . . , 1,
j=i+1
n(n − 1)
que involucra n divisiones y 0 + 1 + . . . + (n − 1) = sumas/restas y productos. En total, n2 operaciones
2
aritméticas.
~ Resolución de un sistema triangular inferior Ly = b por sustitución hacia delante.
`11 y1 = b n `11 0 y1 b1
`21 y1 + `22 y2
= b2 `21 `22
y2 b2
.. .. .. .. ⇐⇒ .. ..
. = . ⇐⇒ Ly = b.
. .
. . . . . . . .
` y + ` y + ... + ` y = b
n1 1 n2 2 nn n n ` ` ... `
n1 n2 nn yn bn
Si L es regular (`ii 6= 0, 1 ≤ i ≤ n), entonces la resolución por sustitución hacia delante produce
i−1
X
yi = bi − `ij yj /`ii , i = 1, 2, . . . , n,
j=1
Clase teórica 13: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
Nota 3.1.1. Dado el sistema Ax = b consideramos ahora su resolución mediante eliminación gaussiana. Para ello
denotaremos A(1) := A y b(1) := b. La eliminación gaussiana consiste en transformar Ax = b en un sistema triangular
superior U x = y mediante un proceso que involucra n − 1 etapas y una etapa final de resolución de este sistema
triangular por sustitución hacia atrás.
(1)
ai1
`i1 = (1)
, 2 ≤ i ≤ n,
a11
y efectuamos en A(1) y b(1) las transformaciones elementales (Fila i) − `i1 · (Fila 1), para i = 2, . . . , n:
(1)
aij ,
i = 1, 1 ≤ j ≤ n, ( (1)
(2) aij , i = 1,
aij := 0, 2 ≤ i ≤ n, j = 1, = (1) (1) 1 ≤ j ≤ n,
(1)
(1) aij − `i1 a1j , 2 ≤ i ≤ n,
aij − `i1 a1j , 2 ≤ i, j ≤ n,
(
(1)
(2) bi , i = 1,
bi := (1) (1)
bi − `i1 b1 , 2 ≤ i ≤ n.
• Paso k (1 ≤ k ≤ n − 1): hasta este paso se habrán triangularizado las k − 1 primeras columnas de A, obteniéndose
un sistema equivalente A(k) x = b(k) con
(1) (1) (1) (1) (1) (1) (1)
a11 a12 ... a1,k−1 a1k a1,k+1 ... a1n b1
(2) (2) (2) (2) (2) (2)
0 a22 ... a2,k−1 a2k a2,k+1 ... a2n
b2
.. .. .. .. .. .. .. .. ..
. . . . . . . .
.
(k−1) (k−1) (k−1) (k−1) (k−1)
0 0 . . . ak−1,k−1 ak−1,k ak−1,k+1 . . . ak−1,n bk−1
A(k) = y b(k) = .
(k) (k) (k) (k)
0 0 ... 0 ak,k ak,k+1 ... ak,n
bk
(k) (k) (k) (k)
0 0 ... 0 ak+1,k ak+1,k+1 . . . ak+1,n
bk+1
.. .. .. .. .. .. .. .. ..
. . . . . . . .
.
(k) (k) (k) (k)
0 0 ... 0 an,k an,k+1 ... an,n bn
Clase teórica 13: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
(k) (k+1)
Ahora, si el pivote akk 6= 0, se trata de obtener un sistema equivalente A(k+1) x = b(k+1) , tal que ai,k = 0, para
(k)
i = k + 1, . . . , n. Luego, si akk 6= 0, definimos los nuevos multiplicadores
(k)
aik
`ik = (k)
, i = k + 1, . . . , n,
akk
y efectuamos en A(k) y b(k) la transformación elemental (Fila i)-`ik ·(Fila k), para i = k + 1, . . . , n:
(1) (1) (1) (1) (1) (1)
a11 a12 ... a1,k−1 a1k a1,k+1 ... a1n
(1)
b1
(2) (2) (2) (2) (2)
0 a22 ... a2,k−1 a2k a2,k+1 ... a2n
(2)
b2
.. .. .. .. .. ..
.. ..
..
. .
. . . . . .
.
(k−1) (k−1) (k−1) (k−1)
0 0 . . . ak−1,k−1 ak−1,k ak−1,k+1 . . . ak−1,n
b(k−1)
A(k+1) = y b(k+1) =
k−1 ,
(k) (k) (k)
0 0 ... 0 ak,k ak,k+1 ... ak,n b(k)
k
(k+1) (k+1) b(k+1)
0 0 ... 0 0 ak+1,k+1 . . . ak+1,n
k+1
..
.. .. .. .. .. .. .. .. .
. . . . . . . .
(k+1)
0 0 ... 0 0
(k+1)
an,k+1
(k+1)
. . . an,n bn
(
(i)
(k+1) bi , 1 ≤ i ≤ k,
bi := (k) (k)
bi − `ik bk , k + 1 ≤ i ≤ n.
Clase teórica 13: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 4
operaciones. Si se considera ahora la resolución del sistema triangular superior final A(n) x = b(n) por sustitución hacia
2 3 7
atrás, deben añadirse n2 operaciones, lo que da un total de n3 + n2 − n operaciones aritméticas para resolver el
3 2 6
sistema original Ax = b mediante eliminación gaussiana.
PARA AMPLIAR:
1
. . (k−1)
. 0
1
Fk = 1
,
−`k+1,k 1
. . .
0 .. .. ..
−`n,k 0 . . . 1 n×n
se comprueba directamente que el paso k de la eliminación gaussiana equivale a Fk · A(k) = A(k+1) y Fk · b(k) = b(k+1) .
Así, tras n − 1 pasos se pasa del sistema original Ax = b (con A = A(1) , b = b(1) ) a un sistema equivalente triangular
superior U x = y donde
U = Fn−1 · . . . · F2 · F1 · A e y = Fn−1 · . . . · F2 · F1 · b.
En los ejercicios del tema se propone demostrar que las matrices de Frobenius Fk , 1 ≤ k ≤ n − 1, son inversibles con
1
. . (k−1)
. 0
1
−1
Fk = 1
, 1 ≤ k ≤ n − 1,
`k+1,k 1
.. .. . .
0
. . .
`n,k 0 . . . 1 n×n
1 0 ... 0 0
`21 1 . . . 0 0
−1 −1 −1
.
.
y que F1 · F2 · . . . · Fn−1 = `31 `32 1
. 0 =: L. Por lo tanto, del proceso de eliminación gaussiana
.. .. . . . .. .
..
. . .
`n1 `n2 . . . `n,n−1 1
resulta que A = L · U , con U = A(n) triangular superior y L triangular inferior con 1 en la diagonal, siempre que
(k)
akk 6= 0, k = 1, . . . , n − 1. Daremos una demostración alternativa de este hecho en la sección siguiente dedicada a la
factorización LU de una matriz.
Clase teórica 13: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 14: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Teorema 3.1.3. Sea A ∈ Mn (C) arbitraria y mk := det((aij )ki,j=1 ) el menor principal de A de orden k. La eliminación
(1) (k) (k)
gaussiana es factible si y solo si mk 6= 0, para k = 1, . . . , n − 1. En particular, mk = a11 · . . . · akk , siendo akk el pivote
en el paso k, 1 ≤ k ≤ n − 1.
Demostración.
(1) (k)
“⇒” Si la eliminación gaussiana es factible, entonces en el paso k, 1 ≤ k ≤ n − 1, se tiene que a11 , . . ., akk son no nulos
y, puesto que el determinante no cambia de valor si una fila se sustituye por una combinación lineal de las restantes,
sigue que
(1) (1)
a11 . . . a1k a11 . . . a1k
mk = .. .. .. = .. .. (1) (k)
= a11 · . . . · akk 6= 0.
. . . . .
(k)
ak1 . . . akk 0 a kk
(1) (k)
“⇐” Supongamos que mk 6= 0, 1 ≤ k ≤ n−1, y veamos por inducción sobre k, 1 ≤ k ≤ n−1, que mk = a11 ·. . .·akk . Esto
(1) (k)
implicaría que a11 , . . ., akk son no nulos y el paso k de la elimación gaussiana sería factible, para cada 1 ≤ k ≤ n − 1,
lo que concluiría la prueba.
(1) (1) (j)
Para k = 1, es claro que m1 = a11 = a11 . Sea ahora k, con 2 ≤ k ≤ n−1, y supongamos cierto que mj = a11 ·. . .·ajj
(1) (k−1)
para 1 ≤ j ≤ k − 1. Como mk−1 6= 0 esto implica que a11 , . . ., ak−1,k−1 son no nulos, y nuevamente, por la invarianza
del determinante ante transformaciones elementales por filas, tras k − 1 pasos obtenemos que
(1) (1)
a11 . . . a1k a11 . . . a1k
mk = .. .. .. = .. .. (1) (k)
= a11 · . . . · akk .
. . . . .
(k)
ak1 . . . akk 0 akk
2
~ Eliminación gaussiana con pivotación.
(k) (k)
El paso k de la eliminación gaussiana requiere que akk 6= 0. Si akk = 0 y A es regular, existirá una fila i = i(k) ∈
(k) (k)
{k + 1, . . . , n} tal que aik 6= 0. Intercambiando las filas i y k entonces aik 6= 0 es un nuevo pivote no nulo.
Si Pki denota la matriz de permutación elemental de la fila k y la fila i
1 (k) ←→ (i)
..
.
(k) 0 1
x 1
..
Pki =
y .
(i) 1
1 0
..
.
1
observamos que el intercambio en A(k) de las filas k e i equivale al producto matricial Pki · A(k) . Observar además
2 = P · P = I , matriz identidad.
que Pki coincide con su inversa, esto es, Pki ki ki n
(k) (k)
En general conviene el cambio de pivote no solo cuando akk = 0, sino también cuando akk es comparativamente
(k)
(k) a
pequeño. Observar que si |akk | 1 entonces los multiplicadores |`ik | = ik(k)
1 y esto puede afectar a la propagación
akk
de errores en la eliminación gaussiana.
Clase teórica 14: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
(k) (k)
• Pivotación parcial: sea i = i(k) ∈ {k, . . . , n} el menor natural tal que |aik | = max |alk |.
k≤l≤n
(k)
Esto es, buscamos el primer elemento en la k-ésima columna bajo akk en el que se alcance el máximo en términos
absolutos.
Si i > k, intercambiamos la fila k por la fila i. Esta opción garantiza para los multiplicadores que |`ik | ≤ 1.
(k)
|aik |
• Pivotación parcial escalada: sea i = i(k) ∈ {k, . . . , n} el menor natural tal que el cociente (k)
sea máximo.
max |aij |
k≤j≤n
(k)
Esto es, buscamos el primer elemento en la k-ésima columna bajo akk en el que se alcance el máximo en términos
relativos al máximo de cada fila.
Nuevamente, si i > k, intercambiamos la fila k por la fila i. Observamos que esta opción no garantiza para los
multiplicadores que |`ik | ≤ 1.
(k) (k)
• Pivotación completa: sean i = i(k), j = j(k) ∈ {k, . . . , n} tales que |aij | = max |als |, e intercambiamos la fila
k≤l,s≤n
k por la fila i y la columna k por la columna j.
(k)
Esto es, buscamos el máximo de toda la caja bajo akk en términos absolutos. Si existen varios índices (i, j) donde se
alcanza el máximo, típicamente se suele elegir el menor índice i, y en dicha fila i se elige el menor índice j. Con esta
opción también se logra para los multiplicadores que |`ik | ≤ 1, pero esta pivotación es más compleja de programar
en un ordenador. Observar que, matricialmente, la pivotación completa equivale al producto Pki · A(k) · Pkj .
Nota 3.1.4. Es claro que si A es regular entonces la eliminación gaussiana con pivotación (parcial o completa) siempre
es factible, pues la regularidad de A permite en cada paso hallar un pivote no nulo, quizás mediante permutación de
filas y/o columnas.
4 5 8
Ejemplo 3.1.5. Sea A = 3 0 2 .
7 10 13
4 5 8 7 10 13
Pivotación parcial: 3 0 2 −→ 3 0 2 (pues max{4, 3, 7} = 7 = a31 ).
F1 ↔F3
7 10 13 4 5 8
4 5 8 3 0 2
4 3 7 3
Pivotación parcial escalada: 3 0 2 −→ 4 5 8 (pues max
, , = ).
F1 ↔F2 8 3 13 3
7 10 13 7 10 13
(x) (y) (z)
(z) (y) (x)
4 5 8
13 10 7
3 0 2
Pivotación completa: −→ 2 0 3 (pues max{aij } = 13 = a33 ).
F1 ↔F3
7 10 13 C1 ↔C3 8 5 4
~ Método de Gauss-Jordan.
Este método es una variante de la eliminación gaussiana por la cual se trata de transformar el sistema Ax = b,
mediante transformaciones elementales por filas, en un sistema diagonal equivalente Dx = c. Este proceso permite
evitar la resolución de sistemas triangulares por sustitución hacia atrás, aunque para n 1 exige aproximadamente
un 50 % más de operaciones aritméticas.
En la eliminación gaussiana, tras n − 1 pasos se obtiene un sistema triangular superior y la resolución completa del
2
sistema Ax = b requiere n3 + O(n2 ) operaciones.
3
− − − − −
n−1 pasos – − − − −
[A|b] −−−−−−→ [U |y] (U triangular superior)
– – − − −
– – – − −
Clase teórica 14: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
− – – – −
n pasos – − – – −
[A|b] −−−−→ [D|c] (D diagonal)
– – − – −
– – – − −
Observar que resolver el sistema diagonal Dx = c requiere n divisiones, una por cada elemento de la diagonal.
El algoritmo para el método de Gauss-Jordan es el siguiente: sea el sistema A(1) x = b(1) , con A(1) := A y b(1) := b.
(k)
Para cada k = 1, . . . , n, dado el sistema A(k) x = b(k) , si el pivote akk 6= 0, se trata de obtener un sistema equivalente
(k+1)
A(k+1) x = b(k+1) , tal que ai,k = 0, para i 6= k. Tras n pasos, si los pivotes son no nulos, se obtiene un sistema
diagonal: [A|b] −→ [D|c], con D = A(n+1) y c = b(n+1) .
Nota 3.1.6. El método de Gauss-Jordan se emplea fundamentalmente para el cálculo de la matriz inversa A−1 . Si
A ∈ Mn (C), con det(A) 6= 0, entonces existe A−1 y A · A−1 = In . Si α(j) denota la j-ésima columna de A−1 y ej denota
(j)
y por tanto el cálculo de la inversa equivale a la resolución de n sistemas lineales con la misma matriz de coeficientes
A y vectores b = ej , 1 ≤ j ≤ n.
Aplicando Gauss-Jordan a la matriz ampliada [A|In ]n×(2n) resulta tras n pasos y división por los elementos diago-
n pasos
nales [A|In ] −−−−→ [In |A−1 ]. El cálculo de A−1 mediante Gauss-Jordan requiere 3n3 − 2n2 = 3n3 + O(n3 ) operaciones
(ver ejercicios del tema).
(1) (k) (k) (k) (k)
a11 0 ... 0 a1k a1,k+1 ... a1n b1
(2) (k) (k) (k) (k)
0 a22 ... 0 a2k a2,k+1 ... a2n
b2
.. .. .. .. .. .. .. .. ..
. . . . . . . .
.
(k−1) (k) (k) (k) (k)
0 0 . . . ak−1,k−1 ak−1,k ak−1,k+1 . . . ak−1,n bk−1
A(k) = y b(k) = ,
(k) (k) (k) (k)
0 0 ... 0 ak,k ak,k+1 ... ak,n
bk
(k) (k) (k) (k)
0 0 ... 0 ak+1,k ak+1,k+1 . . . ak+1,n
bk+1
.. .. .. .. .. .. .. .. ..
. . . . . . . .
.
(k) (k) (k) (k)
0 0 ... 0 an,k an,k+1 ... an,n bn
(k)
(k) aik
si el pivote akk 6= 0, definir los multiplicadores `ik = (k)
, para todo i 6= k, y efectuar en A(k) la transformación
akk
elemental (Fila i)-`ik ·(Fila k) para obtener un sistema equivalente A(k+1) x = b(k+1) , con
Clase teórica 14: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 4
(1) (k+1) (k+1) (k+1)
a11 0 ... 0 0 a1,k+1 . . . a1n b1
(2) (k+1) (k+1) (k+1)
0 a22 ... 0 0 a2,k+1 ... a2n
b
2
.. .. .. .. .. .. .. .. ..
. . . . . . . .
.
(k−1) (k+1) (k+1) (k+1)
0 0 . . . ak−1,k−1 0 ak−1,k+1 . . . ak−1,n b
k−1
A(k+1) = y b(k+1) = .
(k) (k+1) (k+1) (k+1)
0 0 ... 0 ak,k ak,k+1 . . . ak,n
bk
(k+1) (k+1) (k+1)
0 0 ... 0 0 ak+1,k+1 . . . ak+1,n
b
k+1
.. .. .. .. .. .. .. .. ..
. . . . . . . .
.
(k+1) (k+1) (k+1)
0 0 ... 0 0 an,k+1 . . . an,n bn
Junto a la resolución del sistema diagonal final (n divisiones), este proceso involucra un total de n3 + n2 − n =
n3 + O(n2 ) operaciones (ver ejercicios del tema).
Clase teórica 14: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 15: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Clase teórica 15: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
Teorema 3.2.4. Sea A ∈ Mn (C) arbitraria tal que mk = det((aij )ki,j=1 ) 6= 0, 1 ≤ k ≤ n − 1. Entonces A = L · U ,
donde
1 0 ... 0 0 (1) (1) (1)
`21 1 ... 0 0 a11 a12 . . . a1n
(2) (2)
.. .. .. .. .. 0 a22 . . . a2n
L= . . . . . , U = .. .. .. ,
. ... . .
..
`n−1,1 ... . 1 0 (n)
0 0 . . . ann
`n1 `n2 . . . `n,n−1 1
(k)
( (i)
aik (k+1) aij , 1 ≤ i ≤ k,
siendo `ik = (k)
, i = k + 1, . . . , n, y aij = (k) (k) 1 ≤ j ≤ n, con 1 ≤ k ≤ n − 1 y
akk aij − `ik akj , k + 1 ≤ i ≤ n,
(1)
aij = aij , ∀i, j = 1, . . . , n. Además, tal factorización LU, con lii = 1, 1 ≤ i ≤ n, es única.
n
X
Demostración. Denotemos B = L · U = (bij )ni,j=1 , con bij = `ip · upj . Observar que basta considerar p ≤ i y p ≤ j
p=1
en la sumatoria anterior (pues `ip = 0 si p > i y upj = 0 si p > j).
• Si i ≤ j:
i
(1) (2) (i)
X
bij = `ip · upj = `i1 · u1j + `i2 · u2j + . . . + `ii · uij = `i1 · a1j + `i2 · a2j + . . . + 1 · aij
p=1
(1) (2) (2) (3) (i−1) (i) (i) (1)
= (aij − aij ) + (aij − aij ) + . . . + (aij − aij ) + 1 · aij = aij = aij .
• Si i > j:
j
(1) (2) (j)
X
bij = `ip · upj = `i1 · u1j + `i2 · u2j + . . . + `ij · ujj = `i1 · a1j + `i2 · a2j + . . . + `ij · ajj
p=1
(1) (2) (2) (3) (j) (j+1) (1) (j+1)
= (aij − aij ) + (aij − aij ) + . . . + (aij − aij ) = aij − aij .
(j) !
(j+1) (j) (j) (j) aij (j) (1)
Pero aij = aij − `ij · ajj = aij − (j)
ajj = 0. Luego, bij = aij = aij .
ajj
Finalmente probemos la unicidad de tal factorización. Supongamos que A = Li · Ui , i = 1, 2. Entonces descompo-
nemos en bloques
" #
bi 0
L U
bi ui bi ∈ Mn−1 (C), `i , ui ∈ Cn−1 , u[i] ∈ C,
Li = , Ui = [i] , L
bi , U
nn i = 1, 2,
`Ti 1 0 unn
siendo Lbi , U
bi matrices triangulares inferior y superior, respectivamente, además con diag(L b i ) = (1, . . . , 1)T ∈ Cn−1 ,
i = 1, 2.
Multiplicando por bloques en A = L1 · U1 = L2 · U2 sigue que Mn−1 = L b1 · U b2 , siendo Mn−1 = (aij )n−1
b2 · U
b1 = L
i,j=1
regular, pues mn−1 6= 0 por hipótesis. Luego, L b −1 · Lb1 = Ub2 · Ub −1 = In−1 por ser una matriz triangular inferior y
2 1
superior simultáneamente, con elementos diagonales iguales a 1 ya que L1 y L2 tienen diagonal de unos. Es decir,
L
b1 = Lb2 y U b1 = U
b2 , ambas matrices regulares. Con esto, se obtiene a continuación que
)
L
b 1 u1 = Lb 2 u2 u1 = u2
T T =⇒
`1 U1 = `2 U2
b b L
b 1 =L
b2 `1 = `2 .
U
b1 =Ub2
regulares
Clase teórica 15: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 16: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Teorema 3.2.5. Sea A ∈ Mn (C) regular. A admite factorización LU si y solo si mk = det((aij )ki,j=1 ) 6= 0, 1 ≤ k ≤
n − 1.
(Observar que si A es regular entonces, equivalentemente, mn 6= 0).
Demostración.
“⇐” Esta implicación es cierta por el Teorema 3.2.4 previo.
“⇒” Si A es regular y A = L · U , det(A) = det(L) · det(U ) = (`11 · . . . · `nn ) · (u11 · . . . · unn ) 6= 0. Además, para todo
k = 1, . . . , n, puesto que L y U son triangulares, efectuando multiplicación por bloques sigue que
A11 A12 L11 0 U11 U12
A= = · =⇒ A11 = L11 · U11 ,
A21 A22 L21 L22 0 U22
siendo A11 = (aij )ki,j=1 , L11 = (`ij )ki,j=1 y U11 = (uij )ki,j=1 (los restantes bloques en A, L y U quedan determinados por
k y n). Luego, tomando determinantes, mk = det(A11 ) = det(L11 ) · det(U11 ) = (`11 · . . . · `kk ) · (u11 · . . . · ukk ) 6= 0. 2
n−1 n−1
X
2
X (n − 1)n(2n − 1) (n − 1)n 2 1 1 2
2 (n − k) + (n − k) = 2 + = n3 − n2 − n = n3 + O(n2 )
6 2 3 2 6 3
k=1 k=1
3. Una matriz A puede ser singular con algún menor principal mk = 0 (incluso para todo k) y admitir factorización
LU. Por ejemplo
0 1 1 0 0 1
A= = · = L · U.
0 0 0 1 0 0
4. Si A es regular y algun menor mk = 0, recurriendo a pivotación parcial puede demostrarse que existe una matriz
P = Pn−1 · . . . · P2 · P1 regular tal que P · A admite factorización LU. En otras palabras, si A es regular siempre
existe la factorización P · A = LU . Las matrices P1 , P2 , . . ., Pn−1 son las matrices de permutación elementales
de dos filas (Pi−1 = Pi = PiT ) que se obtienen en el proceso de pivotación parcial en la eliminación gaussiana.
Teorema 3.2.7. Sea A ∈ Mn (C) regular. Existen matrices L y U triangulares inferior y superior, respectivamente, y
matrices de permutación elemental P1 , . . . , Pn−1 tales que P · A = L · U , con P := Pn−1 · . . . · P1 .
Este teorema no se demostrará en clase. Ver prueba en el apartado de ampliación de esta clase.
Ejemplo 3.2.8. Mediante pivotación parcial, hallar una factorización P A = LU para la matriz
1 0 −1
A = 2 0 1 .
1 1 0
Observar primero que A no admite factorización LU al ser regular con m2 = 0. Mediante permutaciones de filas
en A y en la matriz identidad y transformaciones elementales en A obtendremos la factorización P A = LU del modo
siguiente: [In |A] →
− [P |L\U ]
Clase teórica 16: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
1 0 0 1 0 −1 0 1 0 2 0 1
F2 ↔F1 F2 − 1 ·F
2 1
[I3 |A] = 0 1 0 2 0 1 −−−−→ 1 0 0 1 0 −1 −−−− −→
F3 − 1 ·F
2 1
0 0 1 1 1 0 0 0 1 1 1 0
0 1 0 2 0 1 0 1 0 2 0 1
1 F3 ↔F2
1 0 0
2 0 − 32 −−−−→ 0 0 1 1 1
2 1 −2 −−−−−→
1 1 3 F3 −0·F2
0 0 1 2 1 − 12 1 0 0 2 0 −2
0 1 0 2 0 1
0 0 1 1 1 − 21 = [P |L\U ].
2
1 0 0 12 0 − 23
0 1 0 1 0 0 2 0 1
Luego, P = 0 0 1 , L = 12 1 0 y U = 0 1 − 21 , con P · A = L · U .
1
1 0 0 2 0 1 0 0 − 32
Observar que al haber realizado las transformaciones elementales por filas, hemos obtenido la factorización P A = LU
de tipo Doolittle. Si se hacen las transformaciones elementales por columnas (manteniendo permutaciones por filas) se
obtendrá la factorización de tipo Crout:
1 0 0 1 0 −1 0 1 0 2 0 1
F2 ↔F1 C2 −0·C1
[I3 |A] = 0 1 0 2 0 1 −−−−→ 1 0 0 1 0 −1 −−−−1−−→
C3 − 2 ·C1
0 0 1 1 1 0 0 0 1 1 1 0
1 1
0 1 0 2 0 2 0 1 0 2 0 2
F3 ↔F2
1 0 0 1 0 − 32 −−−−→ 0 0 1 1 1 − 12 −−−−−−→
C3 + 1 ·C2
0 0 1 1 1 − 12 1 0 0 1 0 − 32 2
1
0 1 0 2 0 2
0 0 1 1 1 − 1 = [P |L\U].
2
1 0 0 1 0 − 23
1
0 1 0 2 0 0 1 0 2
Luego, P = 0 0 1 , L = 1 1 0 y U = 0 1 − 12 , con P · A = L · U .
1 0 0 1 0 − 32 0 0 1
PARA AMPLIAR:
Demostración (del Teorema 3.2.7). Sea A(1) = A. Denotemos Pk := Pik ,k la matriz de permutación de las filas
b(k) := Pk · A(k) verifica que
k e ik . Como A es regular, para todo k = 1, . . . , n − 1 existe ik ∈ {k, . . . , n} tal que A
(k)
(k) aik
akk 6= 0 (ik podría ser igual a k, en cuyo caso Pk = In ). Definamos, para k = 1, . . . , n − 1, los multiplicadores `ik =
b (k) ,
akk
i = k + 1, . . . , n, y matrices de Frobenius
1
(k−1)
..
0
.
1
Fk =
1
.
−`k+1,k 1
.. .. ..
0
. . .
−`n,k 0 ... 1
n×n
Clase teórica 16: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
Definimos A(k+1) := Fk · A
b(k) = Fk · Pk · A(k) , 1 ≤ k ≤ n − 1. Sea U := A(n) . Entonces
Definamos ahora Fbn−1 := Fn−1 , Fbn−k := Pn−1 · Pn−2 · . . . · Pn−(k−1) · Fn−k · Pn−(k−1) · . . . · Pn−2 · Pn−1 , para 2 ≤ k ≤ n − 1,
y P := Pn−1 · . . . · P2 · P1 . Como Pj · Pj = In , para cada j = 1, . . . , n − 1, sigue que
donde el vector (`bk+1,k , . . . , `bn,k )T se obtiene de (`k+1,k , . . . , `n,k )T a través de una cierta permutación de sus compo-
nentes. Además,
1 0 ... 0 0
`b21 1 ... 0 0
−1 −1
.. .. .. .. ..
F1 · . . . · Fn−1 = .
b b . . . . =: L.
`bn−1,1 . . . . .
.
1 0
`bn1 `bn2 . . . `bn,n−1 1
En definitiva, P · A = L · U . 2
Clase teórica 16: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 17: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
0 0 bn an
A = T ridiag(bi , `i , 0) · T ridiag(0, 1, ci ),
esto es,
a1 c1 0 0 `1 0 0 1 u1 0 0
b a2 c2 0
.. 0 1
u2 0
.
b
2 2 `2 0
.. .. ..
.. .. ..
= .. .. .. ·
. . .
. . . . . .
..
0 bn−1 an−1 cn−1
0
bn−1 `n−1 0 0
. 1 un−1
0 0 bn an 0 0 bn `n 0 0 0 1
`1 `1 u1 0 0
b b u +` ` u 0
2 2 1 2 2 2
= . . . . . .
. . .
0 bn−1 bn−1 un−2 + `n−1 `n−1 un−1
0 0 bn bn un−1 + `n
c1
∗ `1 = a1 , u1 = ,
`1
ci
∗ `i = ai − bi · ui−1 , ui = , 2 ≤ i ≤ n − 1,
`i
∗ `n = an − bn · un−1 .
Nota 3.3.2. 1. El algoritmo de Thomas requiere garantizar que li 6= 0, 1 ≤ i ≤ n − 1. Así, es necesario dar
condiciones sobre {ai , bi , ci }ni=1 que garanticen este requisito.
Clase teórica 17: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
que requiere n divisiones, 2(n − 1) productos y 2(n − 1) sumas/restas. En definitiva, la resolución de un sistema
tridiagonal mediante el algoritmo de Thomas requiere tan solo 8n−7 operaciones aritméticas. Esto representa una
2
clara ventaja respecto a la eliminación gaussiana con pivotación, que requiere n3 + O(n2 ) operaciones. Observar
3
además que la eliminación gaussiana con pivotación puede destruir la estructura tridiagonal del sistema.
(>) n
X
|aii | ≥ |aij |, ∀i = 1, . . . , n.
j=1
j6=i
A se dice (estrictamente) diagonal dominante por columnas si AT lo es por filas, esto es, si
(>) n
X
|ajj | ≥ |aij |, ∀j = 1, . . . , n.
i=1
i6=j
|a1 | > |c1 |, |ai | − |bi | ≥ |ci | > 0, 2 ≤ i ≤ n − 1, |an | > |bn |.
ci
Entonces `i = ai − bi · ui−1 , ui = , 1 ≤ i ≤ n, (con u0 := 0, b1 := 0, cn := 0), están bien definidos y verifican
`i
(i) |ui | ≤ 1, 1 ≤ i ≤ n, (ii) 0 < |ai | − |bi | ≤ |`i | ≤ |ai | + |bi |, 1 ≤ i ≤ n.
Clase teórica 17: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
2 −1 0 0
−1 2 −1 0
Ejemplo 3.3.5. Hallar las factorizaciones de Crout y Doolittle de A =
0 −1
.
2 −1
0 0 −1 2
Observemos que A es tridiagonal, simétrica y estrictamente diagonal dominante. Realizando transformaciones ele-
mentales por columnas:
2 −1 0 0
2 0 0 0
−1 2 −1 0 −1 23 −1 0
−−−−−−→ −−−−−−→
0 −1 2 −1 C2 + 12 ·C1 0 −1
2 −1 C3 + 32 ·C2
0 0 −1 2 0 0 −1 2
2 0 00
2 0 0 0
−1 3
2 00 −1 3
0 0
−−−−3−−→
2 = L,
4 0 −1 4
0 −1 −1 0
3 C4 + 4 ·C3 3
5
0 0 −1 2 0 0 −1 4
1 − 21 0 0
2
0 1 − 0
con U = 3 . Como A = L · U y A = AT , la descomposición de Doolittle será
0 0 1 − 43
0 0 0 1
1
0 0 0 2 −1 0 0
1 3
−2 1
0 0 0 2 −1 0
A = AT = U T · L T =
· 0
.
0 −2 1 0 0 4
−1
3 3
0 0 − 34 1 0 0 0 5
4
Clase teórica 17: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 18: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
si (x1 , . . . , xk ) 6= (0, . . . , 0). Esto implica además que Mk es regular, para cada k = 1, . . . , n. Luego, por el Teorema
3.2.5, A admite factorización LU: A = L · U .
Como A es simétrica: L · U = A = AT = U T · LT y U −T · L = LT · U −1 = D diagonal (pues U −T · L es triangular
inferior y LT · U −1 es triangular superior). Observar que como A es regular, también lo son L, U y D. Además,
U −T · L = D =⇒ LT · U −1 = DT = D =⇒ U · L−T = D−1 =⇒ U = D1 · LT , con D1 := D−1 .
Así, A = L · D1 · LT , con D1 diagonal regular. Además, D1 = Diag(d11 , . . . , dnn ) es definida positiva, pues como LT es
regular:
xT D1 x = y T LD1 LT y = y T Ay > 0, ∀x 6= 0 (x 6= 0 ⇐⇒ y 6= 0).
x:=LT y
y∈Rn
Clase teórica 18: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
n
X
Como xT D1 x = dii x2i , sigue que dii ≥ 0, ∀i, y de hecho dii > 0, pues D1 es regular. Finalmente, tomando
i=1
1/2 √ √
D2 := D1 = Diag( d11 , . . . , dnn ) y Σ = Diag(sign(`ii ))ni=1 sigue que
Clase teórica 18: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
1 0 0 0
0 2 0 0
yL= . El mismo proceso anterior es válido efectuando transformaciones por columnas. Otra manera
1 3 3 0
2 −1 −2 4
de obtener la matriz L consiste en desarrollar el producto
1 0 1 2 `11 0 0 0 `11 `21 `31 `41
0 4 6 −2 `21 `22 0
0 0 `22 `32 `42
1 6 19 −7 = `31 `32 `33 0 · 0
0 `33 `43
2 −2 −7 25 `41 `42 `43 `43 0 0 0 `44
y despejar las componentes `ij una a una (tal como se indica en la Nota 3.4.8).
PARA AMPLIAR:
Nota 3.4.8. (Algoritmo y coste operacional de la factorización de Cholesky). Para obtener la factorización
de Cholesky de A, A = L · LT , igualamos
a11 a12 . . . a1n `11 0 `11 `21 . . . `n1
a21 a22 . . . a2n `21 `22 `22 . . . `n2
= · .. , con aij = aji , ∀i, j.
.. .. .. .
.. ..
. .
.. . . . ..
. . . . .
an1 an2 . . . ann `n1 `n2 . . . `nn 0 `nn
Desarrollando el producto, teniendo en cuenta que aik se obtiene multiplicando la fila i de L por la columna k de LT ,
sigue para cada k = 1, . . . , n que
akk = `2k1 + `2k2 + . . . + `2kk , aik = `i1 `k1 + `i2 `k2 + . . . + `ik `kk , i = k + 1, . . . , n.
para k = 1, . . . , n
v
u
u k−1
X
∗ `kk = akk −
t `2kj
j=1
k−1
X
∗ para i = k + 1, . . . , n: `ik = aik − `ij `kj /`kk .
j=1
Observamos que, para cada k = 1, . . . , n, el elemento diagonal `kk requiere 1 raíz cuadrada, k − 1 productos y k − 1
sumas/restas, mientras que cada uno de los n − k elementos `ik , i = k + 1, . . . , n, requiere 1 división, k − 1 productos
y k − 1 sumas/restas. Esto da un total de
n
X 1 1 1
[1 + 2(k − 1) + (n − k) [1 + 2(k − 1)]] = n3 + n2 + n operaciones,
3 2 6
k=1
esto es, aproximadamente la mitad de operaciones necesarias para una factorización LU usual.
Para resolver un sistema del tipo Ax = b = LLT b, con A real simétrica y definida positiva, mediante factorización
de Cholesky de A y la resolución dos sistemas triangulares, habrá que añadir al cómputo anterior 2n2 operaciones, lo
que da un total 31 n3 + 52 n2 + 61 n operaciones.
El algoritmo anterior sigue siendo válido en el caso complejo cambiando A simétrica por A hermitiana y la traspo-
sición de matrices por trasposición conjugada.
Clase teórica 18: Notas de clase. Tema 3. Resolución numérica de sistemas lineales. Métodos directos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 19: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Nota 4.1.1. 1. Si A ∈ Mn×1 (K) (resp. A ∈ M1×m (K)) diremos que A es un vector columna (resp. fila).
2. En lo que sigue nos restringiremos al caso de matrices cuadradas (n = m) y consideraremos también el espacio
n-dimensional Kn = {x = (x1 , . . . , xn )T / xi ∈ K, 1 ≤ i ≤ n}. (Kn , +, ·K ) tiene estructura de K−espacio vectorial
de dimensión n y está generado por los vectores canónicos Kn = span{e1 , . . . , en }, con ei = (0, . . . , |{z}
1 , . . . , 0)T .
(i)
2. (AB)T = B T AT , (AB)∗ = B ∗ A∗ .
• triangular inferior (resp. superior) si aij = 0, para i < j (resp., para i > j); y diagonal, si aij = 0, para i 6= j;
• normal, si AA∗ = A∗ A.
Clase teórica 19: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
Nota 4.2.4. λ es autovalor de A si y solo si pA (λ) = 0. Además, desarrollando det(A − λI) por la primera columna
-por ejemplo- se observa que pA (λ) es efectivamente un polinomio de grado exacto n con coeficientes en K. Más aún:
λ ∈ σ(A) ρ(A)
ρ(A)
Ax = 0 =⇒ x = 0.
Clase teórica 19: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
(λi − λ)Ik B
pA (λ) = det(A − λI) = det(P −1 AP − λI) = = (λi − λ)k · pC (λ),
0 C − λIn−k
PARA AMPLIAR:
Nota 4.2.10. 1. (Mn×m (K), +, ·K ), con la suma de matrices y producto por escalares en K, tiene estructura de
K−espacio vectorial:
• A + B = B + A, • λ · (µ · A) = (λ · µ) · A,
• A + (B + C) = (A + B) + C, • 1 · A = A, ∀A, B, C ∈ Mn×m (K),
• A + 0 = A, • λ · (A + B) = λ · A + λ · B, ∀λ, µ ∈ K,
• A + (−A) = 0, • (λ + µ) · A = λ · A + µ · A,
siendo 0 = (0)n×m la matriz nula.
2. Como K-espacio vectorial, Mn×m (K) tiene dimensión n · m; de hecho, está generado por la base de matrices
canónicas
1
0 ... 0 0 0 ... 1 0 0 ... 0 0 0 ... 0
Mn×m (K) = span ... .. .. , . . . , .. .. .. , . . . , .. .. .. , . . . , .. .. .. .
. . . . . . . . . . .
0 0 ... 0 0 0 ... 0 1 0 ... 0 0 0 ... 1
Clase teórica 19: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 4
4. Dadas dos matrices A = (aij )ni,j=1 , B = (bij )ni,j=1 ∈ Mn (K), se define su producto como A · B = (cij )ni,j=1 , con
n
X
cij = aik bkj , ∀i, j. La matriz A · B está asociada a la composición de aplicaciones lineales (LA ◦ LB )(x) =
k=1
LA (LB (x)) = LA (Bx) = ABx. (Mn (K), +, ·, ·K ) con la suma y producto de matrices y producto por escalares en
K tiene estructura de álgebra asociativa con uno sobre K, esto es, verifica
• (A · B) · C = A · (B · C), • λ · (A · B) = (λ · A) · B = A · (λ · B),
∀A, B, C ∈ Mn×m (K),
• (A + B) · C = A · C + B · C, • I · A = A · I = A,
∀λ ∈ K,
• A · (B + C) = A · B + A · C,
1 ... 0
.. . . .. la matriz identidad de orden n.
siendo I = . . .
0 ... 1
Observar que en general el producto de matrices no es conmutativo, A · B 6= B · A.
Nota 4.2.11. En relación a los tipos de matrices introducidos en la Definición 4.1.5 , se verifican las siguientes
propiedades, cuya prueba se deja como ejercicio.
i) σ(AT ) = σ(A).
Clase teórica 19: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 20: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Definición 4.2.13. Dos matrices A, B ∈ Mn (K) son semejantes si existe P ∈ Mn (K) regular tal que P −1 AP = B.
En particular, A ∈ Mn (K) se dice triangularizable (resp. diagonalizable), si A es semejante a una matriz triangular
(resp. diagonal) en Mn (K).
Nota 4.2.14. Si dos matrices son semejantes entonces tienen los mismos autovalores (ver ejercicios del tema). El
recíproco no es cierto.
Teorema 4.2.15. (Diagonalización). A ∈ Mn (K) es diagonalizable (en Mn (K)) si y solo si A posee n autovectores
en Kn linealmente independientes.
Este resultado y los demás que presentaremos en esta clase no se demostrarán. Las demostraciones correspondientes
se incluyen en la sección final de ampliación.
Corolario 4.2.16. A ∈ Mn (K) es diagonalizable (en Mn (K)) si y solo si λ ∈ K y m(λ) = g(λ), ∀λ ∈ σ(A).
Teorema 4.2.18. (Triangularización). A ∈ Mn (K) es triangularizable (en Mn (K)) si y solo si A tiene todos sus
autovalores en K.
En particular, toda matriz compleja es triangularizable al ser C algebraicamente cerrado.
Definición 4.2.19. Se llama producto interior euclídeo en Kn a la aplicación h·, ·i2 : Kn × Kn → K definida por
n
X
hx, yi2 = y ∗ x = yi xi . Se llama norma euclídea en Kn a la aplicación k·k2 : Kn → R+ ∪ {0} definida por kxk2 :=
i=1
n
√ X 1/2
|xi |2
p
∗
hx, xi2 = x x = .
i=1
Nota 4.2.20. 1. Si K = R:
√
2 1/2 .
Pn p Pn
∗ hx, yi2 = y T x = i=1 yi xi ;
kxk2 := hx, xi2 = xT x = i=1 xi
∗ hx, xi2 ≥ 0, ∀x ∈ Rn ; hx, xi2 = 0 ⇐⇒ x = 0;
∗ hx, yi2 = hy, xi2 , ∀x, y ∈ Rn ;
∗ hλx, yi2 = hx, λyi2 = λhx, yi2 , ∀λ ∈ R, ∀x, y ∈ Rn ;
∗ hx, y + zi2 = hx, yi2 + hx, zi2 , hx + y, zi2 = hx, zi2 + hy, zi2 , ∀x, y, z ∈ Rn .
2. Si K = C:
Pn √ Pn 2 1/2 .
∗ hx, yi2 = y ∗ x = i=1 yi xi ;
p
kxk2 := hx, xi2 = x∗ x = i=1 |xi |
∗ hx, xi2 ≥ 0, ∀x ∈ Cn ; hx, xi2 = 0 ⇐⇒ x = 0;
∗ hx, yi2 = hy, xi2 , ∀x, y ∈ Cn ;
∗ hλx, yi2 = λhx, yi2 , hx, λyi2 = λhx, yi2 , ∀λ ∈ C, ∀x, y ∈ Cn ;
∗ hx, y + zi2 = hx, yi2 + hx, zi2 , hx + y, zi2 = hx, zi2 + hy, zi2 , ∀x, y, z ∈ Cn .
Clase teórica 20: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
Definición 4.2.21. Un conjunto de vectores {v1 , v2 , . . . , vr } ⊂ Kn \ {0} forman un sistema ortogonal si hvi , vj i2 = 0,
para 1 ≤ i, j ≤ r, i 6= j. Si, además, hvi , vi i2 = 1, para 1 ≤ i ≤ r, se dice que el sistema {v1 , v2 , . . . , vr } es ortonormal.
Nota 4.2.22. Si {v1 , v2 , . . . , vr } ⊂ Kn \ {0} forman un sistema ortogonal entonces son linealmente independientes (y
por tanto r ≤ n). En efecto:
λ1 v1 + . . . + λr vr = 0 =⇒ 0 = hλ1 v1 + . . . + λr vr , vj i2 = λj kvj k22 =⇒ λj = 0, 1 ≤ j ≤ r.
hvi ,vj i2 =0 vj 6=0
i6=j
Teorema 4.2.27. (Teorema espectral para matrices normales). A ∈ Mn (C) es normal si y solo si existen una
matriz unitaria U ∈ Mn (C) y una matriz diagonal D ∈ Mn (C) tales que U ∗ AU = D.
Esto es, toda matriz normal es diagonalizable a través de una matriz de paso unitaria.
PARA AMPLIAR:
Demostración (del Teorema 4.2.15). “⇒” Existen P, D ∈ Mn (K), P regular y D diagonal, tales que AP = P D.
Sean v1 , . . . , vn los vectores columna de P y pongamos D = Diag(λi )ni=1 . Como P es regular entonces v1 , . . . , vn son
linealmente independientes y además de AP = P D sigue que Avi = λi vi , con vi 6= 0, 1 ≤ i ≤ n. Luego, v1 , . . . , vn son
autovectores de A y pertenecen a Kn .
“⇐” Si v1 , . . . , vn son autovectores de A linealmente independientes en Kn , con Avi = λi vi (λi ∈ K), 1 ≤ i ≤ n, entonces
tomando P = [v1 | . . . |vn ] ∈ Mn (K) y D = Diag(λi )ni=1 ∈ Mn (K), sigue que P es regular (por la independencia lineal
de v1 , . . . , vn ) y que AP = P D. Luego, P −1 AP = D y A es diagonalizable. 2
Nota 4.2.28. (Forma canónica de Jordan). Consideramos el caso complejo: si A ∈ Mn (C), existen P, J ∈ Mn (C),
con P regular, tales que
J1
−1
J2
P AP = J = diagonal por bloques y triangular superior
..
.
Jk
Clase teórica 20: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
λi × 0
λi ×
donde Ji =
.. ..
∈ Mni (C) cuya diagonal superior está formada por unos y/o ceros. Aquí n1 +
. .
λi ×
0 λi
. . . + nk = n, siendo σ(A) = {λ1 , . . . , λk }, mientras que m(λi ) = ni y 1 ≤ g(λi ) ≤ m(λi ), 1 ≤ i ≤ k.
J se denomina forma de Jordan (compleja) de A. En particular, J = D + N , donde D es la matriz diagonal de los
autovalores y N es una matriz nilpotente de orden n, esto es, N n = 0. Observar que cada bloque de Jordan Ni (con
λi = 0) es nilpotente de orden ni , Nini = 0, siendo
0 × 0
0 0 × 0
0 0 ×
0 ×
..
0 0
0 0 .
Ni :=
.. .. , Ni2 =
. . , . . . , N ni −1 =
.. .. .
. . . . . . × i . .
0 × 0 0
0 0
0 0 0 0 0 0
Clase teórica 20: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 4
Demostración (del Teorema 4.2.23). Observar en primer lugar que vj 6= 0, 1 ≤ j ≤ r, por independencia lineal.
Luego, u1 6= 0.
hv2 , u1 i2 hv2 , u1 i2
• Para i = 2: u2 6= 0, pues en otro caso v2 = u1 = λ12 v1 , con λ12 := , contradiciendo la independencia
hu1 , u1 i2 hu1 , u1 i2
lineal de v1 y v2 . Además, u2 = v2 − λ12 v1 es combinación lineal de {v1 , v2 } y
hv2 , u1 i2
hu2 , u1 i2 = hv2 − u1 , u1 i2 = hv2 , u1 i2 − hv2 , u1 i2 = 0.
hu1 , u1 i2
• Supongamos cierto para un i, 2 ≤ i ≤ r − 1, que {u1 , . . . , ui } son no nulos, mutuamente ortogonales y que cada uj
es combinación lineal de {v1 , . . . , vj }, 1 ≤ j ≤ i. Veamos la propiedad para i + 1.
i
X hvi+1 , uj i2 hvi+1 , u` i2
Si 1 ≤ ` ≤ i: hui+1 , u` i2 = hvi+1 − uj , u` i2 = hvi+1 , u` i2 − hu` , u` i2 = 0.
huj , uj i2 (j=`) hu` , u` i2
j=1
hvi+1 , uj i2
Por otra parte, denotando λj,i+1 := , para 1 ≤ j ≤ i, sigue usando la hipótesis de inducción que
huj , uj i2
i i j
!
X X X
ui+1 = vi+1 − λj,i+1 uj = vi+1 − λj,i+1 λkj vk ,
j=1 j=1 k=1
esto es, ui+1 es combinación lineal de {v1 , . . . , vi+1 }. En particular, ui+1 6= 0 pues en otro caso
i j
!
X X
vi+1 = λj,i+1 λkj vk
j=1 k=1
contradiciendo la independencia lineal de {v1 , . . . , vi+1 }. En definitiva, {u1 , . . . , ui+1 } son no nulos, mutuamente orto-
gonales y cada uj es combinación lineal de {v1 , . . . , vj }, 1 ≤ j ≤ i + 1. 2
Demostración (del Teorema 4.2.24). “⇒” Como A = [a1 |a2 | . . . |an ] es regular, sus vectores columna {a1 , . . . , an } ⊂
Kn son linealmente independientes. Aplicando el proceso de Gram-Schmidt, los vectores
i−1
X hai , uj i2
u1 := a1 , ui := ai − λji uj , λji := , 2 ≤ i ≤ n,
huj , uj i2
j=1
ui
son no nulos y forman un sistema ortogonal en Kn . Definiendo qi := , 1 ≤ i ≤ n, tenemos que {q1 , . . . , qn } forman
kui k2
un sistema ortonormal en Kn . Además,
i−1
X i−1
X i
X
ai = ui + λji uj = kui k2 qi + λji kuj k2 qj = rji qj ,
j=1 j=1 j=1
Clase teórica 20: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 5
r
11 12 r . . . r1n
r22 . . . r2n
donde R := ∈ Mn (K) es triangular superior y regular (pues rii = kui k2 6= 0, 1 ≤ i ≤ n) y
. .. .
..
rnn
Q := [q1 |q2 | . . . |qn ] ∈ Mn (K) es unitaria pues
q ∗
1
∗
q2
Q∗ Q = ∗ n
.. · [q1 |q2 | . . . |qn ] = (qi qj )i,j=1 = I.
.
qn∗
Demostración (del Teorema 4.2.26). Sea A ∈ Mn (C). Como A es triangularizable, existen P1 , T1 ∈ Mn (C), con
P1 regular y T1 triangular superior, tales que P1−1 AP1 = T1 . Además, P1 admite factorización QR, esto es, P1 = QR,
con Q, R ∈ Mn (C), Q unitaria y R triangular superior regular. Luego:
Demostración (del Teorema 4.2.27). “⇒” Sea A ∈ Mn (C) tal que AA∗ = A∗ A. Por el Teorema de Schur, existen
U, T ∈ Mn (C), U unitaria y T triangular (superior), tales que U ∗ AU = T . Veamos que T es diagonal:
En definitiva, A es normal. 2
Clase teórica 20: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 21: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
i) kxk ≥ 0, ∀x ∈ Kn , y kxk = 0 ⇐⇒ x = 0;
n
!1/2
X
2
√
kxk∞ := max |xi |; kxk2 := |xi | = x∗ x;
1≤i≤n
i=1
n n
!1/p
X X
kxk1 := |xi |; kxkp := |xi |p (1 ≤ p < ∞).
i=1 i=1
Nota 4.3.4. 1. La desigualdad triangular para la norma k·k2 suele demostrarse haciendo uso de la desigualdad de
Cauchy-Schwartz (CS), que afirma que:
con igualdad si y solo si x e y son linealmente dependientes. Asumiendo esta propiedad, se tiene que
kx + yk22 = hx + y, x + yi2 = kxk22 + kyk22 + 2Re hx, yi2 ≤ kxk22 + kyk22 + 2 kxk2 kyk2 = (kxk2 + kyk2 )2 .
(CS)
2. La desigualdad de Cauchy-Schwartz |hx, yi2 | ≤ kxk2 kyk2 , ∀x, y ∈ Kn , se puede probar del siguiente modo.
Suponiendo que hx, yi2 6= 0 (en otro caso la propiedad es obvia):
kxk22
Como kx − λyk2 ≥ 0, tomando λ := (notar que hy, xi2 = hx, yi2 6= 0), sigue que
hy, xi2
! !
kxk22 2 kxk42
2Re · hy, xi2 ≤ kxk2 + kyk22 ,
hy, xi2 |hy, xi2 |2
kxk42 kyk22
esto es, kxk22 ≤ , lo que implica que |hx, yi2 | ≤ kxk2 kyk2 .
|hx, yi2 |2
Clase teórica 21: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
se conoce como desigualdad de Minkowski. Esta desigualdad es consecuencia, a su vez, de la desigualdad de Hölder :
n
( n )1/p ( n )1/q
1 1 X X
p
X
q
si p, q ∈ [1, ∞), con + = 1, entonces |xi yi | ≤ |xi | · |yi | .
p q
i=1 i=1 i=1
5. En Kn todas las normas son equivalentes. Esto es, si k·ka y k·kb son dos normas en Kn entonces existen constantes
c, C > 0 tales que
c kxkb ≤ kxka ≤ C kxkb , ∀x ∈ Kn .
Definición 4.3.5. Una aplicación k·k : Mn (K) → R es una norma (matricial) si
i) kAk ≥ 0, ∀A ∈ Mn (K), y kAk = 0 ⇐⇒ A = 0;
kAxkV
kAkM := max = max kAxkV
x6=0 kxkV kxkV =1
kAkM = 0 ⇐⇒ kAxkV = 0, ∀x 6= 0 ⇐⇒ Ax = 0, ∀x 6= 0 ⇐⇒ A = 0.
Clase teórica 21: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
∗ Finalmente, para probar la propiedad iv), como el máximo en kABkM se alcanza, sea x ∈ Kn , con kxkV = 1, tal
que kABkM = kABxkV . Si Bx = 0 entonces kABkM = 0 y el resultado el obvio. Suponiendo Bx 6= 0, tenemos con
Bx
y := , kykV = 1, que
kBxkV
kABkM = kABxkV = kAykV · kBxkV ≤ kAkM · kBkM .
2
Nota 4.3.8. Un resultado de Topología General afirma que si f : X → Y es una aplicación continua entre dos
espacios topológicos, entonces f (K) ⊂ Y es compacto para todo compacto K ⊂ X. En particular, cuando Y = R,
si K es compacto y f : K → R es continua entonces f (K) es cerrado y acotado, y por tanto existen p, q ∈ K tales
que f (p) = supx∈K f (x) y f (q) = inf x∈K f (x). Esta propiedad generaliza el Teorema de Weierstrass para funciones
continuas f : [a, b] → R.
Definición 4.3.9. Dada k·kV una norma vectorial en Kn , la norma matricial
kAxkV
kAkM := max = max kAxkV
x6=0 kxkV kxkV =1
Definición 4.3.11. Una norma matricial k·kM en Mn (K) y una norma vectorial k·kV en Kn se dicen compatibles si
Proposición 4.3.12. Sea k·kM la norma matricial inducida por la norma vectorial k·kV .
i) kAxkV ≤ kAkM kxkV , ∀x ∈ Kn , ∀A ∈ Mn (K) (esto es, k·kM y k·kV son compatibles);
ii) kAkM = min{λ ≥ 0/ kAxkV ≤ λ kxkV , ∀x ∈ Kn };
iii) kIkM = 1.
Nota 4.3.13. 1. No toda norma matricial está inducida por una norma vectorial. De hecho, teniendo en cuenta la
Proposición 4.3.12[iii)], existen normas matriciales para las que kIkM > 1. Posteriormente daremos un ejemplo
célebre de tal norma (ver ejercicios del tema para otros ejemplos de normas matriciales no inducidas).
2. Observar que si la norma matricial k·kM está inducida por la norma vectorial k·kV , entonces kAkM mide la
máxima dilatación de la esfera unidad asociada a k·kV al ser transformada por la aplicación lineal x 7→ Ax.
1
3. Para toda norma matricial se tiene que kIk ≥ 1 y A−1 ≥ (ver ejercicios del tema).
kAk
PARA AMPLIAR:
Demostración (de la Proposición 4.3.12).
kAxkV kAykV
i) Si x = 0 es obvio. Si x 6= 0: ≤ max = kAkM . Por tanto, kAxkV ≤ kAkM kxkV .
kxkV y6=0 kykV
kAxkV
ii) Si λ ≥ 0 es tal que kAxkV ≤ λ kxkV , ∀x ∈ Kn , entonces max ≤ λ. Luego, kAkM ≤ λ. Esto demuestra ii),
x6=0 kxkV
teniendo en cuenta que kAkM satisface la propiedad de i).
iii) kIkM = max kIxkV = max kxkV = 1. 2
kxkV =1 kxkV =1
Clase teórica 21: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 4
1 1
Teorema 4.3.14. (Desigualdad de Young). Sean p, q > 1 con + = 1. Entonces
p q
ap bq
a·b≤ + , ∀a, b ≥ 0,
p q
con igualdad si y solo si ap = bq .
Demostración. La propiedad es obvia si a · b = 0. Supongamos que a, b > 0. Como ex es un función convexa se tiene
que
eλx+(1−λ)y ≤ λex + (1 − λ)ey , 0 ≤ λ ≤ 1, x, y ∈ R.
1 1
log ap + q log bq 1 log ap 1 log bq ap bq
Luego, a · b = elog a+log b = e p ≤ e + e = + . 2
1
(λ= p )
p q p q
1 1
Teorema 4.3.15. (Desigualdad de Hölder). Sean x = (xi )ni=1 , y = (yi )ni=1 ∈ Cn y p, q ∈ [1, ∞] tales que + = 1.
p q
n
X
Entonces |xi yi | ≤ kxkp kykq .
i=1
Demostración.
n n
!
X X
• Si p = 1, entonces q = ∞ y |xi ||yi | ≤ |xi | kyk∞ = kxk1 kyk∞ . Análogamente, se tiene el resultado si p = ∞
i=1 i=1
(con q = 1).
1 1
• Supongamos que 1 < p, q < ∞, con + = 1. Supongamos además que x, y 6= 0, pues en otro caso el resultado es
p q
obvio. Entonces, por la desigualdad de Young:
n n p q
! ! !
X xi yi X 1 |xi |p 1 |yi |q 1 kxkp 1 kykq
≤ + = + = 1.
kxkp kykq p kxkpp q kykqq p kxkpp q kykqq
i=1 i=1
n
X
Luego, despejando, |xi yi | ≤ kxkp kykq . 2
i=1
Teorema 4.3.16. (Desigualdad de Minkowski). Sean x, y ∈ Cn y p ∈ [1, ∞]. Entonces kx + ykp ≤ kxkp + kykp .
Demostración. Si p = 1 o ∞, o si x + y = 0, entonces la prueba es obvia. Supongamos que 1 < p < ∞ y que x + y 6= 0.
Entonces
n
X n
X n
X n
X
kx + ykpp = |xi + yi |p ≤ |xi + yi |p−1 (|xi | + |yi |) = |xi ||xi + yi |p−1 + |yi ||xi + yi |p−1 .
i=1 i=1 i=1 i=1
p 1 1
Sea q := , de modo que + = 1. Aplicando la desigualdad de Hölder en cada una de las dos sumas anteriores
p−1 p q
n
!1/p n
!(p−1)/p n
!1/p n
!(p−1)/p
p p
X X (p−1)· p−1 X X (p−1)· p−1
kx + ykpp ≤ |xi |p |xi + yi | + |yi |p |xi + yi |
i=1 i=1 i=1 i=1
n
!(p−1)/p
X
= |xi + yi | p
kxkp + kykp = kx + ykp−1
p kxk p + kyk p .
i=1
Clase teórica 21: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 5
Teorema 4.3.17. (Equivalencia de normas en dimensión finita). Sean k·ka y k·kb dos normas en Kn (K = R o
C). Existen c, C > 0 tales que c kxkb ≤ kxka ≤ C kxkb , ∀x ∈ Kn .
Demostración.
1o ) Veamos que cualquier norma k·k : Kn → R+ ∪ {0} es equivalente a k·k∞ .
Como k·k : Kn → R+ ∪ {0} es continua y S∞ := {x ∈ Kn / kxk∞ = 1} es compacto, por el Teorema de Weierstrass
existen m, M > 0 tales que m ≤ kyk ≤ M , ∀y ∈ S∞ (ver Nota 4.3.8). Luego, si x ∈ Kn (x 6= 0), se tiene que
x
m≤ ≤ M , esto es, m kxk∞ ≤ kxk ≤ M kxk∞ , ∀x ∈ Kn , y las normas k·k y k·k∞ son equivalentes.
kxk∞
2o ) Por la primera propiedad se tiene que
Clase teórica 21: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 22: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Teorema 4.3.18. (Normas matriciales 1, 2 e ∞). Sea A = (aij )ni,j=1 ∈ Mn (K). Entonces:
n
X
i) kAk∞ = max |aij | (máximo de las sumas por filas);
1≤i≤n
j=1
n
X
ii) kAk1 = max |aij | (máximo de las sumas por columnas);
1≤j≤n
i=1
p
iii) kAk2 = ρ(A∗ A) siendo ρ(A∗ A) = max |λ|.
λ∈σ(A∗ A)
1 −2
Ejemplo 4.3.19. Sea A = . Luego, kAk = max{3, 7} = 7, kAk = max{4, 6} = 6, mientras que para
∞ 1
−3 4
obtener kAk2 :
1 −3 1 −2 10 −14
A∗ A = AT A = = =⇒ pA∗ A (λ) = λ2 − 30λ + 4
−2 4 −3 4 −14 20
√ p √ .
y pA∗ A (λ) = 0 ⇐⇒ λ = 15 ± 221. Luego, kAk2 = 15 + 221 = 50 465.
Demostración (del Teorema 4.3.18, apartado iii)).
iii)
p p
• Veamos en primer lugar que kAxk2 ≤ ρ(A∗ A), ∀x ∈ Kn , con kxk2 = 1. Esto implicaría que kAk2 ≤ ρ(A∗ A).
Observamos primero que σ(A∗ A) ⊂ [0, ∞). En efecto, si λ ∈ σ(A∗ A), existe v ∈ Cn \ {0} tal que A∗ Av = λv. Entonces
kAvk22
v ∗ A∗ Av = λv ∗ v y por tanto λ = ≥ 0.
kvk22
Como A∗ A es hermitiana ((A∗ A)∗ = A∗ A), y por tanto normal, por el Teorema 4.2.27 (teorema espectral), existen
U, D ∈ Mn (K), U unitaria (U ∗ = U −1 ) y D diagonal, tal que U ∗ A∗ AU = D, o bien A∗ A = U DU ∗ . Observar que
D = Diag(λi (A∗ A))ni=1 y por tanto D es real con elementos diagonales no negativos.
Sea entonces x ∈ Kn tal que kxk2 = 1. En particular, x∗ x = 1. Luego, como
se tiene que
n
X n
X
kAxk22 = λi (A∗ A) |yi |2 ≤ max |λi (A∗ A)| |yi |2 = ρ(A∗ A) kyk2 = ρ(A∗ A) x ∗ ∗ ∗
| U{zU x} = ρ(A A).
| {z } 1≤i≤n
i=1 ≥0 i=1 =1
p
• Busquemos un vector x ∈ Kn tal que kxk2 = 1 y kAxk2 ≥ ρ(A∗ A). Esto probaría iii).
Como σ(A∗ A) ⊂ [0, ∞) entonces ρ(A∗ A) es un autovalor de A∗ A. Pongamos λ = ρ(A∗ A), y tomemos un autovector
x ∈ Kn \ {0} unitario, kxk2 = 1, de modo que A∗ Ax = λx. Entonces, kAxk22 = x∗ A∗ Ax = x∗ (λx) = λ = ρ(A∗ A). 2
Nota 4.3.20. 1. Es sencillo comprobar que para cualquier matriz A cuadrada se tiene que σ(A∗ A) = σ(AA∗ ) (de
hecho σ(AB) = σ(BA) para cualesquiera matrices cuadradas; ver ejercicios del tema). Luego,
p p
kAk2 = ρ(A∗ A) = ρ(AA∗ ).
Clase teórica 22: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
n
X n
X
2. A∗ A = (αij )ni,j=1 con αij = aki akj , 1 ≤ i, j ≤ n, y cuando i = j: αii = |aki |2 ∈ R. Además,
k=1 k=1
n
X n X
X n n
X
tr(A∗ A) = αii = |aki |2 = |aij |2 = tr(AA∗ ).
i=1 i=1 k=1 i,j=1
se tiene que
n n n
! n
X 2 X 2 2 X 2 X 2
kABk2F = hx(j) , y (i) i2 ≤ x(j) y (i) = y (i) x(j)
(CS) i,j=1 2 2 2 2
i,j=1 i=1 j=1
n X
n
! n n
X XX
= |ai` |2 |bkj |2 = kAk2F kBk2F .
i=1 `=1 j=1 k=1
n n X
n
X (i) 2 X
kAxk22 ≤ kxk22 A = kxk22 |aij |2 = kAk2F kxk22 , ∀x ∈ Kn .
2
i=1 i=1 j=1
Clase teórica 22: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
PARA AMPLIAR:
Demostración (del Teorema 4.3.18, apartados i) y ii)).
i)
n
X
• Sea x = (xj )nj=1 ∈ Kn tal que kxk∞ = 1 y veamos que kAxk∞ ≤ max |aij |. Esto implicaría que kAk∞ ≤
1≤i≤n
j=1
n
n
X Xn
max |aij |. Como Ax = aij xj se tiene que
1≤i≤n
j=1 j=1
i=1
n
X n
X n
X
kAxk∞ = max | aij xj | ≤ max |aij | |xj | ≤ max |aij |.
1≤i≤n 1≤i≤n |{z} 1≤i≤n j=1
j=1 j=1
≤1
n
X
• Veamos que existe x ∈ Kn , con kxk∞ = 1, tal que kAxk∞ ≥ max |aij |. Esto probaría i).
1≤i≤n
j=1
n
X n
X
Sea i0 ∈ {1, . . . , n} tal que |ai0 ,j | = max |aij |. Definimos x = (xj )nj=1 ∈ Kn como
1≤i≤n
j=1 j=1
ai0 ,j
6 0
, si ai0 ,j =
|ai0 ,j |
xj =
1,
si ai0 ,j = 0.
Es claro que kxk∞ = 1. Es más, |xj | = 1, para todo j = 1, . . . , n. Además,
n
X n
X n
X n
X n
X
kAxk∞ = max | aij xj | ≥ | ai0 ,j xj | = | |ai0 ,j || = |ai0 ,j | = max |aij |.
1≤i≤n (i=i0 ) (def. xj ) 1≤i≤n
j=1 j=1 j=1 j=1 j=1
ii)
n
X n
X
• De modo análogo, sea ahora x = (xj )nj=1 ∈ Kn tal que kxk1 = |xj | = 1 y veamos que kAxk1 ≤ max |aij |:
1≤j≤n
j=1 i=1
n n X
n n X
n n n
!
X X X X X
kAxk1 = |(Ax)i | = aij xj ≤ |aij ||xj | = |xj | · |aij |
i=1
i=1 j=1 i=1 j=1 j=1 i=1
X n n
X Xn
≤ |xj | · max |aij | = max |aij |.
1≤j≤n 1≤j≤n
j=1 i=1 i=1
| {z }
=1
n
X
Esto prueba que kAk1 ≤ max |aij |.
1≤j≤n
i=1
n
X
• Busquemos un vector x ∈ Kn tal que kxk1 = 1 y kAxk1 ≥ max |aij |. Esto probaría ii).
1≤j≤n
i=1
n
X n
X
Como existe j0 ∈ {1, . . . , n} tal que |ai,j0 | = max |aij |, sea x := ej0 ∈ Kn , esto es, el vector con componentes
1≤j≤n
i=1 i=1
xj = 0, si j 6= j0 , y xj0 = 1. Es claro que kxk1 = 1. Además
n X
X n n
X n
X
kAxk1 = aij xj = |ai,j0 | = max |aij |.
(j=j0 ) 1≤j≤n
i=1 j=1 i=1 i=1
2
Clase teórica 22: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 23: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Nota 4.3.24. La aplicación A 7→ ρ(A) (radio espectral) no es una norma matricial, pues no verifica en general que
ρ(A + B) ≤ ρ(A) + ρ(B) ni ρ(A · B) ≤ ρ(A) · ρ(B) (ver ejercicios del tema). Sin embargo, el siguiente resultado nos
dice que ρ(A) = inf{kAk / k·k norma matricial en Mn (C)}.
Teorema 4.3.25. Sea A ∈ Mn (C).
a) Si k·k es una norma matricial en Mn (C), entonces ρ(A) ≤ kAk.
b) Para todo ε > 0, existe k·k = k·kA,ε norma matricial inducida en Mn (C) tal que
kAkA,ε < ρ(A) + ε.
Esto es, ρ(A) = inf{kAk / k·k norma matricial inducida en Mn (C)}.
Demostración (del Teorema 4.3.25[a)]).
a) Sea λ ∈ C autovalor de A con módulo máximo, esto es, |λ| = ρ(A). Sea x ∈ Cn \ {0} autovector de A asociado a λ
(Ax = λx) y la matriz B := [x|0| . . . |0] ∈ Mn (C) definida por columnas. Entonces, dado que AB = λB y k·k es norma
matricial, se tiene que
ρ(A) kBk = |λ| kBk = kλBk = kABk ≤ kAk kBk .
Como B 6= 0 entonces kBk =
6 0 y ρ(A) ≤ kAk . 2
Corolario 4.3.26. Sea A ∈ Mn (C). ρ(A) < 1 si y solo si existe k·k norma matricial inducida en Mn (C) tal que
kAk < 1.
Demostración. La prueba es evidente teniendo en cuenta la caracterización de ínfimo de un conjunto de números
reales. 2
Corolario 4.3.27. Sea A ∈ Mn (C). Si existe k·k norma matricial en Mn (C) tal que kAk < 1 entonces
kIk kIk
I − A es inversible y ≤ (I − A)−1 ≤ .
kIk + kAk 1 − kAk
1 1
En particular, si la norma es inducida, ≤ (I − A)−1 ≤ .
1 + kAk 1 − kAk
Demostración. Tenemos que ρ(A) ≤ kAk < 1 y por tanto λ = 1 no es autovalor de A. Luego, I − A es regular
(det(I − A) = (−1)n det(A − 1 · I) 6= 0). Además
(I − A)(I − A)−1 = I y (I − A)−1 = I + A(I − A)−1 .
Tomando normas en ambas expresiones sigue que
kIk ≤ (kIk + kAk) (I − A)−1 y (I − A)−1 ≤ kIk + kAk (I − A)−1 .
Despejando (I − A)−1 en ambas desigualdades se obtiene el resultado. 2
1
Corolario 4.3.28. Sea A ∈ Mn (C) regular y B ∈ Mn (C) tal que kA − Bk < para alguna norma matricial en
kA−1 k
Mn (C). Entonces B es regular,
2
kIk A−1 A−1 kA − Bk kIk A−1 kIk
B −1 ≤ y A−1 − B −1 ≤ < .
1 − kA−1 k kA − Bk 1 − kA−1 k kA − Bk 1 − kA−1 k kA − Bk
Demostración. Como B = A(I − A−1 (A − B)) y A−1 (A − B) ≤ A−1 kA − Bk < 1, entonces por el corolario
previo I − A−1 (A − B) es regular y por lo tanto B también. Además,
kIk kIk A−1
B −1 ≤ (I − A−1 (A − B))−1 A−1 ≤ A −1
≤ .
1 − kA−1 (A − B)k 1 − kA−1 k kA − Bk
La segunda propiedad se deduce de la primera tomando normas en la relación A−1 − B −1 = −A−1 (A − B)B −1 . 2
Clase teórica 23: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
Teorema 4.4.3. (Neumann, serie geométrica matricial). Sea A ∈ Mn (C). Las siguientes afirmaciones son
equivalentes:
a) A es una matriz convergente;
b) ρ(A) < 1;
∞
X
c) La serie geométrica matricial I + A + A2 + ... = Aj converge a una matriz B ∈ Mn (C).
j=0
En particular, si se da algunas de las condiciones previas, entonces existe una norma matricial inducida k·k tal que
kAk < 1, I − A es regular,
∞
−1
X 1
(I − A) =B= Aj y (I − A)−1 ≤ .
1 − kAk
j=0
Demostración.
“a) ⇒ b)” Si lim Am = 0, entonces por continuidad de toda norma se tendrá que
m→∞
Observar que por el Teorema 4.2.18 de triangularización de matrices en Mn (C), se tiene que σ(Am ) = {λm / λ ∈
σ(A)}, pues P −1 AP = T , con T triangular y σ(T ) = σ(A), lo que implica que P −1 Am P = T m es triangular y
σ(Am ) = σ(T m ) = {λm / λ ∈ σ(A)}. En particular, ρ(Am ) = ρ(A)m . Luego, usando también el Teorema 4.3.25[a)],
sigue que
0 ≤ ρ(A)m = ρ(Am ) ≤ kAm k .
Por tanto, lim ρ(A)m = 0 y ρ(A) < 1.
m→∞
“b) ⇒ c)” Si ρ(A) < 1, por el Corolario 4.3.26, existe k·k norma matricial inducida tal que kAk < 1. Luego, por el
1
Corolario 4.3.27, existe (I −A)−1 y (I − A)−1 ≤ . Además, puesto que kAm k ≤ kAkm , sigue de la continuidad
1 − kAk
de la norma que
0 ≤ lim Am = lim kAm k ≤ lim kAkm = 0.
m→∞ m→∞ m→∞ kAk<1
Clase teórica 23: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
PARA AMPLIAR:
Demostración (del Teorema 4.3.25[b)]).
b) Por el Teorema 4.2.26 de Schur, existen U, T ∈ Mn (C), U unitaria y T triangular superior, tales que U −1 AU = T
(con U −1 = U ∗ ). Pongamos
λ1 t12 t13 . . . t1n
0 λ2 t23 . . . t 2n
. . . . ..
T =
. . .
con σ(A) = {λ1 , . . . , λn }.
λn−1 tn−1,n
0 λn
1 0
δ
Para cada δ > 0 definamos Dδ = Diag(1, δ, . . . , δ n−1 ) = . Entonces resulta que
..
.
0 δ n−1
λ1 δ · t12 δ 2 · t13 . . . δ n−1 · t1n
0
λ2 δ · t23 . . . δ n−2 · t2n
−1 −1
. . . . ..
(U Dδ ) A(U Dδ ) = Dδ T Dδ =
. . . .
λn−1 δ · tn−1,n
0 λn
n
X
Sea ε > 0. Tomamos δ > 0 suficientemente pequeño tal que max δ j−i |tij | < ε. Observar que δ = δ(T, ε) =
1≤i≤n−1
j=i+1
δ(A, ε). Definimos la aplicación k·kA,ε : Mn (C) → [0, ∞), como
Observar que la aplicación k·kA,ε depende de U y de δ, y por tanto de A y ε. Además, k·kA,ε es la norma matricial
inducida por la norma vectorial kxk := (U Dδ )−1 x ∞ -que es claramente un norma vectorial al serlo k·k∞ y al ser U
y Dδ regulares-. En efecto, la norma matricial inducida correspondiente será:
= (U Dδ )−1 B(U Dδ ) ∞
= kBkA,ε .
Clase teórica 23: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 4
Nota 4.4.4. 1. Claramente el Corolario 4.3.27 también es válido para I + A (basta sustituir A por −A).
2. La matriz A, con kAk < 1, se interpreta como una pequeña perturbación de la matriz identidad I.
1
de modo que kA − Bk∞ = kB − Ak∞ = 2 < .
kA−1 k ∞
1 · ( 41 ) ( 14 )2 · (2)
Luego, por el corolario previo, B es inversible, con B −1 ∞
≤ = 1
2 y B −1 − A−1 ∞
≤ = 14 .
1 − ( 14 ) · (2) 1 − ( 14 ) · (2)
Clase teórica 23: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 24: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Clase teórica 24: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
kAk∞ = 1502
1000 = 10 502, A−1 ∞
= 10 168 · 106 ,
p p
kAk2 = ρ(AT A) ' 10 1505, A−1 2
= ρ(A−T A−1 ) ' 10 1505 · 106 .
Comparamos el error relativo real en la solución del sistema lineal Ax = b con la cota de error relativo que proporciona
el Teorema 4.5.6 (ver en el Ejemplo 4.5.4 el cálculo de los números de condición).
• En la norma k·k∞ :
k∆xk∞
Error relativo real = = 835.
kxk∞
k∆bk∞
Cota de error relativo = cond∞ (A) = 104420 47619.
kbk∞
• En la norma k·k2 :
k∆xk2
Error relativo real = = 7550 6831347.
kxk2
k∆bk2
Cota de error relativo = cond2 (A) = 73180 949305.
kbk2
Clase teórica 24: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
Demostración (del Teorema 4.5.6). Tenemos que Ax = b y (A + ∆A)(x + ∆x) = b + ∆b. Luego
2
Nota 4.5.8. 1. El número de condición en norma euclídea k·k2 se conoce como número de condición espectral pues
v
u max |λ|
u λ∈σ(A∗ A)
u
−1
cond2 (A) = kAk2 · A 2
= .
min |λ|
t
λ∈σ(A∗ A)
En particular, si A es normal , como por el Teorema 4.2.27 (teorema espectral) se tiene que A∗ A = U D∗ DU ∗ ,
max |λ|
∗ λ∈σ(A)
con A = U DU , U unitaria y D diagonal, entonces cond2 (A) = = ρ(A)ρ(A−1 ).
min |λ|
λ∈σ(A)
max |λ|
λ∈σ(A)
2. Dada A ∈ Mn (C) regular arbitraria, se llama número de condición de A a µ(A) = ρ(A)ρ(A−1 ) = .
min |λ|
λ∈σ(A)
Observar que 1 ≤ µ(A) ≤ condk·k (A), para toda norma matricial.
3. De hecho, µ(A) = inf {condk·k (A)/ k·k norma matricial inducida en Mn (C)}.
PARA AMPLIAR:
En efecto, sea ε > 0 y tomemos εb > 0 tal que εb2 + εb ρ(A) + ρ(A−1 ) < ε. Ahora, para este εb > 0, según la prueba
del Teorema 4.3.25[b)], existe k·kA,bε norma matricial inducida tal que simultáneamente
kAkA,bε = Dδ−1 T Dδ ∞
< ρ(A) + εb y A−1 A,b
ε
= Dδ−1 T −1 Dδ ∞
< ρ(A−1 ) + εb.
Clase teórica 24: Notas de clase. Tema 4. Normas matriciales. Condicionamiento y error.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 25: Notas de clase. Tema 5. Resolución numérica de sistemas lineales. Métodos iterativos.
Consideramos el sistema lineal Ax = b, con A ∈ Mn (C) regular y x, b ∈ Cn . Asumimos para A una descomposición
de la forma A = N − P , con N, P ∈ Mn (C), N regular, de tal modo que
−1
M := N P
Ax = b ⇐⇒ N x = P x + b ⇐⇒ x = (N −1 P )x + (N −1 b) = M x + c, con y
c := N −1 b.
⇐⇒ lim M m = 0
m→∞
⇐⇒ ρ(M ) < 1,
donde la última equivalencia es consecuencia del Teorema 4.4.3 de Neumann. 2
Clase teórica 25: Notas de clase. Tema 5. Resolución numérica de sistemas lineales. Métodos iterativos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
Corolario 5.1.4. Un método iterativo x(m+1) = M x(m) + c, m ≥ 0, es convergente si y solo si existe una norma
matricial tal que kM k < 1.
Demostración. Es inmediata teniendo en cuenta que
Nota 5.1.5. Este corolario da una condición práctica para saber de antemano si un método iterativo es convergente.
En particular, dada M = (mij )ni,j=1 ,
n
X
kM k∞ = max |mij | < 1
1≤i≤n
j=1
o =⇒ ρ(M ) < 1.
n
X
kM k1 = max |mij | < 1
1≤j≤n
i=1
Así, kM k∞ < 1 o kM k1 < 1 son condiciones suficientes (aunque no necesarias) para la convergencia.
Teorema 5.1.6. Sea x(m+1) = M x(m) + c, m ≥ 0, con M ∈ Mn (C) y c ∈ Cn , un método iterativo consistente con el
sistema regular Ax = b, con solución x∗ = A−1 b, y sean e(m) = x(m) − x∗ los errores del método, para m ≥ 0. Entonces:
i) para todo ε > 0 existe una norma vectorial tal que e(m) ≤ (ρ(M ) + ε)m e(0) , m ≥ 0.
1/m
ii) para toda norma vectorial lim max e(m) = ρ(M ).
m→∞ ke(0) k=1
Nota 5.1.7. Este resultado nos dice que si ρ(M ) < 1, entonces ρ(M ) representa el factor asintótico global de conver-
gencia del método iterativo:
e(m) ≈ ρ(M )m e(0) , para m 1.
ii) Dada una norma vectorial k·k, consideramos su norma matricial inducida (que denotamos igualmente por k·k).
Entonces:
max e(m) = max M m e(0) = kM m k .
ke(0) k=1 ke(0) k=1
1/m
Luego, kM m k1/m = max e(m) , y por la fórmula de Gelfand (ver Teorema 4.4.6[b)]), haciendo m → ∞, sigue
ke(0) k=1
1/m
que ρ(M ) = lim max e(m) . 2
m→∞ ke(0) k=1
Clase teórica 25: Notas de clase. Tema 5. Resolución numérica de sistemas lineales. Métodos iterativos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
PARA AMPLIAR:
El siguiente resultado da una cota del error del método iterativo en términos de la tolerancia de error. Ver el ejercicios
del Tema 5.
Teorema 5.1.8. Sea x(m+1) = M x(m) + c, m ≥ 0, un método iterativo consistente con el sistema Ax = b, con solución
x∗ . Para toda norma vectorial y su norma matricial inducida:
i) x(m) − x∗ ≤ kM km x(0) − x∗ , m ≥ 0;
kM k kM km
x(m) − x∗ ≤ x(m) − x(m−1) ≤ x(1) − x(0) , m ≥ 1.
1 − kM k 1 − kM k
Clase teórica 25: Notas de clase. Tema 5. Resolución numérica de sistemas lineales. Métodos iterativos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 26: Notas de clase. Tema 5. Resolución numérica de sistemas lineales. Métodos iterativos.
Sea el sistema lineal Ax = b, con A ∈ Mn (C) regular descompuesta como A = D + L + U , con D, L, U ∈ Mn (C),
D diagonal, L triangular inferior estricta y U triangular superior estricta:
a11 a12 . . . a1n a11 0 . . . 0 0 0 ... 0 0 a12 . . . a1n
a21 a22 . . . a2n 0 a22
. .. ..
0 a21 0
... 0 0 0 .
= + + .
. . . . . . . . . .. .. ..
.. ..
.. .. .. .. .. .. .. .. .. . . . . . an−1,n
an1 an2 . . . ann 0 0 . . . ann an1 . . . an,n−1 0 0 0 ... 0
| {z } | {z } | {z } | {z }
=A :=D :=L :=U
Ax = b ⇐⇒ Dx = −(L + U )x + b,
que da lugar al método iterativo Dx(m+1) = −(L + U )x(m) + b, m ≥ 0. Así, dado x(0) ∈ Cm arbitrario, se define el
método de Jacobi como
Observar que
a12 a1n
a−1 0 . . . 0 0 a 12 . . . a 1n 0 a11 ... a11
11
. . .. ..
0 a−1
0 a21 0
.. ..
a21
0 . .
22 = − a22
MJ = −
.. ..
·
.. .. .. .. .. .. ..
.
an−1,n
. . . . . a n−1,n . . .
an−1,n−1
an,n−1
0 0 . . . a−1
nn a n1 . . . a n,n−1 0 an1
ann ... ann 0
−1 b1
a 0 ... 0 b
11 1 a11
−1 b2
0 a22 0 b2 a22
y cJ =
.. .. · .. = .. .
..
. . . . .
0 0 . . . a−1
nn b n
bn
ann
Veamos ahora cómo se obtienen las iteraciones del método de Jacobi componente a componente: usando que
Dx(m+1) = −(L + U )x(m) + b sigue que
(m+1) (m)
0 a12 ... a1n
a11 0 . . . 0 x1 x b1
0 a22 (m+1) . . .
. 1(m)
0 x2 b2
. x
= − a21 0 .
· 2. +
.. · .. .
.. . . . . . .
. . . .. .. .. .. .
an−1,n . .
0 0 . . . ann (m+1) (m) bn
xn an1 . . . an,n−1 0 xn
Clase teórica 26: Notas de clase. Tema 5. Resolución numérica de sistemas lineales. Métodos iterativos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
n
(m+1) (m)
X
Luego, aii xi =− aij xj + bi , 1 ≤ i ≤ n, y por lo tanto:
j=1
i6=j
n
(m+1) 1 X (m)
xi = bi − aij xj , 1 ≤ i ≤ n, m ≥ 0.
aii
j=1
i6=j
(m+1)
El método de Jacobi se conoce también como método de las iteraciones simultáneas pues las componentes xi ,
1 ≤ i ≤ n, se pueden calcular en paralelo.
Ax = b ⇐⇒ (D + L)x = −U x + b,
que da lugar al método iterativo (D + L)x(m+1) = −U x(m) + b, m ≥ 0. Dado x(0) ∈ Cm arbitrario, se define el método
de Gauss-Seidel como
x(m+1) = MGS x(m) + cGS , m ≥ 0, con MGS := −(D + L)−1 U y cGS := (D + L)−1 b .
esto es,
i−1 n
(m+1) (m+1) (m)
X X
aii xi = bi − aij xj − aij xj , 1 ≤ i ≤ n,
j=1 j=i+1
o bien,
i−1 n
(m+1) 1 X (m+1)
X (m)
xi = bi − aij xj − aij xj , 1 ≤ i ≤ n, m ≥ 0.
aii
j=1 j=i+1
El método de Gauss-Seidel se conoce como método de las iteraciones sucesivas. Observar que para el cálculo
(m+1) (m) (m)
- de x1 se usan x2 , . . . , xn ;
(m+1) (m+1) (m) (m)
- de x2 se usan x1 y x3 , . . . , x n ;
(m+1) (m+1) (m+1) (m) (m)
- de x3 se usan x1 , x2 y x4 , . . . , xn ; etcétera.
Nota 5.2.1. 1. El método de Jacobi converge (para cualquier vector inicial x(0) ) si y solo si ρ(MJ ) < 1. Igualmente,
el método de Gauss-Seidel converge si y solo si ρ(MGS ) < 1.
2. Generalmente, el método de Gauss-Seidel suele ser preferido al método de Jacobi en la práctica pues suele
converger más rápido. No obstante, esto no siempre tiene por qué ser así (en ejemplos concretos puede darse que
ρ(MJ ) < ρ(MGS )).
3. Puede ocurrir que uno de los dos métodos sea convergente y el otro no; o que ambos sean convergentes (respec-
tivamente, divergentes).
Clase teórica 26: Notas de clase. Tema 5. Resolución numérica de sistemas lineales. Métodos iterativos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
Ejemplo 5.2.2. Dar tres iteraciones de los métodos de Jacobi y Gauss-Seidel aplicados al sistema lineal
10x + 3y + z = 14
2x − 10y + 3z = −5
x + 3y + 10z = 14.
Computar los errores de ambos métodos sabiendo que la solución exacta es x = y = z = 1. Tomar x(0) = (0, 0, 0)T en
ambos métodos.
• Método de Jacobi:
(m+1) 1 (m) (m) (m+1) (m)
x = 14 − 3y − z 3 1 7
− −
10 x 0 10 10 x 5
y (m+1) = − 10
1
−5 − 2x(m) − 3z (m) =⇒
y = 1 0 3 ·
y + 1
5 10 2
1 3 7
z − 10 − 10 0 z
z (m+1) = 1 14 − x(m) − 3y (m)
5
10 | {z }
=MJ
• Método de Gauss-Seidel:
(m+1) 1 (m) (m)
x = 14 − 3y − z (m+1) 7 3 (m) 1 (m)
x = 5 − 10 y − 10 z
10
y (m+1) = − 10
1
−5 − 2x(m+1) − 3z (m) =⇒ y (m+1)
= 39 3 (m)
50 − 50 y
7 (m)
+ 25 z
sustitución
(m+1) 513 6 (m) 37 (m)
− 500
z (m+1) = 1 14 − x(m+1) − 3y (m+1)
z = 500 + 125 y z
10
(m+1) (m)
3 1 7
x 0 − 10 − 10 x
5
=⇒ = 3 7 · + 39
y 0 − 50 25 y
50
6 37 513
z 0 125 − 500 z 500
| {z }
=MGS
√ √ q
1 −1±i
Observamos que σ(MJ ) = { 10 , 20
59
} y σ(MGS ) = {0, −67±100013489 }, con lo que ρ(MJ ) = 1
2
3
5 ' 00 3873 < 1 y
√
ρ(MGS ) = 67+ 13489
1000 ' 00 1831 < 1. Luego, ambos métodos son convergentes (y la convergencia será más rápida en el
caso del método de Gauss-Seidel, al tener su matriz de iteración un radio espectral menor). Computemos ahora las
iteraciones y respectivos errores para cada método:
Clase teórica 26: Notas de clase. Tema 5. Resolución numérica de sistemas lineales. Métodos iterativos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 27: Notas de clase. Tema 5. Resolución numérica de sistemas lineales. Métodos iterativos.
Teorema 5.3.1. kMJ k∞ < 1 si y solo si A es estrictamente diagonal dominante por filas.
Demostración. Puesto que
a12 a1n
0 ...
a11 a11
a21 .. ..
.
a 0 . = (mij )ni,j=1 ,
MJ = − 22
.. .. .. an−1,n
. .
. an−1,n−1
an1 an,n−1
ann ... ann 0
n n n
X X |aij | 1 X
se tiene que kMJ k∞ = max |mij | = max = max |aij |, y por lo tanto kMJ k∞ < 1 si y solo si
1≤i≤n 1≤i≤n |aii | 1≤i≤n |aii |
j=1 j=1 j=1
j6=i j6=i
n
1 X
|aij | < 1, i = 1, . . . , n, esto es, si y solo si A es estrictamente diagonal dominante por filas. 2
|aii |
j=1
j6=i
Teorema 5.3.2. Si A ∈ Mn (C) es estrictamente diagonal dominante por filas entonces los métodos de Jacobi y
Gauss-Seidel son convergentes. Además, kMGS k∞ ≤ kMJ k∞ < 1.
Demostración. Por el teorema previo tenemos que ρ(MJ ) ≤ kMJ k∞ < 1 y por tanto el método de Jacobi es
convergente. Veamos que kMGS k∞ ≤ kMJ k∞ , lo cual implicaría que ρ(MGS ) < 1 y por tanto el método de Gauss-
Seidel también sería convergente.
Para probar que kMGS k∞ ≤ kMJ k∞ , demostraremos que para todo v ∈ Cn , v 6= 0, se tiene que kMGS · vk∞ ≤
kMJ k∞ kvk∞ . Sea v ∈ Cn , v 6= 0, y denotemos w := MGS · v. Entonces
w = −(D + L)−1 U v =⇒ Dw = −Lw − U v.
i−1
X n
X
Componente a componente: aii wi = − aij wj − aij vj , 1 ≤ i ≤ n. Luego,
j=1 j=i+1
i−1 n i−1 n
X |aij | X |aij | X |a |
ij
X |a |
ij
|wi | ≤ |wj | + |vj | ≤ kwk∞ + kvk∞ , 1 ≤ i ≤ s.
|aii | |aii | |aii | |aii |
j=1 j=i+1 j=1 j=i+1
| {z } | {z }
=:αi =:βi
Clase teórica 27: Notas de clase. Tema 5. Resolución numérica de sistemas lineales. Métodos iterativos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
i−1 n n
X |aij | X |aij | X |aij |
Denotemos αi := , βi := y µi := αi + βi = , 1 ≤ i ≤ n. Observamos que αi , βi ≥ 0, para
|aii | |aii | |aii |
j=1 j=i+1 j=1
j6=i
cada i = 1, . . . , n, y que max µi = kMJ k∞ < 1.
1≤i≤n
Eligiendo i ∈ {1, . . . , n} tal que |wi | = kwk∞ se obtiene que kwk∞ ≤ αi kwk∞ + βi kvk∞ , y, puesto que αi ≤ µi < 1,
despejando sigue que
βi
kwk∞ ≤ kvk∞ .
1 − αi
βi
Esto demuestra que kMGS · vk∞ ≤ kMJ k∞ kvk∞ ya que ≤ αi + βi ≤ kMJ k∞ . En efecto:
1 − αi
βi αi − αi2 + βi − αi βi − βi αi (1 − αi − βi ) αi (1 − µi )
(αi + βi ) − = = = ≥ 0.
1 − αi 1 − αi 1 − αi 1 − αi
2
Nota 5.3.3. La propiedad kMGS k∞ ≤ kMJ k∞ < 1 del teorema previo no debe interpretarse como que el método de
Gauss-Seidel converge igual o más rápido que el método de Jacobi (en la norma infinito). Por ejemplo, consideremos la
matriz estrictamente diagonal dominante (por filas y columnas)
1 18 − 18
A= 1 1
4 1 −4 .
− 14 1
4 1
1 1
Para esta matriz podemos comprobar que kMJ k∞ = 2 y kMGS k∞ = 4 < kMJ k∞ , en concordancia con la propiedad
√
2
del teorema previo. Sin embargo, ρ(MJ ) = 0 y ρ(MGS ) = > ρ(MJ ). Luego, el método de Jacobi converge más
16
rápido en general para sistemas lineales con la matriz de coeficientes A. De hecho, como ρ(MJ ) = 0 y A ∈ M3 (C), el
método de Jacobi convergerá, a lo sumo, en tres iteraciones (ver ejercicios del tema).
Nota 5.3.4. Si A es estrictamente diagonal dominante por columnas entonces los métodos de Jacobi y Gauss-Seidel
también son convergentes (ver ejercicios del tema).
10x + 3y + z = 14
Ejemplo 5.3.5. El sistema 2x − 10y + 3z = −5 tiene matriz de coeficientes estrictamente diagonal dominante
x + 3y + 10z = 14
por filas (y por columnas). Luego, los métodos de Jacobi y Gauss-Seidel convergen a la solución exacta x = y = z = 1,
para todo vector inicial. En el Ejemplo 5.2.2 obtuvimos
3 1 3 1
0 − 10 − 10 0 − 10 − 10
MJ = 1 3 y M = 0 − 3 7 .
5 0 10 GS 50 25
1 3 6 37
− 10 − 10 0 0 125 − 500
Tomando como vector inicial (0, 0, 0)T para ambos métodos, y sabiendo que la solución exacta es x = y = z = 1, en la
siguiente tabla mostramos los errores e(m) ∞ y las ratios de error e(m) ∞ / e(m−1) ∞ para cada método, así como
las respectivas potencias de ρ(MJ ) ' 00 3873 y ρ(MGS ) ' 00 1831 multiplicadas por el error inicial e(0) ∞ (ver Nota
5.1.7).
Clase teórica 27: Notas de clase. Tema 5. Resolución numérica de sistemas lineales. Métodos iterativos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
ke(m) k∞
Observamos que en ambos casos se satisfacen las cotas de error previstas: ≤ 00 5 para el método de Jacobi
ke(m−1) k∞
ke(m) k∞
y ≤ 00 4 para el método de Gauss-Seidel. Más aún, para cada método se observa el comportamiento asintótico
ke(m−1) k∞
del error e(m) ≈ ρ(M )m e(0) , m 1.
Jacobi Gauss-Seidel
ke(m) k∞ ke(m) k∞
e(m) ρ(MJ )m e(0) e(m) ρ(MGS )m e(0)
∞ ke(m−1) k∞ ∞ ∞ ke(m−1) k∞ ∞
m=3 70 1 · 10−2 00 355 50 8095 · 10−2 40 8956 · 10−3 00 07722 60 1428 · 10−3
m=4 30 55 · 10−2 00 5 20 25 · 10−2 10 2266 · 10−3 00 2506 10 125 · 10−3
m=5 10 159 · 10−2 00 3265 80 7142 · 10−3 20 0843 · 10−4 00 1699 20 0604 · 10−4
m=6 50 795 · 10−3 00 5 30 375 · 10−3 30 8969 · 10−5 00 1870 30 7734 · 10−5
m=7 10 7636 · 10−3 00 3043 10 3071 · 10−3 70 0976 · 10−6 00 1821 60 9106 · 10−6
m=8 80 8180 · 10−4 00 5 50 0625 · 10−4 10 3018 · 10−6 00 1834 10 2656 · 10−6
.. .. .. .. .. .. ..
. . . . . . .
m = 20 70 6663 · 10−9 00 2956 50 7665 · 10−9 10 9984 · 10−15 00 1978 10 8020 · 10−15
m = 21 30 8332 · 10−9 00 5 20 2334 · 10−9 30 3307 · 10−16 00 1667 30 3003 · 10−16
Clase teórica 27: Notas de clase. Tema 5. Resolución numérica de sistemas lineales. Métodos iterativos.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Clase teórica 28: Notas de clase. Tema 6. Cálculo numérico de autovalores y autovectores.
Sea A ∈ Mn (K), K = R o C. λ ∈ C es autovalor de A si existe v ∈ Cn \ {0} tal que Av = λv. En tal caso, decimos
que v es autovector de A asociado al autovalor λ. El conjunto de autovalores de A (espectro de A) lo hemos denotado
por σ(A) = {λ1 , . . . , λn }. Además:
λ ∈ σ(A) ⇐⇒ pA (λ) = 0, con pA (λ) = det(A − λI) = (−λ)n + (−λ)n−1 tr(A) + . . . + det(A).
En este apartado tratamos de determinar regiones del plano complejo donde pueden localizarse los autovalores de una
matriz A. Por ejemplo, sabemos que
• si A es hermitiana (esto es, A∗ = A) entonces σ(A) ⊂ R;
• si A es definida positiva (esto es, x∗ Ax > 0, ∀x ∈ Cn \ {0}) entonces σ(A) ⊂ (0, +∞);
• si A es unitaria (esto es, A∗ = A−1 ) entonces |λ| = 1, ∀λ ∈ σ(A).
Teorema 6.1.1. (Primer Teorema de Gershgorin). Sea A = (aij )ni,j=1 ∈ Mn (C) y sus círculos de Gershgorin por
filas y columnas definidos respectivamente por
Fi := {z ∈ C / |z − aii | ≤ fi }, Cj := {z ∈ C / |z − ajj | ≤ cj },
Xn Xn
fi := |aij |, (1 ≤ i ≤ n), cj := |aij |, (1 ≤ j ≤ n).
j=1 i=1
j6=i i6=j
n
S n
S n
S n
S
Entonces: i) σ(A) ⊂ Fi . ii) σ(A) ⊂ Cj . En particular, σ(A) ⊂ Fi ∩ Ci .
i=1 j=1 i=1 i=1
1 00 1 −00 1
σ(A)
F2
0.5
F3 F1
−0.5
−1
Clase teórica 28: Notas de clase. Tema 6. Cálculo numérico de autovalores y autovectores.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 2
σ(A) ⊂ C1 ∪ C2 ∪ C3 .
1
σ(A)
C3
0.5
C1
C2
−0.5
−1
σ(A)
0.5
F3 F1
C2
−0.5
−1
1 00 1 −00 1
σ(A) ⊂ F1 ∪ F2 ∪ F3 .
En este caso observamos que como A es simétrica entonces sus autovalores son reales. Así,
Clase teórica 28: Notas de clase. Tema 6. Cálculo numérico de autovalores y autovectores.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 3
0.5
σ(A)
F3 ∩ R F1 ∩ R F2 ∩ R
−0.5
−1
Tomando módulos, dividiendo por |vk |(6= 0) y aplicando la desigualdad triangular sigue que:
n n
X |vj | X
|λ − akk | ≤ |akj | ≤ |akj | = fk ,
|vk |
j=1 |{z} j=1
j6=k ≤1 j6=k
esto es, λ ∈ Fk .
(T ) (T )
ii) En primer lugar, observamos que σ(A) = σ(AT ). Ahora, si Fi y Cj son los círculos de Gershgorin de AT ,
(T ) (T )
1 ≤ i, j ≤ n, es claro que Fi = Ci y Cj = Fj , 1 ≤ i, j ≤ n. Luego, por el apartado i),
n n
(T )
[ [
σ(A) = σ(AT ) ⊂ Fj ⊂ Cj .
j=1 j=1
n n
2
S S
Finalmente, de i) y ii) es inmediato que σ(A) ⊂ Fi ∩ Ci .
i=1 i=1
n
S n
S n
S
Nota 6.1.4. 1. En general, aunque σ(A) ⊂ Fi ∩ Ci , no tiene por qué ser cierto que σ(A) ⊂ F i ∩ Ci .
i=1 i=1 i=1
Ver ejercicios del tema.
2. Aunque el primer teorema de Gershgorin permite localizar el espectro de A dentro de una unión de discos,
n
S
σ(A) ⊂ Di , este teorema no da información acerca del número de autovalores en cada disco.
i=1
Clase teórica 28: Notas de clase. Tema 6. Cálculo numérico de autovalores y autovectores.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 4
Teorema 6.1.5. (Segundo Teorema de Gershgorin) Sea A = (aij )ni,j=1 ∈ Mn (C) tal que, como en los casos i) o
ii) del teorema previo,
n
S
σ(A) ⊂ Di , siendo Di = {z ∈ C / |z − aii | ≤ ri }, 1 ≤ i ≤ n.
i=1
k
S n
S
Si Di ∩ Di = ∅, para algún k ∈ {1, . . . , n − 1}, entonces (contando multiplicidades) A tiene exactamente
i=1 i=k+1
Sk n
S
k autovalores en Di y n − k autovalores en Di .
i=1 i=k+1
Este teorema no se demostrará en clase. Para su demostración, veáse apartado final de ampliación.
Nota 6.1.6. 1. Un disco de Gershgorin podría no contener ningún autovalor.
2. Si un disco es disjunto de los n − 1 restantes, entonces ese disco contiene exactamente un autovalor (simple).
3. Si los n discos son disjuntos, entonces cada disco contiene exactamente un autovalor.
Ejemplo 6.1.7. En el Ejemplo 6.1.2, A tiene un autovalor en cada disco {z/ |z − 00 3| ≤ 00 2}, {z/ |z − 1| ≤ 00 2} y
{z/ |z − 2| ≤ 00 1}. De hecho, se tiene que σ(A) ' {00 2664, 10 0384, 10 9952}.
Ejemplo 6.1.8. En el Ejemplo 6.1.3, A tiene un autovalor en cada intervalo [0, 00 6], [00 8, 10 2] y [10 7, 20 3]. De hecho, se
tiene que σ(A) ' {00 2601, 10 0092, 20 0307}.
PARA AMPLIAR:
Demostración (del Teorema 6.1.5). Sean D := Diag(aii )ni=1 y A(ε) := D + ε(A − D), para 0 ≤ ε ≤ 1. Observamos
que A(0) = D y A(1) = A. Además, A(ε) = (bij )ni,j=1 con bii = aii y bij = εaij , si i 6= j. Sean λ1 , . . . , λn los autovalores
de A y λ1 (ε), . . . , λn (ε) los autovalores de A(ε). Entonces:
• λi (0) = aii , λi (1) = λi , 1 ≤ i ≤ n.
• λi (ε) ∈ C es una función continua de ε ∈ [0, 1] (pues los coeficientes del polinomio característico de A(ε) son
funciones continuas de ε -de hecho son funciones polinómicas en ε- y, a su vez, las raíces de un polinomio dependen
continuamente de los coeficientes).
n
S
• Por el Teorema 6.1.1, σ(A(ε)) ⊂ Di (ε), siendo Di (ε) = {z ∈ C / |z − aii | ≤ εri }, 1 ≤ i ≤ n. Observar
i=1
k
S
que los discos Di (ε) cumplen Di (1) = Di y Di (ε1 ) ⊂ Di (ε2 ), si 0 ≤ ε1 < ε2 ≤ 1. En particular, Di (ε) ∩
i=1
n
S
Di (ε) = ∅, para cada ε ∈ [0, 1].
i=k+1
k
S n
S k
S n
S
Ahora, λ1 (0), . . . , λk (0) ∈ Di , λk+1 (0), . . . , λn (0) ∈ Di , y Di ∩ Di = ∅. Si, por reducción al
i=1 i=k+1 i=1 i=k+1
k
S n
S
absurdo, existiera i ∈ {1, . . . , k} y εb ∈ (0, 1] tal que λi (b
ε) 6∈ ε) ∈
Di , entonces, puesto que λi (b Di , debe ser que
i=1 i=1
n
S k
S n
S
ε) ∈
λi (b Di . Como los discos son cerrados, ambos conjuntos Di y Di distan una cantidad d > 0. Pero
i=k+1 i=1 i=k+1
k
entonces se deduce de la continuidad de la curva λi (ε), ε ∈ [0, εb], que debe existir ε∗ ∈ (0, εb) tal que λi (ε∗ ) 6∈
S
Di y
i=1
n n k
λi (ε∗ ) 6∈ Di , y por tanto λi (ε∗ ) 6∈
S S S
Di . Absurdo. En definitiva, λ1 (ε), . . . , λk (ε) ∈ Di , para todo ε ∈ [0, 1].
i=k+1 i=1 i=1
n
S
Por un razonamiento análogo, obtenemos que λk+1 (ε), . . . , λn (ε) ∈ Di , para cada ε ∈ [0, 1]. Tomando ε = 1 se
i=k+1
obtiene el resultado. 2
Clase teórica 28: Notas de clase. Tema 6. Cálculo numérico de autovalores y autovectores.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 5
C
Di = Di (1)
σ(A)
λi
aii
Di (ε)
Clase teórica 28: Notas de clase. Tema 6. Cálculo numérico de autovalores y autovectores.
Grado en Matemáticas. Universidad de La Laguna. Métodos Numéricos I. 1
Sea A ∈ Mn (C) con σ(A) = {λ1 , . . . , λn }. Consideramos la matriz perturbada A e = A + ∆A. Interesa comparar
e = {λ
los espectros σ(A) e1 } y σ(A). Esto es, para cada k ∈ {1, . . . , n}, interesa acotar dek := min |λ
e1 , . . . , λ ek − λi | en
1≤i≤n
términos de k∆Ak (en alguna norma matricial).
Nota 6.2.1. Una matriz A podría estar bien condicionada para la resolución de sistemas lineales, pero no para el
cálculo de autovalores (y recíprocamente).
Ejemplo 6.2.2. Sean las matrices
1 1 0 0 1 1 0 0 0 0 0 0
0 1 1 0 0 1 1 0 0 0 0 0
A= , A
e= , e−A =
∆A = A (ε > 0).
0 0 1 1 0 0 1 1 0 0 0 0
0 0 0 1 ε 0 0 1 ε 0 0 0
Pongamos ε = 10−16 .
1. A está bien condicionada para la resolución de sistemas lineales:
1 −1 1 −1
0 1 −1 1
A−1 =
0 0 1 −1
0 0 0 1
de modo que kAk∞ = 2, A−1 ∞ = 4 y cond∞ (A) = kAk∞ A−1 ∞ = 8. Así para los sistemas lineales Ax = b
y (A + ∆A)(x + ∆x) = b (con ∆b = 0), como k∆Ak∞ = 10−16 , se tendrá por el Teorema 4.5.6 que
4 · 10−16
k∆xk∞ cond∞ (A) k∆Ak∞ k∆Ak∞
≤ k∆Ak
= −16
' 4 · 10−16 = 8
kxk∞ 1 − cond∞ (A) kAk ∞ kAk∞ 1 − 4 · 10 kAk∞
∞
Luego, la perturbación relativa (en la norma infinito) en la solución del sistema lineal es a lo sumo unas ocho
veces superior a la perturbación relativa introducida en la matriz A.
2. A no está bien condicionada para el cálculo de autovalores:
σ(A) = {1}, mientras que σ(A) e = {1 + √ 4
√ √ √
ε, 1 − 4 ε, 1 + i 4 ε, 1 − i 4 ε}. Observemos que pAe(λ) = (1 − λ)4 − ε,
y pAe(λ) = 0 si y solo si (1 − λ)4 = ε. Notemos, además, que los autovalores de A e son funciones continuas de ε
(aunque no derivables en ε = 0). Luego,
e − 1| √
|λ k∆Ak∞
= 4 ε = 10−4 = 2 · 1012 · , ∀λ
e ∈ σ(A),
e
|1| kAk∞
Así, la perturbación relativa en los autovalores es 2 · 1012 veces mayor que la perturbación relativa introducida en
la matriz A.
Teorema 6.2.3. (Bauer-Fike). Sea A ∈ Mn (C) una matriz diagonalizable y k·k una norma matricial inducida por
una norma vectorial, verificando que para toda matriz diagonal D = Diag(dii )ni=1 se tenga que kDk = max |dii |.
1≤i≤n
Si σ(A) = {λ1 , . . . , λn } y A e ∈ σ(A)
e = A + ∆A, entonces para todo λ e se tiene que
e − λi | ≤ kP k P −1 k∆Ak ,
de := min |λ
1≤i≤n
Este teorema no se demostrará en clase. Para su demostración, véase el apartado final de ampliación.
Nota 6.2.4. 1. La norma matricial k·kp , 1 ≤ p ≤ ∞, verifica la hipótesis del teorema: kDkp = max |dii | para
1≤i≤n
cualquier matriz diagonal D = Diag(dii )ni=1 (ver ejercicios del tema).
inf{kP k P −1 / P −1 AP = Diag(λi )ni=1 y k·k tal que kDk = max |dii |, ∀D = Diag(dii )ni=1 }.
1≤i≤n
Corolario 6.2.5. (Buen condicionamiento de las matrices normales para el problema de autovalores). Sea
A ∈ Mn (C) normal con σ(A) = {λ1 , . . . , λn }. Si A e ∈ σ(A)
e = A + ∆A, entonces para todo λ e se tiene que
de := min |λ
e − λi | ≤ k∆Ak .
2
1≤i≤n
Demostración. Como A es normal, por el Teorema 4.2.27 (teorema espectral), existe U ∈ Mn (C) unitaria (U U ∗ =
U ∗ U = I) tal que U ∗ AU = D = Diag(λi )ni=1 . Por el teorema previo, con P = U y k·k = k·k2 , sigue que
de ≤ kU k2 kU ∗ k2 k∆Ak2 = k∆Ak2 ,
ρ(U ∗ U ) = ρ(I) = 1 = kU ∗ k2 . 2
p p
pues kU k2 =
está mal condicionada para sistemas lineales pues cond2 (A) = kAk2 A−1 2 ' 10 5514 · 104 1. Sin embargo, está bien
condicionada respecto al cálculo de autovalores, pues es una matriz simétrica (y por tanto normal). Introducimos por
ejemplo la siguiente perturbación de A:
1 00 5 00 3333 00 25
0 0 3333 0 25 02
05 0 0 0
Ae=
00 3333 00 25
,
00 2 00 1667
0
0 25 0
02 0 0
0 1667 0 1429
esto es, el redondeo de la matriz A a cuatro cifras significativas correctas. Se tiene que
k∆Ak2 = A
e−A ' 60 5657 · 10−5 ,
2
PARA AMPLIAR:
Demostración (del Teorema 6.2.3). Si de = 0 el resultado es obvio. Supongamos entonces que de 6= 0, esto es, que
e 6= λi , 1 ≤ i ≤ n. Como λ
λ e existe x ∈ Cn \ {0} tal que Ax
e ∈ σ(A), e Por hipótesis, P −1 AP = Diag(λi )n . Luego:
e = λx.
i=1
e =⇒ P −1 (A + ∆A)P (P −1 x) = λ(P
(A + ∆A)x = λx e −1 x).
Tomando normas, kyk ≤ (λIe − D)−1 P −1 k∆Ak kP k kyk . Cancelando kyk y usando la hipótesis sobre k·k con la
e − D)−1 = Diag((λ
matriz diagonal (λI e − λi )−1 )n , sigue que
i=1
1 1
1 ≤ max kP k P −1 k∆Ak = kP k P −1 k∆Ak .
1≤i≤n |λ − λi |
e min |λ − λi |
e
1≤i≤n
Nota 6.2.7. El siguiente resultado, aplicable a matrices hermitianas, da una cota del error práctica para la distancia
de un autovalor aproximado λ e al espectro de la matriz A en términos del vector residual asociado a un autovector
aproximado x x − λe
e, esto es, re := Ae e x.
Teorema 6.2.8. (Cota del error a posteriori). Sean A ∈ Mn (C) hermitiana, con σ(A) = {λ1 , . . . , λn }, λ e ∈ C,
x n
e ∈ C \ {0} y el vector residual re := Ae
x − λe
e x. Entonces
e − λi | ≤ ke
de := min |λ
r k2
.
1≤i≤n ke
xk2
Este teorema no se demostrará en clase. Para su demostración, veáse apartado final de ampliación.
Corolario 6.2.9. Sea A ∈ Mn (C) hermitiana, con σ(A) = {λ1 , . . . , λn }. Si existen λ e ∈ Cn \ {0} con ke
e∈Cyx xk2 = 1
y Ae ex < ε, entonces min |λ
x − λe e − λi | < ε.
2 1≤i≤n
Sea A ∈ Mn (R) con autovalores λ1 , . . . , λn ∈ C, y supongamos que existe r ∈ {1, . . . , n − 1} tal que
λ1 = . . . = λr y |λ1 | > |λr+1 | ≥ . . . ≥ |λn |.
En tal caso, se dice que λ1 es el autovalor dominante de A (con multiplicidad r). Interesa conocer λ1 y un autovector
asociado v1 , al menos de modo aproximado. Observar que en las condiciones anteriores se tiene que λ1 ∈ R y se puede
considerar v1 ∈ Rn .
Dado un vector inicial x(0) ∈ Rn \ {0}, el método de potencias se basa en considerar la recurrencia:
u1
i) lim (sign σ1 )m · x(m) = .
m→∞ ku1 k2
u1
3. La propiedad i) indica que los vectores unitarios x(m) (multiplicados por (sign σ1 )m ) convergen a , esto es,
ku1 k2
tienden a alinearse en la dirección de un autovector asociado al autovalor dominante σ1 de B.
4. La propiedad ii) indica que los cocientes de Rayleigh %(m) := RB (x(m) ) = hBx(m) , x(m) i2 tienden al autovalor
dominante σ1 de B.
5. Las propiedades iii) y iv) indican que la convergencia del método es geométrica y depende de la razón entre el
σr+1
autovalor subdominante y el autovalor dominante < 1.
σ1
6. La propiedad v) indica que si, en particular, la base de autovectores {v1 , . . . , vn } es ortogonal (lo cual ocurre por
σr+1 2
ejemplo cuando B es simétrica), entonces la convergencia de %(m) a σ1 es geométrica con razón .
σ1
Nota 6.3.3. Sea A ∈ Mn (R) diagonalizable (posiblemente en Mn (C)) con autovalores λ1 , . . . , λn ∈ C, y autovectores
respectivos v1 , . . . , vn ∈ Cn \ {0} linealmente independientes. Supongamos que existe r ∈ {1, . . . , n − 1} tal que λ1 =
. . . = λr . Sea x(0) ∈ Cn \ span{vr+1 , . . . , vn }, con x(0) 2 = 1.
∗ z (m) = Ax(m) ,
∗ %(m) = hz (m) , x(m) i2 ,
z (m)
∗ x(m+1) = .
z (m) 2
Entonces:
%(m) −→ σ1 = λ1 , autovalor dominante de A
m→∞
Entonces:
1
%(m) −→ σ1 = ,
m→∞ λ1
1 1
−→ = λ1 , autovalor de mínimo módulo de A
%(m) m→∞ σ1
y (sign σ1 )m x(m) −→ u1 , autovector unitario de λ1 .
m→∞
1
Observar que u1 es autovector de A−1 asociado a si y solo si lo es de A asociado a λ1 .
λ1
1 1 1
tomando B = (A − µI)−1 (con lo cual > ≥ ... ≥ ): para m ≥ 0, dado x(m) ,
λ1 − µ λr+1 − µ λn − µ
Entonces:
1
%(m) −→ σ1 = ,
m→∞ λ1 − µ
1 1
+ µ −→ + µ = λ1 , autovalor de A más próximo a µ
%(m) m→∞ σ1
y (sign σ1 )m x(m) −→ u1 , autovector unitario de λ1 .
m→∞
1
Observar que u1 es autovector de (A − µI)−1 asociado a si y solo si lo es de A asociado a λ1 .
λ1 − µ
PARA AMPLIAR:
1 00 1 −00 1
√
Ejemplo 6.3.4. Sea la matriz A = 0 2 00 4 , x(0) = (1, 1, 1)T / 3 y T OL = 10−2 . Con tolerancia de error
−00 2 0 00 3
T OL,
c) aplicar el método de potencias inversas con desplazamiento µ = 1 para aproximar el autovalor de A más próximo
a 1;
d) aplicar el método de potencias inversas con desplazamiento µ = 00 3 para aproximar el autovalor de A más próximo
a 00 3;
e) aplicar el método de potencias inversas con desplazamiento µ = 2 para aproximar el autovalor de A más próximo
a 2;
a)
z (m−1)
m x(m) = z (m) = Ax(m) ρ(m) = hx(m) , z (m) i2 T OL(m) z (m) 2
z (m−1) 2
0 ( √13 , √13 , √13 )T (00 5774, 10 3856, 00 05774)T 10 1667 −−− 10 5022
1 (00 3843, 00 9224, 00 03843)T (00 4727, 10 8602, −00 06534)T 10 8950 00 7283 10 9204
2 (00 2462, 00 9686, −00 03402)T (00 3464, 10 9237, −00 05944)T 10 9506 00 0556 10 9556
3 (00 1772, 00 9837, −00 03040)T (00 2786, 10 9553, −00 04455)T 10 9741 00 0235 10 9755
4 (00 1410, 00 9898, −00 02255)T (00 2422, 10 9705, −00 03497)T 10 9852 00 0111 10 9856
5 (00 1220, 00 9924, −00 01761)T (00 2230, 10 9777, −00 02968)T 10 9904 00 0052 −−−
siendo T OL(m) = |ρ(m) − ρ(m−1) |.
La aproximación pedida al autovalor dominante de A es λ e = 10 9904, con autovector aproximado unitario x e =
0 0 0 T 0 0 0
(0 1220, 0 9924, −0 01761) . Se tiene que σ(A) = {λ1 , λ2 , λ3 }, con 0 < λ1 ' 0 2664 < λ2 ' 1 0384 < λ3 ' 1 9952.
Además, un autovector unitario asociado a λ3 es v3 ' (00 1012, 00 9948, −00 01193)T . Además, la razón de convergencia
|λ2 |
del método es ' 00 5204.
|λ3 |
b)
z (m−1) 1
m x(m) = z (m) = A−1 x(m) ρ(m) λ(m) = T OL(m) z (m) 2
z (m−1) 2
ρ(m)
0 ( √13 , √13 , √13 )T (00 8472, −00 2092, 20 4893)T 10 8056 00 5538 −−− 20 6378
1 (00 3212, −00 07930, 00 9437)T (00 7637, −00 7706, 30 6548)T 30 7554 00 2663 00 2875 30 8124
2 (00 2003, −00 2021, 00 9587)T (00 6455, −00 8262, 30 6259)T 30 7723 00 2651 00 0012 −−−
donde nuevamente ρ(m) = hx(m) , z (m) i2 , y T OL(m) = |λ(m) − λ(m−1) |.
Luego, la aproximación pedida al autovalor de mínimo módulo de A es λ e = 00 2651, con autovector aproximado unitario
e = (0 2003, −0 2021, 0 9587) . De hecho, λ1 ' 0 2664, con autovector unitario asociado v1 ' (00 1613, −00 2219, 00 9616)T .
x 0 0 0 T 0
1 1 1 1/|λ2 |
Observar además que, en este caso, puesto que > > , la razón de convergencia del método es '
|λ1 | |λ2 | |λ3 | 1/|λ1 |
00 2565.
c) Con µ = 1:
z (m−1) 1
m x(m) = z (m) = (A − µI)−1 x(m) ρ(m) λ(m) = +µ T OL(m) z (m) 2
z (m−1) 2
ρ(m)
0 ( √13 , √13 , √13 )T (100 1036, 20 0620, −30 7115)T 40 8810 10 2049 −−− 100 9595
1 (00 9219, 00 1881, −00 3387)T (240 2706, 20 7684, −60 4507)T 250 0807 10 0399 00 1650 250 2653
2 (00 9606, 00 1096, −00 2553)T (250 0184, 20 8229, −60 7834)T 260 0746 10 0384 00 0015 −−−
donde nuevamente ρ(m) = hx(m) , z (m) i2 , y T OL(m) = |λ(m) − λ(m−1) |.
Luego, la aproximación pedida al autovalor intermedio de A es λe = 10 0384, con autovector aproximado unitario x e=
(0 9606, 0 1096, −0 2553) . De hecho, λ2 ' 1 0384, con autovector unitario asociado v2 ' (00 9596, 00 1081, −00 2599)T .
0 0 0 T 0
1 1 1
Por otra parte, en este caso, puesto que resulta que > > , la razón de convergencia del
|λ2 − µ| |λ1 − µ| |λ3 − µ|
1/|λ1 − µ|
método es ' 00 05234.
1/|λ2 − µ|
d) Con µ = 00 3:
z (m−1) 1
m x(m) = z (m) = (A − µI)−1 x(m) ρ(m) +µ T OL(m) z (m) 2
z (m−1) 2
ρ(m)
0 ( √13 , √13 , √13 )T (−20 8868, 50 2237, −200 7571)T −100 6349 00 2060 −−− 210 5981
1 (−00 1337, 00 2419, −0.9611)T (40 8053, −60 5465, 280 4273)T −290 5460 00 2662 00 0602 290 5645
2 (00 1625, −00 2214, 00 9615)T (−40 8077, 60 6144, −280 6647)T −290 8082 00 2665 00 0003 −−−
La aproximación pedida al autovalor más próximo a µ = 00 3 es λ e = 00 2665, con autovector aproximado unitario
1 1 1
e = (00 1625, −00 2214, 00 9615)T . En este caso, puesto que resulta que
x > > , la razón de
|λ1 − µ| |λ2 − µ| |λ3 − µ|
1/|λ2 − µ|
convergencia del método es ' 00 04550.
1/|λ1 − µ|
e) Con µ = 2:
z (m−1) 1
m x(m) = z (m) = (A − µI)−1 x(m) ρ(m) +µ T OL(m) z (m) 2
z (m−1) 2
ρ(m)
0 ( √13 , √13 , √13 )T (−150 1554, −1440 3376, 10 4434)T −910 2500 10 9890 −−− 1450 1382
1 (−00 1044, −00 9945, 00 009945)T (210 0830, 2070 3, −20 4862)T −2080 383 10 9952 00 0062 −−−
La aproximación pedida al autovalor más próximo a µ = 2 es λ e = 10 9952, con autovector aproximado unitario x e=
1 1 1
(−00 1044, −00 9945, 00 009945)T . En este caso, puesto que resulta que > > , la razón de
|λ3 − µ| |λ2 − µ| |λ1 − µ|
1/|λ2 − µ|
convergencia del método es ' 00 0050.
1/|λ3 − µ|
Demostración (del Teorema 6.2.8). Como A es hermitiana, por el Teorema 4.2.27 (teorema espectral), existe
U = [u1 | . . . |un ] ∈ Mn (C) unitaria tal que U ∗ AU = Diag(λi )ni=1 , siendo u1 , . . . , un los vectores columna de U y
{λi }ni=1 los autovalores de A. Por tanto, {ui }ni=1 forman una base ortonormal de Cn y, para cada i = 1, . . . , n, ui es un
X n
autovector asociado a λi . Luego, existen escalares αi ∈ C, 1 ≤ i ≤ n, tales que x
e= αi ui . Por tanto,
i=1
n
X n
X n
X
xk22 =
ke |αi |2 , x − λe
re = Ae ex = αi (λi − λ)u
e i y krk22 = |αi |2 |λi − λ|
e 2.
i=1 i=1 i=1
n
|αi |2 X
Denotemos ωi := n , 1 ≤ i ≤ n. Es claro que ωi ≥ 0, 1 ≤ i ≤ n, y que ωi = 1. Luego
X
2 i=1
|αi |
i=1
n
X
|αi |2 |λi − λ|
e2
n n
2 X 2
rk22
ke i=1
X
e2≥
= n = ωi |λi − λ| min |λi − λ|
e ωi = min |λi − λ|
e .
xk22
ke X
2 i=1
1≤i≤n
i=1
1≤i≤n
|αi |
i=1
B 0 x(0)
y en particular B m x(0) 6= 0, m ≥ 0, ya que σ1 6= 0, u1 6= 0 y u1 6∈ span{ur+1 , . . . , un }. Ahora, x(0) = , pues
B 0 x(0) 2
x(0) es unitario. Por inducción, asumiendo cierto para m,
!
B m x(0)
B
Bx(m) B m x(0) 2 B m+1 x(0)
x(m+1) = = ! = .
Bx(m) 2 B m x(0) B m+1 x(0) 2
B
B m x(0) 2 2
n
X σj m
• Sea y (m) := σ1−m B m x(0) = u1 + uj , m ≥ 0. Entonces:
σ1
j=r+1
n m n
(m)
X σj m (m) σr+1 X
y − u1 = uj y y − u1 ≤ M1 , ∀m ≥ 0, con M1 := kuj k2 .
σ1 2 σ1
j=r+1 j=r+1
−m
B m x(0) B m x(0) y (m)
σ1
i) (sign σ1 )m · x(m) = (sign σ1 )m · = · = . Luego:
B m x(0) 2
σ1 ∈R |σ1 | B m x(0) 2
y (m) 2
u1 + (y (m) − u1 ) u1
(sign σ1 )m · x(m) = y lim (sign σ1 )m · x(m) = .
y (m) 2 m→∞ ku1 k2
−(m+1)
B m x(0) B m x(0) hσ1 B m+1 x(0) , σ1−m B m x(0) i2 hy (m+1) , y (m) i2
ii) %(m) = hB · , i2 = σ1 = σ1 .
B m x(0) 2 B m x(0) 2 hσ1−m B m x(0) , σ1−m B m x(0) i2 hy (m) , y (m) i2
k·k ku1 k22
Como y (m) −−−−
2
→ u1 , sigue que lim %(m) = σ1 = σ1 .
m→∞ m→∞ ku1 k22
!
u1 u1 + (y (m) − u1 ) u1 ku1 k2 − y (m) 2 y (m) − u1
iii) (sign σ1 )m · x(m) − = − = u1 + .
ku1 k2 y (m)
2
ku1 k2 y (m) 2
ku1 k2 y (m) 2
Tomando normas y aplicando la desigualdad triangular:
u1 u1 − y (m) 2
y (m) − u1 2
y (m) − u1 2
(sign σ1 )m · x(m) − ≤ ku1 k2 + =2
ku1 k2 2 y (m) 2
ku1 k2 y (m) 2
y (m) 2
m m m
2M1 σr+1 4M1 σr+1 σr+1
≤ 1 = = 2C · , ∀m ≥ m0 ,
2 ku1 k2 σ1 ku1 k2 σ1 σ1
2M1
con C := .
ku1 k2
hy (m+1) − y (m) , y (m) i2
iv) %(m) − σ1 = σ1 . Aplicando la desigualdad de Cauchy-Schwartz:
hy (m) , y (m) i2
m
M1 σr+1
max |σj − σ1 |
(m)
y (m+1) − y (m) 2
y (m) 2 |σ1 | σ1 r+1≤j≤n
|% − σ1 | ≤ |σ1 | 2 ≤ |σ1 | 1 , ∀m ≥ m0 .
y (m) 2 2 ku1 k2
Luego,
m m
2M1 σr+1 σr+1
|%(m) − σ1 | ≤ max |σj − σ1 | = C · max |σj − σ1 | · , ∀m ≥ m0 .
ku1 k2 r+1≤j≤n σ1 r+1≤j≤n σ1