Libro Estadistica
Libro Estadistica
Libro Estadistica
Introducción a la Probabilidad
Estas notas están protegidas por derechos de autor, pero pueden distribuirse
libremente para pruposes instructivos sin fines de lucro.
Contenido
1. Espacio y probabilidad de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
....................
1.1. Establece............................. .1.2. Modelos probabilísticos . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.
Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . 1.4. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5. Teorema de
probabilidad total y Regla de Bayes ................................
........................................
1.6. Contando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7. Resumen y discusiónion ...
......................................... .............................
..........
iv Contenidos
7. Limitar teoremas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
........................
7.1. Some Desigualdades útiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. La Ley débil de los números grandes . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.
Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4. El Teorema de Límite Central ...
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5. La Ley Fuerte de
Grandes Números ................................................... ...
...................
Prefacio
Estas notas de clase son el libro de texto actualmente utilizado para "Análisis de
Sistemas Probabilísticos", un curso de probabilidad introductoria en el Instituto
Tecnológico de Massachusetts. El texto de las notas es bastante pulido y completo,
pero los problemas son menos.
Al curso asisten un gran número de estudiantes de pregrado y posgrado con
diversos antecedentes. De acuerdo, hemos tratado de encontrar un equilibrio entre la
simplicidad en la exposición y la sofisticación en el razonamiento analítico. Algunos de
losanálisis más matemáticos y rigurosos se han esbozado o explicado intuitivamente
en el texto, de modo que las pruebas complejas no se interponen en el camino de una
exposición simple. Al mismo tiempo, parte de este análisis y los resultados
matemáticos necesarios se desarrolland (a nivel de cálculo avanzado) en problemas
teóricos, que se incluyen al final del capítulo correspondiente. Los problemas teóricos
(marcados por *) constituyen un componente importante del texto, y aseguran que el
reader orientado matemáticamenteencontrará aquí un desarrollo suave sin
grandes lagunas.
Damos soluciones a todos los problemas, con el objetivo de mejorar la utilidad
de las notas para el autoestudio. Tenemos problemas adicionales, adecuados para la
tarea (con soluciones), que hacemosavai lable a los instructores.
Nuestra intención es mejorar gradualmente y eventualmente publicar las notas
como un libro de texto, y sus comentarios serán apreciados
Dimitri P. Bertsekas
bertsekas@lids.mit.edu
Espacio de muestra y
Probabilidad
Contenido
1.1. Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 3
1.2. Modelos probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 6
1.3. Probabilidad condicional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.......................... pág. 16
1.4. Teorema de probabilidad total y Regla de Bayes. . . . . . . . . . . . . . . . . . . . . . . . .
................................... pág. 25
1.5. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.............................. pág. 31
1.6. Contando. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pág. 41
1.7. Resumen y discusión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
................... p. 48
1
2 Espacio de muestra y probabilidad Capítulo 1
"Probabilidad" es un concepto muy útil, pero se puede interpretar de varias maneras.
Como ilustración, considere lo siguiente.
Hacer.
De hecho, las elecciones y acciones de una persona racional.pueden revelar
mucho acerca de las probabilidades subjetivas internas, incluso si la persona no usa
conscientemente elrazonamiento probabilístico. De hecho, la última parte del diálogo
anterior fue un intento de inferir las creencias de la enfermera de manera indirecta.
Dado que la enfermera estaba dispuesta a aceptar una apuesta uno por uno que la
droga funcionaría, podemos inferir que la probabilidad de éxito se juzgó que es por lo
menos 50%. Y si la enfermera hubiera aceptado la última apuesta propuesta (dos por
uno), eso habría indicado una probabilidad de éxito de al menos 2/3.
En lugar de profundizar más en cuestiones filosóficas sobre la aplicaciónropriate
del razonamiento probabilístico, simplemente lo tomaremos como un dado que la
teoría de la probabilidad es útil en una amplia variedad de contextos, incluyendo
algunos donde las probabilidades asumidas sólo reflejan creencias subjetivas. Hay un
gran cuerpo deaplicacionessucesivas en la ciencia, la ingeniería, la medicina, la
gestión, etc., y sobre la base de esta evidencia empírica, la teoría de la probabilidad es
una herramienta extremadamente útil.
Nuestro principal objetivo en este libro es desarrollar el arte de describir la
incertidumbre en términos de modelos probabilísticos, así como la habilidad del
razonamiento probabilístico. El primer paso, que es el tema de este capítulo, es
describir la estructura genérica de estos modelos y sus propiedades básicas. Los
modelos que consideramos asignan probabilidades a colecciones (conjuntos) de
posibles resultados. Por esta razón, debemos comenzar con una breve revisión de la
teoría de conjuntos.
1.1 CONJUNTOS
La probabilidad hace un uso extensivo de las operaciones de conjunto, así que vamos
a introducir al principio la notación y terminología relevantes.
Un conjunto es una colección de objetos, que son los elementos del
conjunto. Si S es un set y x es un elemento de S, escribimos x s S. Si x no es un
4 Espacio de muestra y probabilidad Capítulo 1
elemento de S, escribimos x / s. Un conjunto no puede tener ningún elemento, en
cuyo caso se llama el conjunto vacío, denotado por .
Los conjuntos se pueden especificarde varias maneras. Si S contiene un
número finito de elementos, por ejemplo x1,x2,...,xn, loescribimos como una lista de
los elementos, entre llaves:
S áx1,x2,...,xn..
Alternatively, podemos considerar el conjunto de todas las x que tienen una cierta
propiedad
P, y denotarlo por
xxx x satisface P..
(El símbolo "- " debe leerse como "tal que.") Por ejemplo, el conjunto de enteros pares
se puede escribir como . | k/2 es entero. Del mismo modo, el conjunto de todos los
escalares x en el intervalo [0,1] se puede escribir comoxx 0 á x á 1o. Tenga en cuenta
que los elementos x de este último conjunto toman un rango de valores
continuous, y no se pueden escribir en una lista (una prueba se esboza en los
problemas teóricos); tal conjunto se dice que es incontable.
Si cada elemento de un conjunto S también es un elemento de un conjunto
T,decimos que S es un subconjunto de T, y escribimos S - T o T - S. Si S S -T y
T s , los dosconjuntos son iguales, equaly escribimos S - T. También es conveniente
introducir un conjunto universal,denotado por el nombre , que contiene todos los
objetos que podrían ser de interés en un contexto determinado. Habiendo
especificado elcontexto en términos de un conjunto universal, sólo consideramos los
conjuntos S que son subconjuntos de .
5
Establecer operaciones
............................................................... ...
Se dice que dos conjuntos están separados si su intersección está vacía. En términos
más generales, se dice que varios conjuntos son desarticulados si no hay dos de ellos
tienen un elemento común. Se dice que una colección de conjuntos es una partición
de un conjunto S si los conjuntos de la colección son disjoint y su unión es S.
Sec. 1.1 Conjuntos
Ω Ω Ω
S S S
T T
T
(a) (b) c)
Ω
T
Ω
S
S
T S
U
Ω U
T
Figura 1.1: Ejemplos de diagramas de Venn. (a) La región sombreada es S . T (b) La región
Las operaciones set tienen varias propiedades, que son consecuencias elementales de
las definiciones. Algunos ejemplos son:
S.,
Dos propiedades particularmente útiles son dadas por las leyes de De Morgan
que establecen que
,.
7
Para establecer la primera ley, supongamos que x á (nSnn)c. A continuación, x /sns nn,
loque implica que para cada n, tenemos x / sn. Por lo tanto, x pertenece al
complemento de cada Sn,y xn ánSnc. Esto demuestra que(n SSn))c ánSnnc. La inclusión
inversa se establece revirtiendo el argumento anterior, y la primera ley sigue. El
posibles de un experimento.
Ejemplo 1.1. Considere dos juegos alternativos, ambos con diez lanzamientos de monedas
sucesivas:
Juego 1: Recibimos $1 cada vez que sube una cabeza.
Juego 2: Recibimos $1 por cada lanzamiento de moneda, hasta e incluyendo la
primera vez que aparece una cabeza. Entonces, recibimos $2 por cada lanzamiento
de moneda, hasta la segunda vez que aparece una cabeza. En términos más
generales, la cantidad de dólares por tonelada se duplica cada vez que sube una
cabeza.
10 Muestra Spas y Probabilidad Capítulo 1
Modelos secuenciales
4 1 1, 2
1, 3
1, 4
3 2
2 nd Roll
Raíz Hojas
2
3
1
1 2 3 4 4
1 st Roll 1, 1
Figura 1.3: Dos descripciones equivalentes del espacio de muestra de un experimento que
implica dos rollos de un troquel de 4 lados. Los posibles resultados son todos los pares
ordenados de la forma (i,j), donde i es el resultado del primer rollo, y j es el
resultado del segundo. Estos elementosde salidase pueden organizar en una
Sec. 1.2 Modelos Probabilísticos 11
Leyes de responsabilidad
Modelos discretos
Aquí hay una ilustración de cómo construir una ley de probabilidad a partir de algunas
suposiciones de sentido común sobre un modelo.
Sec. 1.2 Modelos Probabilísticos 13
Si la moneda es justa, es decir, si creemos que las cabezas y las colas son "igualmente
probables", debemos asignar las mismas probabilidades a los dos resultados posibles y
especificar que
P 5. El axioma de aditividad implica que
P ,
P , P , P , P(o) a 0,
Suponemos que cada resultado posible tiene la misma probabilidad de 1/8. Construyamos
una ley de probabilidad que satisfaga los tres axiomas. Consideremos, como ejemplo, el
evento
Del mismo modo, la probabilidad de cualquier evento es igual a 1/8 veces el número de
posibles resultados contenidos en el evento. Esto define una ley de probabilidad que satisati
sifices los tres axiomas.
P .
Número de elementos de A
P(A) . .
N
Ejemplo 1.3. Dados. Consideremos el experimento de lanzar un par de dados de 4 lados (cf.
Fig. 1.4). Asumimos que los dados son justos, e interpretamos esta suposición para significar
que cada uno de losposibles resultados sixteen [pares ordenados (i,j), con i,j , 1,2,3,4],
tiene la misma probabilidad de 1/16. Para calcular la probabilidad de un evento,
debemos contar el número de elementos del evento y dividir por 16 (el número total de
resultados posibles). Aquí están algunas probabilidades de evento calculadas de esta
manera:
Espacio de muestra
Par de rollos
3 Evento
2 nd Roll {al menos un rollo es un
4}
7/16
2
1
1 2 3 4
1 st Roll
Evento
{el primer rollo es igual al segundo }
4/16
Figura 1.4: Varios eventos en el experimento de lanzar un par de dados de 4 lados, y sus
probabilidades, calculados de acuerdo con la ley uniforme discreta.
Modelos continuos
Ejemplo 1.5. Romeo y Julieta tienenuna fecha en un momento dado, y cada uno llegará al
lugar de reunión con un retraso entre 0 y 1 hora, con todos los pares de retrasos siendo
igualmente probables. El primero en llegar esperará 15 minutos y saldrá si el otro aún no ha
llegado. ¿Cuál es la probabilidad de que se reúnan?
Vamos a utilizar como espacio de muestra,el cuadrado de la tecla de muestra
de los elementos de los dos, delos,que se utilizan los elementos de los dos,
queson los posibles pares de retrasos. Nuestra interpretación de pares de retardos
"igualmente probables" es dejar que la probabilidad de un subconjunto de la palabra "sea
igual a su área". Esta ley de probabilidad satisface los tres axiomas de probabilidad. El
evento que Romeo y Julieta encontrará es la región sombreada en la Fig. 1.5, y su
probabilidad se calcula en 7/16.
Leyes de probabilidadh ave una serie de propiedades, que se pueden deducir de los
axiomas. Algunos de ellos se resumen a continuación.
integral puede no estar bien definida matemáticamente, pero tales cuestiones pertenecen a un
tratamiento más avanzado del tema.
y
1 /4
0 1 /4 1 X
Figura 1.5: El evento M que Romeo y Julieta llegarán dentro de los 15 minutos el uno
del otro (cf. Ejemplo 1.5) es
P .
Con más detalle, vamos a aplicar property (c) a los conjuntos A1 y A2 - An,
paraobtener
An)P(A1 a A2 a A2o An) , P(A1)+ P(A2 s a ).
Modelos y Realidad
El uso del marco de la teoría de probabilidad para analizar una situación física pero
incierta, implica dos etapas distintas.
(a) En la primera etapa, construimos un modelo probabilístico, especificando una ley
desucesión en un espacio de muestra adecuadamente definido. No hay reglas
difíciles para
C
B O
A n B
O B
O B
n
n
(a) (b)
O B
n
C C C C
O B C O B
n n
(c)
hemos
así que la propiedad (d) sigue como consecuencia del axioma de aditividad.
guiar este paso, aparte del requisito de que la ley de probabilidad se ajuste a los
tres axiomas. Las personas razonables pueden estar en desacuerdo sobre qué
modelo representa mejor la realidad. En muchos casos, uno puede incluso
querer utilizar un modelo algo "incorrecto", si es más simple que el "correcto" o
permite cálculos manejables. Esto es consistente con la práctica común en la
ciencia y la ingeniería, donde la elección de un modelo a menudo implica un
equilibrio entre precisión, simplicidad y capacidad de conteo. A veces, un
modelo es chosen sobre la base de datos históricos o resultados pasados de
experimentos similares. Los métodos sistemáticos para hacerlo pertenecen al
campo de las estadísticas,un tema que retomaremos en el último capítulo de
este libro.
(b) En la segunda etapa, trabajamos dentro de unmodelo probabilístico completo y
especificado y derivamos las probabilidades de ciertos eventos, o deducimos
algunas propiedades interesantes. Mientras que la primera etapa implica la
tarea a menudo abierta de conectar el mundo real con las matemáticas, la
segunda está estrechamente reguladad por las reglas de la lógica ordinaria y los
axiomas de probabilidad. Pueden surgir dificultades en este último si algunos
cálculos requeridos son complejos, o si se especifica una ley de probabilidad de
manera indirecta. Aun así, no hay lugar para la ambiguedad: todas las preguntas
concebiblestienen respuestas precisas y sólo se trata de desarrollar la habilidad
para llegar a ellas.
La teoría de la probabilidad está llena de "paradojas" en las que diferentes
métodos de cálculo parecen dar respuestas diferentes a la misma pregunta.
Invariablemente, sin embargo, estas aparentes incoherencias resultan reflejar
modelos probabilísticos mal especificados o ambiguos.
20 Muestra Spas y Probabilidad Capítulo 1
a algún otro evento dado A. Por lo tanto, buscamos construir una nueva ley de
probabilidad, que tenga en cuenta este conocimiento y que, para cualquier evento
A,nos dé la probabilidad condicional de A dado | B,denotada por P(A B).
número de elementos de A
B
P . .
P ,
(B B)
()
P , ,
P
• P(B)
P(A1 B)+ P(A2 B)
P (B )
P (O1 ∩ B ) P (O2 ∩ B )
== + ∩ ∩
n n
P(B) P(B)
• P(A1 ? B) + P(A2 ? B),
0, se define por
PAB)
(
( O |B )=
P P,,( B )
n
AB
P.
número de elementos de
Ejemplo 1.6. Lanzamientomos una moneda justa tres veces consecutivas. Deseamos
encontrar la probabilidad condicional P(A- B) cuando A y B son los eventos
A - más cabezas que las colas su una cabeza,, B , B , 1er toss es una cabeza..
que suponemos que es igualmente probable. El evento B consta de los cuatro elementos
HHH, HHT, HTH, HTT,por lo que su probabilidad es
P .
El evento A - B consta de los tres elementos resultados HHH, HHT, HTH, por lo que su
probabilidad es
24 Espacio de muestra y probabilidad Capítulo 1
P .
Por lo tanto, la probabilidad condicional P(A- B) es
P(A B) 3/8 3
P(A- B = =. ) á .
P(B) 4/8 4
Debido a que todos los resultados posibles son igualmente probables aquí, también
podemos calcular P(A| B) mediante un acceso directo. Podemos eludir el cálculo de P(B)y
con el número de elementos de B (quees 4), para obtener el mismo resultado 3/4.
Ejemplo 1.7. Un dado justo de 4 lados se enrolla dos veces y suponemos que los dieciséis
resultados posibles son igualmente probables. Deje que X e Y sean el resultado del
1er y el 2o rollo, respectivamente. Deseamos determinar laprobabilidad ondicional PC(A-
B) donde
,
y m toma cada uno de los valores 1, 2, 3, 4.
Al igual que en el ejemplo anterior, primero podemos determinar las probabilidades
3
2 nd Roll Y
2
B
1
1 2 3 4
1 st Roll X
Figura 1.7: Espacio de muestra de un experimento que implica dos rollos de un troquel de 4
3 o m a 4,
P a 2,
P , P , P .
A partir de estas relaciones, junto con la ecuación de normalización P(SS) + P(SF) + P(FS)+
P(FF) -1, podemos obtener las probabilidades de todos los resultados:
P , P , P , P .
26 Espacio de muestra y probabilidad Capítulo 1
P .
Uso de la probabilidad condicional para el modelado
Ejemplo 1.9. Detección de radar. Si una aeronave está presente en un área determinada,
un radar registra correctamente su presencia con probabilidad 0,99. Si no estápresente, el
radar registra falsamente una presencia de aeronave con probabilidad 0.10. Suponemos
que un avión está presente con probabilidad 0.05. ¿Cuál es la probabilidad de falsa alarma
(una indicación falsa de la presencia de la aeronave) y la probabilidad de detección perdida
(nada se registra, aunque una aeronave esté presente)?
Una representación secuencial del espacio de muestra es apropiada aquí, como se
muestra en la Fig. 1.8. Que A y B sean los eventos
Las probabilidades dadas se registran a lo largo de las ramas correspondientes del árbol que
describen el espacio de la muestra, como se muestra en la Fig. 1.8. Cada evento de interés
corresponde a una hoja del árbol y su probabilidad es igual al producto de las
probabilidadesasociadas con las ramas en un camino desde la raíz hasta la hoja
correspondiente. Las probabilidades deseadas de falsa alarma y detección perdida son
Extendiendo el ejemplo anterior, tenemos una regla general para calcular varias
probabilidades junto con una descripción secuencial basada en árbol de un
experimento. En particular:
(a) Configuramos el árbol para que un evento de interest se asocie a una hoja.
Vemos la ocurrencia del evento como una secuencia de pasos, a saber, los
recorridos de las ramas a lo largo de la ruta de acceso desde la raíz hasta la hoja.
(b) Registramos las probabilidades condicionales asociadas con las ramas del árbol.
(c) Obtenemos la probabilidad de una hoja multiplicando las probabilidades
registradasaaaa a lo largo de la trayectoria correspondiente del árbol.
Presentadores de
Aeronaves Perdido
P( O) 0,05 Detección
n
Figura 1.8: Descripción secuencial del espacio de muestra para la detección de radar.
problema en el ejemplo 1.9
Regla de multiplicación
Suponiendo que todos los eventos de acondicionamiento tengan una cuenta positiva,
have
−
P ∩NⅠN.o O Ⅰ = P ( O 1 ) P ( O 2 |O 1 ) P ( O 3 |O 1 ∩ O 2 ) ··· P O N |∩ NⅠN.o1 O Ⅰ .
1 n n n n n n n n 1 n
P,
O1 O2 O3 O N-1 ON
n n n ... n n
P (O1 ) P (O2 | O1 ) P (O3 | O1 ∩ O2 ) P ( O N| O 1 ∩ O 2 ∩ ... ∩ O N-1 )
n n n n n n n n n n
Tenga en cuenta que cualquier nodo intermedio a lo largo de la ruta de acceso también
corresponde a algún evento de intersección y su probabilidad se obtiene multiplicando las
probabilidades condicionales correspondientes hasta ese nodo. Por ejemplo, el evento A1 a
A2 a A3 corresponde al nodo que se muestra en la figura, y su probabilidad
es
Ejemplo 1.10. Tres cartas se extraen de un mazo ordinario de 52 cartas sin reemplazo (las
cartas dibujadas no se colocan de nuevo en la baraja). Deseamos encontrar la probabilidad
de que ninguna de las tres cartas sea un corazón. Suponemos que en cada paso, cada una
de las cartas restantes es igualmenteprobable que se elija. Por simetría, esto implica que
cada triplete de cartas es igualmente probable que se dibuje. Un enfoque engorroso, que
no usaremos, es contar el número de todos los trillizos de cartas que no incluyen un corazón,
y dividirlo con el número de todos los trillizos de cartas posibles. En su lugar, utilizamos una
descripción secuencial del espacio de muestra junto con la regla de multiplicación (cf. Fig.
1.10). Definir los eventos
P ,
ya que hay 39 cartas que no son corazones en la baraja de 52 cartas. Dado que la primera
carta no es un oídot, nos quedamos con 51 cartas, 38 de las cuales no son corazones, y
P .
Por último, dado que las dos primeras cartas extraídas no son corazones, hay 37 cartas que
no son corazones en el mazo de 50 cartas restante, y
P .
Estas probabilidades se registran a lo largo de las ramas correspondientes del árbol que
describen el espacio de la muestra, como se muestra en la Fig. 1.10. La probabilidad deseada
ahora se obtiene multiplicando las probabilidades registradas a lo largo de la ruta
correspondiente del árbol:
P .
Tenga en cuenta que una vez que las probabilidades se registran a lo largo del árbol,
la probabilidad de varios otros eventos se puede calcular de forma similar. Por ejemplo,
30 Espacio de muestra y probabilidad Capítulo 1
Not a Heart
37 /50
Corazó
13 /52n
Figura 1.10: Descripción secuencial del espacio de muestra del problema de selección de 3
tarjetas en el ejemplo 1.10.
Sec. 1.4 Teorema de probabilidad total y regla de Bayes 31
Tenemos
P ,
ya que hay 12 espacios para estudiantes en grupos distintos al del estudiante 1, y hay 15
espacios para estudiantes en general, excluyendo al estudiante 1. Semejantemente
P ,
ya que hay 8 espacios para estudiantes en grupos distintos del de los estudiantes 1 y 2, y
hay 14ranuras de tachuelas, excluyendo a los estudiantes 1 y 2. También,
P ,
,
y se obtiene multiplicando las probabilidades condicionales a lo largo de la ruta
correspondiente del árbol de la Fig. 1.11.
32 Espacio de muestra y probabilidad Capítulo 1
Figura 1.11: Descripción secuencial del espacio de muestra del problema del alumno en el
ejemplo 1.11.
O2 O3
BC
n n
Figura 1.12: Visualización y verificación del teorema de probabilidad total. Los eventos
A1,...,An forman una partición del espacio de muestra, por lo que el evento B se puede
0. 5 x 0. 3 + 0. 25 x 0. 4 + 0. 25 x 0. 5 x
0. 375.
Ejemplo 1.13. Rodamos un buen dado de cuatro caras. Si el resultado es 1 o 2, rodamos una
vez más, pero de lo contrario, nos detenemos. ¿Cuál es la probabilidad de que la suma total
de nuestros rollos sea de al menos 4?
Que seael evento que el resultado del primer rollo es i, y tenga en
cuentaque P(Ai) -1/4 para cada i. Deje que B sea el evento de que el total de la
suma es de al menos 4. Dado el evento A1, el total de la suma será al menos 4 si el
segundo rollo resulta en 3 o 4, lo que sucede con lautilidad probab1/2. Del mismo modo,
dado el evento A2, el total de la suma será al menos4 si el segundo rollo resulta en
2, 3 o 4, lo que sucede con la probabilidad 3/4. Además, dado el evento A3,nos detenemos
y el total de la suma permanece por debajo de 4. Por lo tanto,
P .
Ejemplo 1.14. Alice está tomando una clase de probabilidad y al final de cada semana puede
estar actualizada o puede haberse quedado atrás. Si está actualizada en una semana
determinada, la probabilidad de que esté actualizada (o detrás) en la próxima semana es
0,8 (o 0,2, respectively). Si está atrasada en una semana determinada, la probabilidad de
que esté actualizada (o detrás) en la próxima semana es 0,6 (o 0,4, respectivamente). Alice
Sec. 1.4 Teorema de probabilidad total y regla de Bayes 35
está (de forma predeterminada) actualizada cuando inicia la clase. ¿Cuál es la probabilidad
de que esté actualizada tressemanas?
Deje que Ui y Bsean los eventos que Alice está al día o detrás, respectivamente,
después de i semanas. De acuerdo con el teorema de probabilidad total, la probabilidad
deseada P(U3) es dadapor
y tiene 220 hojas. Por otro lado, con un ordenador, una caclulación secuencial utilizando las
fórmulas de probabilidad total
Regla de Bayes
Deje que A1,A2,...,An sean eventos desarticulados que formen una partición del
espacio de muestra, y supongamos que P(Ai) > 0, para todos los i. Entonces,
para cualquier evento B tal que P(B) > 0, tenemos
P
P(Ai)P(BAi)
= |.
P(A1)P(B - A1) + ? + P(An)P(B - An)
Para verificar la regla de Bayes, tenga en | cuenta que P(Ai)P(B Ai) y P(Ai ?
B)P(B) soniguales, porque ambos son iguales a P(Ai - B). Esto produce la primera
igualdad. La segunda igualdad se deriva de la primera utilizando el teorema de
probabilidad total para reescribir P(B).
La regla de Bayes se utiliza a menudo para la inferencia.. Hay una serie de
"causas" que pueden resultar en un cierto "efecto". Observamos el efecto, y queremos
inferir la causa. Los eventos A1,...,An están asociados a las causas y el evento B
representa el efecto. La probabilidad P(B ? A)ique el efecto se observará cuando la
causa Ai esté presente equivale a un modelo probabilístico de la relación causa-
efecto (cf. Fig. 1.13). Dado que se ha observado el efecto B, deseamos evaluar la
probabilidad (condicional) P(Ai | B) que la causa Ai está presente..
Sec. 1.4 Teorema de probabilidad total y regla de Bayes 37
Causa 3 B O1 ∩ B
Otro n
Causa 1
O1
tumor maligno O1 BC
n
n B
O2 ∩ B
B O2 n
Efecto n
Causa 2
Sombra observada
O3 BC
Sin lo maligno n
Tumor
O2 O3 B O3 ∩ B
n
n n
BC
Figura 1.13: Un ejemplo del contexto de inferencia que está implícito en la regla de Bayes.
Observamos una sombra en la radiografía de una persona (este es el evento B,el "efecto")
y queremos estimar la probabilidad de tres causas potenciales mutuamente excluyentes y
colectivamente exhaustivas: cause 1 (evento A1) es que hay un tumor maligno, causa 2
(evento A2) es que hay un tumor no maligno, y causa 3 (evento A3)corresponde a razones
distintas de un tumor. Asumimos que conocemos las probabilidades P(Ai) y P(B - Ai), i á
1,2,3. Dado quevemos una sombra (ocurre el evento B), la regla de Bayes da las
probabilidades condicionales de las diversas causas como
P .
Para una vista alternativa, considere un modelo secuencial equivalente, como se
Se nos da que
P(A)P(BA)
= |
P(B)
Ejemplo 1.16. Volvamos al problema del ajedrez del Ejemplo 1.12. Aquí Ai es
el evento de conseguir un oponente de tipo i, y
P(A3) a0. 25.
P(A1) a0. 5, P(A2) a0. 25,
P P(A1)P(B -
A1)
Sec. 1.5 Independencia 39
1.5 INDEPENDENCIA
P(A- B) á P(A).
Cuando se mantiene la igualdad anterior, decimos que A es independiente de B.
Tenga en cuenta que por la definición P(A- B) - P(A - B))/P(B), esto es equivalentea
Ejemplo 1.17. Considere un experimento que involucre dos rollos sucesivos de un dado de
4 lados en el que los 16 resultados posibles son igualmente probables y tienen probabilidad
1/16.
(a) ¿Son los eventos
Los resultadosde i a 1er rollo en i}, Bj - 2o rollo dan como resultado j},
independent? Tenemos
número de elementos de Ai 4
P(Ai), =,
número total de posibles resultados 16 número de
elementos de Bj 4
P .
B
P.
número total de posibles resultados 16
y también
número de elementos de A 3
P(A) - ,
número total de posibles resultados 16
número de elementos de B 5
P(B) . .
número total de posibles resultados 16
Independencia condicional
Después de cancelar el factor P(B ? C), asumida como cero, vemos que la
independencia condicional es la misma que la condición
Ejemplo 1.18. Considere dos lanzamientos de moneda justa independientes, en los que los
cuatro resultados posibles son igualmente likely. Dejemos que
P , P , P(H | 1 á H2 D) á 0,
Ejemplo 1.19. Hay dos monedas, una azul y otra roja. Elegimos uno de los dos al azar, cada
uno siendo elegido con probabilidad 1/2, y procedemos con dos tosses independientes. Las
monedas están sesgadas: con la moneda azul, la probabilidad de cabezas en cualquier
lanzamiento dado es 0.99, whereas para la moneda roja es 0.01.
Deje que B sea el evento de que la moneda azul fue seleccionada. Que también yo
sea elevento que el ith toss resultó en cabezas. Dada la elección de una moneda, los
eventos H1 y H2 son independientes, debido a nuestra asunción de lanzamientos
independientes. Por lo tanto,
Por otro lado, los eventos H1 y H2 no son independientes. Intuitivamente, si se nos dice
que el primer lanzamiento resultó en cabezas, esto nos lleva a sospechar que la moneda
azul fue seleccionada, en cuyo caso, esperamos que el segundo lanzamiento también
resulte en cabezas. Matemáticamente, usamos el teorema de probabilidad total para
obtener
Sec. 1.5 Independencia 43
P ,
como se debe esperar de las consideraciones de simetría. Del mismo modo, tenemos P(H2)
a1/2. Ahora observen que
P(A- B) á P(A).
Las tres primeras condiciones simplemente afirman que los dos eventos son
independientes, una propiedad conocida como independencia por pares. Pero la
cuarta condición también es importante y no sigue de los tres primeros. Por el
contrario, la cuarta condición no implica lostres primeros; véanse los dos ejemplos
siguientes.
Los eventos H1 y H2 son independientes, por definición. Para ver que H1 y D son
independientes, observamos que
P(H D)
1/4 1
P . .
P ,
y estos tres eventos no son independientes.
eventos:
Tenemos
P ,
P , P
Por lo Atanto, los tres eventos A , B, y C no son independientes, y de hecho no hay dos
de estos eventos son independientes. Por otro lado, hemos
P .
O
P );
ver los problemas teóricos.
Fiabilidad
Ejemplo 1.22. Conectividad de red. Una red informática conecta dos nodos A y B a través
de los nodos intermedios C, D, E, F, como se muestra en la Fig. 1.14(a). Para cada par de
nodos conectados directamente, digamos i y j, hay una probabilidad dada pij que el
enlace de i a j está para arriba. Suponemos que los errores de enlace son
independientes
Sec. 1.5 Independencia 47
0.8 E
C 0.9
0.9
0.95 F
O 0.85 B
n
0.75 0.95
D
(O)
n
1
1 2 3 2
Figura 1.14: (a) Red para el ejemplo 1.22. El número junto a cada enlace (i,j) indica la
probabilidad de que el enlace esté para arriba. (b) Serie y conexiones
paralelas de tres componentes en un problema de fiabilidad.
el uno del otro. ¿Cuál es la probabilidad de que haya un trayecto que conecta A y B en el
cual todos los links están para arriba?
Este es un típico problem de evaluar la fiabilidad de un sistema que consiste en
componentes que pueden fallar de forma independiente. Este sistema a menudo puede
dividirse en subsistemas, donde cada subsistema consta a su vez de varios componentes
que están conectados en serie o en parallel;véase la Fig. 1.14(b).
Deje que un subsistema consista en los componentes 1,2,...,m, y deje que pi sea la
probabilidad de que el componente i esté arriba ("éxito"). Entonces, un subsistema
de serie tiene éxito si todos sus componentes están arriba, por lo que su probabilidad de
éxito es el producto de las probabilidades de éxito de los componentes correspondientes,
es decir,
Un subsistema paralelo tiene éxito si alguno de sus componentes tiene éxito, por lo que su
probabilidad de fallo es el producto de las probabilidades de fallo de los componentes
correspondientes, es decir,
P Hhh 3
Prob ? p
Hh
P
Hht 2
1- P Prob á p (1 - p)
H
P Hth
2
P 1- P Prob á p (1 - p)
Ht
1- P Htt
2
P Prob á p(1 - p)
Thh
TH
P 2
1- P Prob á p (1 - p)
1- P Tht
T P
Tth 2
Prob á p(1 - p)
1- P
Tt 2
1- P Ttt Prob á p(1 - p)
Prob (1 - p)3
Figura 1.15: Descripción secuencial del espacio de muestra de un experimento que implica
tres lanzamientos independientes de una moneda sesgada. A lo largo de las ramas del árbol,
registramos las probabilidades condicionales correspondientes, y por la regla de
multiplicación, la probabilidad de obtaining una secuencia particular de 3 toss se calcula
multiplicando las probabilidades registradas a lo largo de la ruta correspondiente del árbol.
50 Espacio de muestra y probabilidad Capítulo 1
Dónde
i! , 1 , 2o, (i 1) ? i,
Sec. 1.6 Contando∗ 51
Dónde
son las probabilidades binomiales.
Este ejemplo es típico de los problemas de dimensionamiento de la capacidad de una
instalación para atender las necesidades de una población homogénea, que consiste en
clientes que actúan de forma independiente. El problema es seleccionar el tamaño c para
alcanzar una cierta probabilidad de umbral (a veces llamada grado de servicio)que
ningún usuario se deja sin ser atendido.
1.6CUENTAS ?
......
.... Hojas
......
......
N1 N2 N3 N4
Opciones Opciones Opciones Opciones
Figura 1.16: Ilustración del principio básico de escrutinio. El recuento se lleva a cabo en
resultado posible de las primeras etapas i - 1, hay ni resultados posibles en la iia etapa.
n1 ? n2 ? nr.
teléfono distintos hay? Podemos visualizar la elección de una secuencia como un proceso
secuencial, donde seleccionamos un dígito a la vez. Tenemos un total de 7 etapas, y una
opción de uno de cada 10 elementos en cada etapa, excepto en la primera etapa donde sólo
tenemos 8 opciones. Por lo tanto, la respuesta es
Cabe señalar que el Principio de Conteo sigue siendo válido incluso si cada
resultado de la primera etapa conduce a un conjunto diferente de posibles resultados
de la segunda etapa, etc. El único requisito es que el número de posibles resultados de
la segunda etapa sea constante, independientemente delresultado de la
primeraetapa. Esta observación se utiliza en la secuela.
En lo que sigue, nos centraremos principalmente en dos tipos de argumentos de
recuento que implican la selección de objetos k de una colección de n objetos. Si el
orden de selección importa, la elección de sse llama una permutación,y de lo
contrario, se llama una combinación. A continuación, discutiremos un tipo más
general de recuento, que implica una partición de una colección de n objetos en
varios subconjuntos.
k-permutaciones
Comenzamos con n objetos distintos, y dejamos que k sea un entero positivo, con k
á n. Deseamos contar el número de diferentes maneras en que podemos seleccionar
k de estos n objetos y organizarlos en una secuencia, es decir, el número de
secuencias de objetos kdistintos. Podemos elegir cualquiera de los n objetos para
ser el primero. Después de haber elegido el primero, sólo hay nx1 opciones posibles
para la segunda; dada la elección de los dos primeros, sólo quedan n x 2 objetos
Sec. 1.6 Contando∗ 55
disponibles para la tercera etapa, etc. Cuando estamos listos para seleccionar el último
(el kth) objeto, ya hemos elegido k - 1 objetos, lo que nos deja con n s (k á 1)
opciones para el último. Por el Principio de Conteo, el número de secuencias posibles,
llamado k-permutaciones,,
Es
Ejemplo 1.26. Vamos a contar el número de palabras que consisten en cuatro letras
distintas. Este es el problema de contar el número de 4 permutaciones de las 26 letras en
el alfabeto. El número deseado es
Ejemplo 1.27. Usted tiene n1 CDs de música clásica, n2 CDs de música rock, y n3 CDs de
música country. ¿De cuántas maneras diferentes puede organizarlos para que los CD del
mismo tipo sean contiguos?
Desglosamos el problema en dos etapas, donde primero seleccionamos el orden de
los tipos de CD, y luego el orden de los CD de cada tipo. ¡Hay 3! secuencias ordenadas de
los tipos de CD (tales como clásico/rock/país, rock/country/clásico, etc.), y hay n1! (o n2!, o
n3!) permutaciones de los CDs clásicos (o rock, o country, respectivamente). Por lo tanto,
para cada uno de los 3! Secuencias de tipo CD, hay n1! n2! n3! arreglos de CDs, y el total
deseado number es3! n1! n2! n3!.
Combinaciones
,
de acuerdo con el listado dado anteriormente.
Vale la pena observar que contar argumentos a veces conducen a fórmulas que
son bastante difíciles de derivar algebraicamente. Un ejemplo es la fórmula binomial
Particiones
que es igual a
.
Observamos que varios términos cancelan y nos quedamos con
.
Esto se llama coeficiente multinomial y generalmente se denota por
tamaño 1 (la posición que obtiene la letra A) y un grupo de tamaño 2 (las posiciones que
obtienen la letra O). Por lo tanto, el número deseado es
.
Es instructivo rederive esta respuesta usando un argumento alternative. (Este
argumento también se puede utilizar para rederive la fórmula del coeficiente multinomial;
ver los problemas teóricos.) Reescribamos TATTOO en la forma T 1AT2T3O1O2 fingiendo por
un momento que estamos tratando con 6 objetos distinguibles. Estos 6 objetosse pueden
reorganizar de 6! Sin embargo, cualquiera de los 3! posibles permutaciones de T 1, T1yT3, así
como cualquiera de las 2! permutaciones posibles de O1 y O2, conducen a la misma palabra.
Por lo tanto, cuando se eliminan los subíndices, ¡sólo hay 6! /(3!2! ) palabras diferentes.
diferentes maneras.
Por el Principio de Conteo, el evento de interésse materializa en
Después de algunas cancelaciones, podemos ver que esto es lo mismo que la respuesta 12
Aquí hay un resumen de todos los resultados de conteo que hemos desarrollado.
causar sólo los resultados contenidos en la condiciónenel evento g pueden tener una
probabilidad condicional positiva. Las probabilidades condicionales se derivan de la
ley de probabilidad (incondicional) utilizando la definición P(A| B) á P(A - B)//P(B).
Sin embargo, el proceso inverso es a menudo conveniente, es decir, primero
especifique algunasprobabilidades conditional que son naturales para la situación
real que deseamos modelar, y luego utilizarlas para derivar la ley de probabilidad
(incondicional). Dos herramientas importantes en este contexto son la regla de
multiplicación y el teorema de probabilidad total.
Hemosilustrado a través de ejemplos tres métodos para especificar leyes de
probabilidad en modelos probabilísticos:
(1) El método de recuento. Este método se aplica al caso en el que el número de
resultados posibles es finito, y todos los resultados son igualmente probables.
Para calcular la probabilidad de un evento, contamos el número de elementos
en el evento y dividimos por el número de elementos del espacio de muestra.
(2) El método secuencial. Este método se aplica cuando el experimento tiene un
carácter secuencial y se especifican o calculan las probabilidades condicionales
adecuadas a lo largo de las ramas del árbol correspondiente (quizás mediante el
método de recuento). Las probabilidades probade varios eventos se obtienen
multiplicando las probabilidades condicionales a lo largo de las rutas
correspondientes del árbol, utilizando la regla de multiplicación.
(3) El método de dividir y conquistar. En este caso, las probabilidades P(B) devarios
eventos B se obtienen con probabilidadescondicionales P(B - Ai),donde la Ai
son eventos adecuados que forman una partición del espacio de muestra y
tienen probabilidades conocidas P(Ai). Las probabilidades P(B) seobtienen
utilizando el teorema de probabilidad total.
Por último, nos hemos centrado en algunos temas paralelos que refuerzan
nuestros temas principales. Hemos discutido el uso de la regla de Bayes en la
inferencia, que es un contexto de aplicación importante. También hemos discutido
algunos principios básicos de conteo y combinatoria, queh son útiles en la aplicación
del método de escrutinio.
Variable aleatoria X
Espacio de muestra
Ω X
Línea de número real
( O)
n
4 Variable aleatoria:
X = Rollo máximo
2 1 2 3 4
Línea de número real
1
1 2 3 4
Espacio de muestra:
Pares de Rollos
(b)
Figura 2.1: (a) Visualización de una variable aleatoria. Es una función que asigna un valor
numérico a cada posible resultado del experimento. (b) Un ejemplo de una variable aleatoria.
El experimento consiste en dosrollos de un troquel de 4 lados, y la variable aleatoria es el
máximo de los dos rollos. Si el resultado del experimento es (4,2), el valor experimental de
esta variable aleatoria es 4.
experimento.
,
donde en el ion summatanterior, x oscila sobre todos los valores numéricos
posibles de X. Esto se deduce de los axiomas de aditividad y normalización, ya que los
eventos deX x xson disojuntos y forman una partición del espacio de muestra, ya que
x oscila todos los valores posibles de X. Por un argumento similar, para cualquier
conjunto S de números reales, también tenemos
P .
Por ejemplo, si X es el número de cabezas obtenidas en dos lanzamientos
independientes de una moneda justa, como arriba, la probabilidad de al menos una
cabeza es
P .
Considere el lanzamiento de una moneda sesgada, que surge una cabeza con
probabilidad p, y una cola con probabilidad 1 pp. La variable aleatoria Bernoulli
toma los dos valores 1 y 0, dependiendo de si el resultado es una cabeza o una cola:
1 si una
cabeza, 0
si una cola.
Su PMF es
1, 0.
PX ( X )
Espacio de muestra
Ω
X
Evento{ X = X }
(a)
4 Variable aleatoria:
PX ( X ) X = Rollo máximo
3 7
5 16
2 3 16
1 16
16
1
1 2 3 4 1 2 3 4 X
Espacio de muestra:
Pares de Rollos (B)
Figura 2.2: a Ilustración del método para calcular el PMF de una variable aleatoria X. Para
cada valor posible x, recogemos todos los resultados que dan lugar a X x y añadimos sus
probabilidades de obtener pX(x). (b) Cálculo de la PMF pX de la variable aleatoria X - rollo
máximo en dos rollos independientes de un troquel justo de 4 caras. Hay cuatro valores
posibles x,a saber, 1, 2, 3, 4. Para calcular pX(x) para una xdada, añadimos las
probabilidades de los resultados que give se elevan a x. Por ejemplo, hay tres resultados que
dan lugar a x x 2, a saber, (1,2),(2,2),(2,1). Cada uno de estos resultados tiene probabilidad
1/16, por lo que pX(2) a 3/16, como se indica en la figura.
7
Por toda su simplicidad, la variable aleatoria Bernoulli es muy importante. En la
práctica, se utiliza para modelar situaciones probabilísticas genéricas con solo dos
resultados, tales como:
(a) El estado de un teléfono en un momento dado que puede ser libre o ocupado.
(b) Una personapuede estar sana o enferma con una determinada enfermedad.
(c) La preferencia de una persona que puede estar a un a campo o en contra de un
determinado candidato político.
Además, al combinar múltiples variables aleatorias de Bernoulli, se pueden construir
ables var aleatorios máscomplicados.
2.2 Probabilidad Función de masa La variable
aleatoria binomial
Una moneda sesgada se va n veces. En cada lanzamiento, la moneda sube una cabeza
con probabilidad p,y una cola con probabilidad de 1p, independientemente de los
lanzamientos anteriores. Deje que X sea el número de cabezas en la secuencia n-
toss. Nos referimos a X como una variable aleatoria binomial con los parámetros
n y p. El PMF de X consiste en las probabilidades binomiales que se calcularon en la
Sección 1.4:
PX (K)
PX (K)
Binomial PMF NN.o 9,P 1/2 Binomial PMF
N• Grande, P • Pequeño
0 1 2 3 4 5 6 7 8 9 K 0 N K
8 Variables aleatorias discretas Capítulo 2
Figura 2.3: El PMF de una variable aleatoria binomial. Si p es 1/2, el PMF es simétrico
alrededor de n/2. De lo contrario, el PMF se sesga hacia 0 si p < 1/2, y hacia n si p > 1/2.
sucesivas seguidas de una cabeza; véase la Fig. 2.4. Este es un PMF legítimo porque
.
Naturalmente, el uso de lanzamientos de monedas aquí es sólo para
proporcionar información. En términos más generales, podemos interpretar la
variable geométrica aleatoria en términos de ensayos independientes repetidos hasta
el primer "éxito". Cada ensayo tiene probabilidad de éxito p y el número de trials hasta
(e incluyendo) el primer éxito se modela por la variable aleatoria geométrica.
P X(K)
0 1 2 3 K
Una variable aleatoria de Poisson toma valores enteros no negativos. Su PMF es dado
por
Para hacerse una idea de la variable aleatoria de Poisson, piense en una variable
aleatoria binomial con p muy pequeño y muy grande n. Por ejemplo, considere el
número de errores tipográficos en un libro con un total de n palabras, cuando la
probabilidad p de que cualquier palabra está mal escrita es muy pequeña (asociar
una palabra con un lanzamiento de moneda que viene una cabeza cuando la palabra
está mal escrita), o el número de coches en vérpiradoenaccidentes en una ciudad en
un día determinado (asociar un coche con un lanzamiento de moneda que viene una
cabeza cuando el coche tiene un accidente). Tal variable aleatoria puede ser bien
modelada como una variable aleatoria de Poisson.
2.3 Funciones de variables aleatorias
P X( K) P X (K)
e −Λ 0,05
0 1 2 3 K 0 1 2 3 4 5 6 7 K
aproxima por
.
Proporcionamos una justificación formal de la propiedad de aproximación de
Poisson en los problemas de fin de capítulo y también en el capítulo 5, donde la
interpretaremos, ampliaremos y utilizaremos en el contexto del proceso de Poisson.
Considere un modelo de probabilidad del clima de hoy, deje que la variable aleatoria
X sea la temperatura en grados Celsius, y considere la transformación Y - 1. 8X + 32,
que da la temperatura en degrees Fahrenheit. En este ejemplo, Y es una función
lineal de X, dela forma
Y á g(X) -aX + b,
donde a y b son escalares. También podemos considerar funciones no lineales de la
forma general
Y á g(X).
Por ejemplo, si queremos mostrar las temperaturas en una escala logarítmica, nos
gustaría utilizar la función g(X)- logX.
Si Y á g(X) es unafunción de una variable aleatoria X,entonces Y también es
una variable aleatoria, ya que proporciona un valor numérico para cada
resultado posible. Esto se debe a que cada resultado en el espacio de muestra define
un valor numérico x para X y, por lo tanto, también el valor numérico y á g(x)para
Y . Si X es discreto con PMF pX,entonces Y también es discreto, y su PMF pY se
puede calcular utilizando el PMF de X. En particular, para obtener pY (y)
paracualquier y,añadimos las probabilidades de todos los valores de x tales que g(x)-
y:
.
11
Ejemplo 2.1. Dejar Y ? X? y vamos a aplicar la fórmula anterior para el PMF pY al caso en
que
en caso contrario.
Los valores posibles de Y son y a 0,1,2,3,4. Para calcular pY (y) para un valordado y
de este rango, debemos agregar pX(x) sobre todos losvalores x de tal manera que
- x? y y. En particular, sólo hay un valor de X quecorresponde a y á 0, a saber, x a that
co 0. Por lo tanto,
.
Además, hay dos valores de X que corresponden a cada y - 1,2,3,4, por lo que, por ejemplo,
.
Por lo tanto, el PMF de Y es
2/9 si y a 1,2,3,4,
0,
Lo contrario.
Para otro ejemplo relacionado, deje Z a X2. Para obtener el PMF de Z,podemos verlo
como el cuadrado de la variable aleatoria X o como el cuadrado de la variable
aleatoria Y . Al aplicar la fórmula ) o la fórmula),
obtenemos
2/9 si z a 1,4,9,16,
0,
Lo contrario.
12 Discreta Variables aleatorias Capítulo 2
P X (X) P Y (y)
Y = |X |
2
9
1 1
9 9
-4 -3-2-1 0 1 2 3 4 X 0 1 2 3 4 y
El PMF de una variable aleatoria X nos proporciona varios números, las probabilidades
de todos los valores posibles de X. Sería deseable resumir esta información en un
único número representativo. Esto se logra por la expectativa de X, que es un
promedio ponderado (en proporción a las probabilidades) de los valores posibles de
X.
Como motivación, supongamos que giras una rueda de la fortuna muchas veces.
En cada giro, uno de los números m1,m2,...,mn viene con la probabilidad
correspondiente p1,p2,...,pn,y esta es su recompensa monetaria de ese giro. ¿Cuál
es la cantidad de dinero que "esperas" obtener "por giro"? Los términos "esperar" y
"por giro" son un poco ambiguos, pero aquí hay una interpretación razonable.
Supongamos que gira la rueda k veces, y tsombrero ki es el número de veces
que el resultado es mi. A continuación, el importe total recibido es de m1k1 +m2k2 +
+ mnkn. La cantidad recibida por giro es
.
Sec. 2.4 Expectativa, media y varianza 13
Expectativa
Definimos el valor esperado (también llamado la expectativa o la media)de
una variable aleatoria X,con PMF pX(x),por .
E .
X
Ejemplo 2.2. Considere dos lanzamientos de monedas independientes, cada uno con una
probabilidad de 3/4 de una cabeza, y deje que X sea el número de cabezas obtenidas.
Se trata de una variable aleatoria binomial con los parámetros n a 2 y p a 3/4. Su PMF es
0,
N.o 1,
N.o 2,
E .
indefinida, aunque el PMF es simétrico alrededor de cero y uno podría ser tempted
para decir que E[X] escero.
A lo largo de este libro, a falta de una indicación en contrario, suponemos
implícitamente que el valor esperado de las variables aleatorias de interés está bien
definido.
Centro de gravedad
C = Medios E[X]
Figura 2.8: Interpretación de la media como centro de gravedad. Dada una barra con un peso
pX(x) colocado en cada punto x con pX(x) > 0, el centro de gravedad c es el punto
en el que la suma de los pares de torsión de los pesos a su izquierda son iguales
a la suma de los pares de torsión de los pesos a su derecha, es decir,
, o ,
Hay muchas otras cantidades que se pueden asociar con una variable aleatoria
y su PMF. Por ejemplo, definimos el2o momento de la variable random X como el
valor esperado de la variable aleatoria X2. Más generalmente, definimos el né
momento como E[Xn], el valor esperado de la variable aleatoria Xn. Con esta
terminología, el primer momento de X es sólo la media.
La cantidad más importante asociada a una variable aleatoria X,distinta de la
media, es su varianza,que se denota por var(X) y se define como el valor esperado
de lavariable aleatoria, es decir,
La desviación estándar es a menudo más fácil de interpretar, porque tiene las mismas
unidades que X. Por ejemplo, si X mide la longitud en metros, las unidades de
varianza son metros cuadrados, mientras que las unidades de la desviación estándar
son metros.
One manera de calcular var(X), es utilizar la definición delvalor esperado,
después de calcular el PMF de la variable aleatoria . Esta última variable
aleatoria es una función de X,y su PMF se puede obtener de la manera discutida en
la sección anterior.
Example 2.3. Considere la variable aleatoria X del Ejemplo 2.1, que tiene la
Pmf
La media E[X] es iguala 0. Esto se puede ver de la simetría del PMF de X alrededor de
0, y también se puede verificar de la definición:
E .
2/9 si z a 1,4,9,16,
0,
Lo contrario.
La varianza de X se obtiene
.
16 Discreta Variables aleatorias Capítulo 2
.
Sec. 2.4 Expectativa, media y varianza 17
E ,
Tenemos
que es coherente con el
resultado obtenido
anteriormente.
Como
hemos señalado
anteriormente,
la varianza siempre es no
negociativa, pero ¿podría ser
cero? Puesto que cada
término de la fórmula para la varianza no es negativo, la suma
es cero si y sólo si es - pX( )- 0 para cada . Esta
condición implica que para cualquier x con pX(x) > 0, debemos tener x - E[X] y la
variablealeatoria X no es realmente "aleatoria": su valor experimental es igual a la
media E[X], con probabilidad 1.
Varianza
La varianza var( X ) de una variable aleatoria
X se define por
2
var( X )= E X − E [X ]
Ahora vamos a utilizar la regla de valor esperado para las funciones con el fin de
derivar algunas propiedades importantes de la media y la varianza. Comenzamos con
una variable aleatoria X y definimos una nueva variable aleatoria Y , de la forma
Y aX + b,
Además
Y aX + b,
También vamos a dar una fórmula conveniente para la varianza de una variable
aleatoria X con PMF dado.
1, 0.
Su media, segundo momento y varianza se dan por
lossiguientes cálculos:
E[X]á 1 ? p + 0 ? (1o p) á p,
E[X2] á 12 ? p + 0 ? (1o p) á p,
Ejemplo 2.5. Variable aleatoria uniforme discreta. ¿Cuál es la media y la varianza del rollo
de un dado justo de seis caras? Si vemos el resultado del rollo como una variable aleatoria
X, su PMF es
6,
Dado que el PMF es simétrico alrededor de 3,5, llegamos a la conclusión de que E[X]a 3. 5.
En cuanto a la varianza, hemos
,
que rinde var(X) a 35/12.
20 Discreta Variables aleatorias Capítulo 2
,
donde a y b son dos enteros con un < b;véase la Fig. 2.9.
La media es
E ,
como se puede ver por inspección, ya que el PMF es simétrico alrededor (a + b)/2. Para
calcular la varianza de X, primeroconsideramos el caso más simple en el que a 1 y b n
n. Se puede verificar por inducción en n que
E .
Dejamos la verificación de esto como un ejercicio para el lector. La varianza ahora se puede
obtener en términos del primer y segundo momento
P X(K)
1
B - O+1
n
...
O B K
n
Figura 2.9: PMF de la variable aleatoria discreta que se distribuye uniformemente entre
dos enteros a y b. Su media y varianza son
E .
distribuida uniformemente sobre el intervalo [1,ba+1], ya que estas dos variables aleatorias
difieren por la constante a1. Por lo tanto, la varianza deseada es dada por la fórmula
anterior con n á b á + 1, lo que produce
el término k a 0 es cero
let m á k á 1
La última igualdad se obtiene señalando que ) 1 es la
propiedad de normalización para el PMF de Poisson.
Un cálculo similar muestra que la varianza de una variable aleatoria de Poisson
también es de tipo "ver los problemas resueltos"). Tendremos la ocasión de derivar este
hecho de varias maneras diferentes en capítulos posteriores.
0.5 $0
0.2
0.5
0.8
$300 $0
0.2
Pregunta 1 Respuesta Pregunta 2
1a Respuesta 1a 0.5
0.8
$100 $200
0.5 $300
Figura 2.10: Descripción secuencial del espacio de muestra del problema de prueba para
los dos casos en los que respondemos primero a la pregunta 1 o a la pregunta 2.
(a) Responder a la pregunta 1 primero: Entonces el PMF de X es (cf. el lado izquierdo
o equivalentemente, si
.
Por lo tanto, es óptimo ordenar las preguntas en valor decreciente de la expresión pv/(1o
p), lo que proporciona un índice conveniente de calidad para una pregunta
con probabilidad de respuestacorrecta p y valor v. Curiosamente, esta regla
generaliza al caso de more que dos preguntas (ver los problemas de fin de capítulo).
Finalmente ilustramos con el ejemplo un escollo común: a menos que g(X) sea
unafunción lineal, no es generalmente cierto que E sea igual a .
Ejemplo 2.8. Velocidad media frente al tiempo promedio. Si el clima es bueno (lo que
sucede con probabilidad 0,6), Alice camina las 2 millas a clase a una velocidad de V a 5
millas por hora, y de lo contrario conduce su motocicletaa una velocidad de V a 30
millas por hora. ¿Cuál es el medio del tiempo T para llegar a clase?
La forma correcta de resolverel problema es derivar primero el PMF de T,,
24 Discreta Variables aleatorias Capítulo 2
Horas
0. 4 si t a 2/30 horas,
E horas.
horas.
E[V ] 15
, y E .
para todos los pares de valores numéricos (x,y) que X e Y pueden tomar. Aquí y en
otro lugar, usaremos la notación abreviada P(X y á x,Y - y)en lugar de las notaciones
más precisas P(X x xáyyy) o P(X á x e Y á x).
26 Variables aleatorias discretas Capítulo 2
2.5 PMF conjunto de múltiples variables aleatorias
P .
De hecho, podemos calcular los PMF de X e Y usando las fórmulas
.
La fórmula para pX(x) se puede verificarutilizando el cálculo
.
Además, la regla de valor esperado para las funciones se extiende naturalmente y
adopta la forma
27
E .
La verificación de esto es muy similar al caso anterior de una función de una sola
variable aleatoria. En el caso especial donde g es lineal y de la forma aX+bY
+c,donde a, b,y c se dan escalares, tenemos
aE [aX + bY + c]á E[X]+ bE[Y ] + c.
PMF conjunta
P X ,Y ( X,y )
y en forma tabular
3 /20
4 0 1 /20 1 /20 1 /20
7 /20
3 1 /20 2 /20 3 /20 1 /20 Sumas de fila:
1 2 3 4 X
Figura 2.11: Ilustración del método tabular para calcular los PMF marginales a partir de PMF
conjuntos. La junta PMF está representada por una tabla, donde el número en cada cuadrado
(x,y) da el valor de pX,Y (x,y). Para calcular el marginal PMF pX(x) para un valor dadode
x,add los números en la columna correspondiente a x. Por ejemplo pX(2) a 8/20. Del mismo
modo, para calcular el marginal PMF pY (y )ypara un valor dado de y, añadimos los números
en la fila correspondiente a y. Por ejemplo, pY (2) a 5/20.
,
Y
28 Variables aleatorias discretas Capítulo 2
.
La regla de valor esperado para las funciones adopta la forma
E ,
x,y,z
Ejemplo 2.9. La media del binomio. Su clase de probabilidad tiene 300 estudiantes y cada
estudiante tiene probabilidad 1/3 de obtener una A, independientemente de cualquier otro
estudiante. ¿Cuál es el medio de X, el número de estudiantesque obtienen una A?
Dejemos que
Por lo tanto X1,X2,...,Xn son variables aleatorias Bernoulli con p media común á 1/3 y
varianza p(1 á p) á(1/3) (2/3) - 2/9. Su suma
X X X1 + X2 + + Xn
E .
Ejemplo 2.10. El problema del sombrero. Supongamos que n personas tiran sus
sombreros en una caja y luego cada uno coge un sombrero al azar. ¿Cuál es el valor
esperado de X, el número de personasque recuperan su propio sombrero?
Para la persona ith, introducimos una variable aleatoria Xi que toma el valor 1 si
la persona selecciona su propio sombrero, y toma el valor 0 de lo contrario. Puesto que P(Xi
- 1) - 1/n y P(Xi á 0) - 1 x 1/n, la mediade Xi es
E .
Ahora tenemos
X X X1 + X2 + + Xn,
Para
E .
30 Variables aleatorias discretas Capítulo 2
Resumen de los hechos sobre los PMF conjuntos
Deje que X e Y sean variables aleatorias asociadas con el mismo
E .
no mucho que es nuevo, sólo una elaboración de conceptos que son familiares del
Capítulo 1, junto con una dosis justa de nueva notación.
Tenga en cuenta que los eventos dela versión de los eventos de X a Xa A son
P .
Combinando las dos fórmulas anteriores, vemos que
,
así que pX| A es un PMF legítimo.
Por ejemplo, deje que X sea el rollo de un dado y deje que A sea el evento de
que el rollo es un número par. Luego, al aplicar la fórmula anterior, obtenemos
pX? A(x) - P(X - x-roll es par)
P(X x y X es par)
6,
El PMF condicional se calcula de forma similar a su contraparte incondicional:
para obtener pX| A(x),añadimos las probabilidades de los resultados que dan lugar a X
x y pertenecen al evento de acondicionamiento A, yluego normalizamos dividiendo
con P(A)(véase la Fig. 2.12).
32 Variables aleatorias discretas Capítulo 2
Evento ?X = X} P X |O (X|O)
n n
Evento ?X = x' }
EventoO
n
x' X
Espacio de muestra
Ω
Figura 2.12: Visualización y cálculo del PMF condicional pX| A(x). Para cada x, añadimos las
con P(A).
.
Vamos a arreglar algunos| y,con pY (y y) > 0 y considerar pX Y (x? y) en función
de x. Esta función es una PMF válida para X:asigna valores no negativos a cada
xposible, y estos valores se suman a 1. Además, esta función de x, tiene la
mismaforma que pX,Y (x,y) excepto que se normaliza dividiendo con pY (y ), lo que
aplica la propiedad deynormalización
.
La figura 2.13 proporciona una visualización del PMF condicional.
Sec. 2.6 Acondicionado 33
PMF condicional
P X |Y (X|3)
condicional
"Vista de slice"
de PMF condicional
P X |Y ( X|y ) X
PMF condicional
P X |Y (X|2)
y
y =3
X X
y=2
PMF condicional
y =1 P X |Y (XN. )
Pmf P X,Y (x,y ) o1
Figura 2.13: Visualización del PMF condicional pX| Y (x? y). Para cada y,vemos la junta PMF
Ejemplo 2.11. Profesor May B. A menudo tiene sus hechos equivocados, y responde a cada
una de las preguntas de sus alumnos incorrectamente conla probabilidad 1/4,
independientemente de otras preguntas. En cada conferencia se hace mayo 0, 1, o 2
preguntas con la misma probabilidad 1/3. Deje que X e Y sean el número de
preguntas que se hace en mayo y el número de preguntas que responde
mal en una conferencia dada, respectively. Para construir la junta PMF pX,Y
(x,y),necesitamos calcular todas las probabilidades P(X x,Y á y) para todas las
34 Variables aleatorias discretas Capítulo 2
La PMF conjunta se puede representar mediante una tabla bidimensional, como se muestra
en la Fig. 2.14. Se puede utilizar para calcular la probabilidad de cualquier evento de interés.
Por ejemplo, hemos
Ejemplo 2.12. Considere cuatro rollos independientes de un troquel de 6 lados. Deje que X
sea el número de 1 y deje que Y sea el número de 2 obtenidos. ¿Cuál es la PMF
conjunta de X e Y? ?
El PMF marginal pY es dado por la fórmula binomial
Para calcular el pmF condicional pX| Y , tenga en cuenta que dado que Y - y, X es el número
de 1 en los rollos restantes de 4 y, cada uno de los cuales puede tomar los 5 valores
Sec. 2.6 Acondicionado 35
Prob: 1/48 y
2 1 /16
1
Prob: 6/48 0 0 1 /48
0 6 /16
3 /4 Prob: 12/48 1
1 /3
Prob: 16/48
0 1 2 x
Junta PMF P
X : Número de Y : Número de X,Y(x,y)
preguntas respondidas en forma tabular mal
para todos los enteros no negativos x e y de tal manera que 0 x + y 4. Para otros
El PMF condicional también se puede utilizar para calcular los PMF marginales.
En particular, tenemos mediante el uso de las definiciones,
36 Variables aleatorias discretas Capítulo 2
Esta fórmula proporciona un método de división y conquista para calcular los PMF
marginales. Es en esencia idéntico a la probabilidad total quese da en el Capítulo 1,
pero se funde en notación diferente. En el ejemplo siguiente se proporciona una
ilustración.
Ejemplo 2.13. Considere un transmisor que está enviando mensajes a través de una red
informática. Vamos a definir las siguientes dos variables aleatorias:
Conocemos el PMF del tiempo de viaje de un mensaje que tiene una longitud determinada,
y conocemos el PMF de la longitud del mensaje. Queremos encontrar el PMF (incondicional)
del tiempo de viaje de un mensaje.
Suponemos que la longitud de un mensaje puede tomar dos valores posibles: y a
102 bytes con probabilidad 5/6, e y a 104 bytes con probabilidad 1/6, de modo que
,4
.
,
1,
p X? Y (x 10 ) , p X- Y (x104)á
1/3 si x a 10,
1/6 si x a 1, 100.
.
Sec. 2.6 Acondicionado 37
Obtenemos
Tenga en cuenta, por último, que se pueden definir PMF condicionales que
implican más de dos variables aleatorias, como en pX,Y. | Z(x,y ? z) o pX? Y,Z(x? y,z). Los
conceptos y métodos descritos anteriormente se generalizan fácilmente (consulte los
problemas de fin de capítulo).
38 Variables aleatorias discretas Capítulo 2
y satisface
.
Un PMF condicional puede ser considerado como unPMF o rdinary sobre un nuevo
universo determinado por el evento de acondicionamiento. En el mismo espíritu, una
expectativa condicional es la misma que una expectativa ordinaria, excepto que se
refiere al nuevo universo, y todas las probabilidades y PMF son reemplazados por
suscontrapartes cond itional. A continuación enumeramos las principales definiciones
y los hechos relevantes.
Sec. 2.6 Acondicionado 39
E G( X ) |U = G( X ) PX |U ( X |U ) .
n X n n
• Tenemos
E [X ]= PY ( y ) E [X |Y = y ].
y
y el cálculo
E
La relación E can severifica viéndola como un caso
especial del teorema total de la expectativa. Vamos a introducir la variable aleatoria
Y que toma el valor i si y solo si se produce el evento Ai. Su PMF es dado por
,
El teorema total de la expectativa produce
E ,
E .
Ejemplo 2.14. Los mensajes transmitidos por una computadora en Boston a través de una
red de datos están destinados a Nueva York con probabilidad 0. 5, para Chicago con
probabilidad 0. 3, y para San Francisco con probabilidad 0. 2. El tiempo de tránsito X de
un mensaje es aleatorio. Su media es de 0,05 segundos si está destinada a Nueva York,
de 0,1 segundos si está destinada a Chicago, y de 0,3 segundos si está destinada a San
Francisco. A continuación, E[X] se calculafácilmente utilizando el teorema de expectativa
total como
(1 x p)ká1p, k a 1,2,....
E
pero evaluar estas sumas infinitas es algo tedioso. Como alternativa, aplicaremos el
teorema de expectativa total, con A1 áX á 1o , el primer intento es un success, A2 ,X > 1 ,
el primer intento es un error, y terminamos con un cálculo mucho más simple.
Si el primer intento es exitoso, tenemos X - 1, y
E[X ? X a 1] a 1.
Si el primer intento falla (X > 1), hemos desperdiciado un intento, y estamos de vuelta
donde comenzamos. Por lo tanto, el número esperado de intentos restantes es E[X], y
Así
E
de la que obtenemos
E .
Con un razonamiento similar, también tenemos
E[X2 ? X - 1] a 1, E ,
Para
E ,
de la que obtenemos
E ,
Y
E .
Sec. 2.7 Independencia 43
Concluimos que
.
2.7 INDEPENDENCIA
Ejemplo 2.16. Considere dos lanzamientos independientes de una moneda justa. Deje que
X sea el número de cabezas y deje que A sea el evento de que el número de
cabezas es par. El PMF (incondicional) de X es
4 si x a 0,
2 si x a 1,
4 si x a 2,
2 si x a 0,
0 si
x a 1, 2 si
x es 2.
Claramente, X y A no son independientes, ya que los PMF pX y pX| A son diferentes. Para
obtener un ejemplo de una variable aleatoria que es independiente de A, considere la
variable aleatoria que toma elvalor 0 si el primer tos es un head y el valor 1 si el
primer toss es una cola. Esto es intuitivamente claro y también se puede verificar mediante
el uso de la definición de independencia.
Independencia de variables aleatorias
Esto es lo mismo que exigir que los dos eventos ,X, x,y"Y" y "Y"sean independientes
para cada x e y. Por último, la fórmula pX,Y (x,y) - pX- Y (x? y)pY (y)muestra que la
pY (y ) > 0 y todo x. y
todos los x e y. y.
Sec. 2.7 Independencia 45
Una vez más, esto es equivalente a pX| Y,A(x? y) á pX? A(x)para todas las x e
E[XY ] - E[X]E[Y ],
) por la independencia
y
1 0 1 /20 0 0
1 2 3 4
X
Figura 2.15: Ejemplo que ilustra que la independencia condicional no puede implicar
independencia incondicional. Para el PMF mostrado, las variables aleatorias X y
Y no son independientes. Por ejemplo, tenemos
Por otro lado, condicionado al evento A -X - 2,Y - 3o (el shaded establecido en la figura), las
N.o 1,
N.o 2,
E ,
para cualquier función g y h. De hecho, esto sigue inmediatamente una vez que nos
damos cuenta de que si X e Y son independientes, entonces lo mismo es cierto para
g(X) y h(Y ). Esto es intuitivamente claro y su verificación formal se deja como un
problema de fin de capítulo.
Considere ahora la suma Z x X + Y de dos variables aleatorias independientes
X e Y , y vamos a calcular la varianza de Z. Tenemos, usando la relación
E[X + Y ] - E[X] + E[Y ],
.
Para justificar la última igualdad, tenga en cuenta que las
variables aleatoriasE[Y ] son independientes (son
funciones de las variables aleatorias independientes e Y , respectivamente) y
E .
equivalente
E[XY ] á E[X]E[Y ].
E .
Todo lo anterior tiene extensiones naturales al caso de más de dos variables aleatorias.
Por ejemplo, se dice que tres variables aleatorias X, Y y Z son independientes si
pX,Y,Z(x,y,z)á pX(x)pY (y)pZ(z), para todos los x,y,z.
Esto se puede verificar mediante un cálculo similar al del caso de dos variables
aleatorias y se deja como un ejercicio para el lector.
=
0 si la ipersona desaprueba la
actuación de C.
Sn,definida como
siempre y cuando las Xi sean independientes, con la media común E[X] yla varianza var(X).
Por lo tanto, de nuevo, la media de la muestra se convierte en una muy buena estimación
(en términos de varianza) de la verdadera media E[X], a medida que aumenta el tamaño de
la muestra n. Revisaremos las propiedades de la media de la muestra y las discutiremos
con mucho más detalle en el Capítulo 7, cuando discutamos las leyes de grandes cantidades.
Sin embargo, si tenemos un modelo físico o informático que puede generar resultados de
un experimento dado de acuerdo con sus verdaderas probabilidades, podemos
utilizar la simulación para calcular con alta precisión la probabilidad de cualquier evento
dado A. En particular, generamos independientemente con nuestro modelo n resultados,
registramos el número m que pertenecen al evento A de interés, y nos aproximamos a
P(A)por m/n. Por ejemplo, para calcular la probabilidad p á P(Cabezas) de una moneda
sesgada, volteamos la moneda n veces, y nos aproximamos p con la relación (número
de cabezas registradas)/n.
Para ver qué tan preciso es este process, considere n variables aleatorias
independientes de Bernoulli X1,...,Xn, cada una conPMF
1, 0.
Las variables aleatorias proporcionan las herramientas naturales para tratar modelos
probabilísticos en los que el resultado determina ciertos valores numéricos de interés.
En este capítulo, nos centramos en variables aleatorias discretas, y desarrollamos los
conceptos principales y algunas herramientas de relevant. También discutimos varias
variables aleatorias especiales, y derivamos su PMF, media y varianza, como se resume
en la tabla siguiente.
Sec. 2.7 Independencia 51
1
PX ( K)= Si K = a,a +1 ,...,b ,
B − O +1
0 n Lo contrario
O+ B ( B − O)( B − O +2)
E [X ]= , var( X )= .
n2 n 12 n
PX ( K) á (1 − P) K − 1 P K N.o , 2,...,
1
1 1− P
E [X ]= , var( X )= .
P P2
ΛK
PX ( K)= e− Λ , K N.o , 1,...,
K!
0
E [X ] = Λ var( X ) = Λ.
E .
Contenido
1
2 Variables aleatorias generales Capítulo 3
Las variables aleatorias con un rango continuo de valores experimentales posibles son
bastante comunes: la velocidad de un vehículo que viaja a lo largo de la carretera
podría ser un ejemplo. Si tal velocidad se mide mediante un velocímetro digital, la
lectura del velocímetro es una variable aleatoria discreta. Pero si también queremos
modelar la velocidad exacta, se pide una variable aleatoria continua. Los modelos que
implican variables aleatorias continuas pueden ser útiles por varias razones. Además
de ser más fino y posiblemente más preciso, they permite el uso de herramientas
poderosas de cálculo y a menudo admitir un análisis perspicaz que no sería posible
bajo un modelo discreto.
Todos los conceptos y métodos introducidos en el Capítulo 2, tales como
expectativa, PMF y condicionamiento, tienencontrapartes continuas. Desarrollar e
interpretar estas contrapartes es el tema de este capítulo.
P
y puede interpretarse como el área bajo el gráfico del PDF (véase la Fig. 3.1). Para
cualquier valor único a, tenemos P a 0. Por esta razón,
incluir o excluir los puntos finales de un intervalo no tiene ningún efecto en su
probabilidad:
P(a á X á b)á P(a< X < b)á P(a á X < b)á P(a< X á b).
Tenga en cuenta que para calificar como PDF, una función fX debe ser no
negativo, es decir, fX(x)- 0 para cada x, y también debe satisfacerla ecuación de
normalización
.
Sec. 3.1 Variables aleatorias continuas y archivos PDF 3
Pdf FX ( X)
Espacio de muestra
O B X
Evento ?O < X < B }
nu
nu
Gráficamente, esto significa que toda el área bajo el gráfico del PDF debe ser igual a 1.
Para interpretar el PDF, tenga en cuenta que para un intervalo [ δx,x + ]con una
longitud muy pequeña, hemos
para que podamos ver fX(x) comola "masa de probabilidad por longitud de unidad"
cerca de x (cf. Fig. 3.2). Es importante tener en cuenta que aunque un PDF se utiliza
para calcular las probabilidades de eventos, fX(x) no es la probabilidad deningún
evento en particular. En particular, no se limita a ser less que o igual a uno.
Pdf FX ( X )
Figura 3.2: Interpretación del PDF fX(x) como "masa
de probabilidad por unidad de longitud" alrededor
de x. Si Δ es muy pequeña, la probabilidad de que X
toma valor en el intervalo [x,x + δ] es el área
sombreada de la figura, que es aproximadamente
Δ
igual a fX(x) · δ.
X X +Δ
4 Variables aleatorias generales Capítulo 3
Ejemplo 3.1. Variable aleatoria uniforme continua. Un jugador gira una rueda de la fortuna,
calibrada continuamente entre 0 y 1, y observa el número resultante. Suponiendo que
todos los subintervalos de [0,1] de la misma longitud son igualmente probables, este
experimento se puede modelar en términos de una variable aleatoria X con PDF
si 0 x 1,
()= -- -
0 de lo contrario,
para alguna cconstante. Esta constante se puede determinar mediante la propiedad de
normalización
de modo que c . 1.
Más generalmente, podemos considerar una variable aleatoria X que toma valores
en un intervalo [a,b], y de nuevo asumir que todos los subintervalos de la misma longitud
son igualmente probables. Nos referimos a este tipo de variable aleatoria como uniforme
o uniformemente distribuida. Su PDF tiene la forma
c si a x b,
fX(x)- ≤
0 de lo contrario,
Para
Pdf FX ( X)
1
b-a
Figura 3.3: El PDF de una variable aleatoria
uniforme.
O B X
nu
P .
La variable aleatoria uniforme guarda una relación con la ley uniforme discreta, que implica
un espacio de muestra con un número finito de resultados igualmente probables. La
diferencia es que para obtener la probabilidad de varios eventos, ahora debemos calcular
la "longitud" de varios subconjuntos de la línea real en lugar de contar el número de
resultados contenidos en varios eventos.
Ejemplo 3.2. PDF constante a por pieza. El tiempo de conducción de Alvin para trabajar es
entre 15 y 20 minutos si el día es soleado, y entre 20 y 25 minutos si el día es lluvioso,
siendo todos los tiempos igualmente probable en cada caso. Supongamos que un día es
soleado con probabilidad 2/3 y lluvioso con probabilidad 1/3. ¿Cuál es el PDF del tiempo de
conducción, visto como una variable aleatoria X??
Interpretamos la afirmación de que "todos los times son igualmente probables" en
los casos soleados y lluviosos, para significar que el PDF de X es constante en cada uno
de los intervalos [15,,20] y [20,,25]. Además, dado que estos dos intervalos contienen todos
los tiempos de conducción posibles, el PDF debe ser cero en cualquier otro lugar:
c1 si 15 x < 20,
si 20 x x 25, 0
de lo contrario,
donde c1 y c2 son algunas constantes. Podemos determinar estas constantes utilizando
las probabilidades dadas de un día soleado y lluvioso:
• P(día soleado) ,
• P(día lluvioso) ,
Para
.
Generalizar este ejemplo, considere una variable aleatoria X cuyo PDF tiene la forma
constante por pieza
1,
Pdf FX ( X)
C2
C1
C3
O1 O2 O3 O4 X
nu nu nu nu
Figura 3.4: Un PDF constante por pieza que implica tres intervalos.
Ejemplo 3.3. Un PDF puede ser arbitrariamente grande. Considere una variable aleatoria
X con PDF
si 0 < x a 1,
Lo contrario.
A pesar de que fX(x) sevuelve infinitamente grande a medida que x se acerca a cero, esto
sigue siendo un PDF válido, porque
Expectativa
• Uno tiene que lidiar con la posibilidad de que la integral sea infinita o
indefinida. Más concretamente, diremos que la expectativa está bien definida si
• Tenemos
2
0 ≤ var( X )= E [X 2 ] − E [X ] .
á2 si x > 1/3. El variabl aleatorioe Y á g(X) es discreto conPMF pY (1) á P(X á 1/3) á
1/3, pY (2) a 1 p Y (1) a p Y (1) a 2/ p 3. Por lo tanto,
E .
El mismo resultado se podría obtener utilizando la regla de valor esperado:
E .
10 Variables aleatorias generales Capítulo 3
si x a 0,
X
0 de lo contrario,
en el que es un parámetro positivo que caracteriza el PDF (véase la Fig. 3.5). Este es
un PDF legítimo porque
.
Tenga en cuenta que la probabilidad que
supera un determinado valor disminuye exponencialmente. De hecho, para cualquier
0, tenemos
P.
Una variable aleatoria exponencial puede ser un modelo muy bueno durante la
cantidad de tiempo hasta que un equipo se descompone, hasta que una bombilla se
quema o hasta que ocurre un accidente. Desempeñará un papel importante en
nuestro estudio de los procesos aleatorios en el Capítulo 5, pero por el momento
simplemente lo veremos como un ejemplo de un variable aleatoriocapaz que es
bastante manejable analíticamente.
Λ
Λ PequeñΛ GrandeΛ
o
0 X 0 X
E .
Sec. 3.1 Variables aleatorias continuas y archivos PDF 11
Ejemplo 3.5. El tiempo hasta que un smtodometeorito primera aterriza en cualquier lugar
en el desierto del Sahara se modela como una variable aleatoria exponencial con una media
de 10 días. La hora es actualmente medianoche. ¿Cuál es la probabilidad de que un
meteorito aterrice por primera vez en algún momento entre las 6 de la mañana y las 6 de
la tarde del primer día??
Deje que X sea el tiempo transcurrido hasta que el evento de interés, medido en
días. A continuación, X es exponencial, con una media de 1/o 10, lo que produce un
valor de 1/10. La probabilidad deseada es
P(1/4 x X a 3/4) a P(X á 1/4) á P(X> 3/4) á e-1/40 á eá3/40 á 0. 0476, donde hemos
Omitimos el resto del cálculo, que implica el uso de la fórmula de serie geométrica.
Hemos estado tratando con variables aleatorias discretas y continuas de una manera
algo diferente, utilizando PMF y PDFs, respectivamente. Sería deseable describir todo
tipo de variables aleatorias con un solo concepto matemático. Esto se logra by la
función de distribución acumulativa, oCDF para abreviar. El CDF de una variable
aleatoria X es denotado por FX y proporciona la probabilidad P(X x x). En particular,
por cada x que tenemos
: discreto,
: continuo.
P X(2)
1
. ..P X(2)
0 1 2 3 4 0
.
1 2 3 4
X X
Fcd F X (X)
Pmf P X (X)
1
. .
0 0
.
X X
Figura 3.6: CDF de algunas variables aleatorias discretas. El CDF está relacionado con la
PMF a través de la fórmula
y tiene una forma de escalera, con saltos que ocurren en los valores de la masa de
probabilidad positiva. Tenga en cuenta que en los puntos donde se produce un salto, el valor
de FX es el larger de los dos valorescorrespondientes (es decir, FX es continuo
desde la derecha).
14 Variables aleatorias generales Capítulo 3
Propiedades de un CDF
El CDF FX de una variable aleatoria X se define por
(Esta última relación es válida para aquellas x para las que el CDF tiene un
derivado.)
Dado que el CDF se define para cualquier tipo de variable aleatoria, proporciona
un medio conveniente para explorar las relaciones entre variables aleatorias continuas
Sec. 3.2 Funciones de distribución acumulativa 15
y discretas. Esto se ilustra en el ejemplo siguiente, que muestra que hay un estrecho
relation entre las variables geométricas y aleatorias exponenciales.
, para n a 1,2,...
Supongamos que ahora que X es una variable aleatoria exponencial con el parámetro > 0.
Su CDF es dado por
, para x > 0.
Pdf FX ( X) Fcd F X (X )
1
1
b-a
X- O
Zona F X (C)
B - On
(área)
n
O C B X O C B X
nu nu
Pdf FX ( X) Fcd F X (X )
2
1
b-a
( X- O) 2
( B - nO)2
n
O B X O B X
nu nu
Figura 3.7: CDF de algunas variables aleatorias continuas. El CDF está relacionado con el PDF
a través de la fórmula
16 Variables aleatorias generales Capítulo 3
Para una variable aleatoria continua, el CDF no tiene saltos, es decir, es continuo.
Para comparar losdos CDF anteriores, deje que el valor de "ln"(1 á p))/-, de
modoque
e.−. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.
Entonces vemos que los valores de los CDF exponenciales y geométricos son iguales para
todos los x , nδdonde n á 1,2,... , es decir,
CDF exponencial 1 - e- Λ X
0 NΔ X
CDF geométrico
n -á
1 - (1 - p) con p a 1 - e
si el intervalo es tal que e-á 1 p.p. A medida que se acerca a 0, la variable aleatoria
A veces, para calcular el PMF o PDF de una variable aleatoria discreta o continua,
respectivamente, es más conveniente calcular primero el CDF y luego use las
relaciones anteriores. El uso sistemático de este enfoque para el caso de una variable
aleatoria continua se discutirá en la Sección 3.6. A continuación se muestra un
ejemplo discreto.
X x xx1,X2,X3,,
Tenemos
FX(k)- P(X á k)
• P(X1 k, X2 k, X3 x k)
en los que los parámetros escalares son dos parámetros escalares que caracterizan
el PDF, con el valor no negativo. Se puede verificar que la propiedad de
normalización
-1 0 1 2 3 X -1 0 1 2 3 X
µ N.o 1 µ N.o 1
Figura 3.9: Un PDF y un CDF normales, con los valores de 1 y σ2 a 1. Observamos que el
PDF es simétrico alrededor desumedia, y tiene una forma de campana característica.
A medida que x se aleja de ,el término eá(xáµ)2/2x2 disminuye muy rápidamente. En esta
figura, el PDF está muy cerca de cero fuera del intervalo [-1,3].
19
3.3 Variables aleatorias normales
Para ver esto, tenga en cuenta que el PDF es simétrico alrededor de ,por lo que su
media debe ser ..
Además, la varianza es dada por
que es sólo la propiedad de normalización del PDF normal para el caso en el que los
valores de los valores de los valores de los valores de los valores de los valores de los
valores de los valores de los valores de los valores de los valores de los valores
de los valores de los valores de los valores de los valores de los valores de los
valores de los valores de los valores de los valores de los valores de
La variable aleatoria normal tiene varias propiedades especiales. La siguiente es
particularmente importante y estará justificada en la Sección 3.6.
Y aX + b
20 Variables aleatorias generales Capítulo 3
también es normal, con media y varianza
Se dice que una variable aleatoria normal Y con media cero y varianza unitaria es una
normal estándar. Su CDF se denota por ,
Se registra en una tabla (dada en la página siguiente), y es una herramienta muy útil
para calcular las probabilidades de variouque implican variables aleatorias normales;
véase también la Fig. 3.10.
Tenga en cuenta que la tabla solo proporciona los valores de la palabra"y"para
y - 0, ya que los valores omitidos se pueden encontrar utilizando la simetría del PDF.
Por ejemplo, si Y es un variable aleatorio normal estándar,tenemos
. 6915 a 0. 3085.
Deje que X sea una variable aleatoria normal con la media y la varianza σ2. Nosotros
"estandarizar" X definiendo una nueva variable aleatoria Y dada por
E , .
Por lo tanto, Y es una variable aleatoria normal estándar. Este hecho nos permite
calcular la probabilidad de cualquier evento definido en términos de X:redefinimos el
evento en términos de Y , y luego usamos latabla normal standard.
-1 0 0.7 2 -1 0 0.7 2 y
21
Figura 3.10: El PDF
Ejemplo 3.8. Uso de la tabla normal. La nevada anual en una ubicación geográfica
determinada se modela como una variable aleatoria normal con una media de 60
pulgadas y una desviación estándar de 20. ¿Cuál es la probabilidad de que las nevadas de
este año sean de al menos 80 pulgadas?
Deje que X sea la acumulación de nieve, vista como una variable aleatoria normal, y
Dejar
,
ser la variable aleatoria normal estándar correspondiente. Queremos encontrar
P ,
•1) a 0. 8413,
Para
P(X a 80) a 1 a 1o (1) a 0. 1587.
X − µ X− µ X− µ X− µ
P ( X ≤ X)= P ≤ = P Y ≤ =Φ ,
Σ Σ Σ Σ
-1 0 0 1
Figura 3.11: El esquema de detección de señal del ejemplo 3.9. El área de la región
sombreada da la probabilidad de error en los dos casos en los que se transmiten los
números 1 y +1.
P
24 Variables aleatorias generales Capítulo 3
P . P(X A A)
P(X - A)
si x a A,
0 de lo contrario.
Como en el caso discreto, el PDF condicional es cero fuera del conjunto de
acondicionamiento. Dentro del conjunto de acondicionamiento, el PDF condicional
tiene exactamente la misma forma que el incondicional, excepto que es escalado por
el factor constante 1/P(X - A). Estaización normal garantiza que fX| A se integra en
1, lo que lo convierte en un PDF legítimo; véase la Fig. 3.13.
FX Un( X) FX ( X)
O B X
nu
Figura 3.13: El PDF incondicional fX y el PDF condicional fX| A, donde A es el intervalo
[a,b]. Tenga en cuenta que dentro del evento de acondicionamiento A, fX| A conserva la
misma forma que fX,excepto que se escala a lo largo del eje vertical.
Sec. 3.4 Acondicionamiento en un evento 25
Ejemplo 3.10. La variable aleatoria exponencial no tiene memoria. Alvin va a una parada
de autobús donde el tiempo T entre dos autobuses sucesivos tiene un PDF exponencial
con el parámetro . Supongamos que Alvin llega t secs después de la llegada del autobús
anterior y vamos a expresareste hecho con el evento A -T > t. Que X sea el momento
en que Alvin tenga que esperar a que llegue el próximo autobús. ¿Cuál es el condicional
CDF FX? A(x? A)?
• Estamos usando aquí la notación más simple fX| A(x) enlugar de fX| XAA, que esmás
preciso.
Tenemos
=
P(T > t)
donde hemos utilizado la expresión para el CDF de una variable aleatoria exponencial
derivada en el ejemplo 3.6.
Por lo tanto, el CDF condicional de X el parámetro
es exponencial con
,independientemente del tiempo transcurrido entre la llegada del bus anterior y la
llegada de Alvin. Esto se conoce como la propiedad memorylessness del exponencial.
Generalmente, si modelamos el tiempo para completar una determinada operación
mediante una variable aleatoria exponencial X, estapropiedad implica que mientras no
se haya completado la operación, el tiempo restante hasta su finalización tiene el mismo
CDF exponencial, independientemente de cuándo se inició la operación.
P ( X ∈ O ) > 0Entonce
• Si O Ser O de la subconjunto línea real con
n n n s
FX ( X)
FX |U ( X ) = Si X ∈ U ,
P (X ∈ U)
n 0 n
Lo contrario
n
Y
P ( X ∈ B |X ∈ U )= FX |U ( X ) Dx
B n
n
para cualquier
B.
conjunto
Sec. 3.4 Acondicionamiento en un evento 27
P .
Esta fórmula se puede reescribir como
.
Si ahora multiplicamos ambos lados por x y luego nos integramos de s a , obtenemos
1/3 si 0 x x 1,
3 si 1 < x a 2,
0 de lo contrario,
se encuentra en el segundo
intervalo (1,2] .
P , P .
E , E ,
E , E .
FX( X)
2 /3
1 /3 stantPDFforExample3.11.
Figura 3.14:
Piecewise con-
1 2 x
Ahora utilizamos el teorema de expectativa total para obtener
E ,
E .
La varianza es dada por
.
Tenga en cuenta que este enfoque para el cálculo de media y varianza se generaliza
fácilmente a archivos PDF constantes por partes con más de dos piezas.
Ejemplo 3.12. El tren de metro llega a la estación cerca de su casa cada cuarto de hora a
partir de las 6:00 AM. Entras a la estación todas las mañanas entre las 7:10 y las 7:30 AM,
siendo el tiempo en este intervalo una variable aleatoria uniforme. ¿Cuál es el PDF del
tiempo que tienes que esperar a que llegue el primer tren?
30 Variables aleatorias generales Capítulo 3
FX ( X) FY- ( y )
Un
1/5
1/10
1/15 1/20
15 5 15
(C)
y ( D) y
Figura 3.15: Los archivos PDF fX, fY| A, fY? B, y fY en el ejemplo 3.12.
, para 0 x y 5,
P
(x,y)∈ )B
.
32 Variables aleatorias generales Capítulo 3
P ,
por lo que podemos ver fX,Y (a,c) como la"probabilidad por unidad de área" en la
vicinity de
(a,c).
El PDF conjunto contiene toda la información probabilística concebible sobre las
variables aleatorias X e Y, así como sus dependencias. Nos permite calcular la
probabilidad de cualquier evento que se pueda definir en términos de estas dos
variables aleatorias. Como caso especial, se puede utilizar para calcular la probabilidad
de que un evento involucre sólo a uno de ellos. Para example, deje que A sea un
subconjunto de la línea real y considere el evento . A Tenemos
Semejantemente
Ejemplo 3.13. PDF uniforme bidimensional. Romeo y Julieta tienen una fecha en un
momento dado, y cada uno llegará al lugar de reunión con un retraso entre 0 y 1 hora
(recuerde el ejemplo dado en la Sección 1.2). Dejemos que X e Y denoten los retrasos de
Romeo y Juliet, respectivamente. Suponiendo que no haya pares (x,y) en el cuadrado [0,1]
- [0,1] son más probables que otros, un modelo natural implica una unión
PDF del formulario
c si 0 x 1y0 y
1, de lo contrario,
f- á - ≤
Sec. 3.5 Múltiples variables aleatorias continuas 33
donde c es una constante. Para que este PDF satisfaga la propiedad de normalización
,
debemos tener c a 1.
si (x,y) , S,
0 de lo contrario.
.
área de S
Ejemplo 3.14. Se nos dice que el PDF conjunto de las variables aleatorias X e Y es una
constante c en el conjunto S que se muestra en la Fig. 3.16 y es cero fuera.
Encuentre el valor de c y los archivos PDF marginales de X e Y .
El área del conjunto S es igual a 4 y, por lo tanto, fX,Y (x,y)á c á 1/4, para (x,y)á S.
Para encontrar el PDF marginal fX(x) para alguna xenparticular, integramos (con
respecto a y) el PDF conjunto sobre la línea vertical correspondientea esa x.
y
4
3
S
2
1/2
1
1/4
1 2 3
FY ( y )
X
3/4
FX ( X) 1/4
y X
Figura 3.16: El PDF conjunto en el ejemplo 3.14 y los PDF marginales resultantes.
Ejemplo 3.15. Aguja de Buffon. Este es un ejemplo famoso, que marca el origen del sujeto
de probabilidad geométrica, es decir, el análisis de la configuración geométrica de objetos
pla ced aleatoriamente.ced objects.
Una superficie se rige con líneas paralelas, que están a una distancia d entre sí (véase
la Fig. 3.17). Supongamos que tiramos una aguja de longitud l sobre la superficie al
azar. ¿Cuál es la probabilidad de que la aguja se interseque una de las líneas?
Suponemos aquí que l < d para que la aguja no pueda intersecar dos líneas
simultáneamente. Deje que X sea la distancia desde el punto medio de la aguja
hasta la más cercana de las líneas paralelas, y deje que el ángulo agudo formado por
el eje de la aguja y las líneas paralelas (véase la Fig. 3.17). Modelamos el par de variables
aleatorias (X,) con un PDF conjunto uniforme sobre el rectángulo [0,d/2] á [0,o/2], de modo
que
2] y [0,2],2],
Como se puede ver en la Fig. 3.17, la aguja intersecará una de laslíneas si y sólo si
Sec. 3.5 Múltiples variables aleatorias continuas 35
,
por lo que la probabilidad de intersección es
P
La probabilidad de intersección se puede estimar empíricamente, repitiendo el experimento
un gran número de veces. Dado que es igual a 2l/d, esto nos proporciona un método para
la evaluación experimental de ..
Expectativa
E
Como caso especial important, para cualquier escalar a a, b,tenemos
E[ aX + bY ] a aE[X]+ bE[Y ].
Deje que X e Y sean variables aleatorias continuas con PDF fX,Y . Para cualquier y
fijo con fY (y) > 0, el PDF condicional de X dado que Y - y, se definepor
.
Esta definición es análoga a la fórmula pXX Y á pX,Y /pY para el caso discreto.
Cuando se piensa en el PDF condicional, lo mejor es ver y como un número fijo
y considerar fX| Y (x? y) en función de la variable única x. En función de x, el
PDFcondicional fX| Y (x? y) tiene la misma forma que la junta PDF fX,Y (x,y), porque
36 Variables aleatorias generales Capítulo 3
,
por lo que para cualquier y fijo, fX| Y (x? y) es un PDF legítimo.
y
4 1 FX |Y ( XN.o
3,5)
3 FX |Y ( XN.o X
1 /2
S 2,5)
2 1 FX |Y ( XN.o X
1.5)
1 1 2 3 X
1 2 3
X
Figura 3.18: Visualización del PDF condicional fX| Y (x? y). Deje que X,Y tenga un PDF
conjunto que sea uniforme en el set S. Para cada yfijo, consideramos el PDF conjunto a lo
largo de la rebanada Y y lo normalizamos para que se integre en 1.
Ejemplo 3.16. Uniforme circular PDF. Juan lanza un dardo a un objetivo circular de radio r
(ver Fig. 3.19). Suponemos que siempre golpea el objetivo, y que todos los puntos de
impacto (x,y) son igualmente probables, de modo que el PDF conjunto de las variables
aleatorias X e Y es uniforme. Siguiendo el Ejemplo 3.13, y dado que el área del círculo es
22, hemos
,
Sec. 3.5 Múltiples variables aleatorias continuas 37
manera:
P(x X x + 1y y Y y + 22)
P(x x x x + 1 ? y , Y , y ≤ ≤ ≤ + , 22) ,á, á , ≤
38 Variables aleatorias generales Capítulo 3
P(y Y y + 22)
.
En palabras, fX| Y (x? y) δ δ1 nos proporciona la probabilidad de que X pertenezca en
un pequeño intervalo [x,x + 1], dado que Y pertenece en un pequeño intervalo [y,
y + 2]. Desde fX| Y (x? y)1 no depende de 2 ,podemos pensar en elcaso limitante
P
Las probabilidades condicionales, dado el evento de probabilidad cero, el evento de
probabilidad cero, el evento de probabilidad yde Y, se dejaron indefinidos en el
Capítulo 1. Pero la fórmula anterior proporciona una forma natural de definir tales
probabilidades condicionales en el contexto actual. Además, nos permite ver el PDF
conditional fX| Y (x? y) (en función de x) como una descripción de la ley de
probabilidad de X, dado que se yha producido el evento .
Como en el caso discreto, el PDF condicional fX| Y , junto con el PDF marginal fY
se utilizan a veces para calcular el PDF conjunto. Además, este enfoque también
se puede utilizar para el modelado: en lugar de especificar directamente fX,Y , a
menudo es natural proporcionar una ley de probabilidad para Y , en términos de un
PDF fY , y luego proporcionar una ley de probabilidad condicional fX- Y (x,y)para X,darn
cualquier valorposible y de Y .
Ejemplo 3.17. Deje que X se distribuya exponencialmente con la media 1. Una vez que
observamos el valor experimental x de X,generamos una variable aleatoria normal Y con
media cero y varianza x + 1. ¿Cuál es el PDF conjunto de X e Y? ?
Tenemos fX(x)á eáx,para x 0, y
.
Sec. 3.5 Múltiples variables aleatorias continuas 39
Así
El PDF condicional fX| Y (x? y) se define sólo para aquellos y para los que
fY (y y) > 0.
40 Variables aleatorias generales Capítulo 3
sedescribe mediante el pdf condicional fX? Y (x? y). Por lo tanto, basta con evaluar
este último PDF. Un cálculo análogo a la derivación original de la regla de Bayes,
basado en las fórmulas fXfY |X á fX,Y á fY fX| Y , rinde
,
que es la fórmula deseada.
Ejemplo 3.18. Se sabe que una bombilla producida por la General Illumination Company
tiene una vida útil exponencial Y. Sin embargo, la empresa ha estado experimentando
la PDF de Y es en
problemas de control de calidad. En un día dado, el parámetro de
realidad una variable aleatoria, distribuida uniformemente en el intervalo [0,1/2].
Probamos una bombilla y registramos el valor experimental y desuvida útil. ¿Qué
podemos decir sobre el parámetro subyacente λ?
42 Variables aleatorias generales Capítulo 3
y nos concentramos en la dependencia del PDF en x. Tenga en cuenta que fX(x) a 2, para
0x x a 1/2. Por la regla continua de Bayes, hemos
, para 0 .
En algunos casos, el fenómeno no observado es inherentemente discreto. Por
ejemplo, si se observa una señal binary en presencia de ruido con una distribución
normal. O si se va a realizar un diagnóstico médico sobre la base de mediciones
continuas como la temperatura y los recuentos sanguíneos. En tales casos, se aplica
una versión algo diferente de la regla de Bayes.
Deje que X sea una variable aleatoria discreta que toma valores en un conjunto
finito de 1,...,n y que representa las diferentes posibilidades discretas para el
fenómeno de interés no observado. Se supone que el PMF pX de X es conocido.
Deje que Y sea una variable aleatoria continua que, para cualquier valor dado x, es
descrita por un PDF condicional fY | X(y ? x). Estamos interesados en el PMF
condicional de X dado el valor experimental y de Y .
En lugar de trabajar con el eventode yacondicionamiento , quetiene cero
probabilidad, vamos a condicionar en su lugar en el evento -y - Y - y + -, donde es
un pequeño número positivo, und entonces tomar el límitecomo tiende a cero.
Tenemos, usando la regla Bayes
P
El denominador se puede evaluar utilizando una versión del teorema de probabilidad
total introducido en la Sección 3.4. Tenemos
.
Sec. 3.5 Múltiples variables aleatorias continuas 43
P .
Independencia
En plena analogía con el caso discreto, decimos que dos variables aleatorias continuas
X e Y son independientes si su PDF conjunto es el producto de los PDF
marginales:
Comparando con la| fórmula fX,Y (x,y)- fX Y (x? y)fY (y),vemos que la independencia
es la misma que la condición
o, simétricamente,
E[XY ] - E[X]E[Y ],
y, en términos más generales,
E ,
CDF conjuntas
Como en el caso de una variable aleatoria, la ventaja de trabajar con el CDF es que se
aplica igualmente bien a variables aleatorias discretas y continuas. En particular, si X
e Y son descritos por un PDF conjunto fX,Y , entonces
Ejemplo 3.20. Deje que X e Y sean descritos por un PDF uniforme en el cuadrado de la
unidad. El CDF conjunto es dado por
,
para todos (x,y) en el cuadrado de la unidad.
P
para cualquier conjunto B. También tenemos relaciones como
Y
También se pueden definir archivos PDF condicionales mediante fórmulas como
Por último, decimos que las tres variables aleatorias X, Y y Z son independientes si
E
y si g es lineal y de la forma aX + bY + cZ,entonces
Hemos visto que la media de una función Y á g(X) de una variable aleatoriacontinua
X, se puede calcularutilizando la regla de valor esperado
sin encontrar primero el PDF fY de Y . Sin embargo, en algunos casos, podemos estar
interesados en una fórmula explícita para fY . A continuación, se puede usar el
siguiente enfoque de dos pasos.
Ejemplo 3.21. Deje que X sea uniforme en [0,1]. Encuentra el PDF de Y áX. Tenga en
cuenta que Y toma valores entre 0 y 1. Por cada y -[0,1], tenemos
.
48 Variables aleatorias generales Capítulo 3
Fuera del rango [0,1], el CDF FY (yy ) esconstante, con FY (y ) ay0 para y a 0, y FY (y) a1
Ejemplo 3.22. John Slow está conduciendo desde Boston hasta el área de Nueva York, a una
distancia de 180 millas. Su velocidad media se distribuye uniformemente entre 30 y 60
millas por hora. ¿Cuál es el PDF de la duración del viaje?
Deje que X sea la velocidad y deje que Y á g(X) sea laduración del viaje: ) be t
.
Para encontrar el CDF de Y , debemos calcular
P .
Utilizamos el PDF uniforme dado de X,que es
30 si 30 x x 60, de lo
contrario,
y el CDF correspondiente, que es
0 si x a 30,
30 si 30 x x 60,
1 si 60 x ..
Así
0 si y a 180/60,
si 180/60 a y a 180/30,
1 si 180/30 o y,
3,
• 2o (6/y)si 3 x y á 6,
1 si 6 x y,
3,
fY (y)á 6/y2si 3 x y a 6,
y.
Ejemplo 3.23. Deje que Y - g(X)- X2,donde X es una variable aleatoria con conocido
Pdf. Para cualquier y 0, tenemos
,
y por lo tanto, al diferenciar y utilizar la regla de la cadena,
.
Pdf FX ( X) Fcd F X ( X)
1
30 60 X 30 60 X
Pdf FY ( y ) Fcd F Y ( y )
1
3 6 y 3 6 y
Figura 3.20: El cálculo del PDF de Y a 180/X en el ejemplo 3.22. Las flechas indican el flujo del
cálculo.
50 Variables aleatorias generales Capítulo 3
El caso lineal
Un caso importante surge cuando Y es una función lineal de X. Véase la Fig. 3.21 para
una interpretación gráfica.
Y aX + b,
Para verificar esta fórmula, usamos el procedimiento de dos pasos. Sólo mostramos la
FX
FAx FaX+b
−2 −1 2 3 4 9
.
Sec. 3.6 Distribuciones derivadas 51
Ejemplo 3.24. Función lineal de una variable aleatoria exponencial. Supongamos que X es
una variable aleatoria exponencial con PDF
0,
en el que es un parámetro positivo. Deje Y aX + b. Entonces,
0,
Ejemplo 3.25. Una función lineal de una variable aleatoria normal es normal.
Supongamosque X es una variable aleatoria normal con la media y la varianza σ2, y deja
que Y aX + b,donde a y b son algunos escalares. Tenemos
.
52 Variables aleatorias generales Capítulo 3
por lo tanto
Reconocemos esto como un PDF normal con media a + b y varianza a2x2. En particular, Y es
una variable aleatoria normal.
El caso monotónico
,
Sec. 3.6 Distribuciones derivadas 53
G(X)= Ax + B
y-B
H( y )=
O
B n
Pendient
O Pendient
1 /O
e nu e n
0 X 0 B y
y X
H( y )
y = G (X) G( X)
0 X = H( y ) X 0 y
,
y usar la regla de la cadena.
Existe una fórmula similar que implica la derivada de g, en lugar de la derivada
de h. Para ver esto, diferencie la igualdad y utilice la regla de cadena para
obtener
Sec. 3.6 Distribuciones derivadas 55
.
Vamos a arreglar algunas x x e y que están relacionadas por g(x) - y, que es lomismo
que h(y) x . Entonces,
lo que lleva a
.
y = G(X)
y = G( X)
y
y
H(y ) X H( y ) X
Evento { X < H(Y ) } Evento { X > H( Y )}
Ejemplo 3.22. (Continuación) Para comprobar la fórmula PDF, vamos a aplicarla al problema
del Ejemplo 3.22. En la región de interés, x á [30,60], tenemos h(y)a 180/y,y
Y
1],
El procedimiento de dos pasos que calcula primero el CDF y luego diferencia para obtener
el PDF también se aplica a las funciones de más de una variable aleatoria.
Ejemplo 3.27. Dos arqueros disparan a un objetivo. La distancia de cada disparo desde el
centro del objetivo se distribuye uniformemente de 0 a 1, independientemente del otro
disparo. ¿Cuál es el PDF de la distancia de la toma perdedora desde el centro?
Deje que X e Y sean las distancias desde el centro del primer y segundo disparo,
respectivamente. Que también Z sea la distancia del disparo perdedor:
Z - máx.X,Y ..
Sabemos que X e Y se distribuyen uniformemente en [0,1], de modo que para todos los z -
[0,1], hemos
Diferenciando, obtenemos
1,
0
Ejemplo 3.28. Deje que X e Y sean variables aleatorias independientes que se distribuyen
uniformemente en el intervalo [0,1]. ¿Cuál es el PDF de lavariable random Z - Y/X?
Dg
Pendien (X)
y Dx
te
G(X)
[y , y +Δ2 ]
X
[X, X+ Δ1 ]
Figura 3.24: Ilustración de la fórmula PDF para una función monotónicamente creciente g.
Considere un intervalo [x,x + 11], donde el número1 es un número pequeño. Bajo la
asignación g, la imagen de este intervalo es otrointervalo [y,y + 22]. Dado que
(dg/dx)(x) es la pendientede g,hemos
We now note that the event {x ≤ X ≤ x+δ1} is the same as the event {y ≤ Y ≤ y + δ2}. Por
lo tanto,
fY (y)(á2o (y á Y á Y δ + á 22) á
P(x á x + á1 )
fX(x)11.
58 Variables aleatorias generales Capítulo 3
Nos movemos 1 al lado izquierdo y usamos nuestra fórmula anterior para la relación δde 2/
11,para obtener
Y z/2si 0á za
1,
FZ(z)- P1,
0 de lo contrario.
Al diferenciar, obtenemos
1/2 si 0 á z á 1,
) si 1,
0 de lo contrario.
1
y y
Z
1 1
Pendien
Z
te Pendien
Z
Z
te
0 1 X 0 1 X
Ejemplo 3.29. Romeo y Julieta tienen una fecha en un momento dado, y cada uno, de forma
independiente, llegará tarde por una cantidad de tiempo que se distribuye
exponencialmente con el parámetro . ¿Cuál es el PDF de la diferencia entre sus tiempos de
llegada?
Denoremos por X e Y las cantidades por las que Romeo y Julieta llegan tarde,
respectivamente. Queremos encontrar el PDF de Z - X - Y , suponiendo que X e Y son
independientes y se distribuyen exponencialmente con el parámetro . Primero
calcularemos el CDF FZ(z) considerando por separado loscasos z a 0 y z < 0 (véase
la Fig. 3.26). Para z 0, tenemos (ver el lado izquierdo de la Fig. 3.26)
60
y Línea x - y = Z y Línea x - y = Z
0 Z X Z 0 X
valor P(X - Y > z)debemos integrar la unión PDF fX,Y (x,y) sobre el áreasombreada
derecho).
Para el caso z < 0, podemos usar un cálculo similar, pero también podemos
argumentar usando simetría. De hecho, la simetría de la situación implica que las variables
si z es 0,
si z < 0,
0,
si z < 0,
Esto se conoce como un PDF exponencial de dos caras,también conocido comoel PDF de
Laplace..
3.7 RESUMEN Y DISCUSIÓN
Las variables aleatorias continuas se caracterizan por archivos PDF y surgen en muchas
aplicaciones. Los archivos PDF se utilizan para calcular las probabilidades de eventos.
Esto es similar al uso de PMF para el caso discreto, excepto que ahora necesitamos
integrar en lugar de agregar. Los PDF conjuntos son similares a los PMF conjuntos y se
utilizan para determinar la probabilidad de eventos que se definen en términos de
múltiples variables aleatorias. Por último, los PDF condicionales son similares a los
PMF condicionales y se utilizan para calcular las probabilidades condicionales, dado
elvalor de la variable aleatoria de acondicionamiento.
También hemos introducido algunas leyes importantes de probabilidad continua y
hemos derivado su media y varianza. En la tabla se proporciona un resumen que
Sigue.
1
FX ( X )= Si U ≤ X ≤ B,
B− U
0 n Loncontrario
U+ B ( B − U) 2
E [X ]= , var( X )= .
n2 12n
Exponencial con parámetro Λ:
−x
E Si X ≥ 0, 1 − e− x Si X ≥ 0,
FX ( X )= F X ( X)=
0 Lo contrario 0 Lo contrario
1 1
E [X ]= , var( X )= .
Λ Λ2
Otros temas
sobre Variables y Expectativas Aleatorias
Contenido
4.1. Transformaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.........................................
4.2. Sumas de variables aleatorias independientes - Convoluciones . . . pág. 13
4.3. Expectativa condicional como variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
...... pág. 17
4.4. Suma de un número aleatorio de variables aleatorias independientes p. 25
4.5. Covarianza y correlación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.............. p. 29
4.6. Estimación de mínimos cuadrados .........................................
........................... p. 32 4,7. La distribución normal de bivariato ....
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pág. 39
1
2 Otros temas sobre variables y expectativas aleatorias Capítulo 4
4.1 TRANSFORMAS
,
mientras que en el caso continuo,tenemos
• El lector que está familiarizado con las transformaciones de Laplace puede reconocer que
la transformación asociada a una variable aleatoria continua es esencialmente la misma que la
transformación de Laplace de su PDF, la única diferencia es que las transformaciones de Laplace
Sec. 4.1 Transforma 3
suelen implicar esx en lugar de esx. Para el caso discreto, a veces se utiliza una variable z
en lugar de es y la transformación resultante) se conoce como la
transformación z-.
Sin embargo, no usaremos z-transforms en este libro.
A continuación, la transformación correspondiente es
P X (X)
1
2 1
1 3
6
0 2 3 5 X
M(s )
(1 /3) e 5 s
(1 /6) e 3 s
1 (1 /2) e 2 s
0 s
.
Dejamos que a e ssá y obtengamos
Ejemplo 4.3. Transformación de una variable aleatoria exponencial. Deje que X sea una
variable aleatoria exponencial con el parámetro ::
fX(x) á . .−.. . . . . . . . . . . ., . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . ..
Entonces
(si s < ))
El cálculo anterior y la fórmula para M(s) sólo es correcto si el integrador e(ssλ)x se
Ejemplo 4.4. Transformación de una función lineal de una variable aleatoria. Deje que
MX(s) sea latransformación asociada a una variable aleatoria X. Considere una nueva
variable aleatoria Y aX + b. Entonces tenemos
Por ejemplo, si X es exponencial con el parámetro .- 1, de modo que MX(s)- 1/(1 s)sy si
Y es 2X + 3, entonces
.
Ejemplo 4.5. La transformación de una variable aleatoria normal. Deje que X sea
una
variable aleatoria normal con la media y la varianza σ2. Para calcular la
transformación correspondiente, primero consideramos el caso especial de la variable
aleatoria normal estándar Y , donde los valores de σ los valores de los valores de
los valores de los valores de los valores de los valores de los valores de los
valores de los valores de los valores de los valores de los valores de los
valores de los valores de los valores de los valores de los valores de los
valores de los valores de los valores de los valores de los valores de los valores de
los valores de los valores de los valores de los estados de la aplicación. El PDF de la normal
estándar es
y su transformación es
X a O + . µ.
Esta igualdad se aplica a todos los valores de s. Teniendo en cuenta el caso especial en
el que s . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .
.
De manera más general, si diferenciamos los tiempos de la función
M(s)con respecto a s, un cálculosimilar produce
.
Ejemplo 4.6. Vimos anteriormente (Ejemplo 4.1) que el PMF
N.o 2,
N.o 3,
N.o 5,
tiene la transformación
Sec. 4.1 Transforma 7
.
Así
fX(x) - áe-x, x á 0,
encontramos
antes que
Así
.
Al ajustar s 0, obtenemos
E , E ,
8 Otros temas sobre variables y expectativas aleatorias Capítulo 4
Inversión de transformaciones
Propiedad De inversión
La transformación MX(s) determina completamente la ley de probabilidad de
la variable aleatoria X. En particular, si MX(s)- MY (s) paratodos s, entonces
lasvariables aleatorias X e Y tienen la misma ley de probabilidad.
Dado que M(s) es una sumade términos de la forma esx,podemos comparar con la
fórmula general
y deducir que X es una variable aleatoria discreta. Los diferentes valores que X puede
tomar se pueden leer de los exponentes correspondientes y son1, 0, 4 y 5. La
probabilidad de cada valor x viene dada por el coeficiente multiplicando el
término esx correspondiente. En nuestro caso, P(X á 1) a 1/4, P(X a 0) a 1/2, P(X a 4)
a 1/8, P(X a 5) a 1/8.
Sec. 4.1 Transforma 9
Ejemplo 4.8. La transformación de una variable aleatoria Geometric. Se nos dice que la
transformación asociada con la variable aleatoria X es de la forma
,
donde p es una constante en el rango 0 < p < 1. Deseamos encontrar la distribución de X.
Recordamos la fórmula para la serie geométrica:
que es válido siempre que sea . . . . . . .. . .. < 1. Usamos esta fórmula con s & p)yspara s
Como en el ejemplo anterior, deducimos que se trata de una variable aleatoria discreta que
toma valores enteros positivos. La probabilidad P(X á k) se encuentraleyendo el
coeficiente del término eks. En particular, P(X - 1) - p, P(X - 2) - p(1p), etc., y
P(X á k)á p(1 á p)ká1, k á 1,2,...
.
Si establecemos s a 0, la expresión anterior se evalúa como 1/p, lo que está deacuerdo
con la fórmula para E[X] derivada en elcapítulo 2.
con probabilidad 1/3. Encuentra el PDF del tiempo que se tarda en ayudar a Jane y su
transformación.
Tenemos
Entonces
(para s <
4) .
Más generalmente, deje que X1,...,Xn sean variables aleatorias continuas con PDFs
fX1,... fXn, y dejar Y ser una variable aleatoria, que es igual a Xi con probabilidad pi.
Entonces,
Los pasos de este problema se pueden invertir. Por ejemplo, se nos puede decir que
la transformación asociada con una variable aleatoria Y es de la forma
Considere un valor fijo del parámetro s. Dado que X e Y son independientes, esX y
esY son variables aleatorias independientes. Por lo tanto, la expectativa de su producto
es el producto de las expectativas, y
Entonces
MW(s) - MX1(s) MXn(s).
Ejemplo 4.10. La transformación del binomio. Deje que X1,...,Xn sean variables aleatorias
independientes de Bernoulli con un parámetro común p. Entonces,
Y
MW(s)á MX(s)MY (s)á e eá(esá1) á e(á+)(esá1). •(eess s1) −
12 Otros temas sobre variables y expectativas aleatorias Capítulo 4
Por lo tanto, W tiene la misma transformación que una variable aleatoria de Poisson con la
media de + . Por la propiedad de unicidad de las transformaciones, W es Poisson con la
media de + ..
Ejemplo 4.12. La suma de variables aleatorias normales independientes es normal. Deje
que X e Y sean variables aleatorias normales independientes con las medias µx, yyylas
varianzas xx2, yy2,respectivamente. Dejar que W a X + Y . Entonces,
Por lo tanto, W tiene la misma transformación que unavariable random normal con
la media dex + ay y la varianza y xx 2 +y2.
Por la propiedad uniqueness de las
transformaciones, W es normal con estos parámetros.
eSx PX ( X ) , X Discreta,
X
M X ( s )= E [eSx ]= ∞
eSx FX ( X ) Dx X Continua .
−∞
D DN
M X (0) 1 , M X (s) = E [X ], M X (s) = E [X N ].
Ds s N.o DsN s N.o
0 0
Si dos variables aleatorias X e Y son descritas por alguna distribución conjunta (por
ejemplo, un PDF conjunto), entonces cada una está asociada con una transformación
MX(s) o MY (s). Estos
P Si K N.o ,
PX ( K)= M X (s) 1 − P + Pes .
1− P Si K 0.
Binomio ( n,p )
N K
PX ( K)= P (1 − P) N − K , K N.o , 1,...,.
K
0
M X ( s )(1 − P + Pes ) N .
Geométrica ( P)
Pes
PX ( K)= P(1 − P) K − 1 , K N.o , 2,... M X ( s )= .
1 − (1 − P) es
1
Poisson ( Λ)
e− Λ ΛK s−
PX ( K)= , K N.o , 1,... M X ( s )= eΛ ( e 1)
.
K!
0
Uniforme ( a,b )
1
PX ( K)= , K = a,a +1 ,...,b.
B − U +1
n eCo e( B− U+1) s − 1
M X ( s )= mo n .
B − U +1 es − 1
n
.
La propiedad de inversión de las transformaciones descritas anteriormente se
extiende al caso multivariante. Que is, si Y1,...,Yn es otro conjunto de variables
aleatorias y MX1,...,Xn(s1,...,sn), MY1,...,Yn(s1,...,sn) son las mismasfunciones de s1,...,sn,
15
4.2 Sumas de variables aleatorias independientes — Convoluciones
1 1 eSb − eSa
F X ( X)= , O ≤ X ≤ B. M X ( s )= .
B− O B− O s
n
n n
Exponencial ( Λ)
− x Λ
F X ( X )= E , X ≥ 0. M X ( s )= , (s > ? ).
−
Λ s
Normal ( μ,σ 2 )
1 2 2 Σ 2s2
FX ( X )= √ e− ( X − µ ) / 2 Σ , − ∞ < X < ∞. M X ( s )= e 2 + Μs .
Σ 2Π
El caso discreto
Deje que W - X+Y , donde X e Y son variables aleatorias independientes con valores
enteros con PMFs pX(x)y pY (y). Entonces, para cualquier entero w,
pW(w)áP(X + Y á w)
P(X x x e Y á y)
e Y á w á x)
16 Otros temas sobre variables y expectativas aleatorias Capítulo 4
.
y
.
. (0 ,3)
. (1 ,2)
. (2 , 1)
. (3 , 0)
X
.
Figura 4.2: La probabilidad pW(3) que X+Y - 3 es la suma de las probabilidades de todos los
pares (x,y) de tal maneraque x + y - 3, que son los puntos indicados en la figura. La
,
donde la segunda igualdad anterior se basa en el hecho de que para 1 pX(x)o pY (1 x
x) (o ambos) es cero. Del mismo modo, obtenemos
17
, Sec.
4.2 Sumas de variables aleatorias independientes — Convoluciones
El caso continuo
Deje que X e Y sean variables aleatorias continuas independientes con archivos PDF
fX(x) y fY (y). Deseamos encontrar el PDF de W x + Y . Puesto que W es una
función de dos variables aleatorias X e Y , podemos seguir el método del Capítulo 3,
y comenzar derivando el CDF FW(w) de W. Tenemos
Esta fórmula es totalmente análoga a la fórmula para el caso discreto, excepto que la
suma se sustituye por una integral y los PMF se sustituyen por archivos PDF. Para una
comprensión intuitiva de esta fórmula, véase la Fig. 4.3.
2,
y
W+ Δ
W
X + y = W+ Δ
W X
X+ y= W
F W( W)
2 W
Figura 4.4: El PDF de la suma de dos variables aleatorias uniformes independientes en [0,1].
19
que tiene la forma triangular que se muestra en la Fig. 4.4.
O B T C D T
n
F Y ( W− T) F Y ( − T)
W− D W− C T −D −C T
F Y ( W− T) F X ( T)
O B T
n
Figura 4.5: Ilustración del cálculo de la convolución. Para el valor w considerado, fW(w) es
igual a la integral de lafunción mostrada en la última gráfica.
Sec. 4.3 Expectativa condicional como variable aleatoria 21
E , (caso discreto),,
E (caso continuo).
Una vez que se da un valor de y, la suma o integración anterior produce un valor
numérico para E[X ? Y - y].
Ejemplo 4.15. Deje que las variables aleatorias X e Y tengan un PDF conjunto que
sea igual a 2 para (x,y) quepertenezca al triángulo indicado en la Fig. 4.6(a), y cero en
todas partes else. Con el fin de calcular E[X | Y - y], primero necesitamos obtener la
densidad condicional de X dado Y - y.
F X |Y ( X |y )
y
1 1
F X ,Y ( X ,y ) = 2
1−y
1−y 1 X 1−y 1 X
( O) ( B)
n
22 Otros temas sobre variables y expectativas aleatorias Capítulo 4
Figura 4.6: a) El PDF conjunto en el ejemplo 4.15. (b) La densidad condicional de X.
Tenemos
, 0x x a 1o y.
La densidad condicional se muestra en la Fig. 4.6(b).
Intuitivamente, dado que el PDF conjunto es constante, el PDF condicional (que es
un "slice" de la articulación, en algunos y fijos)también es una constante. Por lo tanto, el
PDF condicional debe ser una distribución uniforme. Dado tsombrero Y - y, X oscila
entre 0 y 1 yy. Por lo tanto, para que el PDF se integre en 1, su altura debe ser igual a 1/(1
x y), de acuerdo conla Fig. 4.6(b).
Para y > 1 o y < 0, el PDF condicional es indefinido, ya que estos valores de y son
imposibles. Para y 1, X debe ser igual a 0, con certeza, y E[X | Y 1] a 0.
Para 0 a y < 1, la media condicional E[X ? Y - y] es la expectativa del PDF
uniforme en laFig. 4.6(b), y tenemos have
E .
Desde E[X ? Y - 1] - 0, la fórmula anterior también es válida cuando y - 1. La expectativa
Ejemplo 4.15. (continuación) Vimos que E[X | Y á y]á (1 x y)/2. Por lo tanto, E[X ? Y ]
E .
, Y discreto,
E y
Continua.
Ejemplo 4.16. Comenzamos con un palo de longitud. Lo rompemos en un punto que se elige
al azar y uniformemente sobre su longitud, y keep la pieza que contiene el extremo
izquierdo del palo. Luego repetimos el mismo proceso en el palo que nos quedamos. ¿Cuál
es la longitud esperada del palo que nos queda, después de romper dos veces?
Deje y sea la longitud del palo después de que nos rompamos por primera vez. Deje
que X sea la longitud después de la segunda vez. Tenemos E[X ? Y ] - Y/2, ya que
el punto de interrupción se elige uniformemente sobre la longitud Y del palo restante. Por
una razón similar,
E .
Ejemplo 4.17. Promedio de las puntuaciones de la prueba por sección. Una clase tiene n
estudiantes y la puntuación del cuestionario del estudiante i es xi. La puntuación media
del cuestionario es
xi.
stdnts. i en sec.s
La puntuación media de toda la clase se puede calcular tomando la puntuación media ms
de cada sección y, a continuación, formando un promedio ponderado;el peso dado
a lasección s es proporcional al número de alumnos en esa sección, y es ns/n.
Verificamos que esto dé el resultado correcto:
xi
stdnts. i en sec.s
xi
stdnts. i en sec.s
.
¿Cómo se relaciona esto con las expectativas condicionales? Considere un
experimento en el que un alumno es seleccionado al azar, cada alumno tiene
probabilidad de ser seleccionado. Considere las dos variables aleatorias siguientes:
Entonces tenemos
E[X] á m.
Sec. 4.3 Expectativa condicional como variable aleatoria 25
E xi á ms.
stdnts. i en sec.s
E .
s1 s1
Como se muestra anteriormente, esto es lo mismo que m. Por lo tanto, el promediado por
sección puede considerarse como un caso especial de la ley de expectativas iteradas.
Ejemplo 4.18. Previsiones de previsión. Deje que Y sea las ventas de una empresa
en el primer semestre del próximo año, y deje que X sea las ventas durante
todo el año. La empresa ha construido un modelo estadístico de ventas, por lo que se
supone que se conoce la distribución conjunta de X e Y. A principios de año,
el valor esperado E[X] sirve comoprevisión de las ventas reales X. A mediados del año,
las ventas del primer semestre se han realizado y ahora se conoce el valor
experimental del valor aleatorio Y. is now known. Esto nos coloca en un nuevo
"universo", donde todo está condicionado al valor realizado de Y . A continuación,
consideramos la previsión revisada a mitad de año de las ventas anuales, que es E[X | Y ].
E .
Esto significa que, a principios de año, no esperamos que nuestra previsión se revise en
ninguna dirección específica. Por supuesto, la revisión real suele ser positiva o negativa,
pero las probabilidades son tales que es cero en el promedio. Esto es bastante intuitivo. Por
ejemplo, si se esperaba una revisión positiva, el pronóstico original debería haber sido
mayor en primer lugar.
26 Otros temas sobre variables y expectativas aleatorias Capítulo 4
La varianza condicional
E ,
ya que E[X] es lamedia de]. Por último, el tercer término es cero, como
ahora es lo mismo que E var( . El segundo término es igual a var,
show. De hecho, si definimos, el tercer
término es
Sec. 4.3 Expectativa condicional como variable aleatoria 27
Ejemplo 4.16. (continuación) Considere de nuevo el problema donde rompemos dos veces
siendo la longitud del palo
un palo de longitud, en puntos elegidos al azar, con Y
después de la primera rotura y X siendo la longitud después de la segunda
rotura. Calculamos la media de 4, y ahora vamos a utilizar la ley de desviaciones
condicionales para calcular var(X). Tenemos E[X ? Y ] a Y/2,por lo queya que Y se distri
uniformementeentre 0 y ,
.
Además, dado que X se distribuye uniformemente entre 0 e Y, hemos
E.
Deje que ns sea el número de alumnos en la sección s, ydeje n ser el número total
de estudiantes. Interpretamos las cantidades differentes en la fórmula
.
28 Otros temas sobre variables y expectativas aleatorias Capítulo 4
E .
Hemos visto anteriormente que la ley de expectativas iteradas (en forma del
teorema total de la expectativa) se puede utilizar para desglosar cálculos de
expectativa complicados, considerando diferentes casos. Un método similar se aplica
a las determinaciones de desviación.
1,
1.
Aquí, E[X ? Y ] toma los valores 1/2 y 3/2, con probabilidades 1/3 y 2/3, respectivamente.
.
Sec. 4.3 Expectativa condicional como variable aleatoria 29
FX ( X )
2/ 3
1/ 3
1 2 X
.
30 Otros temas sobre variables y expectativas aleatorias Capítulo 4
4.4 Suma de un número aleatorio de variables aleatorias independientes
valorexperimental de Y sea y.
Y a X1 + + XN,
donde N es una variable aleatoria que toma valores enteros no negativos, y X1,X2,... son
variables aleatorias distribuidas de forma idéntica. Suponemos que N,X1,X2,... son
independientes, lo que significa que cualquier subcolección finita de estas variables
aleatorias es independiente.
En primer lugar, nonos importa que la aleatoriedad de N pueda afectar
significativamente al carácter de la suma aleatoria Y - X1 + x + XN. En particular, el
PMF/PDF de Y es muy diferente del PMF/PDF de la suma en la
que
N se ha reemplazado por su valor esperado (suponiendo que E[N]es entero). Por
ejemplo, deje que Xi se distribuya uniformemente en el intervalo [0,1], y deje que N
sea igual a 1 o 3 con probabilidad 1/2 cada uno. A continuación, el PDF de la suma
aleatoria Y toma valores en el interval [0,3], mientras que si reemplazamos N por
su valor esperado
31
• E[X1 + á + Xn - N a n]
• E[X1 + á + Xn]- n .
E[Y ? N] - No.
E .
Semejantemente
Puesto que esto es cierto para cada entero no negativo n, la variable aleatoria var(Y ?
E
Utilizando la ley de expectativas iteradas, la transformación (incondicional) asociada con
Y es
E .
4.4 Suma de un número aleatorio de variables aleatorias independientes
Ejemplo 4.21. Un pueblo remoto tiene tres gasolineras, y cada una de ellas está abierta en
un día dado con probabilidad 1/2, independientemente de las demás. La cantidad de gas
disponible en cada estación de servicio es desconocida y se distribuye uniformemente entre
0 y 1000 galones. Queremos caracterizar la distribución de la cantidad total de gas
disponible en las gasolineras que son opluma.
El número = N de estaciones de servicio abiertas es una variable aleatoria binomial con p
1/2 y la transformación correspondiente es
E .
Usando las fórmulas para la varianza de variables aleatorias geométricas y exponenciales,
también obtenemos
,
lo que simplifica la
.
Reconocemos esto como la transformación de una variable aleatoria distribuida
exponencialmente con el parámetro p ,y por lo tanto,
fY (y)á p-e-p-y, y - 0.
Para determinar MY (s), comenzamos con la fórmula para MN(s) yreemplazamos cada
aparición de es con MX(s). Esto produce
,
y, después de un poco de álgebra,
.
Concluimos que Y se distribuye geométricamente, con el parámetro pq.
Sec. 4.5 Covarianza y correlación
Propiedades de sumas de un número aleatorio de aleatorio independiente
Variables
Deje que X1,X2,... ser variables aleatorias con media común y varianza común
22. Deje que N sea una variable aleatoria que toma valores enteros no
negativos. Suponemos que todas estas variables aleatorias son independientes,
y consideramos
Y a X1 + + X NN.
Entonces
• E[Y ] á EE[N].
cov( .
Por lo tanto, si X e Y son independientes, también son no correlacionados. Sin embargo,
lo contrario no es cierto, como se muestra en el ejemplo siguiente.
Ejemplo 4.24. El par de variables aleatorias (X,Y ) toma los valores (1,0), (0,1),
1), cada uno con probabilidad 1/4 (véase Fig.
4.9). Por lo tanto, los PMF marginales de y son simétricos alrededor
de 0, y E[X] á E[Y ] - 0. Además, para todos los pares de valores posibles (x,y), x o y es
igual a 0, lo que implica que
XY a 0 y A[XY ] a 0. Por lo tanto,
cov( ,
y y
x x
(a) (b)
(-1,0) (1 , 0) X
(0,-1)
y X e Y no están correlacionados. Sin embargo, X
e Y no son independientes ya que, por ejemplo, un
valor distinto de cero de X corrige el valor de Y a cero.
Si es el valor de > 0 (o < 0), los valores de x á E[X] ey - E[Y ] "tend" tengan
el mismo signo (o opuesto, respectivamente) y el tamaño de la palabra . ? proporciona
una medida normalizada de la medida en que esto es cierto. De hecho, siempre
suponiendo que X e Y tienen varianzas positivas, se puede demostrar que el valor
de la palabra 1 (o 1) si existeuna constante positiva(o negativa, respectivamente)
de modo que
(ver los problemas de fin de capítulo). En el ejemplo siguiente se muestra en parte esta
propiedad.
.
Esto se puede ver en el siguiente cálculo, donde por brevedad, denotamos
.
En el ejemplo siguiente se muestra el uso de esta fórmula.
Ejemplo 4.26. Considere el problema de sombrero que se discute en la Sección 2.5, donde
n personas tiran sus sombreros en una caja y luego escoge un sombrero al azar. Vamos
a encontrar la varianza de X, el número de personas que eligen su propio sombrero.
Tenemos
38 Otros temas sobre variables y expectativas aleatorias Capítulo 4
X x X1 + + Xn,
Porque, tenemos
cov(
por lo tanto
En muchos contextos prácticos, queremos formar una estimación del valor de una
variable aleatoria X dado el valor de una variable aleatoria relacionada Y , que puede
ser vista
Sec. 4.6 Estimación de mínimos cuadrados 39
como alguna forma de "medida" de X. Por ejemplo, X puede ser el alcance de una
aeronave y Y puede ser una medida dañada por ruido de ese rango. En esta
sección analizamos una fórmula popularsobre el problema de estimación, que se basa
en encontrar la estimación c que minimiza el valor esperado del error cuadrado
(X - c)2 (de ahí el nombre "menos cuadrados").
E
donde usamos el hecho de que[[X x m] á0. El primer término en el lado derecho es
la varianza de X y no se ve afectado por nuestra elección de c. Por lo tanto,
debemos elegir c de una manera que minimice el segundo término, lo que conduce
a c á m - E[X]
(véase la Fig. 4.10).
Esperado cuadrado
Error de estimación
E [( X- c ) 2 ]
var( X )
E[ X ] C
Y x X + W.
Tenemos fX(x) a 1/6 para 4 x x a 10, y fX(x) a0, en otro lugar. Condicionado en X
siendo igual a algunos x, Y es el mismo que x + W, y es uniforme en el
intervalo[x á 1,x + 1]. Por lo tanto, el PDF conjunto es dado por
El rectángulo inclinado en el lado derecho de la Fig. 4.11 es el conjunto de pares (x,y) para
los cuales fX,Y (x,y) es distinto decero.
Dado un valor experimental y de Y , el PDF condicional fX| Y de X es uniforme
en la sección vertical correspondiente del rectangleinclinado. La estimación óptima E[X ?
Y - y] es el punto medio deesa sección. En el caso especial del presente ejemplo,
resulta ser una función lineal por piezas de y.
Sec. 4.6 Estimación de mínimos cuadrados 41
X
Y = X+W 10
Dónde W es una medida
error que es uniformemente
el intervalo en el intervalo [-1,1]
FX (X )
4 X 3 5 9 11
10 y
Figura 4.11: Los archivos PDF del ejemplo 4.27. La estimación de mínimos cuadrados de X
dado el valor experimental y de la variable aleatoria Y - X + W depende de y
y está representada por la función lineal por piezas que se muestra en la figura de
la derecha.
del valor observado y debe considerarse como una función de y; véase la Fig. 4.12.
E .
E .
Considere ahora un estimador g(Y ). Para un valor dado y de Y , g(y) es un
númeroy, por lo tanto,
42 Otros temas sobre variables y expectativas aleatorias Capítulo 4
E .
Esta desigualdad es verdadera para todos los valores experimentales posibles y de
Y . Por lo tanto,
E ,
que ahora es una desigualdad entre variables aleatorias (funciones de Y). Tomamos
las expectativas de ambas partes, y utilizamos la ley de expectativas iteradas,para
concluir que
y E[ X |Y y ]
MÍNIMOS CUADRADOS
Estimador
2
E X − E [X ] ≤ E ( X − C) 2 , para C.
todos
• E ( X − C) 2 |Y = y se minimiza cuando C = E [X |Y = y ]:
2
E X − E [X |Y = y ] Y = y ≤ E ( X − C) 2 |Y = y , para C.
todos
• De todos los estimadores
G( Y ) D X basado en Y , la media esti-
2
E X − G( Y ) e se minimiza cuando G( Y ) = E [X |Y ]:
error de mation
2 2
E X − E [X |Y ] ≤ E X − G( Y ) , para todas las G( Y ) .
funciones
Sec. 4.6 Estimación de mínimos cuadrados 43
XÁ E E[X ? Y ], Xá X - X, x,ˆ
E .
Hemos utilizado aquí el hecho de que Xestá completamente determinado por Y y por
lo tanto E[Xˆ | Y ] - X. Por razones similares,
E .
Tomando expectations y utilizando la ley de expectativas iteradas, obtenemos
E .
Tenga en cuenta que X - X+ X,que produce X , E[X], X, E[X]+ X. Cuadramos
ambas partes de esta última igualdad y tomar las expectativas para obtener
(La última igualdad se mantiene debido a E[X]á E[X]y E[Xá] a0.) En resumen, hemos
establecido la siguiente fórmula importante, que es sólo otra versión de la ley de
varianzas condicionales introducida en la Sección 4.3.
44 Otros temas sobre variables y expectativas aleatorias Capítulo 4
es posible que E[X | Y ] ser siempre igual a la constante E[X], sin que X e Y sean
independientes. (¿Puede construir un ejemplo?)
Hasta ahora, hemos discutido el caso en el que estimamos una variable aleatoria X
sobre la base de otra variable aleatoria Y . En la práctica, a menudo se tiene acceso a
los valores experimentales of varias variables aleatorias Y1,...,Yn, que se puede
utilizar paraestimar X. Generalizar nuestra discusión anterior, y usando
esencialmente el mismo argumento, el error de estimación al cuadrado medio se
minimiza si usamos E[X | Y1,...,Yn] como nuestroestimador. Es decir,
E ,
para todas las funciones g(Y1,...,Yn).
Esto proporciona una solución completa al problema general de la estimación
de mínimos cuadrados, pero en algún momentoes difícil de implementar, porque:
Sec. 4.6 Estimación de mínimos cuadrados 45
variables aleatorias.
(b) Incluso si este PDF conjunto está disponible, E[X | Y1,...,Yn] puede ser una
E ,
que es lo mismo que
E
46 Otros temas sobre variables y expectativas aleatorias Capítulo 4
4.7 Distribución normal bivariada donde cov(X,Y ) es la
covarianza de X e Y: :
cov( .
Esta es una función cuadrática de un, que se minimiza en el punto donde su derivado
es cero, es decir, si
Dónde
cov(X,Y )
•?
XX -Y
E .
(1 x 22)var(X) .
Decimos que dos variables aleatorias X e Y tienen una distribución normal bivariada
si hay dos variables aleatorias normales independientes U y V y algunos escalares
a,b,c,d, de tal manera que
X aU + bV, Y - cU + dV.
47
Para mantener la discusión simple, nos limitamos al caso en el que U, V (y por lo tanto, X
e Y también) tienen cero media.
Una propiedad más importante de la distribución normal bivariada es la siguiente:
Deje que X e Y sean variables aleatorias normales de media cero independientes con las
mismas varianzas deX2 y σY2 que X e Y . Puesto que son independientes, no están
correlacionados, y el mismo argumento que los rendimientos anteriores
Por lo tanto, los dos pares de variables aleatorias (X,Y ) y (X,Y ) se asocian con la misma
transformación multivariada. Dado que la transformación multivariada determina
completamente el PDF conjunto, se deduce que el par (X,Y ) tiene la misma articulación
PDF como par (X,Y ). Dado que X e Y son independientes, X e Y también deben ser
independent.
Vamos a definir
X- Y, X, XX X. ˆ
E[Y 2] −
Por lo tanto, Xes el mejor estimador lineal de X dado Y, y Xes el error deestimación.
Dado que X e Y son combinaciones lineales de variables aleatorias normales
48 Otros temas sobre variables y expectativas aleatorias Capítulo 4
independientes U y V, se deduce que Y y Xtambién soncombinaciones lineales de U y
V. En particular, Y y Xtienen una distribución normalbivariada. Además,
cov(Y, .
4.7 La tribución D normal bivarianteistribution
Por lo tanto, Y y Xson nocorrelacionados y, por lo tanto, independientes. Dado que Xes
unmúltiplo escalar de Y , también vemos que Xy Xson independientes. Ahora comenzamos
desde la identidad
X x x+ X,˜
Xesindependiente de Y y
(La última igualdad se obtuvo porque se supone que X e Y tienen media cero y X es un
múltiplo constante de Y .) Poniendo todo junto, llegamos a la importante conclusión de
que el mejor estimador lineal Xes dela forma
XÁ E E[X ? Y ].
E .
.
Por último, tengamos en cuenta que si si X e Y tienen una distribución normal
bivariada, entonces X e Y son (individualmente) variables aleatorias normales, lo contrario
no es cierto incluso si X e Y no están correlacionados. Esto se ilustra en el ejemplo
siguiente.
Ejemplo 4.29. Deje que X tenga una distribución normal con media cero y varianza
unitaria. Deje que z sea independiente de X,con P(Z - 1) - P(Z - 1) - 1/2. Dejar Y - ZX, que
también es normal con media cero (¿por qué?). Además,
por lo que X e Y no están correlacionados. Por otro lado X e Y son claramente dependientes.
(Por ejemplo, si X a 1, a continuación, Y debe ser de 1 o 1.) Esto puede parecer contradecir
nuestra conclusión anterior de que la correlación cero implica independencia? Sin embargo, en
este ejemplo, la junta PDF de X e Y no es normal multivariable, aunque ambas distribuciones
marginales sean normales.
5
Procesos estocásticos
Contenido
• Vamos a emfasize que todas las variables aleatorias que surgen en un proceso estocástico se
refieren a un experimento único y común, y por lo tanto se definen en un espacio de muestra común.
La ley de probabilidad correspondiente se puede especificar directa o indirectamente (suponiendo
some de sus propiedades), siempre y cuando determine inequívocamente el CDF conjunto de
cualquier subconjunto de las variables aleatorias implicadas.
los tiempos interarrivales se distribuyen exponencialmente – este es el proceso
de Poisson.
(b) Procesos Markov: Aquí, estamos viendo experiments que evolucionan en el tiempo
y en los que la evolución futura exhibe una dependencia probabilística del pasado.
Por ejemplo, los precios diarios futuros de una acción suelen depender de los
precios pasados. Sin embargo, en un proceso Markov, asumimos un tipoe muy
especialde dependencia: el siguiente valor depende de valores pasados sólo a
través del valor actual. Existe una metodología rica que se aplica a estos procesos,
y que se desarrollará en el capítulo 6.
para cada i.
Dado un proceso de llegada, a menudo uno está interesado en variables
aleatorias como el número de llegadas dentro de un cierto período de tiempo, o el
tiempo hasta la primera llegada. Para el caso de un proceso de Bernoulli, algunas
respuestas ya están disponibles en capítulos anteriores. Aquí hay un resumen de los
hechos principales.
E .
Independencia y memorylessness
Ejemplo 5.1.
(a) Deje que U sea el número de éxitos en los ensayos 1 a 5. Que V sea el número de éxitos
en los ensayos 6 a 10. Entonces, U y V son independientes. Esto se debe a que U x X1
+ +X5, V á X6 + +X10, y las dos colecciones XX1,...,X5,}, {X6,...,X10no tienenelementos
comunes.
(b) Deje que U (respectivamente, V ) sea el primer tiempo impar (respectivamente, par)
en el que tengamos éxito. A continuación, U viene determinada por la secuencia
de tiempo impar X1,X3,... , mientras que V se determina by la secuencia detiempo
par X2,X4,... . Puesto que estas dos secuencias no tienen elementos comunes, U y V son
independientes.
Ejemplo 5.2. Que N sea la primera vez en la que tengamos un éxito inmediatamente
folldebido a un éxitoanterior. (Es decir, N es la primera i para la que Xi-1 x Xi - 1.) ¿Cuál es
la probabilidad P(XXN+1 x XN+2 a 0) de que no haya éxitos en los dos ensayos que siguen?
Intuitivamente, una vez que se cumple la condición XN-1 x XN - 1, a partir de entonces, el
futuro del proceso todavía consiste en ensayos independientes de Bernoulli. Por lo tanto, la
probabilidad de un evento que se refiere al futuro del proceso es la misma que en un proceso de
Bernoulli de nuevo inicio, de modo que P(XN+1 x XN+2 á 0) á (1 x p)2.
Para precisar este argumento, argumentamos que el tiempo N es una variable aleatoria, y
al condicionar los posibles valores de N,hemos
lo que lleva a
P .
Sec. 5.1 El proceso de Bernoulli 7
Interarrival Times
Una variable aleatoria importante asociada con el proceso Bernoulli es el tiempo del éxito
k,que denota por Yk. Una variable aleatoria relacionada es el tiempointerarrival k th,
denotado por Tk k. Se define por
y representa el número de ensayos que siguen al k- − 1er éxito hasta el siguiente éxito.
Véase la Fig. 5.1 para una ilustración, y también tenga en cuenta que
Yk a T1 + T2 + á + Tk.
Y3
001 0000 1 0 11 0 0
T1 T2 T3 T4 Tiempo
(b) B - la longitud (número de ranuras) del primer período ocupado; (c) I - la longitud
E , .
B Ⅰ
BBBI Ⅰ BBBB Ⅰ Ⅰ ⅠⅠ B
Hora
T Ocupa Inte
Z Período
do Período
de
I B
Ⅰ Ⅰ ⅠⅠ IBBBB Ⅰ Ⅰ ⅠⅠ B
Hora
T Z
Figura 5.2: Ilustración de períodos ocupados (B) e inactivos (I) en el ejemplo 5.3. En el diagrama
superior, T a 4, B a 3, y A 2. En el diagrama inferior, T a 1, I a 5 y B a 4.
Sec. 5.1 El proceso de Bernoulli 9
Consideremos ahora el primer período ocupado. Comienza con el primer slot ocupado,
llámelo slot L. (En el diagrama superior de la Fig. 5.2, L a 1; en el diagrama inferior, L a 6.) El
número Z de las ranuras subsiguientes hasta (e incluyendo) la primera ranura inactiva posterior
tiene la misma distribución que T, porque elproceso bernoulli comienza fresco en el momento
L + 1. A continuación, observamos que Z - B y llegamos a la conclusión de que B tiene la misma
PMF que T.
Si invertimos los roles de las ranuras inactivas y ocupadas, y el intercambio p con 1 pp,
vemos que la longitud I del primer período de inactividad tiene el mismo PMF que el índice
de tiempo de la primera ranura ocupada, de modo que
Finalmente observamos que el argumento dado aquí también funciona para el segundo,
tercero, etc. ocupado (o inactivo) período. Por lo tanto, los PMF calculados anteriormente se
aplican al período deinactividad y ocupado, para cualquier i.
La hora dellegadak th
Y K = T 1 + T 2 + ··· + T K ,
K
E [Y K ]= E [T 1 ]+ ··· + E [T K ]= ,
P
K(1 − P)
var( Y K )= Var( T 1 )+ ··· + Var( T K )= .
P2
T− 1 K
PY K ( T)= P (1 − P) T− K , T = k,k +1 ,...,
K− 1
Para verificar la fórmula para el PMF de Yk, primeroobservamos que Yk no puede ser
menor que k. En el caso de t a k, observamos que el evento "Yk á t"(el kth success viene
en el momento t) se producirá si y sólo si se producen los dos eventos siguientes A y
B: occur:
(a) evento A:el ensayo t es un éxito;
(b) evento B: se producenexactamente los éxitos de k a 1 en los primeros ensayos t .
P(A) - p
P ,
Respectivamente. Además, estos dos eventos son independientes (si el ensayo t es un éxito
o no es independiente de lo que sucedió en los primeros ensayos t.1). Por lo tanto,
,
Sec. 5.1 El proceso de Bernoulli 11
como se afirma.
Ejemplo 5.4. En cada minuto de juego de baloncesto, Alice comete una sola falta con probabilidad
p y sin falta con probabilidad de 1 a p. Se supone que el número de faltas en diferentes
minutos es independiente. Alice se ensuciará del juego una vez que cometa su sexta falta, y jugará
30 minutos si no se ensucia. ¿Cuál es el PMF del tiempo de juego de Alice?
Modelamos las faltas como un proceso bernoulli con el parámetro p. El tiempo de juego de
Alice Z es igual a Y6, el tiempo hasta la sextafalta, excepto si Y6 es mayor que 30, en cuyo
caso, su tiempo de juego es 30, la duración del juego; es decir, Z á min á yY6,30 . La variable
aleatoria Y6 tiene un Pascal PMF de la orden 6, que es dado por
Para determinar el PMF pZ(z) de Z,primero consideramos el caso donde z está entre 6 y 29. Para
z en este rango, tenemos
Comenzando con un proceso de Bernoulli en el que hay una probabilidad de una llegada en
cada momento, considere dividirlo de la siguiente manera. Siempre que hay una llegada,
elegimos o bien mantenerla (con probabilidad q),orpara descartarla (con probabilidad
1oq);verFig. 5.3. Supongamos que las decisiones de mantener o descartar son
independientes para diferentes llegadas. Si nos centramos en el proceso de llegadas que se
mantienen, vemos que es un proceso Bernoulli: en cada franja horaria, hay una probabilidad
pq de una llegada mantenida, independientemente de lo que suceda en otras ranuras. Por
la misma razón, el proceso de llegadas descartadas es también un proceso Bernoulli, con
una probabilidad de una llegada descartada en cada franja horaria igual a p(1 x q).
En una situación inversa, start con dos procesos independientes Bernoulli (con los
parámetros p y q, respectivamente) y fusionarlos en un solo proceso, de la siguiente
manera. Una llegada se registra en el proceso combinado si y sólo si hay una llegada en al
menos uno de los dos processes originales, lo que ocurre con la probabilidad p + q á pq
[uno menos la probabilidad (1 á p)(1 x q) de ninguna llegada en ninguno de losprocesos.]
Dado que diferentes intervalos de tiempo en cualquiera de los procesos originales son
12 Procesos estocásticos Capítulo 5
Hora
Texto
Proceso
original en Hora
1- q
Hora
Bernoulli(p)
Hora
Proceso combinado:
Bernoulli(p+q-pq)
Hora
Bernoulli(q)
Hora
unvalor moderado. Una situación de este tipo surge cuando uno pasa de tiempo discreto a
continuo, un tema que se recogerá en la siguiente sección. Para algunos ejemplos más,
piense en el número de accidentes de avión en un día dado: hay un gran número depruebas
f (vuelos de avión), pero cada uno tiene una probabilidad muy pequeña de estar involucrado
en un accidente. O piense en contar el número de errores tipográficos en un libro: hay un
gran número de palabras n, pero una probabilidad muy pequeña de escribir mal cada uno.
Matemáticamente, podemos abordar situaciones de este tipo, dejando que n crezca
mientras simultáneamente disminuye p, de una manera que mantieneel producto np
en un valor constante . En el límite, resulta que la fórmula para el PMF binomial simplifica
al PMF de Poisson. A continuación se proporciona una declaración precisa, junto con un
recordatorio de algunas de las propiedades del PMF de Poisson que se derivaron en
capítulos anteriores.
E[Z] á, λ, var(Z). λ.
mantenemos la constante.
.
14 Procesos estocásticos Capítulo 5
, .
es válido para varios decimales si n a 100, p a 0. 01, y de np. Para comprobar esto, tenga en
cuenta lo siguiente.
Gary Kasparov, el campeón mundial de ajedrez (en 1999) juega contra 100 aficionados en
una gran exposición simultánea. Se ha estimado a partir de la experiencia pasada que Kasparov
gana en este tipo de exhibiciones 99% de sus juegos en el promedio (en términos probabilísticos
precisos, suponemos que gana cada juego con probabilidad 0. 99, independientemente de
otrosjuegos). ¿Cuáles son las probabilidades de que gane 100 juegos, 98 juegos, 95 juegos y 90
juegos?
Modelamos el número de juegos X que Kasparov no gana como una variable aleatoria
binomial con los parámetros n s 100 y p a 0. 01. Por lo tanto, las probabilidades de que con
enn100 juegos, 98, 95 juegos, y 90 juegos son
,
Sec. 5.1 El proceso de Bernoulli 15
• Estamos usando aquí, la fórmula bien conocida limx→∞á (1 x1)x á eá1. Dejando x á n/ ,tenemos
.
Al comparar los valores binomiales PMF pX(k) consus aproximaciones de Poisson pZ(k), vemos que
hay un acuerdo estrecho.
Supongamos que ahora que Kasparov juega simultáneamente sólo 5 oponentes, que son, sin
embargo, más fuertes por lo que su probabilidad de una victoria por partido es 0. 9. Aquí están las
probabilidades binomiales pX(k)para n a 5 y p a 0. 1, y las aproximaciones de Poisson
correspondientes pZ(k) para el valor de la = 0verga: . 5,
pX(0) a 0. 590, pZ(0) a 0. 605,
pX(1) a 0. 328, pZ(1) a 0. 303,
pX(2) a 0. 0729, pZ(2) a 0. 0758,
pX(3) a 0. 0081, pZ(3) a 0. 0126,
pX(4) a 0. 00045, pZ(4) a 0. 0016,
pX(5) a 0. 00001, pZ(5) a 0. 00016.
Vemos que la aproximación, aunque no es deficiente, es considerablemente menos precisa que en el
caso de que n a 100 y p a 0. 01.
Ejemplo 5.6. Un paquete que consta de una cadena de n símbolos se transmite a través de un canal
ruidoso. Cada símbolo tiene probabilidad p a 0. 0001 de ser transmitido por error,
independientemente de los errores en los otros símbolos. ¿Qué tan pequeño debe ser n para que
la probabilidad de transmisión incorrecta (al menos un símbolo por error) sea menor que 0.001?
Cada transmisión de símbolos es vista como un ensayo independent Bernoulli. Por lo tanto, la
probabilidad de un número positivo S de errores en el paquete es
Para que esta probabilidad sea inferior a 0,001, debemos tener 1o (1 x 0. 0001) n < 0. 001 o
.
16 Procesos estocásticos Capítulo 5
También podemos utilizar la aproximación de Poisson para P(S - 0), que es e- con el valor de "np" y
"0".. 0001 ? n, y obtener la condición 1o eá0. 0001o n < 0. 001, lo que lleva a
.
Dado que n debe ser entero, ambos métodos conducen a la misma conclusión de que n puede ser
como máximo 10.
Sec. 5.2 El proceso de Poisson 17
El proceso de Poisson se puede ver como un análogo de tiempo continuo del proceso
Bernoulli y se aplica a situaciones en lasque no existe una forma natural de dividir el
tiempo en períodos discretos.
Para ver la necesidad de una versión continua del proceso de Bernoulli,
consideremos un posible modelo de accidentes de tráfico dentro de una ciudad.
Podemos empezar por eltiempo de etizing en períodos de un minuto y grabar un
"éxito" durante cada minuto en el que hay al menos un accidente de tráfico.
Suponiendo que la intensidad del tráfico sea constante a lo largo del tiempo, la
probabilidad de un accidente debe ser la misma durante cada período. Bajo la
suposición adicional (y bastante plausible) de que los diferentes períodos de tiempo
son independientes, la secuencia de éxitos se convierte en un proceso de Bernoulli.
Tenga en cuenta que en la vida real, dos o más accidentes durante el mismo intervalo
de un minuto son ciertamente posibles,pero el modelo de proceso Bernoulli no realiza
un seguimiento del número exacto de accidentes. En particular, no nos permite
calcular el número esperado de accidentes dentro de un período determinado.
Una manera de evitar esta dificultad es elegir la longitud de un período de
tiempo para ser muy pequeño, de modo que la probabilidad de dos o más accidentes
se vuelve insignificante. Pero, ¿qué tan pequeño debería ser? ¿Un segundo? ¿Un
milisegundo? En lugar de responder a esta pregunta, es posibleconsiderar una
situación limitante en la que la duración del período de tiempo se convierte en cero y
trabajar con un modelo de tiempo continuo.
Consideramos un proceso de llegada que evoluciona en tiempo continuo, en el
sentido de que cualquier número real t es una posible llegada time. Definimos
o( Τ ) o1 ( Τ )
Lim N.o , Lim N.o .
Τ→ 0 Τ Τ→ 0 Τ
0 0
La primera propiedad indica que las llegadas son "igualmente probables" en todo
momento. Las llegadas durante cualquier intervalo de tiempo de longitud son
estadísticamente las mismas, en el sentido de que obedecen a la misma ley de probabilidad.
Esta es una contrapartida de la suposición de que la probabilidad de éxito p en un proceso
Bernoulli es constante en el tiempo.
Para interpretar la segunda propiedad, considere un intervalo determinado [ ], de
longitud . La probabilidad incondicional de llegadas k durante ese intervalo es
). Supongamos ahora que se nos da informaciónde complete o parcial sobre las
llegadas fuera de este intervalo. La propiedad b) indica que esta información es irrelevante:
la probabilidad condicional de llegadas k durante [ sigue siendo igual a la
probabilidad incondicional). Esta propiedad es análoga a la independencia de
los juicios en un proceso de Bernoulli.
La tercera propiedad es crítica. Los términos o()y o1()están destinados a ser
insignificantes en comparación con ,cuando la longitud del intervalo es muy pequeña. Se
les puede considerar como los términos de O((2)en unaexpansión de Taylorseries de P(τk,
. Por lo tanto, para los pequeños ,la probabilidad de una sola llegada es aproximadamente
,más untérmino insignificante. Del mismo modo, para las pequeñas ,la probabilidad de
Sec. 5.2 El proceso de Poisson 19
y es insignificante en comparación con P(1,)a medida que se hace más pequeño y más
pequeño.
X X X
0 Τ Hora
Llegadas
fT(t) - áe,λt, t á 0,
.. ... .................
P = λδ
δδδδδ δδδ
X X X
0 Hora Llegadas
Poisson Bernoulli
P ,
Ejemplo 5.8. Suma de variables aleatorias independientes de Poisson. Las llegadas de los clientes al
supermercado local se modelan mediante un proceso de Poisson con una tasa de 10 clientes por
minuto. Que M sea el número decostumbres que llegan entre las 9:00 y las 9:10. Además, deje que
N sea el número de clientes que llegan entre las 9:30 y las 9:35. ¿Cuál es la distribución de M +
N?
Observamos que M es Poisson con el parámetro de 10 a 100 y N es Poisson con el
parámetro de Poisson con el parámetro de 10 a 50. Furthermore, M y N son independientes.
Como se muestra en la Sección 4.1, usando transformaciones, M +N es Poisson con el parámetro de
+ á 150. Ahora procederemos a obtener el mismo resultado de una manera más directa e intuitiva.
Deje que Nsea el número de clientes que llegan entre las 9:10y las 9:15. Tenga en cuenta que
Ntiene la mismadistribución que N (Poisson con el parámetro 50). Además, Nes
tambiénindependiente de N. Por lo tanto, la distribución de M + N es la misma que la
distribución de M + N. Pero M + N es el número de llegadas durante un intervalo de longitud 15,
y por lo tanto tiene una distribución de Poisson con el parámetro 10 a 15 x 150.
Ejemplo 5.9. Durante las horas pico, de 8 am a 9 am, los accidentesde tráfico ocurren de acuerdo
con un process de Poisson con una tasa de 5 accidentes por hora. Entre las 9 am y las 11 am,
Sec. 5.2 El proceso de Poisson 23
ocurren como un proceso independiente de Poisson con una tasa de 3 accidentes por hora.
¿Cuál es el PMF del número total de accidentes entre las 8 am y las 11 am?
Esta es la suma de dosvariables aleatorias de Independiente nt Poisson con los parámetros
5 y 3 x 2 a 6, respectivamente. Dado que la suma de las variables aleatorias independientes de
Poisson también es Poisson, el número total de accidentes tiene un PMF de Poisson con el
parámetro 5+6-11.
Independencia y memorylessness
El proceso de Poisson tiene varias propiedades que son paralelas a las del proceso de
Bernoulli, incluida la independencia de los conjuntos de tiempo no superpuestas, una
propiedad de nuevo inicio y la falta de memoria de la distribución del tiempo interarrival.
Dado que el Poisson process puede ser visto como un caso limitante de un proceso Bernoulli,
el hecho de que herede las propiedades cualitativas de este último no debería sorprender.
(a) Independencia de los conjuntos de tiempos no superpueste. Considere dos
conjuntos desarticulados de tiempos A y B, tales comouns A a [0,1] - [4,)y B a [1.
5,3. 6], por ejemplo. Si U y V son variables aleatorias que están completamente
determinadas por lo que sucede durante A (respectivamente, B),entonces U y V
son independientes. Esto es una consecuencia de la segunda propiedad definitoria del
proceso de Poisson.
(b) Propiedad de inicio fresco. Como caso especial de la observación anterior, notamos
que la historia del proceso hasta un momento determinado t es independiente del
futuro del proceso. Además, si nos centramos en esa parte del proceso de Poisson
que comienza en el momento t, observamos que hereda las propiedades definitorias
del proceso original. Por esta razón, la parte del proceso de Poisson que comienza en
unmomento concreto t> 0 es una réplica probabilística del proceso de Poisson que
comienza en el momento 0, y es independiente de la parte del proceso antes del tiempo
t. Por lo tanto, podemos decir que el proceso de Poisson comienza de nuevo en cada
momento instantáneo.
(c) Distribución de tiempo interarrival sin memoria. Ya hemos visto que el PMF
geométrico (tiempo interarrival en el proceso Bernoulli) no tiene memoria: el número
de ensayos restantes hasta la primera llegada futura no depende del pasado. El PDF
exponencial (interarrival time en el proceso de Poisson) tiene una propiedad similar:
dada la hora actual t y la historia pasada, el futuro es un proceso de Poisson de inicio
fresco, de ahí el tiempo restante hasta la próxima llegada tiene la misma
24 Procesos estocásticos Capítulo 5
P
P(T > t)
P(T > t + s)?
P(T > t)
Ejemplo 5.10. Usted y su pareja van a una cancha de tenis, y tienen que esperar hasta que los
jugadores que ocupan la cancha terminen de jugar. Supongamos (algo irrealmente) que su tiempo
de juego tiene un PDF exponencial. A continuación, el PDF de su tiempo de espera
(equivalentemente, sutiempo de reproducción remaining) también tiene el mismo PDF
exponencial, independientemente de cuándo comenzaron a jugar.
Ejemplo 5.11. Cuando usted ingresa el banco, usted encuentra que los tres cajeros están ocupados
sirviendo a otros clientes, y no hay otros clientes en la cola. Supongamos que lostiempos de
servicio para usted y para cada uno de los clientes que se sirven son variables aleatorias
exponenciales distribuidas de forma idéntica. ¿Cuál es la probabilidad de que seas el último en
salir?
La respuesta es 1/3. Para ver esto, concéntrese en el momento en quecomience el servicio
con uno de los cajeros. Luego, el tiempo restante de cada uno de los otros dos clientes que se
sirven, así como su propio tiempo restante, tienen el mismo PDF. Por lo tanto, usted y los otros
dos clientes tienen la misma probabilidad 1/3 de ser el pt asalir.
Sec. 5.2 El proceso de Poisson 25
Interarrival Times
Una variable aleatoria importante asociada con un proceso de Poisson que comienza en el
momento 0, es la hora de la llegada kth, que denota por Yk. Una variable aleatoria
relacionada es el tiempointerarrival k th, denotado por Tk k. Se defined por
Yk a T1 + T2 + á + Tk.
Ya hemos visto que el tiempo T1 hasta la primera llegada es una variable aleatoria
exponencial con el parámetro λ. A partir del momento T1 de la primera llegada, el futuro
es un proceso de Poisson de nuevo comienzo. Por lo tanto, el tiempo hasta la próxima
llegada tiene el mismo PDF exponencial. Además, el pasado del proceso (hasta el tiempo
T1) es independiente del futuro (después del tiempo T1). Puesto que T2 está determinado
exclusivamente por lo que sucede en el futuro, vemos que T2 es independiente de T1.
Continuando de manera similar, llegamos a la conclusión de que las variables aleatorias
T1,T2,T3,. .. son independientes y todos tienen la misma distribución exponencial.
Esta importante observación conduce a una forma alternativa, pero equivalente, de
describiendo el proceso de Poisson.
+
El tiempo Yk de la kth arrival es igual a la suma Yk á T1 + T2 á + Tk de k variables
aleatorias exponenciales independientes distribuidas de forma idéntica. Esto nos permite
derivar fórmulas para la media, la varianza y el PMF de Yk, que se dan en latabla siguiente.
26 Procesos estocásticos Capítulo 5
Yk a T1 + T2 + á + Tk,
En nuestra definición original, un proceso se llamaba Poisson si poseía ciertas propiedades. Sin
embargo, el lector astuto puede haber notado que no hemos establecido hasta ahora que existe un
proceso con las propiedades requeridas. En una línea alternativa de desarrollo, podríamos haber
definido el proceso de Poisson por la descripción alternativa dada aquí, y tal proceso está claramente
bien definido: comenzamos con una secuencia de tiempos interarrivales independientes, a partir de
los cuales los tiempos de llegada se determinan completamented. A partir de esta definición, entonces
es posible establecer que el proceso satisface todas las propiedades que se postularon en nuestra
definición original.
K
E [Y K ]= E [T 1 ]+ ··· + E [T K ]= ,
Λ
K
var( Y K )= Var( T 1 )+ ··· + Var( T K )= .
Λ2
• El PDF de Y K es dado por
ΛK y K − 1 e− Ay
FY K ( y )=
( K − 1)!
Para evaluar el PDF fYk de Yk,podemos argumentar que para un pequeño ,elproducto
-. f δ+δYk(y) es la probabilidad deque la kth llegada se produzca entre las horas y y +.
...................................... .................................
............................................................... ........
. . . . . . . .. . Por lo tanto, la kth llegada se produce entre y y + - si y sólo si se producen
Sec. 5.2 El proceso de Poisson 27
los dos eventos siguientes A y B: (a) evento A: hay una llegada durante lainterval[y,y
+ ]; (b) evento B: hayexactamente k 1 llegadas antes de la hora y.
P(A) , λδ, y P .
El PDF de Yk se puede obtener diferenciando la expresión anterior, que mediante un cálculo sencillo
produce la fórmula ERlang PDF
.
Dado que A y B son independientes, hemos
,
de la que obtenemos
Ejemplo 5.12. Usted llama a la línea directa del IRS y se le dice que usted es la56a persona en la
fila, excluyendo a la persona que está siendo atendida actualmente. Las personas que llaman salen
de acuerdo con un proceso de Poisson con una tasa de 2 euros por minuto. ¿Cuánto tiempo
tendrá que esperar en promedio hasta que comience su servicio, y cuál es la probabilidad de que
tenga que esperar más de una hora?
Por la propiedad sin memoria, el tiempo de servicio restante de la persona que se está
sirviendo actualmente se distribuye exponencialmente con el parámetro 2. Los tiempos de servicio
de las 55 personas por delante también son exponenciales con el mismo parámetro, y todas estas
28 Procesos estocásticos Capítulo 5
variables random son independientes. Por lo tanto, su tiempo de espera Y es Erlang de la orden
56, y
E .
La probabilidad de que tenga que esperar más de una hora es dada por la fórmula
Calcular esta probabilidad es bastante tedioso. En el capítulo 7, discutiremos una manera mucho
más fácil de calcular aproximadamente esta probabilidad. Esto se hace utilizando el teorema de
límite central, que nos permite aproximar el CDF de la suma de un gran número de variables dom
ejecutadascon un CDF normal y luego calcular varias probabilidades de interés utilizando las tablas
normales.
Ejemplo 5.13. División de procesos de Poisson. Un paquete que llega a un nodo de una red de
datos es un paquete local que está destinado para ese nodo (esto sucede con la probabilidad p),o
de lo contrario es un paquete de tránsito que se debe retransmitir a otro nodo (esto sucede con
la probabilidad 1 - p). Los paquetes llegan de acuerdo con un proceso de Poisson con la tarifa ,y
cada uno es un paquete local o detránsito independientemente de otros paquetes y de las
horas de llegada. Como se indicó anteriormente, el proceso de llegadas de paquetes locales
es Poisson con la tasa de valoración. Veamos por qué.
Verificamos que el proceso de llegadas de paquetes locales satisface las propiedades
definitorias de un proceso de Poisson. Dado que los valores son constantes (no cambien con el
Sec. 5.2 El proceso de Poisson 29
Estamos tratando aquí con la suma de un número aleatorio de variables aleatorias independientes.
Como se explica en la Sección 4.4, latransformación asociada con L se encuentra comenzando con la
transformación asociada con N,que es
MN ( (s), e,(esá1),
MX(s) a1 p + pes.
Obtenemos
ML (s)á eá(1op+pesá1) á eáp(eessá1).
Observamos que esta es la transformación de una variable aleatoria de Poisson con el parámetro
.p, verificando así nuestra declaración anterior para el PMF de Lτ.
Concluimos con otro método para establecer que el proceso de paquetes local es Poisson. Let
T1,T2,... ser tiemposinterarrivales de paquetes de cualquier tipo; se trata de variables aleatorias
exponenciales independientes con el parámetro . Deje que K sea el número total de llegadas
hasta e incluyendo la primera llegada de paquetes locales. En particular, el tiempo S de la primera
llegada de paquetes locales es dado por
S a T1 + T2 + á + TK.
30 Procesos estocásticos Capítulo 5
Puesto que cada paquete es un local con probabilidad p, independientemente de la otsuya, y al ver
cada paquete como un ensayo que es exitoso con la probabilidad p,reconocemos K como una
variable aleatoria geométrica con el parámetro p. Puesto que la naturaleza de los paquetes
es independiente de los tiempos de llegada, K es independiente de los tiempos interarrivales.
Por lo tanto, estamos tratando con una suma de un número aleatorio (distribuido geométricamente)
de variables aleatorias exponenciales. Hemos visto en el capítulo 4 (cf. Ejemplo 4.21) que tal suma se
distribuye exponencialmente con el parámetro . Puesto que los t imes interarrivalentre
lospaquetes locales sucesivos son claramente independientes, se deduce que el proceso de llegada
de paquetes local es Poisson con la velocidad de la velocidad.
Ejemplo 5.14. Fusión de procesos de Poisson. Las personas con cartas para enviar por correo llegan
a la oficina de correos de acuerdocon un proceso de Poisso ncon la tasa λ1, mientras que las
personas con paquetes para enviar por correo llegan de acuerdo con un proceso independiente de
Poisson con la tarifa λ2. Como se indicó anteriormente, el proceso combinado, que incluye llegadas
de ambos tipos, es Poisson con la tasa de1 + λ2. Veamos por qué.
En primer lugar, debe quedar claro que el proceso combinado satisface la propiedad de
homogeneidad temporal. Además, dado que los diferentes intervalos en cada uno de los dos procesos
de llegada son independientes, la misma propiedad se mantiene para el proceso combinado. Ahora
nos centramos en un pequeño interval delongitud δ. Ignorando los términos que son insignificantes
en comparación con el, we have
P)(0 llegadas en el proceso fusionado) á (1 á λ1)(1 ) λ,2,1 ,λ1 , 1 ,1 + λ2), P(1 llegada en el proceso
Ejemplo 5.15. Exponenciales de competición. Dos bombillas tienen una vida útil independiente y
distribuida exponencialmente T(1) y T(2),con losparámetros 1 y 2, λrespectivamente. ¿Cuál es la
distribución de la primera vez Z - min áT(1),T(2) - en la que una bombilla sequema?
Podemos tratar esto como un ejercicio en distribuciones derivadas. Para todas las z 0,
tenemos,
Esto se reconoce como el CDF exponencial con el parámetro 1 +22. Por lo tanto, el mínimo de dos
exponenciales independientes con los parámetros λ1 y λ2 es un exponencial con el
parámetro 1 + 22.
Para una explicación más intuitiva de este hecho, pensemos en T(1) (respectivamente, T(2))
como los tiempos de la primera llegada en dos procesos de Independent Poisson con la tasa λ1
(respectivamente, T(2)). Si fusionamos estos dos procesos de Poisson, la primera hora de llegada
será min-T(1),T(2). Pero ya sabemos que el proceso combinado es Poisson con una tasa de 1 +22, y
La discusión anterior se puede generalizar al caso de más de dos procesos. Por lo tanto,
el proceso de llegada total obtenido mediante la fusión de las llegadas de n procesos
independientes de Poisson con las tasas de llegada de1,...,,...,λn es Poisson con una tasa de
llegada igual a la suma de1 + + + nn.
Ejemplo 5.16. Más sobre Competing Exponentials. Tres bombillas tienen una vida útil
independiente distribuida exponencialmente con un parámetro común λ. ¿Cuál es la expectativa
del tiempo hasta que la última bombilla se queme?
Pensamos en los momentos en que cada bombilla se quema como los primeros tiempos de
llegada en los procesos independientes de Poisson. Al principio, tenemos tres bombillas, y el
proceso combinado tiene una tasa de3o. Por lo tanto, el tiempo T1 del primer agotamiento es
exponencial con el parámetro 3,y la media 1/3. Una vez que una bombilla se quema, y debido a la
propiedad de falta de memoria de la distribución exponencial, las duraciones restantes de las otras
dos bombillas son de nuevo variablesaleatorias exponenciales de extremoindep con el
parámetro . Por lo tanto, tenemos dos procesos de Poisson ejecutándose en paralelo, y el
32 Procesos estocásticos Capítulo 5
tiempo restante T2 hasta la primera llegada en uno de estos dos procesos es ahora exponencial
con el parámetro 2 y la media 1/2. Finalmente, una vez que una segunda bombilla se quema, nos
quedamos con una sola. Usando la falta de memoria una vez más, el tiempo restante T3 hasta
que la última bombilla se quema es exponencial con el parámetro s y la media 1/. Por lo
tanto, la expectativa del tiempo total es
E .
Tenga en cuenta que los variables aleatorios T1, T2, T3 son independientes, debido a la falta de
memoria. Esto también nos permite calcular la varianza del tiempo total:
T*
XⅤ
U
X
Hora
Figura 5.7: Ilustración del fenómeno de incidencia aleatoria. Para un instante de tiempo fijo t,el
restante V - t∗. Estas dos veces son independientes y se distribuyen exponencialmented con el
parámetro ,por lo que el PDF de su sumaes Erlang de la orden dos.
Cadenas Markov
Contenido
• pij,
i,j
para todos los tiempos n, todos los estados a S, y todas las secuencias posibles
i0,...,ina1 de los estados anteriores. Por lo tanto, la ley de probabilidad del siguiente
estado Xn+1 depende del pasado sólo a través del valor del estado actual Xn.
Las probabilidades de transición pij deben ser, por supuesto, no negativos, y
sumar a una:
, para todos los i.
Generalmente permitiremos que las probabilidades pii sean positivas, en cuyo caso es
posible que el siguiente estado sea el mismo que el actual. A pesar de que el estado no
cambia, todavía vemos esto como una transición estatal de un tipo especial (un
"auto-transition").
Especificación de los modelos Markov
• Un modelo de cadena Markov se especifica identificando
(a) el conjunto de estados S a 1,...,m,},
(b) el conjunto de posibles transiciones, a saber, esos pares (i,j) para los
que pij > 0, y,
(c) los valores numéricos de los pij que son positivos.
• La cadena Markov especificada por este modelo es una secuencia de
para todos los tiempos n, todos los estados i,j a S, y todas las secuencias
posibles i0,...,ina1 de los estados anteriores.
Todos los elementos de un modelo de cadena Markov se pueden codificar en una
matriz de probabilidad de transición, que es simplemente una matriz bidimensional cuyo
elemento en la fila iy jth columnaes pij:
4 Cadenas Markov Capítulo 6
.
También es útil establecer el modelo en el llamado gráfico de probabilidad de
transición,cuyos nodos son los estados y cuyos arcos son las posibles transiciones. Al
registrar los valores numéricos de pij cerca de los arcos correspondientes, se puede
visualizar todo el modelo de una manera que puede hacer que algunas de sus principales
propiedades sean fácilmente evidentes.
Ejemplo 6.1. Alice está tomando una clase de probabilidad y en cada semana puede estar al día
o puede haberse quedado atrás. Si está actualizada en una semana determinada, la probabilidad
de que esté actualizada (o detrás) en la próxima semana es de 0,8 (o 0,2, respectivamente). Si está
atrasada en la semana dada, la probabilidad de que esté actualizada(o detrás) en la próxima
semana es 0,6 (o 0,4, respectivamente). Suponemos que estas probabilidades no dependen de si
estaba actualizada o retrasada en semanas anteriores, por lo que el problema tiene el carácter
típico de la cadena Markov (el futuro depende delpasado sólo a través del presente).
Vamos a presentar los estados 1 y 2, e identificarlos con estar actualizados y detrás,
respectivamente. Entonces, las probabilidades de transición son
0.2
1 2
0.8 0.4
Actualizado hasta la fecha0.6 Detrás
Ejemplo 6.2. Una mosca se mueve a lo largo de una línea recta en incrementos de unidad. En cada
período de tiempo, mueve una unidad a la izquierda con probabilidad 0. 3, una unidad a la derecha
Sec. 6.1 Cadenas Markov en tiempo discreto 5
p11 a 1, pmm a 1,
0. 3 si j a i 1 o j a i + 1, para i a 2,...,m á 1.
pij
Gráficamente, una secuencia de estado se puede identificar con una secuencia de arcos en
el gráfico de probabilidad de transición, y la probabilidad de tal ruta (dado el estado inicial)
es dada por el producto de las probabilidades asociadas con los arcos atravesados por la
ruta.
También tenemos
4) 2(0. 3) 2.
Tenga en cuenta que para calcular una probabilidad de esta forma, en la que no hay
condicionamiento en un estado inicial fijo, necesitamos especificar una ley de probabilidad para
el estado inicial X0.
n-Probabilidades de transición de paso
véase la Fig. 6.3 para una ilustración. Hemos utilizado aquí la propiedad Markov: una vez
que condicionamos en Xná1 k k, el acondicionamiento en X0 i no afecta a la probabilidad
pkj de llegar a j en el siguiente paso.
Podemos ver rij(n) como el elementoen la fila iy jth columna deuna matriz de dos
dimensiones, llamada la matriz de probabilidad de transición n-paso.
1
Ri1 (n-1) P 1J
Ⅰ K
RIk(n-1)
P Kj J
RIm(n-1)
P Mj
M
R11 ( N)
0.75 0.75 R21 ( N)
R22 (N)
0.25 0.25
R12 ( N)
0 N 0 N
UpD B
Upd
0.8 0.2 .76 .7504 .2496
.24 .752 .248 .7501 .2499
B
rij (1) rij (2) rij (3) rij (4) rij (5)
Figura 6.4: n-paso probabilidades de transición para el ejemplo 6.1 "actualizado/detrás". Tenga en
cuenta que, como n, rij(n) converge a un límite que no depende del estadoinicial.
6.4 y 6.5 dan lasprobabilidades de transición n-paso rij(n) para los casos de los ejemplos
6.1 y 6.2, respectivamente. Hay algunas observaciones interesantes sobre el
Sec. 6.1 Cadenas Markov en tiempo discreto 9
comportamiento limitante de rij(n) en estos dosejemplos. En la Fig. 6.4, vemos que cada
rij(n) converge a unlímite, como n , y este límite no depende del estado inicial. Por lo
tanto, cada estado tiene una probabilidad positiva de "estado estable" de ser ocupado en
momentos lejanos en el futuro. Además, la probabilidad rij(n) depende del estadoinicial i
cuando n es pequeño, pero con el tiempo esta dependencia disminuye. Losmodelos
probabilísticos que evolucionan con el tiempo tienen un carácter tan largo: después de un
tiempo suficientemente largo, el efecto de su condición inicial se vuelve insignificante.
En la Fig. 6.5, vemos un comportamiento cualitativamente diferente: rij(n) de
nuevoconvergen,pero el límite depende del estadoinicial, y puede ser cero para los
estados seleccionados. Aquí, tenemos dos estados que son "absorbentes", en el sentido de
que se repiten infinitamente, una vez alcanzados. Estos son los estados 1 y 4 que
corresponden a la captura de la mosca por una de las dos arañas. Dado el tiempo
suficiente, es cierto que se alcanzará algún estado absorbente. En consecuencia, la
probabilidad de estar en los estados no absorbentes 2 y 3 disminuye a cero a medida que
aumenta el tiempo.
2 /3
R21 ( N)
1 /3
R24 ( N)
R22 ( N)
R23 ( N)
0 N
1 2 3 4
1.0 0 0 1.0
0 0 0 1.0
0 0 0 1.0
0 0 0 0 1.0 0 0 0
0 0 0 1.0
0 0 0 1.0
0 0 0
0 1.0 0 0 1.0 0 0 0 1.0
1
2
3
4
rij (1) rij (2) rij (3) rij (4) rij ())
Figura 6.5: n-paso probabilidades de transición para el ejemplo 6.2 de "spiders-and-fly". Observe
que rij(n) converge a un límite que depende del estadoinicial.
10 Cadenas Markov Capítulo 6
Estos ejemplos ilustran que hay una variedad de tipos de estados y comportamiento
de ocupación asintomática en las cadenas Markov. Por lo tanto, estamos motivados para
clasificar y analizar las diversas posibilidades, y este es el tema de las siguientes tres
secciones.
11
6.2 Clasificación de los Estados
En la sección anterior, vimos a través de ejemplos varios tipos de sta tes de cadena
Markovcon características cualitativamente diferentes. En particular, algunos estados,
después de ser visitados una vez, están seguros de ser revisados de nuevo, mientras
que para algunos otros estados este puede no ser el caso. En esta sección, nos
centramos en el mecanismo por el que estoocurre. En particular, queremos clasificar
los estados de una cadena markov con un enfoque en la frecuencia a largo plazo con
la que se visitan.
Como primer paso, hacemos precisa la noción de revisar un estado. Digamos que
un estado j es accesible desde un estado i si para algunos n, la probabilidad de
transición n-paso rij(n) espositivo, es decir, si hay una probabilidad positiva de
alcanzar j, a partirde i, después de algún número deperíodos de tiempo. Una
definición equivalente es que hay una posible secuencia de estado i,i1,...,ina1,j, que
comienza en i y terminaen j, en la que las transiciones (i,i1),(i1,i2),...,(iná2,iná1),(iná1,j)
todos tienen probabilidadpositiva. Deje que A(i) sea el conjunto deestados
accesibles desde i. Decimos que i es recurrente si para cada j que es accesible
desde i, i también es accesible desde j;es decir, para todos los j que pertenecen a
A(i)tenemos que i pertenece a A(j).
Cuando comenzamos en un estado recurrente i, sólopodemos visitar los
estados j A(i) desde losque i es accesible. Por lo tanto, desde cualquier estado
futuro, siempre hay alguna probabilidad de volver a i y, dado el tiempo suficiente,
esto es seguro que sucederá. Al repetir este argumento, si se visita un estado
recurrente una vez, se volverá a visitar un número infinito de veces.
Un estado se denomina transitorio si es notrecurrente. En particular, hay
estados j a(i) de tal maneraque i no es accesible desde j. Después de cada visita
al estado i, hay una probabilidad positiva de que el estadoentre tal j. Dado el
tiempo suficiente, esto sucederá, y el estado i no puede ser visitado después de
eso. Por lo tanto, un estado transitorio sólo se visitará un número finito de veces.
Tenga en cuenta que la transiencia o recurrencia viene determinada por los
arcos del gráfico de probabilidad de transición [esos pares (i,j) para los que pij > 0] y
no por los valores numéricos del pij. La Figura 6.6 proporciona un ejemplo de un
gráfico de probabilidad de transición y losestados recurrentes y transitorios que
responden por cor.
1 2 3 4
12 Cadenas Markov Capítulo 6
Recurrente recurrente transitorio recurrente
Figura 6.6: Clasificación de los estados dado el gráfico de probabilidad de transición. A partir
del estado 1, el único estado accesible es sí mismo, y así 1 es un estado recurrent. Los
Estados 1, 3 y 4 son accesibles desde 2, pero 2 no es accesible desde ninguno de ellos, por lo
que el estado 2 es transitorio. Los Estados 3 y 4 sólo son accesibles entre sí (y ellos mismos),
y ambos son recurrentes.
Periodicidad
1 2 3 4
1 2
1 2 3 4 5
1,
si i s Sk y pij > 0, entonces
1 3
S1 S2
4
2
5
6
S3
Tenga en cuenta que dada una clase periódica recurrente, un tiempo positivo n, y un
estado j en la clase, debe existir algún estado i tal que rij(n) -0. La razón es que, a partir
de la definición de periodicidad, los estados se agrupan en subconjuntos S1,...,Sd, y el
subconjunto alque pertenece j se puede alcanzar en el momento n desde los estados
en solo uno de los subconjuntos. Por lo tanto, una forma de verificar la aperioidad de una
clase R recurrente Rdada , es comprobar si hay untiempo especial n a 1 y un estado
15
especial s - R que se puede alcanzar en el momento n de todos los estados iniciales en
R,es decir, res(n) > 0 para todos los i - R. Como ejemplo, considere la primera cadena de
la Fig. 6.7. El estado s 2 se puede alcanzar en el tiempo n a 2 a partir de cada estado, por
lo que la clase recurrente única de esa cadena es aperiódica.
Una instrucción inversa, que no probamos, también resulta ser verdadera: si una clase
recurrente no es periódica, siempre se puede encontrar un tiempo n y un estado especial
s con las propiedades anteriores.
Periodicidad
Considere una clase recurrente R.
• La clase se denomina periódica si sus estados se pueden agrupar en d > 1
subconjuntos desarticulados S1,...,Sd, de modo que todas lastransiciones
de Sk conducen a Sk+1 (o a S1 si k á d).
( c) Tenemos
ΠJ 0 , para todos los estados J
ΠJ > 0, transitorios
para todos los estados des?
J.
Puesto que las probabilidades de estado estacionario esj suma a 1, forman una
distribución de probabilidad en el espacio de estado, llamada la distribución estacionaria
de la cadena. La razón del nombre es que si el estado inicial se elige demanera
distribución, es decir, si
P ,
se llaman las ecuacionesde equilibrio. Son una simple consecuencia de la parte (a) del
teorema y de laecuación de Chapman-Kolmogorov. De hecho, una vez que se da por
sentada la convergencia de rij(n) a algunos j, podemos considerar la ecuación,
,
tomar el límite de ambos lados como n , y recuperar las ecuaciones de equilibrio.
πj Los siguientes ejemplos ilustran el proceso de solución.
Ejemplo 6.4. Considere una cadena Markov de dos estados con probabilidades de transición
p22 a 0. 4.
[Esto es lo mismo que la cadena del Ejemplo 6.1 (cf. Fig. 6.1).] Las ecuaciones de equilibrio toman
la forma
1o 1 p π11 + 22p21, 2o π1p12 + π2p22,
O
1o 0. 8 ? 1 + 0. 6 ? 22, 2o 0. 2 ? 1 + 0. 4 ? 22.
Tenga en cuenta que las dos ecuaciones anteriores son dependientes, ya que ambas son
equivalentes a 1 x 3x2.
Esta es una propiedad genérica, y de hecho se puede mostrar que una de las ecuaciones de
equilibrio depende de las ecuaciones restantes (ver los problemas teóricos). However, sabemos
que la j satisfacer la ecuación de normalización
1 + 2 x 1,
que complementa las ecuaciones de equilibrio y es suficiente para determinar la j de forma única.
De hecho, sustituyendo la ecuación de1 πa π π 3oπ2 en la ecuación, 1 + π2o 1, obtenemos 3x2 +
2 ,2 o 1, o 2 a 0. 25,
que utilizando la ecuación 1 + 2 x 1,
1o 0. 75.
Ejemplo 6.5. Una profesora distraída tiene dos paraguas que usa cuando conmuta de casa en la
oficina y de vuelta. Si llueve y un paraguas esunvailable en
• Según un teorema famoso e importante del álgebra lineal (llamado teorema Perron-
Frobenius), las ecuaciones de equilibrio siempre tienen una solución nonnegativa, para cualquier
cadena Markov. Lo que es especial acerca de una cadena que tiene una sola clase recurrente, que es
aperiódica, es que la solución es única y también es igual al límite de las probabilidades de
transición n-step rij(n).
su ubicación, ella lo toma. Si no llueve, siempre se olvida de tomar un paraguas. Supongamos que
llueve con probability p cada vez que viaja, independientemente de otras veces. ¿Cuál es la
probabilidad de estado estacionario de que se moje en un día determinado? Modelamos este
problema utilizando una cadena Markov con los siguientes estados:
.
La cadena tiene una sola clase recurrente que es aperiódica (suponiendo 0 < p < 1), por lo que se
aplica el teorema de convergencia steady-state. Las ecuaciones de equilibrio son
.
De acuerdo con el teorema de convergencia de estado estacionario, la probabilidad de estado
estacionario de que el profesor se encuentre en un lugar sin paraguas es de 0 .. La probabilidad de
estado estacionario de que se moje es de 0 veces la probabilidad de lluvia p.
1 p
0 2 1 1-p
1-p p
20 Cadenas Markov Capítulo 6
Ejemplo 6.6. Un profesor supersticioso trabaja en un edificio circular con puertas m, donde m es
extraño, y nunca utiliza la misma puerta dos veces seguidas. En su lugar, utiliza con probabilidad p (o
probabilidad 1 á p) la puerta que está adyacente en el sentido de lasagujas del reloj (o en
sentido contrario a las agujas del reloj, respectivamente) hasta la última puerta. ¿Cuál es la
probabilidad de que una puerta dada se utilice en algún día en particular en el futuro?
P
Puerta 1 1 2 Puerta 2
1- P
P 1- P 1- P P
Puerta 5 5 1- P 1- P 3 Puerta 3
P P
4
Puerta 4
Figura 6.10: Gráfico de probabilidad de transición en el ejemplo 6.6, para el caso de m a 5 puertas.
•0 p 0 0 ... 0 1 á pp áp á
1p 0 p 0 ... 0 0
...
•p 00 0 0 ... 1a p 0
Suponiendo que 0 < p < 1, la cadena tiene una sola clase recurrente que es aperiódica. [Para verificar
la aperiodicidad, argumente por contradicción: si la clase fuera periódica, sólo podría haber dos
subconjuntos de estados, de tal manera que las transiciones de un subconjunto conducen al otro, ya
que es posible e para volver al estado inicial en dos transiciones. Por lo tanto, no puede ser posible
alcanzar un estado i desde un estado j tanto en un número impar como en un número par de
transiciones. Sin embargo, si m es extraño, esto es cierto para los estados 1 y m – una contradicción
(por ejemplo, véase el caso en que m 5 en la Fig. 6.10, puertas 1 y 5 se puede alcanzar entre sí en 1
transición y también en 4 transiciones).] Las ecuaciones de equilibrio son
1,
ám á (1 á p)á1 + p áma1.
Estas ecuaciones se resuelven fácilmente una vez que observamos que por simetría, todas las puertas
deben tener la misma probabilidad de estado estacionario. Esto sugiere la solución
De hecho, vemos que estos j satisfacen las ecuaciones de equilibrio, así como la ecuación de
normalización, por lo que they debe ser lasprobabilidades de estado estacionario deseadas (por la
parte uniquenes del teorema de convergencia de estado estacionario).
Tenga en cuenta que si se trata de p a 0 o p a 1, la cadena todavía tiene una sola clase
recurrente, pero es periódica. En este caso, las probabilities de transición n-paso rij(n)
noconvergen a un límite, porque las puertas se utilizan en un orden cíclico. De forma similar, si m es
par, la clase recurrente de la cadena es periódica, ya que los estados se pueden agrupar en dos
subconjuntos, los estados pares y los estados numerados impares, de este tipo de cada
subconjunto sólo se puede ir al otrosubconjunto.
Ejemplo 6.7. Una máquina puede estar trabajando o descompuesta en un día determinado. Si está
funcionando, se descomibrará en el día siguiente con probabilidad b, ycontinuará trabajando con
probabilidad 1 a b. Sise descompone en un día dado, se reparará y estará trabajando en el día
siguiente con probabilidad r, y continuará descompuesto con probabilidad 1 r r. ¿Cuál es la
probabilidad de estado estacionario de que la máquina esté trabajando en un día determinado?
22 Cadenas Markov Capítulo 6
.
Esta cadena Markov tiene una sola clase recurrente que es aperiódica (suponiendo 0 < b < 1 y 0 < r <
o 1o 22.
Esta ecuación, junto con la ecuación de π normalización,
probabilidades de estado estacionario
1-B 1 2 1-r
Working r Broken
Ejemplo 6.8. Considere una variación del Ejemplo 6.7. Sila máquina permanece rota durante un
número determinado de días, a pesar de los esfuerzos de reparación, es reemplazada por
una nueva máquina de trabajo. Para modelar esto como una cadena Markov, reemplazamos el
estado único 2, correspondiente a una máquina descompuesta, con varios estados que indicate el
número de días que la máquina está rota. Estos estados son
Estado (2,i): La máquina se ha roto durante i días, .
Sec. 6.3Comportamiento de estado estacionario 23
El gráfico de probabilidad de transición se indica en la Fig. 6.12 para el caso en el que Una
vez más esta cadena Markov tiene una sola clase recurrente quet esaperiódica. A partir de las
ecuaciones de equilibrio, tenemos
,
−
Las dos últimas ecuaciones se pueden utilizar para expresar á(2,i) en términos de 11,
Sustituyendo
a la ecuación de
normalización
n.o 1, obtenemos
Usando la ecuación de2,i) á (1 x r)i-1b-1, también podemos obtener fórmulas explícitas para el
valor de la palabra"2,i)). bπ
Trabajando B Roto
1- R 1- R 1- R
1- B 1 2 ,1 2 ,2 2 ,3 2,4
R
R
R
1
Figura 6.12: Gráfico de probabilidad de transición para el ejemplo 6.8. Una máquina que ha
permanecido rota durante 4 días es reemplazada por una nueva máquina de trabajo.
24 Cadenas Markov Capítulo 6
,
donde vij(n) es el valor esperado del número de visitas al estado j
dentrode las primeras n transiciones, comenzando desde state i.
Sobre la base deesta interpretación,j es la fracción de tiempo esperada a largo plazo
que el estado es igual a j. Cada vez que se visita el estado j, hay probabilidad pjk que la
siguiente transición nos lleva al estado k. Concluimos que eljk de jppuede ser visto como
la fracción esperada a largo plazo de las transiciones que mueven el estado de j a k.
De hecho, algunas declaraciones más fuertes también son ciertas. A saber, cada vez que
llevemos a cabo el experimento probabilístico y generemos una trayectoria de la cadena markov sobre
un horizonte temporal infinito, la frecuencia observada a largo plazo con la que se visita el estado
j será exactamente igual a jj, yla frecuencia observada a largo plazo de las transiciones de j a k será
exactamente igual a jjpjk. Aunque la trayectoria es aleatoria, estas igualdades se mantienen con
certeza, es decir, con probabilidad 1. El significado exacto de esta declaración se hará más evidente en
Sec. 6.3Comportamiento de estado estacionario 25
;
véase la Fig. 6.13.
1 Π J Pj j
Π1P 1J
2 Π2 P 2J
J
ΠM P Mj
M
Procesos de nacimiento-muerte
m-2 B m-1
M- 1 M
B0 B
0 1
bi a P(Xn+1 á i + 1o Xn á i), ("nacimiento" probabilidad en el estado
i) ,
di á P(Xn+1 á i á 1o Xn á i), (probabilidad de muerte en el estado i).
1 - b0 1 - b1 - d1 1 - bm-1 - dm-1 1 - dm
b
1
...
d1 d2 dm-1 dm
Figura 6.14: Gráfico de probabilidad de transición para un proceso de muerte por nacimiento.
Ejemplo 6.9. (Caminata aleatoria con barreras reflectantes) Una persona camina a lo largo de
una línea recta y, en cada período de tiempo, da un paso a la derecha con probabilidad b,y un
paso a la izquierda con probabilidad 1 a b. La persona comienza en uno de los
la siguiente manera. La ecuación de equilibrio en el estado 0 es de0(1 x b0)+ á1d1 a π0, lo que
ecuación deequilibrio local ,0b0 , π1d π π π1 en el estado anterior, se reescribe como 1d1 + π1(1
x b1 a d1) + á2d2 a 1, lo que simplifica a 1b1 a π2d122. Entonces podemos continuar de manera similar
para obtener los estados de equilibrio local en todos los demás estados.
b bb b b
28 Cadenas Markov Capítulo 6
1-B
1 2 ... M- 1 M
b
1-b 1- b 1- b 1- b
Figura 6.15: Gráfico de probabilidad de transición para el paseo aleatorio Ejemplo 6.9.
,
y podemos expresar todos los áj en términos de π1, como
iá i áiá1x1, i a 1,...,m.
1 a ρ1o(1 + + + + á + áma1)
lo que lleva a
Ejemplo 6.10. (Cadenas Markov Nacimiento-Muerte – Colas) Los paquetes llegan a un nodo de una
red de comunicación, donde se almacenan en un búfer y luego se transmiten. La capacidad de
almacenamiento del buffer es m:si los paquetes m ya están presentes,se descartan los
paquetes que llegan de forma newly. Discretizamos el tiempo en períodos muy pequeños, y
suponemos que en cada período, a lo sumo puede ocurrir un evento que puede cambiar el número de
paquetes almacenados en el nodo (una llegada de un nuevo paquete o una finalización de lamisión
transde un paquete existente). En particular, suponemos que en cada período se produce
exactamente una de las siguientes situaciones:
(a) llega un nuevo paquete; esto sucede con una probabilidad dada b > 0;
(b) un paquete existente completa la transmisión; esto sucede con una probabilidad dada d > 0 si
hay al menos un paquete en el nodo, y con la probabilidad 0 de lo contrario;
Sec. 6.3Comportamiento de estado estacionario 29
(c) no llega ningún paquete nuevo y ningún paquete existente completa la transmisión;
thishappens con una probabilidad de 1 abad si hay al menos un paquete en el nodo, y
con la probabilidad 1 a b de lo contrario.
Introducimos una cadena Markov con los estados 0,1,...,m, correspondiente al número de
paquetes en el buffer. El gráfico de probabilidad de transición se indica en la Fig. 6.16.
Las ecuaciones de equilibrio local son
ib á πi+1d, i a 0,1,...,m a 1.
Definimos
ρy obtener ii+1 á ρπi, lo queconduce a i á iá i0 para todos los i. Mediante el uso de la normalization
ecuación 1 -0 + 1 + + á +m,se obtiene
1 á0(1 + + + + ám),
Y
si es 1, si
es el número 1.
1, i a
0,1,...,m. N.o 1,
0 1 ... M- 1 M
d d d d
30 Cadenas Markov Capítulo 6
Es interesante considerar lo que sucede cuando el tamaño del búfer m es tan grande
que se puede considerar como prácticamente infinito. Distinguimos dos casos.
(a) Supongamos que b < d, o < 1. En este caso, las llegadas de nuevos paquetes son
menos probables que las salidas de paquetes existentes. Esto evita que el número de
paquetes en el buffer crezca, y las probabilidades de estado estacionario i
disminuyen con i. Observamos que, como ρ m, tenemos 1 a m+1 x 1, y
Podemos ver estas como las probabilidades de estado estacionario en un sistema con
un búfer infinito. [Como un cheque, note que tenemos
(b) Supongamos que b > d, o .> 1. En este caso, las llegadas de nuevos paquetes son
más probables que las salidas de paquetes existentes. El número de paquetes en el
buffer tiende a aumentar, y las probabilidades de estado estacionarioi aumentan
con i. Como consideramos tamaños de búfer más grandes y más grandes m, la
probabilidad de estado estacionario de cualquier estado fijo i disminuye a cero:
as 1, ai a 0,para la absorción de
all
M
Ejemplo 6.11. Considere la cadena Markov que se muestra en la Fig. 6.17(a). Nos gustaría calcular
la probabilidad de que el estado finalmente entre en la clase recurrente 4,5 a partir deede los
estadostransitorios. A los efectos de este problema, las posibles transiciones dentro de la clase
recurrente 4,5 son inmateriales. Por lo tanto, podemos aglutinar los estados de esta clase
recurrente y tratarlos como un solo estado absorbente (llámelo estado 6); se eFig. 6.17(b). A
continuación, basta con calcular la probabilidad de entrar finalmente en el estado 6 en esta nueva
cadena.
0.5
0.3
0.4 0.3 0.7
1 1 2 3 4 5
0.2 0.3
0.2 1
(O)
n 0.1
0.3
0.4
1 1 2 3 6 1
0.2 0.8
0.2
(B)
0.1
Figura 6.17: (a) Gráfico de probabilidad de transición en el ejemplo 6.11. (b) Un nuevo gráfico en el
que los estados 4 y 5 se han amontonado en el estado absorbente s. 6.
Las probabilidades de absorción unai de alcanzar finalmente el estado s 6 a partir del estado
i, satisfacerlos siguientesiones iguales:
0. 8.
Ejemplo 6.12. (Ruina del jugador) Un jugador gana $1 en cada ronda, con probabilidad p, y pierde $1,
con probabilidad de 1 p p. Lasrondas de alquiler de Diffese asumen independientes. El jugador
juega continuamente hasta que acumula una cantidad objetivo de $m,o pierde todo sudinero.
¿Cuál es la probabilidad de eventualmente acumular la cantidad objetivo (ganar) o de perder su
fortuna?
Presentamos la cadena Markov que se muestra en la Fig. 6.18 cuyo estado representa la riqueza
del jugador al comienzo de una ronda. Los estados i s 0 e i á m corresponden a la pérdida y
la victoria, respectivamente.
Todos los estados son transitorios, excepto los estados ganadores y losing que son absorbentes.
Por lo tanto, el problema equivale a encontrar las probabilidades de absorción en cada uno de estos
dos estados absorbentes. Por supuesto, estas probabilidades de absorción dependen del estado inicial
i.
p p
P
0 1 2 3 4
1-P
Perder 1- p 1- p Ganar
Figura 6.18: Gráfico de probabilidad de transición para el problema de la ruina del jugador (Ejemplo
6.12). Aquí m 4.
Estas ecuaciones se pueden resolver de diversas maneras. Resulta que hay un método elegante que
conduce a una solución de forma de sed cloagradable. Vamos a escribir las ecuaciones para la ai como
a(1 á p)(aix1 á i) p(ai a i+1), i a 1,...,m a 1.
Entonces, al denotando
Sec. 6.4 Probabilidades de absorción y tiempo de absorción esperado 35
i a ai a ii +1, i á 1,...,m 1 ,
,
las ecuaciones se escriben como
iá i ρδáiá1, i a 1,...,m 1 ,
de la que obtenemos
i á i á0δ0, i a 1,...,m a 1.
(1 + + + á + ámá1) 0 x 1.
N.o 1,
N.o 1,
N.o 1,
N.o 1,
La solución revela que si es > 1, que corresponde a p < 1/2 y las cuotas desfavorables para el
jugador, la probabilidad de perder se acerca a 1 como m - regardless del tamaño de la fortuna inicial.
Esto sugiere que si usted apunta a un gran beneficio bajo cuotas desfavorables, la ruina financiera es
casi segura.
Tiempo esperado para la absorción
Ahora nos dirigimos nuestra atención al número esperado de pasos hasta que se introduce
un estado recurrente (un evento al que nos referimos como "absorción"), a partir de un
estado transitorio particular. Para cualquier estado i, denotamos
es recurrente. .
Ejemplo 6.13. (Arañas y mosca) Considere el modelo de arañas y moscas del Ejemplo 6.2. Esto
corresponde a la cadena Markov que se muestra en la Fig. 6.19. Los estados corresponden a
posibles posiciones de mosca, y los estados absorbentes 1 y m corresponden a la captura
por una araña.
Vamos a calcular el número esperado de pasos hasta que se captura la mosca. Tenemos
1 á m a 0,
Podemos resolver estas ecuaciones de diversas maneras, como por ejemplo por sustitución
sucesiva. Como ilustración, deje que m 4, en cuyo caso, las ecuaciones se reducen a
2 x 1 + 0. 4 ? 2 + 0. 3 ? 3,3 a1 + 0. 3 ? 2 + 0. 4 ? 33.
La primera ecuación produce µ2o (1/0. 6) + (1/2)33,que podemos sustituir en la segunda ecuación
y resolver por 33. Se obtienen denuevo los3o 10/3 y, por sustitución, denuevo,de 2 a 10/3. /
La misma idea utilizada para calcular el tiempo esperado de absorción se puede utilizar para
calcular el tiempo esperado para alcanzar un estado recurrente determinado, a partir de
38 Cadenas Markov Capítulo 6
cualquier otro estado. A lo largo de esta subsección, consideramos una cadena Markov con
una sola clase recurrente. Nos centramos en un estado recurrente especial s,y denotamos
por ti el tiempo medio de primer paso del estado i al estado s,definido por el número
de transiciones para alcanzar s por primera vez, a partir de i
.
Las transiciones fuera del estado son irrelevantes para el cálculo de los tiempos
medios del primer pasaje. Por lo tanto, podemos considerar una nueva cadena de Markov
que es idéntica a la original, excepto que el estado especial s se convierte en un estado
absorbente (estableciendo pss s 1, y psj ass 0 para todos). A continuación, calculamos
ti como el número esperado de pasos para la absorción a partir de i, utilizando las
fórmulas dadas anteriormente en esta sección. Tenemos
, para todos
Este sistema de ecuaciones lineales se puede resolver para las incógnitas ti,y se sabe que
tiene una solución única.
Las ecuaciones anteriores dan el tiempo esperado para alcanzar el estado especial s a
partir de cualquier otro estado. También es posible que deseemos calcular el tiempo medio
de recurrencia del estado especial s, que sedefine como ts á E[número de transitions
hasta el primer retorno a s, a partir de s]
.
,
Podemos obtener t una vezque tenemos los primeros pasos veces ti, mediante el usodela
ecuación
.
Para justificar esta ecuación, argumentamos que el tiempo para volver a s, a partir de s, es
iguala 1 más el tiempo esperado para llegar a s desde el siguiente estado, que es j con
probabilidad psj. A continuación, aplicamos el teorema de expectativa total.
Ejemplo 6.14. Considere el modelo "actualizado"–"detrás" del Ejemplo 6.1. Los Estados 1 y 2
corresponden a estar al día y estar atrasados, respectivamente, y las probabilidades de transición
son
p11 a 0. 8, p12 a 0. 2,
Sec. 6.4 Probabilidades de absorción y tiempo de absorción esperado 39
p21 a 0. 6, p22 a 0. 4.
Vamos a centrarnos en el estado s 1 y calcular el tiempo medio de primer pasaje al estado 1,
comenzando desde el estado 2. Tenemos t1 x 0 y
de la que
.
El tiempo medio de recurrencia para el estado 1 es dado por
, para todos
.
40 Cadenas Markov Capítulo 6
El modelo de cadena Markov de tiempo discreto y estado finito que hemos considerado
hasta ahora es el ejemplo más simple de un proceso Markov importante. En esta
sección, analizamos brevemente algunas generalizaciones que implican un número
totalmente infinito de estados o un tiempo continuo, o ambos. Un desarrollo teórico
detallado para este tipo de modelos está fuera de nuestro alcance, por lo que
simplemente discutimos sus principales ideas subyacentes, basándose principalmente
en ejemplos.
Considere una Markov process xX1,X2,... • cuyo estado puede tomar cualquier valor
entero positivo. Las probabilidades de transición
Estas son las ecuaciones de equilibrio para una cadena Markov con los estados 1,2,...
Es importante tener condiciones que garanticen que → ∞ el rij(n) de
hechoconverjan a valores de estado estacionario ,j como n ,. Como podemos esperar
Sec. 6.5 Más Cadenas General Markov 41
del caso de estado finito, tales condiciones deben incluir algún análogo del requisito de
que hay una sola clase recurrente que es aperiódica. De hecho, requerimos que:
(a) cada estado es accesible desde cualquier otro estado;
(b) el conjunto de todos los estados es aperiódico en el sentido de que no hay d > 1
de modo que los estados se pueden agrupar en d > 1 subconjuntos desarticulados
S1,...,Sd para que todas las transiciones de un subconjunto conduzcan al siguiente
subconjunto.
Estas condiciones son suficientes para garantizar la convergencia a un estado estable
pero algo peculiar también puede suceder aquí, que no es posible si el número de estados es
finito: los límites πj no pueden añadir a 1, de modo que (11,2,... ) puede no ser una
distribución de probabilidad. De hecho, podemos probar el siguiente teorema (la prueba está
fuera de nuestro alcance).
Teorema de convergencia de Estado estable
Bajo los supuestos de accesibilidad y aperioidad anteriores (a) y b), sólo hay dos
posibilidades:
(1) El rij(n)convergen a una distribución de probabilidad de estado estacionario
(s1,22,... ). En este caso, la j resuelve de forma única las ecuaciones de
equilibrio junto con la ecuación de π normalización, 1 + 2 + 1 . Además,
la j tiene una interpretación de frecuencia esperada:
Ejemplo 6.15. (Colas con espacio de búfer infinito) Considere, como en el ejemplo 6.10, un nodo de
comunicación, donde los paquetes llegan y se salvan en un buffer antes de conseguir transmitido.
Suponemos que el nodo puede almacenar un número infinito de paquetes. Discretizamos el tiempo
en períodos muy pequeños, y suponemos que en cada período ocurre uno de los siguientes:
(a) llega un nuevo paquete; esto sucede con una probabilidad dada b > 0;
(b) un paquete existente completa la transmisión; esto sucede con una probabilidad dada d > 0 si
hay por lo menos un paquete en el nodo, y con probability 0 de lo contrario;
(c) no llega ningún paquete nuevo y ningún paquete existente completa la transmisión; thishappens
con una probabilidad de 1 abad si hay al menos un paquete en el nodo, y con la
probabilidad 1 a b de lo contrario.
B B B B B
0 1 ... M- 1 M
...
d d d d d
Presentamos una cadena Markov con estados son 0,1,... , correspondiente al número de
paquetes en el búfer. El gráfico de probabilidad de transición se indica en la Fig. 6.20. Al igual que en el
caso de un número finito de estados, las ecuaciones de equilibrio local son iib á πi+1d, i a 0,1,...,
y obtenemos ii+1 ái,donde á b/d. Noshan hecho ,tenemos el valor de ρii á i0 para todos los i. Si
es de < 1, la ecuación de normalización 1
,
Sec. 6.5 Más Cadenas General Markov 43
en cuyo caso son ρ las probabilidadesde estado estacionario, y las probabilidades de estado
estacionario
Ejemplo 6.16. (La cola M/G/1) Queue) Los paquetes llegan a un nodo de una red de comunicación,
donde se almacenan en un búfer de capacidad infinita y, a continuación, se transmiten uno a la vez. El
proceso de llegada de los paquetes es Poissson con la velocidad λ, y el tiempo de transmisión de
un paquete tiene un CDFdado. Además, los tiempos de transmisión de diferentes paquetes son
independientes y también son independientes de todos los tiempos interarrivales del proceso de
llegada.
Este sistema de cola se conoce como el sistema M/G/1. Con los cambios en la terminología, se
aplica al hombrey a diferentescontextos prácticos en los que se presta "servicio" a los "clientes que
llegan", como en la comunicación, el transporte y la fabricación, entre otros. El nombre M/G/1 es un
ejemplo de terminología abreviada de la teoría de la cola, por la que el primer let ter(M en este caso)
caracteriza el proceso de llegada del cliente (Poisson en este caso), la segunda letra (G en este caso)
caracteriza la distribución del tiempo de servicio de la cola (general en este caso), y el número (1 en este
caso) caracteriza el número de clientes que se pueden servir simultáneamente.
Para modelar este sistema como una cadena Markov discreta, nos centramos en el tiempo
instantáneo cuando un paquete completa la transmisión y se aparta del sistema. Denotamos por Xn el
número de paquetes en el system justo después de la salida del cliente nth. Tenemos
0,
0,
mientras que si R es una variable aleatoria continua con PDF fR(r),tenemos para todos k a 0,
Las probabilidadesk definen a su vez las probabilidades de transición de la cadena markov aXn,de la
siguiente manera (véase la Fig. 6.21):
De lo contrario, 0 y j >
0, y j á − i-1.
Claramente, esta cadena Markov satisface las condiciones de accesibilidad y aperioidad que
garantizanla convergencia de estado estacionario. Hay dos posibilidades: o bien (s0, 11,... ) forman una
distribución de probabilidad, o de lo contrario πj > 0 para todos los j. Aclararemos
Α3
Α2 Α3
Α0 Α1 Α1 Α1
Α1 Α2 Α2
0 1 2 3 ...
Α0 Α0 Α0
Figura 6.21: Gráfico de probabilidad de transición para el número de paquetes dejados atrás por un
paquete que completa la transmisión en la cola M/G/1 (ejemplo
6.16).
las condiciones en las que se mantiene cada uno de estos casos, y también calcularemos la
transformación M(s) (cuando exista) ola distribución de estadoestacionario (s0, 11,... ):
.
Sec. 6.5 Más Cadenas General Markov 45
.
Para calcular el valor de0, tomamos el límite como s - 0 en la fórmula anterior, y usamos el hecho
,
donde E es el valor esperado del número N de llegadas de paquetes dentro del
tiempo de transmisión de un paquete. Usando la fórmula de expectativas iteradas, hemos
E[N] á EE[R],
•0 a 1o EE[R],
.
Para que el cálculo anterior sea correcto, debemos tener E[N] < 1, es decir, los paquetes deben
llegar a una velocidad que sea menor que la velocidad de transmisión del nodo. Si esto no es cierto,
46 Cadenas Markov Capítulo 6
Hemos asumido implícitamente hasta ahora que las transiciones entre estados toman tiempo
unitario. Cuando el tiempo entre transiciones toma valores de un rango continuo, surgen
algunas preguntas nuevas. Por ejemplo, ¿cuál es la proporción de tiempo que el sistema pasa
en un estado determinado (a diferencia de la frecuencia de las visitas al estado)?
Que los estados se denota por 1,2,... , y supongamos que las transiciones de estado se
producen en momentos discretos, pero el tiempo de una transición a la siguiente es aleatorio.
En particular, aboumimosque:
(a) Si el estado actual es i, el siguiente estado será j con una probabilidad dada pij.
(b) El intervalo de tiempo i entre la transición al estado i y la transición al siguiente estado
se distribuye exponencialmente con un parámetro νdado::
νδ
i . P(i- - estado actual es i)- 1 á .
E ,
Sec. 6.5 Más Cadenas General Markov 47
es decir, que en cualquier momento t, el futuro del proceso, [las variables aleatorias X(t)para
t > t] dependen del pasado del proceso[los valores de las variables aleatorias X(t)
Ejemplo 6.17. (La cola M/M/1) Los paquetes llegan a un nodo de una red de comunicación de
acuerdo con un proceso de Poissson con la velocidad λ. Los paquetes se salvan en un búfer de
capacidad infinita y luego se transmiten uno a la vez. El tiempo de transmisión de un paquete se
distribuye exponencialmente conel parámetro ,ylos tiempos de transmisión de los diferentes
paquetes son independientes y también son independientes de todos los tiempos interarrivales
del proceso de llegada. Por lo tanto, este sistema de colocación en cola es idéntico al caso
especial del sistema M/G/1, donde lostiempos de transmisión se distribuyen exponencialmente
(esto se indica mediante la segunda M en el nombre M/M/1).
Modelaremos este sistema utilizando un proceso de tiempo continuo con el estado X(t) igual
al número depaquetes en el sistema en el momento t [si X(t) > 0, luego X(t) -1 paquetes
están esperando en la cola y un paquete está bajo transmisión]. El estado aumenta en uno cuando
un nuevo paquete llega y disminuye en uno cuando un paquete existente sale. Para demostrar que
este proceso es una cadena Markov de tiempo continuo, vamos a identificar las tasas de transición
νi y qij en cada estado i.
48 Cadenas Markov Capítulo 6
Considere a continuación el caso de un estado positivo i, y supongamos que una transición oc-
curs en algún momento t a X(t)- i. Si la siguiente transición se produce en el momento t+ii, entonces
éi es el mínimo de dos variables aleatorias distribuidas exponencialmente: la hora a la siguiente
llegada, llámela Y, que tiene el parámetro ,y la hora a lasiguiente salida, llámela Z, que
tieneel parámetro . (W e están utilizando de nuevo aquí la propiedad sin memoria de la
distribución exponencial.) Por lo tanto, de acuerdo con el Ejemplo 5.15, que se ocupa de los
"exponenciales de la competencia", el tiempo se distribuye exponencialmente con νel
parámetroi . µ Además, la probabilidad de quela siguientetransición corresponda a una
llegada es
P
Por lo tanto, tenemos para . Del mismo
modo, obtenemos que la probabilidad de que la siguiente transición corresponda a una salida es
de /() µy tenemos . Así,
Si
j
á i + 1, qij 1,
Las tasas de transición positivas qij se registran junto a los arcos (i,j) del diagrama de transición,
como en la Fig. 6.22.
Nos interesarán las cadenas para las que la cadena Markov en tiempos discretos
correspondiente a las probabilidades de transición pij satisfaga la accesibilidad y
Sec. 6.5 Más Cadenas General Markov 49
á áá á. . . . .. . . . . . . . . . . . . . . . . . . . . . .
0 1 ... M- 1 M
...
µ µ µ µ µ
aperiodicidad de la sección anterior. También requerimos una condición técnica, a saber, que
el número de transiciones en cualquier período de tiempo finito es finito con probabilidad
uno. Casi todos los modelos de uso práctico cumplen esta condición, aunque es posible
construir ejemplos que no lo hacen.
En las condiciones anteriores, se puede demostrar que el límite
es decir, j se puede ver como la proporción a largo plazo de tiempo que el proceso pasa en
el estado j.
Las ecuaciones de equilibrio para una cadena Markov de tiempo continuo toman la forma
Al igual que las cadenas Markov en tiempos discretos, se puede demostrar que hay dos
posibilidades:
(1) Las probabilidades de estado de tial de la esteason todas positivas y resuelven de forma
única las ecuaciones de equilibrio junto con la ecuación de normalización de1 +π2 + 1. (2)
Para interpretar las ecuaciones de equilibrio, observamos que dado que i es laporción
pro del tiempo que el proceso pasa en elestado i, de ello se deduceque πiqij se puede
ver como frecuencia de transiciones de i a j (número esperado de transiciones de i a j por
tiempo de unidad). Por lo tanto, se ve que las ecuaciones de equilibrio expresan el hecho
intuitivo de que la frecuencia de las transiciones fuera del estado j (el término del lado
izquierdo
50 Cadenas Markov Capítulo 6
Zn á X(nnδ), n á 0,1,...
Tomando el límite como 0, obtenemos las ecuaciones de equilibrio para la cadena de tiempo
continuo.
Sec. 6.5 Más Cadenas General Markov 51
Ejemplo 6.18. (La cola M/M/1 – Continuación) Como en el caso de un número finito de estados, las
ecuaciones de equilibrio local son
iá i πi+1o,µ, i a 0,1,...,
y obtenemos el valor dei +1ái, donde se encuentra el valor de " i +1". Por lo tanto, tenemos
el valor de ρi i á i0 para todos los i. Si es de < 1, la ecuación de normalización 1
en cuyo caso son ρ las probabilidadesde estado estacionario, y las probabilidades de estado
estacionario
Ejemplo 6.19. (Las colas M/M/m y M/M/-) Queues) El sistema de colocación en cola M/M/m es
idéntico al sistema M/M/1 excepto que los paquetes m se pueden transmitir simultáneamente
(es decir, la línea de transmisión del node tiene canalesde transmisión m). Un paquete en la
cabeza de la cola se rutea a cualquier canal que esté disponible. El diagrama de transición de estado
correspondiente se muestra en la Fig. 6.24.
á .. . λ. . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .
0 1 ... M- 1 M M+1
...
mµmµm2o (m - 1) m ám á m á m á má m
Al anotar las ecuaciones de equilibrio local para las probabilidades de estado estacionario nn,
obtenemos si n á m,si n > m.
De estas ecuaciones, obtenemos
52 Cadenas Markov Capítulo 6
Suponiendo que < 1, podemos calcular el valorde0 usando las ecuaciones anteriores y la condición
1. Obtenemos
y, por último,
.
En el caso de limitación en el que m - - en el sistema M/M/m (que se llama el sistema M/M/-
así que
A partir de la condición 1, obtenemos
así que,
finalmente,
Por lo tanto, en estado estacionario, el número en el sistema es Poisson distribuido con el parámetro ..
7
Contenido
Sn a X 1 + + X n
ser la suma de la primera n de ellos. Los teoremas de límite se refieren principalmente a las
propiedades de Sn y variables aleatorias relacionadas, ya que n se vuelve muy grande.
Debido a la independencia, tenemos var(Sn) á var(2. X1)+ var(Xn) á
nán.
.
Un cálculo rápido produce
E[Mn], µ, .
En particular, la varianza de Mn disminuye a cero a medida que n aumenta, y la mayor
parte de su distribución debe estar muy cerca de la media . Este fenómeno es objeto de
ciertas leyes de grandes números, que generalmente afirman que la media de la muestra
Mn (una variable aleatoria) converge a la verdadera media (un número), en un sentido
preciso. Estas leyes proporcionan una base matemática para la interpretación suelta de una
expectativa E[X] - , como el promedio de un gran número de muestras independientes
extraídas de la distribución de X..
También consideraremos una cantidad intermedia entre Sn y Mn. Primero restamos
S n-de s n, para obtener la variable aleatoria de mediacero Sn .nµ
.
Se puede verificar (ver Sección 7.4) que
E[Zn] á0, var(Zn) a1.
Dado que la media y la varianza de Zno permanecen sin cambios a medida que no aumenta,
su distribución no se extiende ni se reduce hasta un punto. El teorema de límite central se
refiere a la s hape asintoticade la distribución de Zn y afirma que se convierte en la
distribución normal estándar.
3
Markov Desigualdad
Si una variable aleatoria X sólo puede tomar valores no negativos, entonces
,
.
Se ve que la relación Y a X X
de la que obtenemos
aP(X a a) - E[X].
P , P , P .
Comparando con las probabilidades exactas
vemos que los límites proporcionados por la desigualdad de Markov pueden ser bastante flojos.
Chebyshev Desigualdad
Si X es una variable aleatoria con la media y la varianza σ2,entonces
P .
á áá c y
P .
P .
Por lo tanto, la probabilidad deque una variable aleatoria tome un valor superior a k
desviaciones estándar de su media es como máximo 1/k2.
La desigualdad Chebyshev es generalmente más poderosa que la desigualdad de
Markov (los límites que proporciona son más precisos), porque también hace uso de la
información sobre la varianza de X. Aún así, la media y la varianza de una variable aleatoria
son sólo un resumen aproximado de las propiedades de su distribución, y no podemos
esperar que los límites sean aproximaciones cercanas de las probabilidades exactas.
7.2 La ley débil de los grandes números
Ejemplo 7.2. Como en el ejemplo 7.1, deje que X se distribuya uniformemente en [0,4].
Vamos a usar la desigualdad Chebyshev para vincular la probabilidad de que el número de
X a 2o 1. Tenemos 2 x 16/12 a 4/3, y
P ,
P .
Esto es de nuevo conservador en comparación con la respuesta exacta P(X á c)- eácc.
Tenemos
E
6 Limitar los teoremas Capítulo 7
y, usando la independencia,
P , para cualquier
Observamos que para cualquier fijo > 0, el lado derecho de esta desigualdad va a cero
a medida que n aumenta. Como consecuencia, obtenemos la ley débil de grandes
números, que se indica a continuación. Resulta que esta ley sigue siendo cierta incluso
si el Xi tiene infinita varianza, pero se necesita un argumento mucho más elaborado,
que omitimos. La única suposición necesaria es que E[Xi] está bien definidoy finito.
X 1 + ··· + X N
P |M N − µ |≥ = P − µ ≥ → 0, Co N → ∞ .
N
m
,
donde Xi es 1 siempre que se produce A, y 0 en caso contrario; en particular, E[Xi]á p. La ley
débil se aplica y muestra que cuando n es grande, la frecuencia empírica es más probable que
esté dentro de . En términos generales, esto nos permite decir que las frecuencias empíricas
7
Ejemplo 7.4. Interrogación. Que p sea la fracción de votantes que apoyan a un candidato en
particular para el cargo. Entrevistamos a los votantes "seleccionados al azar" y registramos la
fracción Mn de ellos que apoyan al candidato. Vemos a Mn como nuestra estimación de
p y would como investigar suspropiedades.
Interpretamos "seleccionados al azar" para significar que los n votantes son elegidos de
manera independiente y uniforme de la población dada. Por lo tanto, la respuesta de cada persona
entrevistada puede ser vista como un ensayo independiente de Bernoulli Xi con probabilidad
de éxito p y varianza de2 a p(1 a p). La desigualdad de Chebyshev rinde
P .
7.3 Convergencia en probabilidad
Se supone que el valor verdadero del parámetro p es desconocido. Por otro lado, se verifica
fácilmente que p(1 p p) - 1/4, lo que produce
P .
P .
En palabras, con un tamaño de muestra de n a 100, la probabilidad de que nuestra
estimación sea incorrecta en más de 0. 1 no es mayor que 0,25.
Supongamos que ahora que imponemos algunas especificaciones estrictas en
nuestra encuesta. Nos gustaría tener alta confianza (probabilidad de al menos 95%) que
nuestra estimación será muy accurcomido (dentro de .01 de p). ¿Cuántos votantes se deben
muestrear? La única garantía que tenemos en este punto es la desigualdad
P .
que rinde n 50,000. Esta elección de n tiene las propiedades especificadas, pero en
realidad es bastante conservadora, porque se basa en la desigualdad de Chebyshev
bastante suelta. En la Sección 7.4 se considerará un refinamiento.
8 Limitar los teoremas Capítulo 7
Podemos interpretar el WLLN como diciendo que "Mn converge a ." Sin embargo,
desde M1,M2,... es una secuencia de variables aleatorias, no una secuencia de
números, el significado de la convergencia tiene que ser preciso. A continuación se
proporciona una definición en particular. Para facilitar la comparación con la noción
ordinaria de convergencia, también incluimos la definición de esta última.
Convergencia en probabilidad
Deje Y1,Y2,... ser una secuencia de variables aleatorias (no necesariamente
independientes), unnd dejar un ser un número real. Decimos que la secuencia
Yn converge a a en probabilidad,si para cada > 0, tenemos
Dada esta definición, el WLLN simplemente dice que la media µde la muestra
converge en probabilidad a la media verdadera.
Si las variables aleatorias Y1,Y2,... tener un PMF o un PDF y converger en probabilidad
a un, entonces de acuerdo con ladefinición anterior, "casi todos" de laPMF o PDF de Yn
se concentra en dentro de un -intervalo alrededor de un para los valores grandes de n.
También es instructivo reformular la definición anterior de la siguiente manera: para cada >
0, y para cada > 0, existe algún n0 de tal manera que
Sireemos fer como el nivel de precisión, y como el nivel de confianza, la definición toma
la siguiente forma intuitiva: para cualquier nivel dado de precisión y confianza, Yn será igual
a un, dentro deestos niveles de precisión y confianza, siempre que n sea lo
suficientemente grande. is large
9
Yn á mín.X1,...,Xn..
Puesto que esto es true para cada > 0, llegamos a la conclusión de que Yn converge a cero,
en probabilidad.
10 Limitar los teoremas Capítulo 7
Ejemplo 7.6. Deje que Y sea una variable aleatoria distribuida exponencialmente con
el parámetro . Para cualquier entero positivo n, deje Yn á Y/n. (Tenga en cuenta que
estas variables aleatorias son dependientes.) Deseamos investigar si la secuencia Yn
converge a cero.
Para > 0, tenemos
P .
En particular,
.
Puesto que este es el caso para cada converge a cero, en probabilidad.
Ejemplo 7.7. Considere una secuencia de variables aleatorias discretas Yn con la siguiente
distribución:
, para y 0,
P(Yn á y)á2 para y á n ,
en otro
lugar.
E ,
en el sentido de que
El teorema de límite central nos permite calcular las probabilidades relacionadas con Zn
como si Zn fuera normal. Puesto que la normalidad se conserva bajo transformaciones
lineales, esto equivale a tratar Sn como una variable aleatoria normal con la media n á
unavarianza d n-2. nσ
Aproximación normal basada en el teorema de límite central
Deje que Sn a X1 + x + Xn, donde el Xi son variables aleatorias independientes
distribuidas de forma idéntica con la media y la varianza σ2. Si n es grande, la
probabilidad P(Sn á c) se puede aproximar tratando Sn como si fuera normal,
de acuerdo con el siguiente procedimiento.
1. Calcular la media n á y la varianza n.o2 de Sn.
3. Utilice la aproximación
P(Sn á c) á(z),
Ejemplo 7.8. Cargamos en un avión 100 paquetes cuyos pesos son variables aleatorias
independientes que se distribuyen uniformemente entre 5 y 50 libras. ¿Cuál es la probabilidad de
que el peso total supere las 3000 libras? No es fácil calcular el CDF del total wocho y la probabilidad
deseada, pero una respuesta aproximada se puede obtener rápidamente utilizando el teorema de
límite central.
Queremos calcular P(S100 > 3000), donde S100 es la suma de los 100 paquetes. La media
y la varianza del peso de un solo paqueteson
,
basado en las fórmulas para la media y la varianza del PDF uniforme. Así calculamos el valor
normalizado
Ejemplo 7.9. Una máquina procesa piezas, una a la vez. Los tiempos de procesamiento de
diferentes partes son variables aleatorias independientes, distribuidas uniformemente en [1,5].
Deseamos aproximar la probabilidad de que el número de piezas procesadas dentro de 320
unidades de tiempo sea de al menos 100.
Llamemos a N320 este número. Queremos calcular P(NN320 a 100). No hay una manera
obvia de expresar la variable aleatoria N320 como la suma de variables aleatorias independientes,
pero podemos proceder de manera diferente. Deje que Xi sea el tiempo de procesamiento de la
iith part, y deje que S100 x X1 + x x 100 sea el tiempo total de procesamiento de lasprimeras
100 piezas. El evento NN320 a 100o es el mismo que el de SS100 a 320o, y ahora podemos usar una
aproximación normal a la distribución de S100. Tenga en cuenta que los caracteres de la letra
E[e [Xi] y de2 a var(Xi) son16/12 a 4/3. Calculamos el valor normalizado
,
y utilizarla aproximación
14 Limitar los teoremas Capítulo 7
Ejemplo 7.10. Revisemos el problema de las encuestas en el ejemplo 7.4. Encuestamos a los
votantes y registramos la fracción Mn de los encuestadosque están a favor de un
candidato enparticular. Si p es la fracción de toda la población de votantes que apoya a este
candidato, entonces
P .
La varianza p(1 pp)/n de Mnáp depende de p y, por lo tanto, se desconoce. Observamos que
la probabilidad de una gran desviación de la media aumenta con la varianza. Por lo tanto, podemos
obtener un límite superior en P suponiendo que Mn á p tiene la mayor varianza
posible, a saber, 1/4n. Para calcular este límite superior, evaluamos el valor estandarizado
P .
Por ejemplo, considere el caso en el que 1. Asumiendo el
en el peor de los casos, obtenemos
P
.
Esto es mucho más pequeño (más preciso) que la estimación que se obtuvo en el ejemplo 7.4
usando la desigualdad Chebyshev.
Ahora consideramos un problema inverso. ¿Qué tan grande es un tamaño de muestra n si
deseamos que nuestra estimación Mn esté dentro de 0. 01 de p con probabilidady al
menos0,95? Suponiendo de nuevo la peor varianza posible, nos llevan a la condición
Sec. 7.4 El teorema del límite central 15
De las tablas normales, vemos que el .(1. 96) 0. 975, lo que lleva a
,
O
.
Esto es significativamente mejor que el tamaño de la muestra de 50.000 que encontramos usando
la desigualdad de Chebyshev.
La aproximación normal es cada vez más precisa ya que n tiende al infinito, pero en
la práctica generalmente nos enfrentamos a valores específicos y finitos de n. Yot sería útil
saber lo grande que se necesita una n antes de que se pueda confiar en la aproximación,
pero no hay directrices simples y generales. Mucho depende de si la distribución de la Xi
está cerca de lo normal para empezar y, en particular, si essimétrica. Por ejemplo, si el
Xi son uniformes, entonces S8 ya está muy cerca de lo normal. Pero si el Xi son, digamos,
exponenciales, un n significativamente más grande será necesario antes de que la
distribución de Sn esté cerca de una normal. Además, la aproximación normala P(Sn á c)
esgeneralmente más fiel cuando c se encuentra en las proximidades de la media de Sn.
Una variable aleatoria binomial Sn con los parámetros n y p se puede ver como la suma
de n variables aleatorias independientes de Bernoulli X1,...,Xn, con parámetrocomún p:
Sn a X1 + + Xn.
Recuerde que
,
Ahora usaremos la aproximación sugerida por el teorema de límite central para
proporcionar una aproximación para la probabilidad del evento, donde
se dan enteros. Expresamos el evento de interés en términos de una variable
aleatoria estandarizada, utilizando lalence equiva
.
16 Limitar los teoremas Capítulo 7
Una aproximación de esta forma equivale a tratar Sn como una variable aleatoria
normal con np media y varianza np(1 á p). La Figura 7.1 proporciona una ilustración e
indica que una aproximación más precisa puede ser posible si
reemplazamos y, respectivamente. La fórmula
correspondiente se indica a continuación.
K L K L
(a) (b)
Figura 7.1: La aproximación del límite central trata una variable aleatoria binomial Sn como si fuera
normal con np media y varianza np(1op). Esta figura muestra un PMF binomial junto con el PDF
normal aproximado. (a) Una primera aproximación de una probabilidad binomial ) se
obtiene integrando el área bajo el PDF normal de , que es el área sombreada en la figura. (b)
Con el enfoque en (a), si tenemos , la probabilidad P(Sn á k) seaproximaría por cero. Un remedio
potencial sería utilizar larobeability p normal entre y para aproximar P(Sn á k). Al
extender esta idea, P se puede aproximar utilizando el área bajo el PDF normal de, que
corresponde al área sombreada.
Sec. 7.4 El teorema del límite central 17
1 1
+ − Np
2 K− − Np
2
P (K ≤ S N ≤ ) ≈ ϕ − ϕ .
Np(1 − P) Np(1 − P)
Ejemplo 7.11. Deje que Sn sea una variable aleatoria binomial con los parámetros n a 36 y p a 0.
5. Un cálculo exacto produce
P .
La aproximación del límite central, sin el refinamiento antes discutido, produce
P .
Utilizando el refinamiento propuesto, hemos
P ,
que está mucho más cerca del valor exacto.
La fórmula de Moivre – Laplace también nos permite aproximar la probabilidad de
un solo valor. Por ejemplo,
P .
Esto está muy cerca del valor exacto que es
La ley fuerte de los grandes números es similar a la débil law en que también se ocupa
de la convergencia de la media de la muestra a la media verdadera. Es diferente, sin
embargo, porque se refiere a otro tipo de convergencia.
18 Limitar los teoremas Capítulo 7
P .
Para interpretar el SSLN, necesitamos volver a nuestra descripción original de los
modelos probabilísticos en términos de espacios de muestra. El experimento
contemplado es infinitamente largo y genera valores experimentales para cada una de
las variables aleatorias en las equence X1,X2,... . Por lo tanto, lo mejor es pensar en el
espacio de muestra como un conjunto de secuencias infinitas (x1,x2,... ) de números
reales: cualquier secuencia de este tipo es un posible resultado del experimento.
Ahora vamos a definir el subconjunto A de la secuencia que consiste en esas
secuencias (xx1,x2,... ) cuyo promedio a largo plazo es ,es decir,
n, esta probabilidad puede ser positiva y es concebible que de vez en cuando, aunque
sea con poca frecuencia, Mn se desvíe significativamente de . La ley débil no
proporciona información concluyente sobre el número de tales desviaciones, pero la
ley fuerte sí. De acuerdocon la ley fuerte, y con la probabilidad 1, Mn converge a .
Esto implica que para cualquier dado > 0, la diferencia Sólo − superará un número
finito de veces.
P .
Al igual que nuestra discusión anterior, la forma correcta de interpretar este tipo
de convergencia es en términos de un espacio de muestra que consiste en secuencias
infinitas: toda la probabilidad se concentra en aquellas secuencias que convergen a c.
Esto no significa que otras secuencias sean imposibles, sólo que son extremadamente
improbables, en el sentido de que su probabilidad total es cero.
El ejemplo siguiente ilustra la diferencia entre la convergencia en la probabilidad
y la convergencia con la probabilidad 1.
P .
Puesto que esto es cierto para todos n, debemos tener
P .
Esto demuestra que P ) a 0, para cualquier positivo . Concluimos que P(Y > 0) a 0,
lo que implica que P(Y - 0) - 1. Puesto que Y es el límite de Yn, vemos que Yn converge
a cero con la probabilidad 1.