Libro Estadistica

Apuntes
Curso 6.041-6.431 M.I.T.
Introducción a la Probabilidad
Dimitri P. Bertsekas y John N. Tsitsiklis

Profesores de Ingeniería Eléctrica y Ciencias de la Computación
Instituto Tecnológico de Massachusetts Cambridge,
Massachusetts
Estas notas están protegidas por derechos de autor, pero pueden distribuirse
libremente para pruposes instructivos sin fines de lucro.
Contenido
1. Espacio y probabilidad de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
....................
1.1. Establece............................. .1.2. Modelos probabilísticos . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.
Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . 1.4. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5. Teorema de
probabilidad total y Regla de Bayes ................................
........................................
1.6. Contando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7. Resumen y discusiónion ...
......................................... .............................
..........
2. Variables aleatorias discretas . . . . . . . . . . . . . . . . . .........................

.................
2.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Funciones de masa de probabilidad . . . . . . . . .
...................................................... ..........
. . . . . . . 2.3. Funciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Expectativa,
media y varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 2.5. PMF conjuntas de múltiples variables aleatorias . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.
Acondicionamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7. Independencia . . . . . . . . . . . . .
............................................................... ......
. . . . . . . . . . . . 2.8. Resumen y discusión ................................
...............................................
3. Variables aleatorias generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

...............
3.1. Variables y archivos PDF aleatorios continuos .........................
. . . . . . . . . . . . . . . . 3.2. Funciones de distribución acumulativa ..........
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.
Variables aleatorias normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Acondicionamiento en un evento .
..............................................................
. . . . . . . . . . . . . . . . . . 3.5. Múltiplesariables aleatorioscontinuos
múltiples V.....................................................
. . . . . . . . . . 3.6. Distribuciones derivadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
..........................................................
3.7. Resumen y discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
................................
4. Otros temas sobre variables y expectativas aleatorias . . . . . . . . . . . . . . . . . . . . . . . . .

............
4.1. Transforma... . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Sumas de variables aleatorias independientes - Convoluciones ..........
..............................
iv Contenidos
4.3. Expectativa condicional como variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Suma de un número aleatorio de variables
aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5. Covarianza y
correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 4.6. Estimación de mínimos cuadrados . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7. Distribución normal bivariada . . . . . . . .
................................................. ................
5. Los procesos de Bernoulli y Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.................
5.1. Proceso de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. El Proceso de Poisson . . . . . . . . . . . . . . . . . . . . . . . .
......... ...................
6. Cadenas De Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..................

............................
6.1. Cadenas Markov en tiempo discreto ................................
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Clasificación de los Estados . . . . . . . . . .
............................................................... ..........
. 6.3. Estado estacionario Behavior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
...................................................
6.4. Probabilidades de absorción y tiempo previsto de absorción . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . 6.5. Cadenas Más Generales de Markov . . . . . . . . . . . . . . . . . . . . . . . .
........................................................
7. Limitar teoremas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
........................
7.1. Some Desigualdades útiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. La Ley débil de los números grandes . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.
Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4. El Teorema de Límite Central ...
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5. La Ley Fuerte de
Grandes Números ................................................... ...
...................
Prefacio
Estas notas de clase son el libro de texto actualmente utilizado para "Análisis de
Sistemas Probabilísticos", un curso de probabilidad introductoria en el Instituto
Tecnológico de Massachusetts. El texto de las notas es bastante pulido y completo,
pero los problemas son menos.
Al curso asisten un gran número de estudiantes de pregrado y posgrado con
diversos antecedentes. De acuerdo, hemos tratado de encontrar un equilibrio entre la
simplicidad en la exposición y la sofisticación en el razonamiento analítico. Algunos de
losanálisis más matemáticos y rigurosos se han esbozado o explicado intuitivamente
en el texto, de modo que las pruebas complejas no se interponen en el camino de una
exposición simple. Al mismo tiempo, parte de este análisis y los resultados
matemáticos necesarios se desarrolland (a nivel de cálculo avanzado) en problemas
teóricos, que se incluyen al final del capítulo correspondiente. Los problemas teóricos
(marcados por *) constituyen un componente importante del texto, y aseguran que el
reader orientado matemáticamenteencontrará aquí un desarrollo suave sin
grandes lagunas.
Damos soluciones a todos los problemas, con el objetivo de mejorar la utilidad
de las notas para el autoestudio. Tenemos problemas adicionales, adecuados para la
tarea (con soluciones), que hacemosavai lable a los instructores.
Nuestra intención es mejorar gradualmente y eventualmente publicar las notas
como un libro de texto, y sus comentarios serán apreciados
Dimitri P. Bertsekas
bertsekas@lids.mit.edu
John N. Tsitsiklis jnt@mit.edu

Ⅴ
Espacio de muestra y
Probabilidad
Contenido
1.1. Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 3
1.2. Modelos probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 6
1.3. Probabilidad condicional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.......................... pág. 16
1.4. Teorema de probabilidad total y Regla de Bayes. . . . . . . . . . . . . . . . . . . . . . . . .
................................... pág. 25
1.5. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.............................. pág. 31
1.6. Contando. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pág. 41
1.7. Resumen y discusión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
................... p. 48
1
2 Espacio de muestra y probabilidad Capítulo 1
"Probabilidad" es un concepto muy útil, pero se puede interpretar de varias maneras.
Como ilustración, considere lo siguiente.
Un paciente es ingresado en el hospital y se administra un medicamento

potencialmente vital. El siguiente cuadro de diálogo tiene lugar entre la
enfermera y un pariente interesado.
RELATIVE: Enfermera, ¿cuál es la probabilidad de que el medicamento funcione?
ENFERMERA: Espero que funcione, lo sabremos mañana.
RELATIVE: Sí, pero ¿cuál es la probabilidad de que lo haga?
ENFERMERA: Cada caso es diferente, tenemos que esperar.
RELATIVO: Pero veamos, de los cien pacientes que son tratados en condiciones
similares, ¿cuántos times esperarías que funcione? ENFERMERA (algo molesto):
Te dije, cada persona es diferente, para algunos funciona, para algunos no.
RELATIVO (insistindo): Entonces dime, si tuvieras que apostar si funcionará o no,
¿qué lado de la apuesta tomarías?
ENFERMERA (animando por un momento):Apuesto a que funcionará.
RELATIVE (algo aliviado): OK, ahora, ¿estarías dispuesto a perder dos dólares si no
funciona, y ganar un dólar si lo hace?
ENFERMERA (exasperado):¡Qué pensamiento tan enfermo! ¡Me estás haciendo
perder el tiempo!
En esta conversación, el pariente intenta utilizar el concepto de probabilidad para

discutir una situación incierta. La respuesta inicial de la enfermera indica que el
significado de "probabilidad" no se comparte ni comprende uniformemente, y el
pariente trata de hacerlo más concreto. El primer enfoque consiste en definir la
probabilidad en términos de frecuencia de ocurrencia,como porcentaje deéxitos en
un número moderadamente grande de situaciones similares. Tal interpretación es a
menudo natural. Por ejemplo, cuando decimos que unamoneda por fabricado
porfectly aterriza en las cabezas "con probabilidad 50%", típicamente significamos
"aproximadamente la mitad del tiempo". Pero la enfermera puede no estar del todo
equivocada al negarse a discutir en tales términos. ¿Y si se trata de un medicamento
experimental que se administró por primera vez en este hospital o en la experiencia
de la enfermera?
Si bien hay muchas situaciones que implican incertidumbre en las que la
interpretación de frecuencia es apropiada, hay otras situaciones en las que no lo es.
Consideremos, por ejemplo, a un erudito queun sserts que la Ilíada y la Odisea fueron
compuestas por la misma persona, con probabilidad 90%. Tal afirmación transmite
cierta información, pero no en términos de frecuencias, ya que el tema es un evento
de una sola vez. Más bien, es una expresión de la screencia delarevista. Uno podría
3
pensar que las creencias subjetivas no son interesantes, al menos desde un punto de
vista matemático o científico. Por otro lado, las personas a menudo tienen que tomar
decisiones en presencia de incertidumbre, y una forma sistemática de hacer uso de
sus creencias es un requisito previo para tomar decisiones exitosas, o al menos
consistentes
Sec. 1.1 Conjuntos
Hacer.
De hecho, las elecciones y acciones de una persona racional.pueden revelar
mucho acerca de las probabilidades subjetivas internas, incluso si la persona no usa
conscientemente elrazonamiento probabilístico. De hecho, la última parte del diálogo
anterior fue un intento de inferir las creencias de la enfermera de manera indirecta.
Dado que la enfermera estaba dispuesta a aceptar una apuesta uno por uno que la
droga funcionaría, podemos inferir que la probabilidad de éxito se juzgó que es por lo
menos 50%. Y si la enfermera hubiera aceptado la última apuesta propuesta (dos por
uno), eso habría indicado una probabilidad de éxito de al menos 2/3.
En lugar de profundizar más en cuestiones filosóficas sobre la aplicaciónropriate
del razonamiento probabilístico, simplemente lo tomaremos como un dado que la
teoría de la probabilidad es útil en una amplia variedad de contextos, incluyendo
algunos donde las probabilidades asumidas sólo reflejan creencias subjetivas. Hay un
gran cuerpo deaplicacionessucesivas en la ciencia, la ingeniería, la medicina, la
gestión, etc., y sobre la base de esta evidencia empírica, la teoría de la probabilidad es
una herramienta extremadamente útil.
Nuestro principal objetivo en este libro es desarrollar el arte de describir la
incertidumbre en términos de modelos probabilísticos, así como la habilidad del
razonamiento probabilístico. El primer paso, que es el tema de este capítulo, es
describir la estructura genérica de estos modelos y sus propiedades básicas. Los
modelos que consideramos asignan probabilidades a colecciones (conjuntos) de
posibles resultados. Por esta razón, debemos comenzar con una breve revisión de la
teoría de conjuntos.
1.1 CONJUNTOS
La probabilidad hace un uso extensivo de las operaciones de conjunto, así que vamos
a introducir al principio la notación y terminología relevantes.
Un conjunto es una colección de objetos, que son los elementos del
conjunto. Si S es un set y x es un elemento de S, escribimos x s S. Si x no es un
elemento de S, escribimos x / s. Un conjunto no puede tener ningún elemento, en
cuyo caso se llama el conjunto vacío, denotado por .
Los conjuntos se pueden especificarde varias maneras. Si S contiene un
número finito de elementos, por ejemplo x1,x2,...,xn, loescribimos como una lista de
los elementos, entre llaves:
S áx1,x2,...,xn..
Por ejemplo, el conjunto de posibles resultados de un die roll es de 1,2,3,4,5,6 , y el
conjunto de posibles resultados de un lanzamiento de moneda es H,T,donde H
significa "cabezas" y T significa "colas."
Si S contiene infinitamente muchos elementos x1,x2,... , que se puede

enumeraren una lista(para que haya tantos elementos como enteros positivos) que
escribimos
S xx1,x2,... },
y decimos que S es notablemente infinito. Por ejemplo, el conjunto de enteros pares
se puede escribir como .0,2,−2,4,−4,... y es infinitamente infinita.
Alternatively, podemos considerar el conjunto de todas las x que tienen una cierta
propiedad
P, y denotarlo por
xxx x satisface P..
(El símbolo "- " debe leerse como "tal que.") Por ejemplo, el conjunto de enteros pares
se puede escribir como . | k/2 es entero. Del mismo modo, el conjunto de todos los
escalares x en el intervalo [0,1] se puede escribir comoxx 0 á x á 1o. Tenga en cuenta
que los elementos x de este último conjunto toman un rango de valores
continuous, y no se pueden escribir en una lista (una prueba se esboza en los
problemas teóricos); tal conjunto se dice que es incontable.
Si cada elemento de un conjunto S también es un elemento de un conjunto
T,decimos que S es un subconjunto de T, y escribimos S - T o T - S. Si S S -T y
T s , los dosconjuntos son iguales, equaly escribimos S - T. También es conveniente
introducir un conjunto universal,denotado por el nombre , que contiene todos los
objetos que podrían ser de interés en un contexto determinado. Habiendo
especificado elcontexto en términos de un conjunto universal, sólo consideramos los
conjuntos S que son subconjuntos de .
5
Establecer operaciones
El complemento de un conjunto S,con respecto al universo, es el conjunto dex x á . .
............................................................... ...
. x /s Ss de todoslos elementos de la clase que no pertenezcan a S, y que Sc . Tenga
en cuenta que el valor dela unidad deposición es c.
La unión de dos conjuntos S y T es el conjunto de todos los elementos que

pertenecen a S o T (o ambos), y se denota por S -T. La intersección de dos
conjuntos S y T es el conjunto de todos los elementos que pertenecen a S y T,y
se denota por S - T.
Así
S.A.-T -X-x -x- x s s o x á T,,
S.A.-T -X-x -x- x s s y x á T..
En algunos casos, tendremos que considerar la unión o la intersección de varios,

incluso infinitamente muchos conjuntos, defined de la manera obvia. Por ejemplo, si
para cada entero positivo n,se nos da un conjunto Sn, entonces
para algunos, n,}
para todos los n..
Se dice que dos conjuntos están separados si su intersección está vacía. En términos
más generales, se dice que varios conjuntos son desarticulados si no hay dos de ellos
tienen un elemento común. Se dice que una colección de conjuntos es una partición
de un conjunto S si los conjuntos de la colección son disjoint y su unión es S.
Sec. 1.1 Conjuntos
Si x e y son dos objetos, usamos (x,y) para denotar el par ordenado de x e y

y. El conjunto de escalares (números reales) se indica mediante ; el conjunto de pares
(o trillizos) de escalares, es decir, el plano bidimensional (oel espacio tridimensional,
respectivamente) se denota por, respectivamente).
Los conjuntos y las operaciones asociadas son fáciles de visualizar en términos
de diagramas de Venn,como se ilustra en la Fig. 1.1.
Ω Ω Ω
S S S
T T
T
(a) (b) c)
Ω
T
Ω
S
S
T S
U
Ω U
T
(d) (e) (f)
Figura 1.1: Ejemplos de diagramas de Venn. (a) La región sombreada es S . T (b) La región
sombreada es S . T (c) La región sombreada es S- Tc. (d) Aquí, T . S. La región sombreada
es el complemento de S. (e) Los conjuntos S, Ty U están desarticulados.
(f) Los conjuntos S, Ty U forman una partición del conjunto .
El álgebra de los sets
Las operaciones set tienen varias propiedades, que son consecuencias elementales de
las definiciones. Algunos ejemplos son:
S,T) ∪ ( (∪ S, c∪∩S.cUTc) , S SS ∪∪ ((TTSS∩∪∩∩UUSΩ =c) = () =

(= ØS. SS, TT)) ∪∩ (, á TT ,(U,S) U,
á ( TS, T (S) , S - U), S -S), S - ∪
S.,
Dos propiedades particularmente útiles son dadas por las leyes de De Morgan
que establecen que
,.
7
Para establecer la primera ley, supongamos que x á (nSnn)c. A continuación, x /sns nn,
loque implica que para cada n, tenemos x / sn. Por lo tanto, x pertenece al
complemento de cada Sn,y xn ánSnc. Esto demuestra que(n SSn))c ánSnnc. La inclusión
inversa se establece revirtiendo el argumento anterior, y la primera ley sigue. El
argumento de la segunda ley es similar.
1.2 MODELOS PROBABILÍSTICOS
Un modelo probabilístico es una descripción matemática de una situación incierta.

Debe estar de acuerdo con un marco fundamental que debatimos en esta sección. Sus
dos ingredientes principales se enumeran a continuación y se visualizan en la Fig. 1.2.
Elementos de un modelo probabilístico
• El espacio de la muestra, que es el conjunto de todos los resultados
posibles de un experimento.
• La ley de probabilidad, que asigna a unconjunto A de posibles

resultados (también llamado un evento)un número no negativo P(A)
(llamado la probabilidad de A) que codifica nuestro conocimiento o
creenciasobre la "probabilidad" colectiva de los elementos de A. La ley
de probabilidad debe satisfacer ciertas propiedades que se introducirán
en breve.
Estoy
Ley
EventoB
P (B )
Experimento P ( O)
EventoO n
n
Espacio de muestraΩ
( Conjunto de resultados
) O B
Eventos
n
Figura 1.2: Los ingredientes principales de un modelo probabilístico.

Espacios y eventos de muestra
Cada modelo probabilístico implica un proceso subyacente, llamado experimento,

que producirá exactamente uno de varios resultados posibles. El conjunto de todos
los resultados posibles se denomina el espacio de muestra del experimento y se
denota mediante el nombre de la muestra. Un subconjunto del espacio de muestra,
es decir, una colección de posibles
Sec. 1.2 Modelos Probabilísticos 9
resultados, se llama un evento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . Por ejemplo, podría ser un solo lanzamiento de una moneda, o tres
lanzamientos, o una secuencia infinita de lanzamientos. Sin embargo, es importante
tener en cuenta que en nuestra formulación de un modelo probabilístico, sólo hay un
experimento. Por lo tanto, tres lanzamientos de una moneda constituyen una sola
experiencia,en lugar de tres experimentos.
El espacio de muestra de un experimento puede consistir en un número finito o
infinito de posibles resultados. Los espacios de muestra finitos son conceptual y
matemáticamente más simples. Aún así, los espacios de muestra con un número
infinito de elements son bastante comunes. Por ejemplo, considere lanzar un dardo
sobre un objetivo cuadrado y ver el punto de impacto como el resultado.
Elegir un espacio de muestra adecuado
Independientemente de su número, diferentes elementos del espacio de la muestra

deben ser distintos unnd mutuamente excluyente para que cuando se lleva a cabo
el experimento, hay un resultado único. Por ejemplo, el espacio de muestra asociado
con el rollo de un dado no puede contener "1 o 3" como resultado posible y también
"1 o 4" como otro resultado posible. Cuandorueda es un 1, el resultado del
experimento no sería único.
Una situación física dada puede ser modelada de varias maneras diferentes,
dependiendo del tipo de preguntas que nos interesan. Generalmente, el espacio de
muestra elegido para un modelo probabilístico debe ser colectivamente
exhaustivo,en el sentido de que no importa lo queocurra en elexperimento, siempre
obtenemos un resultado que se ha incluido en el espacio de muestra. Además, el
espacio de muestra debe tener suficiente detalle para distinguir entre todos los
resultados de interés para el modelador, evitando al mismo tiempo detalles
irrelevantes.
Ejemplo 1.1. Considere dos juegos alternativos, ambos con diez lanzamientos de monedas
sucesivas:
Juego 1: Recibimos $1 cada vez que sube una cabeza.
Juego 2: Recibimos $1 por cada lanzamiento de moneda, hasta e incluyendo la
primera vez que aparece una cabeza. Entonces, recibimos $2 por cada lanzamiento
de moneda, hasta la segunda vez que aparece una cabeza. En términos más
generales, la cantidad de dólares por tonelada se duplica cada vez que sube una
cabeza.
10 Muestra Spas y Probabilidad Capítulo 1
• Cualquier colección de posibles resultados, incluyendo todo el espacio de muestra y su

complemento, el conjunto vacío, puede qualify como un evento. Estrictamente hablando, sin
embargo, algunos conjuntos tienen que ser excluidos. En particular, cuando se trata de modelos
probabilísticos que implican un espacio de muestra incontablemente infinito, hay ciertos
subconjuntos inusuales para los que no se pueden asociar probabilidades significativas. Este es
un tema técnico complejo, que involucra las matemáticas de la teoría de la medida.
Afortunadamente, tales subconjuntos patológicos no surgen en los problemas considerados en
este texto o en la práctica, y el problema puede ser ignorado de forma segura.
En el juego 1, it es sólo el número total de cabezas en la secuencia de diez tiros que importa,
mientras que en el juego 2, el orden de las cabezas y las colas también es importante. Así,
en un modelo probabilístico para el juego 1, podemos trabajar con un espacio de muestra
que consiste en once resultados posibles, namely, 0,1,...,10. En el juego 2, se pide una
descripción de grano más fina del experimento, y es más apropiado dejar que el espacio de
la muestra consista en cada secuencia posible de diez largos de cabezas y colas.
Modelos secuenciales
Muchos experimentos tienen un carácter inherentemente secuencial, como por

ejemplo, la lanzamiento de una moneda tres veces, o la observación del valor de una
acción en cinco días sucesivos, o la recepción de ocho dígitos sucesivos en un receptor
de comunicación. A continuación, a menudo es útilpara describir el experimento y el
espacio de muestra asociado mediante una descripción secuencial basada en
árbol,como en la Fig. 1.3.
Ejemplo de espacio secuencial árbol par de rollos

Descripción
4 1 1, 2
1, 3
1, 4
3 2
2 nd Roll
Raíz Hojas
2
3
1
1 2 3 4 4
1 st Roll 1, 1
Figura 1.3: Dos descripciones equivalentes del espacio de muestra de un experimento que
implica dos rollos de un troquel de 4 lados. Los posibles resultados son todos los pares
ordenados de la forma (i,j), donde i es el resultado del primer rollo, y j es el
resultado del segundo. Estos elementosde salidase pueden organizar en una
cuadrícula de 2 dimensiones como en la figura de la izquierda, o pueden ser descritos por el

árbol de la derecha, que refleja el carácter secuencial del experimento. Aquí, cada resultado
posible corresponde a una hoja del árbol y está tansociado con la trayectoria única de la raíz
a esa hoja. El área sombreada a la izquierda es el evento s(1,4), (2,4), (3,4), (4,4) que el
resultado del segundo rollo es 4. Ese mismo evento se puede describir como un conjunto de
hojas, como se muestra a la derecha. Observe también that cada nodo del árbol se puede
identificar con un evento, a saber, el conjunto de todas las hojas aguas abajo de ese nodo.
Por ejemplo, el nodo etiquetado por un 1 se puede identificar con el evento
?(1,1),(1,2),(1,3),(1,4) - que el resultado del primer rollo es 1.
Leyes de responsabilidad
Supongamos que nos hemos asentado en el espacio de muestra asociado a un

experimento.
Entonces, para completar el modelo probabilístico, debemos introducir una ley de
probabilidad. Intuitivamente, esto especifica la "probabilidad" de cualquier resultado,
o de cualquier conjunto deresultadosposibles (un evento, como lo hemos llamado
anteriormente). Más precisamente, la ley de probabilidad asigna a cada evento A,un
número P(A),llamado la probabilidad de A,satisfaciendo los siguientes axiomas.
Axiomas de probabilidad
1. (Nonnegativity) P(A)a 0, para cada evento A.
2. (Aditividad) Si A y B son dos eventos desarticulados, entonces la

probabilidad de su unión satisface
P(A á B)- P(A)+ P(B).
Además, si el espacio de muestra tiene un número infinito de elementos y

A1,A2,... es una secuencia de eventos desarticulados, entonces la
probabilidad de su unión satisface
P(A1 a A2o A) - P(AA1) + P(A2) +?
3. (Normalización) La probabilidad de que toda la muestra space - es igual

a1, es decir, P(o) - 1.
Para visualizar una ley de probabilidad, considere una unidad de masa que debe
ser "difundida" sobre el espacio de la muestra. A continuación, P(A) essimplemente la
masa total que se asignó colectivamente a los elementos de A. En términos de esta
analogía, el axioma de aditividad se vuelve bastante intuitivo: la masa total en una

secuencia de eventos desarticulados es la suma de sus masas individuales.
Una interpretación más concreta de las probabilidades es en términos de
frecuencias relativas: un estado de estadocomo P(A) -2/3 a menudo representa la
creencia de que el evento A se materializará en aproximadamente dos tercios de un
gran número de repeticiones del experimento. Tal interpretación, aunque no siempre
apropiada, a veces puede facilitar nuestro intuitivo substanding. Se revisará en el
capítulo 7, en nuestro estudio de los teoremas límite.
Hay muchas propiedades naturales de una ley de probabilidad que no se han
incluido en los axiomas anteriores por la sencilla razón de que pueden derivarse de
ellos. Por ejemplo, tenga en cuenta quelosaxiomas de normalización y aditividad
implican que
1 á P(o) á P(o ) - P(o) + P(o) - 1 + P(o),
y esto muestra que la probabilidad del evento vacío es 0:

P(a) a 0.
Como otro ejemplo, considere tres eventos desarticulados A1, A2y A3. Podemos usar
el axioma de aditividad para dos eventos desarticulados repetidamente, para obtener
Procediendo de manera similar, obtenemos que la probabilidad de la unión de los

acontecimientos finitosamente muchos desarticulados es always igual a la suma de las
probabilidades de estos eventos. Más propiedades de este tipo serán consideradas en
breve.
Modelos discretos
Aquí hay una ilustración de cómo construir una ley de probabilidad a partir de algunas
suposiciones de sentido común sobre un modelo.
Ejemplo 1.2. Lanzamientos de monedas. Considere un experimento que involucre un solo

lanzamiento de moneda. Hay dos posibles resultados, cabezas (H) y colas(T). El espacio de
la muestra es elH,Tvalor de la unidad de lamuestra, y los eventos son
•H,T? , ..... . . . {T} . . . . . . . . . . . . . . . . . . . . . . . . . . . ..
Si la moneda es justa, es decir, si creemos que las cabezas y las colas son "igualmente
probables", debemos asignar las mismas probabilidades a los dos resultados posibles y
especificar que
P 5. El axioma de aditividad implica que
P ,
que es consistente con la normalización de unxiom. Por lo tanto, la ley de probabilidad es

dada por
P , P , P , P(o) a 0,
y satisface los tres axiomas.

Considere otro experimento que involucre tres lanzamientos de monedas. El
resultado ahora será una cadena de 3 largos de cabezas o colas. El espacio de muestra es
•HHH, HHT, HTH, HTT, THH, THT, TTH, TTT.}.
Suponemos que cada resultado posible tiene la misma probabilidad de 1/8. Construyamos
una ley de probabilidad que satisfaga los tres axiomas. Consideremos, como ejemplo, el
evento
A - exactamente 2 cabezas se producen .HHT, HTH, THH}.

Usando la aditividad, la probabilidad de A es la suma de las probabilidades de sus elementos:
Del mismo modo, la probabilidad de cualquier evento es igual a 1/8 veces el número de
posibles resultados contenidos en el evento. Esto define una ley de probabilidad que satisati
sifices los tres axiomas.
Mediante el uso del axioma de aditividad y al generalizar el razonamiento en el

ejemplo anterior, llegamos a la siguiente conclusión.
Ley de Probabilidad Discreta

Si el espacio de muestra consta de un número finito de posibles resultados, la ley
de probabilidad se especifica mediante las probabilidades de los eventos que
constan de un solo elemento. En particular, la probabilidad de cualquier
eventos1,s2,...,snes la suma de lasprobbilidades de sus elementos:
P .
En el caso especial en el que las probabilidades P son todas

iguales (por necesidad igual a 1/n, en vista del axioma de normalización), obtenemos
lo siguiente.
Ley de Probabilidad Uniforme Discreta

Si el espacio de muestra consta de n posibles resultados que son igualmente
probables (es decir, todos los eventos de un solo elemento tienen la misma
probabilidad), entonces la probabilidad de cualquier evento A es dada por
Número de elementos de A
P(A) . .
N
Proporcionemos algunos ejemplos más de espacios de muestra y leyes de probabilidad.
Ejemplo 1.3. Dados. Consideremos el experimento de lanzar un par de dados de 4 lados (cf.
Fig. 1.4). Asumimos que los dados son justos, e interpretamos esta suposición para significar
que cada uno de losposibles resultados sixteen [pares ordenados (i,j), con i,j , 1,2,3,4],
tiene la misma probabilidad de 1/16. Para calcular la probabilidad de un evento,
debemos contar el número de elementos del evento y dividir por 16 (el número total de
resultados posibles). Aquí están algunas probabilidades de evento calculadas de esta
manera:
PLa suma de los rolls es par, ,
P La suma de los rollos es impar, ,
PEl primer rollo es igual al segundo, ,

P El primer rollo es más grande que el segundo, P, al
menos un rollo es iguala 4o. .
Espacio de muestra
Par de rollos
3 Evento
2 nd Roll {al menos un rollo es un
4}
7/16
2
1
1 2 3 4
1 st Roll
Evento
{el primer rollo es igual al segundo }
4/16
Figura 1.4: Varios eventos en el experimento de lanzar un par de dados de 4 lados, y sus
probabilidades, calculados de acuerdo con la ley uniforme discreta.
Modelos continuos
Los modelos probabilísticos con espacios de muestra continuos difieren de sus

contrapartes discretas en que las probabilidades de los eventos de un solo elemento
pueden no ser suficientes para caracterizar la ley de probabilidad. Esto se ilustra en
los siguientes ejemplos, queh también ilustran cómo generalizar la ley de probabilidad
uniforme al caso de un espacio de muestra continuo.
Ejemplo 1.4. Una rueda de la fortuna se calibra continuamente de 0 a 1, por lo que los
posibles resultados de un experimento que consiste en un solo giro son los números
en el intervalo de [0,1]. Suponiendo una rueda justa, es apropiado considerar todos los
resultados igualmente probables, pero ¿cuál es la probabilidad del evento que consiste en
un solo elemento? No puede ser positivo, porque entonces, usando el axioma de aditividad,
it seguiría que los eventos con un número suficientemente grande de elementos tendrían
una probabilidad mayor que 1. Por lo tanto, la probabilidad de cualquier evento que consta
de un solo elemento debe ser 0.
En este ejemplo, tiene sentido asignar la probabilidad b a t tocualquier subintervalo
[a,b] de[0,1], y calcular la probabilidad de un conjunto más complicado evaluando su

"longitud." • Esta asignación satisface los tres axiomas de probabilidad y califica como una
ley de probabilidad legítima.
Ejemplo 1.5. Romeo y Julieta tienenuna fecha en un momento dado, y cada uno llegará al
lugar de reunión con un retraso entre 0 y 1 hora, con todos los pares de retrasos siendo
igualmente probables. El primero en llegar esperará 15 minutos y saldrá si el otro aún no ha
llegado. ¿Cuál es la probabilidad de que se reúnan?
Vamos a utilizar como espacio de muestra,el cuadrado de la tecla de muestra
de los elementos de los dos, delos,que se utilizan los elementos de los dos,
queson los posibles pares de retrasos. Nuestra interpretación de pares de retardos
"igualmente probables" es dejar que la probabilidad de un subconjunto de la palabra "sea
igual a su área". Esta ley de probabilidad satisface los tres axiomas de probabilidad. El
evento que Romeo y Julieta encontrará es la región sombreada en la Fig. 1.5, y su
probabilidad se calcula en 7/16.
Propiedades de las leyes de probabilidad
Leyes de probabilidadh ave una serie de propiedades, que se pueden deducir de los
axiomas. Algunos de ellos se resumen a continuación.
Algunas propiedades de las leyes de probabilidad

Considere una ley de probabilidad y deje que A, By C sean eventos.
(a) Si A es B B, entonces P(A) á P(B).
(b) P(A á B)- P(A)+ P(B)á P(A - B).
(c) P(A - B)- P(A)+ P(B).
(d) CP(A á B - CC) - P(A) + P(Ac á B) + P(Ac á B )) )
• La "longitud" de un subconjunto S de [0,1] es la integral, que se define, para

"agradable" conjuntos S, en el sentido de cálculohabitual. Para conjuntos inusuales, esta
integral puede no estar bien definida matemáticamente, pero tales cuestiones pertenecen a un
tratamiento más avanzado del tema.
y
1 /4
0 1 /4 1 X
Figura 1.5: El evento M que Romeo y Julieta llegarán dentro de los 15 minutos el uno
del otro (cf. Ejemplo 1.5) es
y está sombreada en la figura. El área de es 1 menos el área de los

dos triángulos sin sombrear, o 1o (3/4) (3 /4) 7/16. Por lo tanto, la probabilidad de reunión
es 7/16.
Estas propiedades, y otras similares, se pueden visualizar y verificar

gráficamente utilizando diagramas de Venn, como en la Fig. 1.6. Para otro ejemplo,
tenga en cuenta que podemos aplicar la propiedad (c) repetidamente y obtener la
desigualdad
P .
Con más detalle, vamos a aplicar property (c) a los conjuntos A1 y A2 - An,
paraobtener
An)P(A1 a A2 a A2o An) , P(A1)+ P(A2 s a ).
También aplicamos la propiedad (c) a los conjuntos A A2 y A3 a an para obtener
AnP(A2 A s a a n) , P(A2)+ P(A3 s a)),

continuar de manera similar, y finalmente añadir.
Modelos y Realidad
El uso del marco de la teoría de probabilidad para analizar una situación física pero
incierta, implica dos etapas distintas.
(a) En la primera etapa, construimos un modelo probabilístico, especificando una ley
desucesión en un espacio de muestra adecuadamente definido. No hay reglas
difíciles para
C
B O
A n B
O B
O B
n
n
(a) (b)
O B
n
C C C C
O B C O B
n n
(c)
Figura 1.6: Visualización y verificación de varias propiedades de las leyes de probabilidad
utilizando diagramas de Venn. Si A A - B, entonces B es la unión de los dos eventos
desarticulados A y Ac á B;véase el diagrama (a). Por lo tanto, por el axioma de la aditividad,
hemos
P(B) á P(A) + P(Ac á B)á P(A),
donde la desigualdad se deriva del axioma de nonnegativity, y verifica la propiedad (a).

A partir del diagrama (b), podemos expresar los eventos A - B y B como sindicatos de
eventos desarticulados:
A- B -A - A - (Ac - B), B (A - B) á(Ac - B).
El axioma de aditividad produce

P(A á B)- P(A) + P(Ac - B), P(B) á P(A - B) + P(Ac á B).
Restando la segunda igualdad de los primeros términos y reorganizando, obtenemos P(A-B)-
P(A)+P(B)-P(A-B)),verificando la propiedad (b). Usando también el hecho P(A - B) -0 (el
axioma de nonnegativity), obtenemos P(A - B)- P(A)+ P(B),verificando la propiedad (c)
A partir del diagrama (c), vemos que el evento A - B - C se puede expresar
como una unión de tres eventos desarticulados:
A-B -C - C - A - (Ac á B) ,A c á B ) ,Ac á B- C-C-C-C-C-C-C-C-C- C),
así que la propiedad (d) sigue como consecuencia del axioma de aditividad.
guiar este paso, aparte del requisito de que la ley de probabilidad se ajuste a los
tres axiomas. Las personas razonables pueden estar en desacuerdo sobre qué
modelo representa mejor la realidad. En muchos casos, uno puede incluso
querer utilizar un modelo algo "incorrecto", si es más simple que el "correcto" o
permite cálculos manejables. Esto es consistente con la práctica común en la
ciencia y la ingeniería, donde la elección de un modelo a menudo implica un
equilibrio entre precisión, simplicidad y capacidad de conteo. A veces, un
modelo es chosen sobre la base de datos históricos o resultados pasados de
experimentos similares. Los métodos sistemáticos para hacerlo pertenecen al
campo de las estadísticas,un tema que retomaremos en el último capítulo de
este libro.
(b) En la segunda etapa, trabajamos dentro de unmodelo probabilístico completo y
especificado y derivamos las probabilidades de ciertos eventos, o deducimos
algunas propiedades interesantes. Mientras que la primera etapa implica la
tarea a menudo abierta de conectar el mundo real con las matemáticas, la
segunda está estrechamente reguladad por las reglas de la lógica ordinaria y los
axiomas de probabilidad. Pueden surgir dificultades en este último si algunos
cálculos requeridos son complejos, o si se especifica una ley de probabilidad de
manera indirecta. Aun así, no hay lugar para la ambiguedad: todas las preguntas
concebiblestienen respuestas precisas y sólo se trata de desarrollar la habilidad
para llegar a ellas.
La teoría de la probabilidad está llena de "paradojas" en las que diferentes
métodos de cálculo parecen dar respuestas diferentes a la misma pregunta.
Invariablemente, sin embargo, estas aparentes incoherencias resultan reflejar
modelos probabilísticos mal especificados o ambiguos.
1.3 PROBABILIDAD CONDICIONAL
La probabilidad condicional nos proporciona una manera de razonar sobre el resultado

de un experimento, basado en información parcial. Estos son algunos ejemplos de
situaciones que tenemos en mente:
(a) En un experimento que involucra dos rollos sucesivos de un dado, se le dice que
la suma de los dos rollos es 9. ¿Qué tan probable es que el primer rollo fuera un
6?
(b) En un juego de adivinanzas de palabras, la primera letra de la palabra es una "t".
¿Cuál es la otra manera de que la segunda letra es una "h"?
(c) ¿Qué tan probable es que una persona tenga una enfermedad dada que una
prueba médica eraegativa?
(d) Aparece un punto en una pantalla de radar. ¿Qué tan probable es que
corresponda a un avión?
En términos más precise, dado un experimento, un espacio de muestra
correspondiente, y una ley de probabilidad, supongamos que sabemos que el
resultado está dentro de algún evento dado B. Deseamos cuantificar la probabilidad
de que el resultado también pertenezca
Sec. 1.3 Probabilidad condicional 21
a algún otro evento dado A. Por lo tanto, buscamos construir una nueva ley de
probabilidad, que tenga en cuenta este conocimiento y que, para cualquier evento
A,nos dé la probabilidad condicional de A dado | B,denotada por P(A B).
Nos gustaría que las probabilidades condicionales P(A- B) de diferentes

vísperasa constituir una ley de probabilidad legítima, que satisfaga los axiomas de
probabilidad. También deben ser coherentes con nuestra intuición en casos especiales
importantes, por ejemplo, cuando todos los resultados posibles del experimento son
igualmente probables. Por ejemplo, supongamosque los seis resultados posibles de un
troquel justo son igualmente probables. Si se nos dice que el resultado es parejo, sólo
nos quedan tres resultados posibles, a saber, 2, 4 y 6. Estos tres resultados eran
igualmente propensos a empezar, por lo que deberían seguir siendo igualmente
probables dado el conocimiento adicional de que el resultado fue parejo. Por lo tanto,
es razonable dejar que
P(el resultado es 6o el resultado es par) .
Este argumento sugiere que una definición adecuada de probabilidad condicional

cuando todos los resultados son igualmente probables,
número de elementos de A
B
P . .
Generalizando el argumento, introducimos la siguiente definición de

probabilidad condicionaly:
P ,
donde asumimos que P(B) > 0; la probabilidad condicional es indefinida si el

evento de acondicionamiento tiene cero probabilidad. En palabras, de la
probabilidad total de los elementos de B, P(A- B) es la fracción asignada a posibles
resultados que también pertenecen a A.
Condicional Probabilities Especificar una Ley de Probabilidad
Para| un evento fijo B, se puede verificar que lasprobabilidades condicionales P(A

B) forman una ley de probabilidad legítima que satisface los tres axiomas. De hecho,
la nonnegativity es clara. Además,
(B B)
()
P , ,
y el axioma de normalización también está satisfecho. De hecho, ya que tenemos P(B

| B) - P(B)/P(B) -1, toda la probabilidad condicional se concentra en B. Por lo tanto,
también podríamos descartar todos los resultados posibles fuera de B y tratar las
probabilidades condicionales como unaley desuilidad probab definida en el nuevo
universo B.
Para verificar el axioma de aditividad, escribimos para dos eventos
desarticulados A1 y A2,,
P
• P(B)
P(A1 B)+ P(A2 B)
P (B )
P (O1 ∩ B ) P (O2 ∩ B )
== + ∩ ∩
n n
P(B) P(B)
• P(A1 ? B) + P(A2 ? B),
donde para la segunda igualdad, usamos el hecho de que A1 - B y A2 - B son

conjuntos desarticulados, y para la tercera igualdad usamos el axioma de la aditividad
para la ley de probabilidad (incondicional). El argumento de una colección contada de
conjuntos separados es similar.
Dado que las probabilidades condicionales constituyen una ley de probabilidad
legítima, todas las propiedades generales de las leyes de probabilidad siguen siendo
válidas. Por ejemplo, un hecho como P(A - C) - P(A) + P(C) se traduce en elnuevo
hecho
P(A a C - C - B) á P(A- B) + P(C ? B).
Resumamos las conclusiones a las que se ha llegado hasta ahora.

Propiedades de la probabilidad condicional
• La probabilidad condicional de un evento A,dado un evento B con P(B) >
0, se define por
PAB)
(
( O |B )=
P P,,( B )
n
y especifica una nueva ley de probabilidad (condicional) en el mismo

espacio de muestra. En particular, todas las leyes de propiedades conocidas
de probabilidad siguen siendo válidas para las leyes de probabilidad
condicional.
• Las probabilidades condicionales también pueden ser vistas como una ley
de probabilidad en un nuevo universo B,porque toda la probabilidad
condicional se concentra en B. • En el caso de quelos posibles resultados
sean finitosamente muchos e igualmente probables, tenemos
AB
P.
número de elementos de
Ejemplo 1.6. Lanzamientomos una moneda justa tres veces consecutivas. Deseamos
encontrar la probabilidad condicional P(A- B) cuando A y B son los eventos
A - más cabezas que las colas su una cabeza,, B , B , 1er toss es una cabeza..
El espacio de muestra consta de ocho secuencias,
•HHH, HHT, HTH, HTT, THH, THT, TTH, TTT,},
que suponemos que es igualmente probable. El evento B consta de los cuatro elementos
HHH, HHT, HTH, HTT,por lo que su probabilidad es
P .
El evento A - B consta de los tres elementos resultados HHH, HHT, HTH, por lo que su
probabilidad es
P .
Por lo tanto, la probabilidad condicional P(A- B) es
P(A B) 3/8 3
P(A- B = =. ) á .
P(B) 4/8 4
Debido a que todos los resultados posibles son igualmente probables aquí, también
podemos calcular P(A| B) mediante un acceso directo. Podemos eludir el cálculo de P(B)y
P(A-B), ysimplemente dividir el número de elementos compartidos por A y B (que es 3)
con el número de elementos de B (quees 4), para obtener el mismo resultado 3/4.
Ejemplo 1.7. Un dado justo de 4 lados se enrolla dos veces y suponemos que los dieciséis
resultados posibles son igualmente probables. Deje que X e Y sean el resultado del
1er y el 2o rollo, respectivamente. Deseamos determinar laprobabilidad ondicional PC(A-
B) donde
,
y m toma cada uno de los valores 1, 2, 3, 4.
Al igual que en el ejemplo anterior, primero podemos determinar las probabilidades
P(A-B)y P(B)contando el número de elementos de A - B y B, respectivamente, y
dividiendo por 16. Alternativamente, podemos dividir directamente el número de
elementos de A a B con el número de elementos de B;véase la Fig. 1.7.
Ejemplo 1.8. Un equipo de diseño conservador, llamándolo C, y un equipo de diseño

innovador, llamándolo N, se les pide que diseñe por separado un nuevo producto dentro
de un mes. Por experiencias pasadas sabemos que:
(a) La probabilidad de que el equipo C tenga éxito es de 2/3.
Todos los resultados igualmente

1/16
probables
4
3
2 nd Roll Y
2
B
1
1 2 3 4
1 st Roll X
Figura 1.7: Espacio de muestra de un experimento que implica dos rollos de un troquel de 4
lados. (cf. Ejemplo 1.7). El evento de acondicionamiento B á min(X,Y ) á 2o consta
del conjunto sombreado de 5 elementos. El conjunto A a á max(X,Y ) á m- comparte

con B doselementos si m - 3 o m - 4, un elemento si m - 2, y ningún elemento si m -
1. Por lo tanto, hemos
3 o m a 4,
P a 2,
(b) La probabilidad de que el equipo N tenga éxito es 1/2.

(c) La probabilidad de que al menos un equipo tenga éxito es de 3/4.
Si ambos equipos tienen éxito, se adopta el diseño del equipo N. Suponiendo que se
produzca exactamente un diseño exitoso, ¿cuál es la probabilidad de que haya sido
diseñado por el equipo N?
Hay cuatroresultados posibles aquí, correspondientes a las cuatro combinaciones de
éxito y fracaso de los dos equipos:
SS: ambos tienen éxito, FF:ambos fallan,
SF: C tiene éxito, N falla, FS: C falla, N tiene éxito.
Se nos da que las probabilidades de estos resultados satisfacen
P , P , P .
A partir de estas relaciones, junto con la ecuación de normalización P(SS) + P(SF) + P(FS)+
P(FF) -1, podemos obtener las probabilidades de todos los resultados:
P , P , P , P .
La probabilidad condicional deseada es
P .
Uso de la probabilidad condicional para el modelado
Al construir modelos probabilísticos para experimentos que tienen un carácter

secuencial, a menudo es natural y conveniente especificar primero las probabilidades
condicionales y, a continuación, usarlas para determinar las probabilidades
incondicionales. La regla P(A-B) - P(B)P(A- B), que es una reafirmación de la definición
de probabilidad condicional, a menudo es útil en este proceso.
Ejemplo 1.9. Detección de radar. Si una aeronave está presente en un área determinada,
un radar registra correctamente su presencia con probabilidad 0,99. Si no estápresente, el
radar registra falsamente una presencia de aeronave con probabilidad 0.10. Suponemos
que un avión está presente con probabilidad 0.05. ¿Cuál es la probabilidad de falsa alarma
(una indicación falsa de la presencia de la aeronave) y la probabilidad de detección perdida
(nada se registra, aunque una aeronave esté presente)?
Una representación secuencial del espacio de muestra es apropiada aquí, como se
muestra en la Fig. 1.8. Que A y B sean los eventos
A • Una aeronave estápresente,
B • El radar registra la presencia de unaaeronave,
y considerar también sus complementos
Ac a un avión no está presente,,
Bc - El radar no registra la presencia de una aeronave..
Las probabilidades dadas se registran a lo largo de las ramas correspondientes del árbol que
describen el espacio de la muestra, como se muestra en la Fig. 1.8. Cada evento de interés
corresponde a una hoja del árbol y su probabilidad es igual al producto de las
probabilidadesasociadas con las ramas en un camino desde la raíz hasta la hoja
correspondiente. Las probabilidades deseadas de falsa alarma y detección perdida son
P(falsa alarma) á P(Ac á B)- P(Ac)P(B - Ac)a 0. 95 x 0. 10 x 0. 095,
P(detección perdida) - P(A - Bc)- P(A)P(Bc á A) a 0. 05 x 0. 01 a 0. 0005.

Extendiendo el ejemplo anterior, tenemos una regla general para calcular varias
probabilidades junto con una descripción secuencial basada en árbol de un
experimento. En particular:
(a) Configuramos el árbol para que un evento de interest se asocie a una hoja.
Vemos la ocurrencia del evento como una secuencia de pasos, a saber, los
recorridos de las ramas a lo largo de la ruta de acceso desde la raíz hasta la hoja.
(b) Registramos las probabilidades condicionales asociadas con las ramas del árbol.
(c) Obtenemos la probabilidad de una hoja multiplicando las probabilidades
registradasaaaa a lo largo de la trayectoria correspondiente del árbol.
Presentadores de
Aeronaves Perdido
P( O) 0,05 Detección
n
P( O C) 0,95 Falsa alarma

n
Aeronaves no presentes
Figura 1.8: Descripción secuencial del espacio de muestra para la detección de radar.
problema en el ejemplo 1.9
En términos matemáticos, estamos Atratando con un evento A que se

produce si y sólo si se ha producido cada uno de los varios eventos A1,...,A A n,
es decir, A a A1 a 2 a A. La ocurrencia de A se ve como una ocurrencia de A1,seguida
de la ocurrencia de A2, luego de A3, etc, y se visualiza como una trayectoria en el árbol
con n ramas, correspondiente a los eventos A1,...,An. La probabilidad de A es dada
por la regla debaja fol (véase también la Fig. 1.9).
Regla de multiplicación
Suponiendo que todos los eventos de acondicionamiento tengan una cuenta positiva,
have
−
P ∩NⅠN.o O Ⅰ = P ( O 1 ) P ( O 2 |O 1 ) P ( O 3 |O 1 ∩ O 2 ) ··· P O N |∩ NⅠN.o1 O Ⅰ .
1 n n n n n n n n 1 n
La regla de multiplicación se puede verificar escribiendo

N
P,
y mediante la definición de probabilidad condicional para reescribir el lado derecho

de arriba como
P .
Evento O 1 ∩ O 2 ∩ O 3 Evento O 1 ∩ O 2 ∩ ... ∩ O N
n n n n n n
O1 O2 O3 O N-1 ON
n n n ... n n
P (O1 ) P (O2 | O1 ) P (O3 | O1 ∩ O2 ) P ( O N| O 1 ∩ O 2 ∩ ... ∩ O N-1 )
n n n n n n n n n n
Figura 1.9: Visualización del teorema de probabilidad total. El evento de intersección A a

A1aA2oA AA n está asociado con una ruta de acceso en el árbol de una descripción secuencial
del experimento. Asociamos las ramas de esta ruta con los eventos A1,...,An, yregistramos
junto a las ramas las probabilidades condicionales correspondientes.
El nodo final de la path corresponde al evento de intersección A,y su probabilidad se
obtiene multiplicando las probabilidades condicionales registradas a lo largo de las ramas de
la ruta
P(A1 a A2o A 2o AA3) a P(A1)P(A2 ? A1) P(An ? A1 a A2o A 2o Aa a a−1). n
Tenga en cuenta que cualquier nodo intermedio a lo largo de la ruta de acceso también
corresponde a algún evento de intersección y su probabilidad se obtiene multiplicando las
probabilidades condicionales correspondientes hasta ese nodo. Por ejemplo, el evento A1 a
A2 a A3 corresponde al nodo que se muestra en la figura, y su probabilidad
es
P(A1 a A2 a A3 )3á P(A1)P(A2 ? A1)P(A3 ? A1 a A2).

Para el caso de sólo dos eventos, A1 y A2, la regla demultiplicación es simplemente

la definición de probabilidad condicional.
Ejemplo 1.10. Tres cartas se extraen de un mazo ordinario de 52 cartas sin reemplazo (las
cartas dibujadas no se colocan de nuevo en la baraja). Deseamos encontrar la probabilidad
de que ninguna de las tres cartas sea un corazón. Suponemos que en cada paso, cada una
de las cartas restantes es igualmenteprobable que se elija. Por simetría, esto implica que
cada triplete de cartas es igualmente probable que se dibuje. Un enfoque engorroso, que
no usaremos, es contar el número de todos los trillizos de cartas que no incluyen un corazón,
y dividirlo con el número de todos los trillizos de cartas posibles. En su lugar, utilizamos una
descripción secuencial del espacio de muestra junto con la regla de multiplicación (cf. Fig.
1.10). Definir los eventos
Ai a la tarjeta ith no es uncorazón,, i , 1,2,3.
Calcularemos P(A1 a A2 a A3), la probabilidad de que ninguna de las tres cartas
seaun corazón, utilizando la regla de multiplicación,
P(A1 a A2 a A3 )3á P(A1)P(A2 ? A1)P(A3 ? A1 a A2).

Tenemos
P ,
ya que hay 39 cartas que no son corazones en la baraja de 52 cartas. Dado que la primera
carta no es un oídot, nos quedamos con 51 cartas, 38 de las cuales no son corazones, y
P .
Por último, dado que las dos primeras cartas extraídas no son corazones, hay 37 cartas que
no son corazones en el mazo de 50 cartas restante, y
P .
Estas probabilidades se registran a lo largo de las ramas correspondientes del árbol que
describen el espacio de la muestra, como se muestra en la Fig. 1.10. La probabilidad deseada
ahora se obtiene multiplicando las probabilidades registradas a lo largo de la ruta
correspondiente del árbol:
P .
Tenga en cuenta que una vez que las probabilidades se registran a lo largo del árbol,
la probabilidad de varios otros eventos se puede calcular de forma similar. Por ejemplo,
P(1o no es un corazón y 2o es un corazón), ,
P(1o dos no son corazones y 3o es un corazón) .
Not a Heart
37 /50
Not a Heart Corazó

38 /51 13 /50n
Not a Heart Corazó

39 /52 n
13 /51
Corazó
13 /52n
Figura 1.10: Descripción secuencial del espacio de muestra del problema de selección de 3
tarjetas en el ejemplo 1.10.
Sec. 1.4 Teorema de probabilidad total y regla de Bayes 31
Ejemplo 1.11. Una clase compuesta por 4 estudiantes de posgrado y 12 estudiantes de

pregrado se divide aleatoriamente en 4 grupos de 4. ¿Cuál es la probabilidad de que cada
grupo incluya a un estudiante graduado? Interpretamos aleatoriamente para significar que
dada la asignación de algunos estudiantes a ciertas ranuras, cualquiera de los estudiantes
restantes es igualmente probable que se asigne a cualquiera de las ranuras restantes. A
continuación, calculamos la probabilidad deseada utilizando la regla de multiplicación,
basada en larasgadura secuencial de descque se muestra en la Fig. 1.11. Denotemos
a los cuatro estudiantes graduados por 1, 2, 3, 4, y consideremos los eventos
Los1o de los alumnos 1 y 2 están en grupos diferentes,A2
, los estudiantes 1, 2 y 3 están en grupos diferentes,,
Los alumnos1, 2, 3 y 4 están en grupos diferentes..
Calcularemos P(A3) usando la regla de multiplicación:
P(A3) á P(A1 a A2 A A3) á P(A1)P(A2 ? A1)P(A3 ? A1 a A2).
Tenemos
P ,
ya que hay 12 espacios para estudiantes en grupos distintos al del estudiante 1, y hay 15
espacios para estudiantes en general, excluyendo al estudiante 1. Semejantemente
P ,
ya que hay 8 espacios para estudiantes en grupos distintos del de los estudiantes 1 y 2, y
hay 14ranuras de tachuelas, excluyendo a los estudiantes 1 y 2. También,
P ,
ya que hay 4 espacios para estudiantes en grupos distintos al de los estudiantes 1, 2 y 3, y

hay 13 espacios para estudiantes, excluyendo a los estudiantes 1, 2 y 3. Por lo tanto, la
probabilidad deseada es
,
y se obtiene multiplicando las probabilidades condicionales a lo largo de la ruta
correspondiente del árbol de la Fig. 1.11.
1.4 TEOREMA DE PROBABILIDAD TOTAL Y REGLA DE BAYES
En esta sección, exploraremos algunas aplicaciones de probabilidad condicional.

Comenzamos con el siguiente teorema, que a menudo es útil para calcular las
probabilidades de varios eventos, utilizando un enfoque de "dividir y conquistar".
Los estudiantes 1, 2, 3 y 4 hijo
es diferentes grupos
4 /13
Los estudiantes 1, 2 y 3 hijo
es diferentes grupos
8 /14
Los estudiantes 1 y 2 hijo
es DiferentesGrupos ent
12 /15
Figura 1.11: Descripción secuencial del espacio de muestra del problema del alumno en el
ejemplo 1.11.
Teorema de probabilidad total

Deje que A1,...,An sean eventos desarticulados que formen una partición del
espacio de muestra (cada resultado posible se incluye en uno y solo uno de los
eventos A1,...,An) y supongaque P(Ai) > 0, para todos los i a 1,...,n. Entonces, para
cualquier evento B,tenemos
P(B) á P(A1 ) B+ á + P(An - B)
• P(A1)P(B - A1) + ? + P(An)P(B - An).

El teorema se visualiza y se prueba en la Fig. 1.12. Intuitivamente, estamos
particionando el espacio de muestra en una serie de escenarios (eventos) Ai. Entonces,
la probabilidad de que B ocurra es un promedio ponderado de su probabilidad
condicional bajo cada escenario, donde cada escenario se pondera de acuerdo con su
probabilidad (incondicional). Uno de los usos del teorema es calcular la probabilidad
de varios eventos B para los cuales lasprobabilidades condicionales P(B - for which
the co Ai)son conocidos o fáciles de derivar. La clave es elegir apropiadamente la
partición A1,...,An, y esta opción es a menudo sugerida por la estructura
delproblema. Estos son algunos ejemplos.
Ejemplo 1.12. Entras en un torneo de ajedrez donde tu probabilidad de ganar un juego

es de 0,3 contra la mitad de los jugadores (llámalos tipo 1), 0.4 contra una cuarta parte de
los jugadores (llámalos tipo 2), y 0.5 contra el cuarto restante de los jugadores (llámalos tipo
3). Juegas un juego contra unoponente alazar. ¿Cuál es la probabilidad de ganar?
Que Ai ser el evento de jugar con un oponente de tipo i. Tenemos
P(A1) a0. 5, P(A2) a0. 25, P(A3) a0. 25.

O1 O1 ∩ B
O1 n n
O2
n B n O2 ∩ B
O3 n
B
n
O3 ∩ B
n
O2 O3
BC
n n
Figura 1.12: Visualización y verificación del teorema de probabilidad total. Los eventos
A1,...,An forman una partición del espacio de muestra, por lo que el evento B se puede
descomponer en la unión desarticulada de sus intersecciones Ai a B con los conjuntos

Ai, esdecir,
B). B (A1 á B) -A.
Usando el axioma de aditividad, se deduce que
P(B) á P(A1 ) B+ á + P(An á B).
Dado que, por definición de probabilidadcondicional, hemos
P(Ai - B)- P(Ai)P(B - Ai),
los rendimientos de igualdad anteriores
P(B)á P(A1)P(B - A1) + ? + P(An)P(B - An).
Para una vista alternativa, considere un modelo secuencial equivalente, como se
muestra a la derecha. La probabilidad de la hoja Ai -B es el producto P(Ai)P(B - Ai) delas

probabilidades a lo largo del camino que conduce a esa hoja. El evento B consiste en las
tres hojas resaltadas y P(B) se obtieneañadiendo sus probabilidades.
Que también B sea el evento de ganar. Tenemos
P(B ? A1) a 0. 3, P(B ? A2) a 0. 4, P(B ? A3) a 0. 5.
Por lo tanto, por el teorema de probabilidad total, la probabilidad de ganar es
P(B)á P(A1)P(B - A1) + P(A2)P(B - A2) + P(A3)P(B - A3)
0. 5 x 0. 3 + 0. 25 x 0. 4 + 0. 25 x 0. 5 x
0. 375.
Ejemplo 1.13. Rodamos un buen dado de cuatro caras. Si el resultado es 1 o 2, rodamos una
vez más, pero de lo contrario, nos detenemos. ¿Cuál es la probabilidad de que la suma total
de nuestros rollos sea de al menos 4?
Que seael evento que el resultado del primer rollo es i, y tenga en
cuentaque P(Ai) -1/4 para cada i. Deje que B sea el evento de que el total de la
suma es de al menos 4. Dado el evento A1, el total de la suma será al menos 4 si el
segundo rollo resulta en 3 o 4, lo que sucede con lautilidad probab1/2. Del mismo modo,
dado el evento A2, el total de la suma será al menos4 si el segundo rollo resulta en
2, 3 o 4, lo que sucede con la probabilidad 3/4. Además, dado el evento A3,nos detenemos
y el total de la suma permanece por debajo de 4. Por lo tanto,
P , P , P(B ? A3) a 0, P(B - A4) a 1.
Por el teorema de probabilidad total,
P .
El teorema de probabilidad total se puede aplicar repetidamente para calcular

las probabilidades en experimentos que tienen un carácter secuencial, como se
muestra en el ejemplo siguiente.
Ejemplo 1.14. Alice está tomando una clase de probabilidad y al final de cada semana puede
estar actualizada o puede haberse quedado atrás. Si está actualizada en una semana
determinada, la probabilidad de que esté actualizada (o detrás) en la próxima semana es
0,8 (o 0,2, respectively). Si está atrasada en una semana determinada, la probabilidad de
que esté actualizada (o detrás) en la próxima semana es 0,6 (o 0,4, respectivamente). Alice
está (de forma predeterminada) actualizada cuando inicia la clase. ¿Cuál es la probabilidad
de que esté actualizada tressemanas?
Deje que Ui y Bsean los eventos que Alice está al día o detrás, respectivamente,
después de i semanas. De acuerdo con el teorema de probabilidad total, la probabilidad
deseada P(U3) es dadapor
P(U3) á P(U2)P(U3 ? U2) + P(B2)P(U3 ? B2) á P(U2) á0. 8 + P(B2) á0. 4.
Las probabilidades P(U2) y P(B2) también se pueden calcularutilizando el teorema de

probabilidad total:
P(U2) á P(U1)P(U2 ? U1) + P(B1)P(U2 ? B1) á P(U1) á0. 8 + P(B1) á0. 4,
P(B2) á P(U1)P(B2 ? U1) + P(B1)P(B2 ? B1) á P(U1) á0. 2 + P(B1) á0. 6.
Finalmente, desde que Alice comienza su clase al día, hemos
P(U1) a0. 8, P(B1) a0. 2.
Ahora podemos combinar las tres ecuaciones anteriores para obtener
P(U2) a0. 8 x 0. 8 + 0. 2 x 0. 4 x 0. 72,
P(B2) a0. 8 x 0. 2 + 0. 2 x 0. 6 x 0. 28.

y utilizando las probabilidades anteriores en la fórmula para P(U3):
P(U3) a0. 72 x 0. 8 + 0. 28 x 0. 4 x 0. 688.
Tenga en cuenta que podríamos haber calculado la probabilidad deseada

P(U3)mediante la construcción de una descripción de árbol del experimento, calculando la
probabilidad de cada elemento de U3 utilizando la regla de multiplicación en el árbol,
y agregando. En experimentos con un carácter secuencial, a menudo se puede elegir entre
utilizar laregla de licencia multip o elteorema de probabilidad total para el cálculo de
varias probabilidades. Sin embargo, hay casos en los que el cálculo basado en el teorema de
probabilidad total es más conveniente. Por ejemplo, supongamos que estamos
interesados en la probabilidad P(U20) de que Alice esté actualizada después
de20 semanas. Calcular esta probabilidad utilizando la regla de multiplicación es muy
engorroso, porque el árbol que representa el experimento tiene 20 etapas de profundidad
y tiene 220 hojas. Por otro lado, con un ordenador, una caclulación secuencial utilizando las
fórmulas de probabilidad total
P(Ui+1)á P(Ui) -0. 8 + P(Bi) á0. 4,
P(Bi+1)á P(Ui) á0. 2 + P(Bi) á0. 6,
y las condiciones iniciales P(U1) a0. 8, P(B1) a0. 2 es muy simple.
El teorema de probabilidad total se utiliza a menudo junto con el siguiente

teorema celebrado, que relaciona las probabilidades condicionales de la forma P(A|
B) con probabilidades condicionales de la forma P(B - A), en el que el orden del
acondicionamiento es venerarsed.
Regla de Bayes
Deje que A1,A2,...,An sean eventos desarticulados que formen una partición del
espacio de muestra, y supongamos que P(Ai) > 0, para todos los i. Entonces,
para cualquier evento B tal que P(B) > 0, tenemos
P
P(Ai)P(BAi)
= |.
P(A1)P(B - A1) + ? + P(An)P(B - An)
Para verificar la regla de Bayes, tenga en | cuenta que P(Ai)P(B Ai) y P(Ai ?
B)P(B) soniguales, porque ambos son iguales a P(Ai - B). Esto produce la primera
igualdad. La segunda igualdad se deriva de la primera utilizando el teorema de
probabilidad total para reescribir P(B).
La regla de Bayes se utiliza a menudo para la inferencia.. Hay una serie de
"causas" que pueden resultar en un cierto "efecto". Observamos el efecto, y queremos
inferir la causa. Los eventos A1,...,An están asociados a las causas y el evento B
representa el efecto. La probabilidad P(B ? A)ique el efecto se observará cuando la
causa Ai esté presente equivale a un modelo probabilístico de la relación causa-
efecto (cf. Fig. 1.13). Dado que se ha observado el efecto B, deseamos evaluar la
probabilidad (condicional) P(Ai | B) que la causa Ai está presente..
Causa 3 B O1 ∩ B
Otro n
Causa 1
O1
tumor maligno O1 BC
n
n B
O2 ∩ B
B O2 n
Efecto n
Causa 2
Sombra observada
O3 BC
Sin lo maligno n
Tumor
O2 O3 B O3 ∩ B
n
n n
BC
Figura 1.13: Un ejemplo del contexto de inferencia que está implícito en la regla de Bayes.
Observamos una sombra en la radiografía de una persona (este es el evento B,el "efecto")
y queremos estimar la probabilidad de tres causas potenciales mutuamente excluyentes y
colectivamente exhaustivas: cause 1 (evento A1) es que hay un tumor maligno, causa 2
(evento A2) es que hay un tumor no maligno, y causa 3 (evento A3)corresponde a razones
distintas de un tumor. Asumimos que conocemos las probabilidades P(Ai) y P(B - Ai), i á
1,2,3. Dado quevemos una sombra (ocurre el evento B), la regla de Bayes da las
probabilidades condicionales de las diversas causas como
P .
Para una vista alternativa, considere un modelo secuencial equivalente, como se
muestra a la derecha. La probabilidad P(A1 ? B) de un tumor maligno es la capacidadde
robo p de la primera hojaresaltada, que es P(A1 - B), dividido por la

probabilidad total de lashojas resaltadas, que es P(B).
Ejemplo 1.15. Volvamos al problema de detección de radar del Ejemplo 1.9 y

1.8. Dejar
A •un avión está presente,,
B El radar registra la presencia de unaaeronave.
Se nos da que
P(A)a 0. 05, P(B ? A) a 0. 99, P(B ? Ac)a 0. 1.

Aplicando la regla de Bayes, con A A1 a A y A2 a C,obtenemos
P(registros de radar presentes de aeronaves) - P(AA- B)
P(A)P(BA)
= |
P(B)
Ejemplo 1.16. Volvamos al problema del ajedrez del Ejemplo 1.12. Aquí Ai es
el evento de conseguir un oponente de tipo i, y
P(A3) a0. 25.
P(A1) a0. 5, P(A2) a0. 25,
Además, B es el evento de ganar, y
P(B ? A1) a 0. 3, P(B ? A2) a 0. 4, P(B ? A3) a 0. 5.

Supongamos que ganas. ¿Cuál es la probabilidad P(A1 ? B) que tenía un oponente del tipo
1?
Usando la regla de Bayes, tenemos
P P(A1)P(B -
A1)
Sec. 1.5 Independencia 39
1.5 INDEPENDENCIA
Hemos introducido la probabilidad condicional P(AA- B) para capturar la información

parcial que proporciona el evento B sobre el evento A. Un caso especial
interesante e importante surge cuando la ocurrencia de B no proporciona
información y no proporcionala probabilidad deque se haya producido A, es
decir,
P(A- B) á P(A).
Cuando se mantiene la igualdad anterior, decimos que A es independiente de B.
Tenga en cuenta que por la definición P(A- B) - P(A - B))/P(B), esto es equivalentea
P(A - B)- P(A)P(B).
Adoptamos esta última relación como la definición de independencia, ya que puede

utilizarse incluso si P(B) -0, en cuyo caso P(A- B) es indefinido. La simetría de esta
relación también implica que la independencia es una propiedad simétrica; es decir, si
A es independiente de B, entonces B es independiente de A,y podemos decir
inequívocamente que A y B son eventos independientes. independent events.
La independencia es a menudo fácilde comprender intuitivamente. Por ejemplo,
si la ocurrencia de dos eventos se rige por procesos físicos distintos y no interactivos,
dichos eventos resultarán ser independientes. Por otro lado, la independencia no se
visualiza fácilmente en términos del espacio de muestra. Un primer pensamiento
común es que dos eventos son independientes si son desarticulados, pero de hecho lo
contrario es cierto: dos eventos desarticulados A y B con P(A) > 0 y P(B) > 0 nunca
son independientes, ya que su intersección A - B está vacía y tiene probability 0.
Ejemplo 1.17. Considere un experimento que involucre dos rollos sucesivos de un dado de
4 lados en el que los 16 resultados posibles son igualmente probables y tienen probabilidad
1/16.
(a) ¿Son los eventos
Los resultadosde i a 1er rollo en i}, Bj - 2o rollo dan como resultado j},
independent? Tenemos
P el resultado de los dos rollos es ( ,

número de elementos de Ai 4
P(Ai), =,
número total de posibles resultados 16 número de
elementos de Bj 4
P .
Observamos que P(Ai -Bj)- P(Ai)P(Bj), y se verifica la independenciade Ai y Bj.

Por lo tanto, nuestra elección de la ley de probabilidad uniforme discreta (que podría
haber parecido arbitraria) modela la independencia de los dos rollos.
(b) ¿Son los eventos
A s 1er rollo es un 1o, B - suma de los dos rollos es un 5 ,independiente?
La respuesta aquí no es del todo obvia. Tenemos
P el resultado de los dos rollos es (1,4), ,

y también
Un
P.
número total de posibles resultados 16
El evento B consiste en los resultados (1,4), (2,3), (3,2) y (4,1), y
B
P.
Por lo tanto, vemos que P(A - B )- P(A)P(B), y loseventos A y B son

independientes.
(c) ¿Son los eventos
A • El máximo de los dos rollos es de 2o,, B , mínimo de los dos rollos es de

2o,,
¿Independiente? Intuitivamente, la respuesta es "no" porque el mínimo de los dos

rollos nos dice algo sobre el máximo. Por ejemplo, si el mínimo es 2, el máximo no
puede ser 1. Más precisamente, para verificar que A y B no son independientes,
calculamos
El thresultado de los dos rollos es (2,2), ,
y también
número de elementos de A 3
P(A) - ,
número de elementos de B 5
P(B) . .
Tenemos P(A)P(B) a15/(16)2, de modoque P), y A y

B no son independientes.
Independencia condicional
Señalamos anteriormente que las probabilidades condicionales de los

acontecimientos, condicionadas a un evento en particular, forman una ley de
probabilidad legítima. Por lo tanto, podemos hablar de la independencia de diversos
acontecimientos con respecto a estaley condicional. En particular, dado un evento
C,los eventos A y B se denominan condicionalmente independientes si
P(A á B - C) á P(A- C)P(B ? C).
La definición de la probabilidad condicional y el rendimiento de la regla de

multiplicación
Después de cancelar el factor P(B ? C), asumida como cero, vemos que la
independencia condicional es la misma que la condición
P(A- B - C) - P(A- C).
En palabras, esta relación indicasi se sabe que se ha producido C, el conocimiento

adicional de que B también ocurrió no cambia la probabilidad de A.
Curiosamente, la independencia de dos eventos A y B con respecto a la ley de

probabilidad incondicional, no implica independencia condicional, y viceversa, como
se ilustra en los dos ejemplos siguientes.
Ejemplo 1.18. Considere dos lanzamientos de moneda justa independientes, en los que los
cuatro resultados posibles son igualmente likely. Dejemos que
H1 x 1o toss es una cabeza,,
D - Los dos tosses tienen resultados diferentes..
Los eventos H1 y H2 son (incondicionalmente) independientes. Pero
P , P , P(H | 1 á H2 D) á 0,
para que P ), y H1, H2 no sean condicionalmente

independientes.
Ejemplo 1.19. Hay dos monedas, una azul y otra roja. Elegimos uno de los dos al azar, cada
uno siendo elegido con probabilidad 1/2, y procedemos con dos tosses independientes. Las
monedas están sesgadas: con la moneda azul, la probabilidad de cabezas en cualquier
lanzamiento dado es 0.99, whereas para la moneda roja es 0.01.
Deje que B sea el evento de que la moneda azul fue seleccionada. Que también yo
sea elevento que el ith toss resultó en cabezas. Dada la elección de una moneda, los
eventos H1 y H2 son independientes, debido a nuestra asunción de lanzamientos
independientes. Por lo tanto,
P(H1 á H2 ? B) á P(H1 ? B)P(H2 ? B) a 0. 99 x 0. 99.
Por otro lado, los eventos H1 y H2 no son independientes. Intuitivamente, si se nos dice
que el primer lanzamiento resultó en cabezas, esto nos lleva a sospechar que la moneda
azul fue seleccionada, en cuyo caso, esperamos que el segundo lanzamiento también
resulte en cabezas. Matemáticamente, usamos el teorema de probabilidad total para
obtener
P ,
como se debe esperar de las consideraciones de simetría. Del mismo modo, tenemos P(H2)
a1/2. Ahora observen que
Por lo tanto, P ), y los eventos H1 y H2 son dependientes,

aunque sean condicionalmente independientes dado b.
Como se mencionó anteriormente, si A y B son independientes, la ocurrencia

de B no proporciona ninguna nueva información sobre la probabilidad de que
ocurra A. A continuación, es intuitivo que la no ocurrencia de B también debe
proporcionar ninguna información sobre la probabilidad de A. De hecho, se puede
verificar que si A y B son independientes, lo mismo ocurre con A y Bc (véanse
los problemas teóricos). Ahora resumimos.
Independencia
• Se dice quent if dos eventos A y B no
P(A - B)- P(A)P(B).
Si además, P(B) > 0, la independencia es equivalente a la condición
P(A- B) á P(A).
• Si A y B son independientes, también lo son A y Bc.
• Se dice que dos eventos A y B son condicionalmente independientes,
dado otro evento C con P(C) > 0, si
P(A á B - C) á P(A- C)P(B ? C).
Si además, P(B a C) > 0, la independencia condicional es equivalente a la

condición
P(A- B - C) - P(A- C).
• La independencia no implica independencia condicional, y viceversa.
Independencia de una colección de eventos
La definición de independencia se puede extender a varios eventos.
Definición de Independencia de Varios Eventos

Decimos que los eventos A1,A2,...,An son independientes si
P , para cada subconjunto S de 1,2,...,n}.
Si tenemos una colección de tres eventos, A1, A2y A3, la independencia

equivale a satisfacer las cuatro condiciones
P(A1 a A2)á P(A1)P(A2),
P(A1 a A3)á P(A1)P(A3),
P(A2 a A3)á P(A2)P(A3),

P(A1 a 2 a A A3 )3á P(A1)P(A2)P(A3)..
Las tres primeras condiciones simplemente afirman que los dos eventos son
independientes, una propiedad conocida como independencia por pares. Pero la
cuarta condición también es importante y no sigue de los tres primeros. Por el
contrario, la cuarta condición no implica lostres primeros; véanse los dos ejemplos
siguientes.
Ejemplo 1.20. La independencia por pares no implica independencia.

Considere dos lanzamientos de monedas justas independientes y los siguientes eventos:
D - los dos tosses tienen resultadosdiferentes.
Los eventos H1 y H2 son independientes, por definición. Para ver que H1 y D son
independientes, observamos que
P(H D)
1/4 1
P . .
Del mismo modo, H2 y D son independientes. Por otro lado, hemos
P ,
y estos tres eventos no son independientes.
Ejemplo 1.21. La igualdad P(A1 a AA 2 a A3) a P(A1)P(A2)P(A3) no es suficiente para la
independencia. Considere dos rollos independientes de un dado justo, y los siguientes
eventos:
A El primer rollo es 1, 2 o3o,
B El primer rollo es de 3, 4 o5o,
C La suma de los dos rollos. es de 9o.

Tenemos
P ,
P , P
Por lo Atanto, los tres eventos A , B, y C no son independientes, y de hecho no hay dos
de estos eventos son independientes. Por otro lado, hemos
P .
La intuición detrás de la independencia de una colección de eventos es análoga

al caso de dos eventos. Independencia significa que la ocurrencia ono-occ urrencia de
cualquier número de eventos de esa colección no lleva ninguna información
sobre los eventos restantes o sus complementos. Por ejemplo, si los eventos
A1,A2,A3,A4 son independientes, se obtienen relaciones como
P(A1 a A2o | A3 a A4) a P(A1 x A2)
O
P );
ver los problemas teóricos.
Fiabilidad
En modelos probabilísticos de sistemas complejos que implican varios componentes,

a menudo es conveniente suponer que los componentes se comportan
"independientemente" unos de otros. Esto normalmente simplifica los cálculos y el
análisis, como se muestra en el ejemplo siguiente.
Ejemplo 1.22. Conectividad de red. Una red informática conecta dos nodos A y B a través
de los nodos intermedios C, D, E, F, como se muestra en la Fig. 1.14(a). Para cada par de
nodos conectados directamente, digamos i y j, hay una probabilidad dada pij que el
enlace de i a j está para arriba. Suponemos que los errores de enlace son
independientes
0.8 E
C 0.9
0.9
0.95 F
O 0.85 B
n
0.75 0.95
D
(O)
n
1
1 2 3 2
Conexión de serie Conexión paralela

(b)
Figura 1.14: (a) Red para el ejemplo 1.22. El número junto a cada enlace (i,j) indica la
probabilidad de que el enlace esté para arriba. (b) Serie y conexiones
paralelas de tres componentes en un problema de fiabilidad.
el uno del otro. ¿Cuál es la probabilidad de que haya un trayecto que conecta A y B en el
cual todos los links están para arriba?
Este es un típico problem de evaluar la fiabilidad de un sistema que consiste en
componentes que pueden fallar de forma independiente. Este sistema a menudo puede
dividirse en subsistemas, donde cada subsistema consta a su vez de varios componentes
que están conectados en serie o en parallel;véase la Fig. 1.14(b).
Deje que un subsistema consista en los componentes 1,2,...,m, y deje que pi sea la
probabilidad de que el componente i esté arriba ("éxito"). Entonces, un subsistema
de serie tiene éxito si todos sus componentes están arriba, por lo que su probabilidad de
éxito es el producto de las probabilidades de éxito de los componentes correspondientes,
es decir,
P(el subsistema de la serie tiene éxito) a p1p2o ··· pm.
Un subsistema paralelo tiene éxito si alguno de sus componentes tiene éxito, por lo que su
probabilidad de fallo es el producto de las probabilidades de fallo de los componentes
correspondientes, es decir,
P(el subsistema paralelo se realiza correctamente) a 1 p(el subsistema paralelo falla)

• 1o (1 á p1)(1 a p2) (1o pm).
Volviendo ahora a la red de la Fig. 1.14(a), podemos calcular la probabilidad de éxito

(una ruta de acceso de A a B está disponible) secuencialmente, utilizando las fórmulas
anteriores, y comenzando desde el final. Vamos a utilizar la notación X - Y para denotar el
evento de que hay una conexión (posiblemente indirecta) desde el nodo X al nodo Y .
Entonces,
P(A - C y C - B)á P(A - C)P(C - B) -0. 9 x 0. 946 a 0. 851,
P(A - D y D - B)á P(A - D)P(D - B) -0. 75 x 0. 95 x 0. 712,
y finalmente obtenemos la probabilidad deseada
Pruebas independientes y las probabilidades binomiales
Si un experimento implica una secuencia de etapas independientes pero idénticas,

decimos que tenemos una secuencia de ensayos independientes. En el caso especial
en el que lasre son sólo dos resultadosposibles en cada etapa, decimos que tenemos
una secuencia de ensayos independientes de Bernoulli. Los dos resultados posibles
pueden ser cualquier cosa, por ejemplo, "llueve" o "no llueve", pero a menudo
pensaremos en términos de lanzamientos de monedas y nos referimos ados
resultados como "cabezas" (H)y "colas" (T).
Considere un experimento que consiste en n lanzamientos independientes de
una moneda sesgada, en el que la probabilidad de "cabezas" es p, donde p es algún
número entre 0 y 1. En este contexto, la independencia significa que los eventos
A1,A2,...,An son independientes, donde Ai áith toss es una cabeza.
Podemos visualizar ensayos independientes de Bernoulli por medio de una

descripción secuencial, como se muestra en la Fig. 1.15 para el caso en el que
n.o 3. La probabilidad condicional de que cualquier toss sea una cabeza, condicionada
a los resultados de cualquier tosses anterior es p, debido aladependencia. Por lo
tanto, multiplicando las probabilidades condicionales a lo largo de la trayectoria
correspondiente del árbol, vemos que cualquier resultado particular (secuencia de 3
largos de cabezas y colas) que implique cabezas k y colas de 3 x k tiene probabilidad
pk(1 xp)3xk. Esta fórmula se extiende al caso de un número general n de tosses.
Obtenemos que la probabilidad de cualquier secuencia n-larga en particular que
contenga cabezas k y colas n a k es pk(1 á p)nak, para todoslos k de 0 a n.
Ahora consideremos la probabilidad p(k) - P(k cabezas a subir
en una secuencia n-toss),
P Hhh 3
Prob ? p
Hh
P
Hht 2
1- P Prob á p (1 - p)
H
P Hth
2
P 1- P Prob á p (1 - p)
Ht
1- P Htt
2
P Prob á p(1 - p)
Thh
TH
P 2
1- P Prob á p (1 - p)
1- P Tht
T P
Tth 2
Prob á p(1 - p)
1- P
Tt 2
1- P Ttt Prob á p(1 - p)
Prob (1 - p)3
Figura 1.15: Descripción secuencial del espacio de muestra de un experimento que implica
tres lanzamientos independientes de una moneda sesgada. A lo largo de las ramas del árbol,
registramos las probabilidades condicionales correspondientes, y por la regla de
multiplicación, la probabilidad de obtaining una secuencia particular de 3 toss se calcula
multiplicando las probabilidades registradas a lo largo de la ruta correspondiente del árbol.
que desempeñará un papel importante más adelante. Mostramos anteriormente que

la probabilidad de cualquier secuencia dada que contenga cabezas k es pk(1 á p)nak,
por lo quetenemos
Dónde
Número de secuencias distintasde n-toss que contienen k cabezas.
Los números (llamados "n choose k") se conocen comocoeficientes

binomiales,mientras que las probabilidades p(k) se conocen comoprobabilidades
binomiales. Utilizando un argumento de conteo, que se dará en la Sección 1.6, se
donde para cualquier entero positivo que tenemos
i! , 1 , 2o, (i 1) ? i,
Sec. 1.6 Contando∗ 51
y, por convención, 0! N.o 1. Se esboza una verificación alternativa en los problemas

teóricos. Tenga en cuenta que las probabilidades binomiales p(k) deben añadir a1,
mostrando así la fórmula binomial
Ejemplo 1.23. Grado de servicio. Un proveedor de servicios de Internet ha instalado

módems c para satisfacer las necesidades de una población de n clientes. Se estima
que en un momento dado, cada cliente necesitará una conexión con la probabilidad p,
independientemente de los demás. ¿Cuál es la probabilidad de que haya más clientes que
necesiten una conexión que los módems?
Aquí estamos interesados en la probabilidad de que más que los clientes de c
necesiten simultáneamente una conexión. Es igual a
Dónde
son las probabilidades binomiales.
Este ejemplo es típico de los problemas de dimensionamiento de la capacidad de una
instalación para atender las necesidades de una población homogénea, que consiste en
clientes que actúan de forma independiente. El problema es seleccionar el tamaño c para
alcanzar una cierta probabilidad de umbral (a veces llamada grado de servicio)que
ningún usuario se deja sin ser atendido.
1.6CUENTAS ?
El cálculo de las probabilidades a menudo implica elounting del número de resultados

en varios eventos. Ya hemos visto dos contextos en los que surge ese conteo.
(a) Cuando el espacio de la muestra tiene un número finito de resultados
igualmente probables, de modo que se aplica la ley de probabilidad uniforme
discreta. Entonces, la probabilidad de cualquier evento A es dada por
Número de elementos de A
P(A) , ,
Número de elementos de la serie de elementos de la serie de
elementos de la serie de
e implica contar loselementos de A y de la serie.
(b) Cuando queremos calcular la probabilidad de un evento A con un número finito

de resultados igualmente probables, cada uno de los cuales tiene una
probabilidad ya conocida p. Entonces la probabilidad de A es dada por
P(A) á p ? (Número de elementos de A),

e implica contar el número de elementos de A. Un ejemplo de este tipo es el
cálculo de la probabilidad de k cabezas en n lanzamientos de moneda (las
probabilidades binomiales). Hemos visto allí que la probabilidad de cada
secuencia distinta que implica cabezas k se obtiene fácilmente, pero el cálculo
del número de todas estas secuencias es algo intrincado, como se verá en breve.
Si bien counting es en principio sencillo, con frecuencia es difícil; el arte de contar
constituye una gran parte de un campo conocido como combinatoria. En esta sección,
presentamos el principio básico de contar y aplicarlo a una serie de situaciones que a
menudo se encuentran en modelos probabilísticos.
El principio del escrutinio
El principio de conteo se basa en un enfoque de división y conquista, mediante el cual

el conteo se desglosa en etapas a través del uso de un árbol. Por ejemplo, considere
un experimento que consta de dos etapas consecutivas. Los resultadosposibles de la
primera etiqueta son a1,a2,...,am;los posibles resultados de la segunda etapa son
b1,b2,...,bn. A continuación, los posibles resultados del experimento de dos etapas son
todos los posibles pares ordenados (aai,bj), i a 1,...,m, j a 1,...,n. Tenga en cuenta
que el número de estos pares ordenados es igual a mn. Esta observación puede
generalizarse de la siguiente manera (véase también la Fig. 1.16).
......
.... Hojas
......
......
N1 N2 N3 N4
Opciones Opciones Opciones Opciones
Etapa 1 Etapa 2Stage 3Stage 4
Figura 1.16: Ilustración del principio básico de escrutinio. El recuento se lleva a cabo en
etapas r ( r - 4 en la figura). La primera etapa tiene n1 resultados posibles. Para cada
resultado posible de las primeras etapas i - 1, hay ni resultados posibles en la iia etapa.
El número de hojas es n1n2 ? nr. Este es el recuento deseado.
El principio del escrutinio

Considere un proceso que consta de etapas r. Supongamos que:
(a) Hay n1 resultados posibles para la primera etapa.
(b) Para cada resultado posible de la primera etapa, hay n2 resultados posibles
en la segunda etapa.
(c) En términos más generales, para todos los resultados posibles de las primeras
etapas i - 1, hay ni resultados posibles en la iia etapa.
A continuación, el número total de posibles resultados delproceso r-stage es r
n1 ? n2 ? nr.
Ejemplo 1.24. El número de números de teléfono. Un número de teléfono es una secuencia

de 7 dígitos, pero el primer dígito tiene que ser diferente de 0 o 1. ¿Cuántos números de
teléfono distintos hay? Podemos visualizar la elección de una secuencia como un proceso
secuencial, donde seleccionamos un dígito a la vez. Tenemos un total de 7 etapas, y una
opción de uno de cada 10 elementos en cada etapa, excepto en la primera etapa donde sólo
tenemos 8 opciones. Por lo tanto, la respuesta es
Ejemplo 1.25. El número de subconjuntos de unconjunto de elementos n.o. n

Considere un nn -element set ás1,s2,...,sn.}. ¿Cuántos subconjuntos tiene (incluido
él mismo y el conjunto vacío)? Podemos visualizar la elección de un subconjunto como un
proceso secuencial donde examinamos un elemento a la vez y decidimos si lo incluimos en
el conjunto o no. Tenemos un total de n etapas, y una opción binaria en cada
etapa. Por lo tanto, el número de subconjuntos es el número de
.
subconjuntos . ···
n veces
Cabe señalar que el Principio de Conteo sigue siendo válido incluso si cada
resultado de la primera etapa conduce a un conjunto diferente de posibles resultados
de la segunda etapa, etc. El único requisito es que el número de posibles resultados de
la segunda etapa sea constante, independientemente delresultado de la
primeraetapa. Esta observación se utiliza en la secuela.
En lo que sigue, nos centraremos principalmente en dos tipos de argumentos de
recuento que implican la selección de objetos k de una colección de n objetos. Si el
orden de selección importa, la elección de sse llama una permutación,y de lo
contrario, se llama una combinación. A continuación, discutiremos un tipo más
general de recuento, que implica una partición de una colección de n objetos en
varios subconjuntos.
k-permutaciones
Comenzamos con n objetos distintos, y dejamos que k sea un entero positivo, con k
á n. Deseamos contar el número de diferentes maneras en que podemos seleccionar
k de estos n objetos y organizarlos en una secuencia, es decir, el número de
secuencias de objetos kdistintos. Podemos elegir cualquiera de los n objetos para
ser el primero. Después de haber elegido el primero, sólo hay nx1 opciones posibles
para la segunda; dada la elección de los dos primeros, sólo quedan n x 2 objetos
disponibles para la tercera etapa, etc. Cuando estamos listos para seleccionar el último
(el kth) objeto, ya hemos elegido k - 1 objetos, lo que nos deja con n s (k á 1)
opciones para el último. Por el Principio de Conteo, el número de secuencias posibles,
llamado k-permutaciones,,
Es
En el caso especial en el que k n n, el número de secuencias posibles, simplemente

llamadas permutaciones, es n . (n . 1) ? (n .2) 2 · 1 n n! .
(Deje k n en la fórmula para el número de k-permutaciones, y recuerde la

convención 0! - 1.)
Ejemplo 1.26. Vamos a contar el número de palabras que consisten en cuatro letras
distintas. Este es el problema de contar el número de 4 permutaciones de las 26 letras en
el alfabeto. El número deseado es
El recuento de permutaciones se puede combinar con el principio de conteo para

resolver problemas de conteo más complicados.
Ejemplo 1.27. Usted tiene n1 CDs de música clásica, n2 CDs de música rock, y n3 CDs de
música country. ¿De cuántas maneras diferentes puede organizarlos para que los CD del
mismo tipo sean contiguos?
Desglosamos el problema en dos etapas, donde primero seleccionamos el orden de
los tipos de CD, y luego el orden de los CD de cada tipo. ¡Hay 3! secuencias ordenadas de
los tipos de CD (tales como clásico/rock/país, rock/country/clásico, etc.), y hay n1! (o n2!, o
n3!) permutaciones de los CDs clásicos (o rock, o country, respectivamente). Por lo tanto,
para cada uno de los 3! Secuencias de tipo CD, hay n1! n2! n3! arreglos de CDs, y el total
deseado number es3! n1! n2! n3!.
Combinaciones
Hay n personas y estamos interesados en formar un comité de k. ¿Cuántos comités

diferentes hay? Más abstractamente, esto es lo mismo que el problema de contar el
número de kk -element subconjuntos de un determinado n-element establecido.

Observe que formar una combinación es diferente de formar una k-permutación,
porque en una combinación no hay ningún orden de los elementos seleccionados..
Así, por ejemplo, mientras que las 2 permutaciones de las letras A, B, C y D son
AB, AC, AD, BA, BC, BD, CA, CB, CD, DA, DB, DC,
las combinaciones de dos de cada cuatro de estas letras son
AB, AC, AD, BC, BD,CD.
Existe una estrecha conexión entre el número de combinaciones y el coeficiente
binomial que se introdujo en la sección 1.5. Para ver esta nota, especificar una
secuencia n-toss con cabezas k es lo mismo que seleccionar elementos k (aquellos
que corresponden a heads) del conjunto n-elemento de tosses. Por lo tanto, el
número de combinaciones es el mismo que el coeficiente binomial introducido en
la sección 1.5.
Para contar el número de combinaciones, tenga en cuenta que seleccionar una
k-permutación es lo mismo que seleccionar primero union combinado de elementos
k y luego ordenarlos. Puesto que hay k! maneras de ordenar los elementos
seleccionados k, vemos que el número de k-permutaciones es igual al número de
combinaciones por k !. Por lo tanto, el número de combinaciones posibles, es dado
por
Ejemplo 1. 28. El número de combinaciones de dos de las cuatro letras A, B, C y D se

encuentra dejando que no, 4 y k, 2. Es
,
de acuerdo con el listado dado anteriormente.
Vale la pena observar que contar argumentos a veces conducen a fórmulas que
son bastante difíciles de derivar algebraicamente. Un ejemplo es la fórmula binomial
en la Sección 1.5. Aquí hay otro ejemplo. Puesto que es el número de

subconjuntos k-element de un subconjunto n-element determinado, la suma
sobre cuenta el número de subconjuntos de todas las cardinalidades
posibles. Por lo tanto, es igual al número de todos los subconjuntos de un conjunto
de n-elementos, que es 2n,y obtenemos
Particiones
Recuerde que una combinación es una elección de k elementos de un n-elemento

establecido sin tener en cuenta el orden. Esto es lo mismo que particionar el conjunto
en dos: una parte contiene elementos k y la otra contiene el n s k restante. Ahora
generalizamos considerando particiones en más de dos subconjuntos.
Tenemos n objetos distintos y se nos dan enteros no negativos n1,n2,...,nr, cuya
suma es iguala n. Los n elementos se dividirán en grupos disjuntos r, con el grupo
ith quecontiene exactamente ni elementos. Vamos a contar de cuántas maneras se
puede hacer esto.
Formamos los grupos de uno en uno. Tenemos formas de formar el primer
grupo. Después de haber formado el primer grupo, nos quedamos con n n 1 objetos.
Tenemos que elegir n2 de ellos para formar el segundo grupo, y tenemos
opciones, etc. Usando el Principio de Conteo para este proceso r-etapas, el número
total de opciones es
que es igual a
.
Observamos que varios términos cancelan y nos quedamos con
.
Esto se llama coeficiente multinomial y generalmente se denota por
Ejemplo 1.29. Anagramas. ¿Cuántas secuencias de letras diferentes se pueden obtener

reorganizando las letras en la palabra TATTOO? Hay seis posiciones a llenar con las letras
disponibles. Cada reorganización corresponde a una partición del conjunto de las seis
posiciones en un grupo de tamaño 3 (las posiciones que obtienen la letra T), un grupo de
tamaño 1 (la posición que obtiene la letra A) y un grupo de tamaño 2 (las posiciones que
obtienen la letra O). Por lo tanto, el número deseado es
.
Es instructivo rederive esta respuesta usando un argumento alternative. (Este
argumento también se puede utilizar para rederive la fórmula del coeficiente multinomial;
ver los problemas teóricos.) Reescribamos TATTOO en la forma T 1AT2T3O1O2 fingiendo por
un momento que estamos tratando con 6 objetos distinguibles. Estos 6 objetosse pueden
reorganizar de 6! Sin embargo, cualquiera de los 3! posibles permutaciones de T 1, T1yT3, así
como cualquiera de las 2! permutaciones posibles de O1 y O2, conducen a la misma palabra.
Por lo tanto, cuando se eliminan los subíndices, ¡sólo hay 6! /(3!2! ) palabras diferentes.
Ejemplo 1.30. Una clase compuesta por 4 estudiantes de posgrado y 12 estudiantes de

pregrado se divide aleatoriamente en cuatro grupos de 4. ¿Cuál es la probabilidad de que
cada grupo incluya a un estudiante graduado? Esto es lo mismo que el Ejemplo 1.11 en la
Sección 1.3, pero ahora obtendremos el answer usando un argumento de conteo.
Primero determinamos la naturaleza del espacio de muestra. Un resultado típico es
una forma particular de dividir a los 16 estudiantes en cuatro grupos de 4. Tomamos el
término "aleatoriamente" para significar que cada partición posible es igualmenteprobable,
por lo que la pregunta de probabilidad se puede reducir a uno de contar. Según nuestra
discusión anterior, hay
diferentes particiones, y este es el tamaño del espacio de muestra.

Ahora vamos a centrarnos en el evento que cada grupo contiene un estudiante
deposgrado. La generación de un resultado con esta propiedad se puede lograr en dos
etapas:
(a) Tome a los cuatro estudiantes graduados y distribúyalos a los cuatro grupos; hay
cuatro opciones para el grupo del primer estudiante de posgrado, tres opciones para
el segundo, dos parael tercero. Por lo tanto, hay un total de 4! opciones para esta
etapa.
(b) Tome los 12 estudiantes de pregrado restantes y distribuirlos a loscuatros grupos (3
estudiantes en cada uno). Esto se puede hacer en
diferentes maneras.
Por el Principio de Conteo, el evento de interésse materializa en
diferentes maneras. La probabilidad de este evento es

Después de algunas cancelaciones, podemos ver que esto es lo mismo que la respuesta 12
8 · 4/(15 x 14 x 13) obtenido en el Ejemplo 1.11.
Aquí hay un resumen de todos los resultados de conteo que hemos desarrollado.
Resumen de los resultados del escrutinio
• Permutaciones deN Objetos: N!

• K-permutaciones deN Objetos: N!/ ( N − K)!
N N!
• Combinaciones deK de N Objetos: =
K K! (N − K)!
• Particiones de N objetos en R grupos con la Ⅰ
el grupo que tiene NⅠ
Objetos:
N N!
= .
N1 N 2 ,...,n R N1 ! N2 ! ··· NR !
1.7 RESUMEN Y DISCUSIÓN
Un problema de probabilidad generalmente se puede desglosar en algunos pasos básicos:

1. La descripción del espacio de muestra, es decir, el conjunto de posibles
resultados de un experimento determinado.
2. La especificación (posiblemente indirecta) de la ley de probabilidad (la
probabilidad de cada evento).
3. El cálculo de probabilidades y probabilidades condicionales de varioseventos de
interés.
Las probabilidades de eventos deben satisfacer los axiomas de no nnegativity,
additividad y normalización. En el caso especial importante donde el conjunto de
posibles resultados es finito, sólo se puede especificar la probabilidad de cada
resultado yobtener la probabilidad de cualquier eventoañadiendo las
probabilidades de los elementos del evento.
Las probabilidades condicionales se pueden ver como leyes de probabilidad en

el mismo espacio de muestra. También podemos ver el evento de acondicionamiento
como un nuevo universo, be-
61
1.7 Resumen y discusión
causar sólo los resultados contenidos en la condiciónenel evento g pueden tener una
probabilidad condicional positiva. Las probabilidades condicionales se derivan de la
ley de probabilidad (incondicional) utilizando la definición P(A| B) á P(A - B)//P(B).
Sin embargo, el proceso inverso es a menudo conveniente, es decir, primero
especifique algunasprobabilidades conditional que son naturales para la situación
real que deseamos modelar, y luego utilizarlas para derivar la ley de probabilidad
(incondicional). Dos herramientas importantes en este contexto son la regla de
multiplicación y el teorema de probabilidad total.
Hemosilustrado a través de ejemplos tres métodos para especificar leyes de
probabilidad en modelos probabilísticos:
(1) El método de recuento. Este método se aplica al caso en el que el número de
resultados posibles es finito, y todos los resultados son igualmente probables.
Para calcular la probabilidad de un evento, contamos el número de elementos
en el evento y dividimos por el número de elementos del espacio de muestra.
(2) El método secuencial. Este método se aplica cuando el experimento tiene un
carácter secuencial y se especifican o calculan las probabilidades condicionales
adecuadas a lo largo de las ramas del árbol correspondiente (quizás mediante el
método de recuento). Las probabilidades probade varios eventos se obtienen
multiplicando las probabilidades condicionales a lo largo de las rutas
correspondientes del árbol, utilizando la regla de multiplicación.
(3) El método de dividir y conquistar. En este caso, las probabilidades P(B) devarios
eventos B se obtienen con probabilidadescondicionales P(B - Ai),donde la Ai
son eventos adecuados que forman una partición del espacio de muestra y
tienen probabilidades conocidas P(Ai). Las probabilidades P(B) seobtienen
utilizando el teorema de probabilidad total.
Por último, nos hemos centrado en algunos temas paralelos que refuerzan
nuestros temas principales. Hemos discutido el uso de la regla de Bayes en la
inferencia, que es un contexto de aplicación importante. También hemos discutido
algunos principios básicos de conteo y combinatoria, queh son útiles en la aplicación
del método de escrutinio.
Variables aleatorias discretas

Contenido
2.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 2
2.2. Funciones de masa de probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
...........................................
2.3. Funciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 9
2.4. Expectativa, media y varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
......................... pág. 11
2.5. PMF conjuntas de múltiples variables aleatorias . . . . . . . . . pág. 22
2.6. Acondicionamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
................................. p. 27
2.7. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.............................. p. 36
2.8. Resumen y discusión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
................... p. 42
2.1 CONCEPTOS BÁSICOS
En muchos modelos probabilísticos, los resultados son de naturaleza numérica, por

ejemplo, si corresponden a lecturas de instrumentos o precios de las acciones. En
otros experimentos, los resultados no son numéricos, pero pueden estar asociados
con algunos valores numéricos de interés. Por ejemplo, si el experimento es la
selección de estudiantes de una población determinada, es posible que deseemos
considerar su promedio de puntos de calificación. Cuando se trata de estos valores
numéricos, a menudo es útil asignarles probabilidades. Esto se hace a través de la
noción de una variable aleatoria,el foco del presente capítulo.
63 Variables aleatorias discretas Capítulo 2
Dado un experimento y el conjunto correspondiente de posibles resultados (el

espacio de la muestra), un ass de variable aleatoriaocia un número determinado con
cada resultado; véase la Fig. 2.1. Nos referimos a este número como el valor numérico
o el valor experimental de la variable aleatoria. Matemáticamente, una variable
aleatoria es una función de valor real del resultado experimental..
Variable aleatoria X
Espacio de muestra
Ω X
Línea de número real
( O)
n
4 Variable aleatoria:
X = Rollo máximo
2 1 2 3 4
Línea de número real
1
1 2 3 4
Espacio de muestra:
Pares de Rollos
(b)
Figura 2.1: (a) Visualización de una variable aleatoria. Es una función que asigna un valor
numérico a cada posible resultado del experimento. (b) Un ejemplo de una variable aleatoria.
El experimento consiste en dosrollos de un troquel de 4 lados, y la variable aleatoria es el
máximo de los dos rollos. Si el resultado del experimento es (4,2), el valor experimental de
esta variable aleatoria es 4.
Estos son algunos ejemplos de variables aleatorias:

(a) En un experimento que implica una secuencia de 5 lanzamientos de una
moneda, el número de cabezas en la secuencia es una variable aleatoria. Sin
embargo, la secuencia de 5 largos
3
Sec. 2.1 Conceptos básicos
de cabezas y colas no se considera una variable aleatoria porque no tiene un

valor numérico explícito.
(b) En un experimento que implica dos rollos de un dado, los siguientes son
ejemplos de variables de reanimación:
(1) La suma de los dos rollos.
(2) El número de seises en los dos rollos.
(3) El segundo rollo se elevó a la quinta potencia.
(c) En un experimento que implica la transmisión de un mensaje, el tiempo
necesario para transmitir el mensaje, el número de símbolos recibidos por error
y el retraso con el que se recibe el mensaje son todas variables aleatorias.
Hay varios conceptos básicos asociadosd con variables aleatorias, que se
resumen a continuación.
Conceptos principales relacionados con variables aleatorias
Comenzando con un modelo probabilístico de un experimento:
• Una variable aleatoria es una función de valor real del resultado del
experimento.
• Una función de un variable aleatorio define otra variable aleatoria.
• Podemos asociar con cada variable aleatoria ciertos "promedios" de
interés, tales como la media y la varianza.
• Una variable aleatoria se puede condicionar a un evento o a otra variable

aleatoria.
• Hay una noción de independencia de una variable aleatoria de un evento
o de otra variable aleatoria.
Una variable aleatoria se denomina discreta si su rango (el conjunto de valores
que puede tomar) es finito o, a lo sumo, es notablemente infinito. Por ejemplo, los
ariables aleatorios vmencionados en (a) y (b) anteriores pueden tomar como máximo
un número finito de valores numéricos y, por lo tanto, son discretos.
Una variable aleatoria que puede tomar un número incontablemente infinito de
valores no es discreta. Por ejemplo, considere el experimento de choosing un punto a
desde el intervalo [-1,1]. La variable aleatoria que asocia el valor numérico un2 al
resultado a no es discreta. Por otro lado, la variable aleatoria que se asocia con un
valor numérico
0,
0,
0,
es discreto.
En este capítulo, nos centramos exclusivamente en variables aleatorias
discretas, aunque normalmente omitiremos el calificador "discreto".
Conceptos relacionados con variables aleatorias discretas a partir de
un modelo probabilístico de un experimento:
• Una variable aleatoria discreta es una función de valor real del resultado
del experimento que puede tomar un número finito o notablemente
infinito de valores.
• Una variable aleatoria (discreta) tiene una función de masa de
probabilidad (PMF) asociada, que da la probabilidad de cada valor
numérico que la variable aleatoria puede tomar.
• Una función de una variable aleatoria define otra variable aleatoria, cuya
PMF se puede obtener de la PMF de la variable aleatoria original.
Discutiremos cada uno de los conceptos anteriores y la metodología asociada en
las siguientes secciones. Además, proporcionaremos ejemplos de algunas variables
aleatorias importantes y frecuentemente encontradas. En el Capítulo 3, discutiremos
variables aleatorias generales (no necesariamente discretas).
A pesar de que este capítulo puede parecer que está cubriendo un montón de
terreno nuevo, este no es realmente el caso. La línea general de desarrollo es
simplemente tomar los conceptos del Capítulo 1 (probabilidades, condicionamiento,
independencia,etc.) y aplicarlos a variables aleatorias en lugar de eventos, junto con
alguna nueva notación apropiada. Los únicos conceptos genuinamente nuevos se
relacionan con las medias y las varianzas.
2.2 FUNCIONES DE MASA DE PROBABILIDAD
La forma más importante de caracterizar una variable aleatoria es a través de las

probabilidades de los valores que puede tomar. Para una variable aleatoria discreta
X, estasson capturadas por la función de masa de probabilidad (PMF para abreviar)
de X, denotado pX. En particular, si x es cualquier valor posible de X, la masa de
probabilidad de x, denoted pX(x),es la probabilidad del evento x x - queconsiste en
todos los resultados que dan lugar a unvalor de X igual a x:
.
5
Por ejemplo, deje que el experimento consista en dos lanzamientos independientes
de una moneda justa,
y dejar que X sea el número de cabezas obtenidas.
Entonces tPMF de X es
1/4 si x a 0 o x a 2,
N.o 1,
2.2 Probabilidad Funciones de masa
En lo que sigue, a menudo omitiremos las llaves de la notación de

evento/conjunto, cuando no puede surgir ambiguedad. En particular, normalmente
escribiremos P(X x x) en lugar dela notación más correcta P . También
nos adheriremos a la siguiente convención: usaremos caracteres en mayúsculas para
denotar variables aleatorias, y caracteres en minúsculas para denotar números
reales como los valores numéricos de una variable aleatoria.
Tenga en cuenta que
,
donde en el ion summatanterior, x oscila sobre todos los valores numéricos
posibles de X. Esto se deduce de los axiomas de aditividad y normalización, ya que los
eventos deX x xson disojuntos y forman una partición del espacio de muestra, ya que
x oscila todos los valores posibles de X. Por un argumento similar, para cualquier
conjunto S de números reales, también tenemos
P .
Por ejemplo, si X es el número de cabezas obtenidas en dos lanzamientos
independientes de una moneda justa, como arriba, la probabilidad de al menos una
cabeza es
P .
El cálculo del PMF de X es conceptualmente sencillo y se ilustra en la Fig. 2.2.

Cálculo del PMF de una variable aleatoria X Para cada valor
posible x de X::
1. Recopile todos los resultados posibles que xdan lugar al evento.
2. Agregue sus probabilidades de obtener pX(x).

La variable aleatoria de Bernoulli
Considere el lanzamiento de una moneda sesgada, que surge una cabeza con
probabilidad p, y una cola con probabilidad 1 pp. La variable aleatoria Bernoulli
toma los dos valores 1 y 0, dependiendo de si el resultado es una cabeza o una cola:
1 si una
cabeza, 0
si una cola.
Su PMF es
1, 0.
PX ( X )
Espacio de muestra
Ω
X
Evento{ X = X }
(a)
4 Variable aleatoria:
PX ( X ) X = Rollo máximo
3 7
5 16
2 3 16
1 16
16
1
1 2 3 4 1 2 3 4 X
Espacio de muestra:
Pares de Rollos (B)
Figura 2.2: a Ilustración del método para calcular el PMF de una variable aleatoria X. Para
cada valor posible x, recogemos todos los resultados que dan lugar a X x y añadimos sus
probabilidades de obtener pX(x). (b) Cálculo de la PMF pX de la variable aleatoria X - rollo
máximo en dos rollos independientes de un troquel justo de 4 caras. Hay cuatro valores
posibles x,a saber, 1, 2, 3, 4. Para calcular pX(x) para una xdada, añadimos las
probabilidades de los resultados que give se elevan a x. Por ejemplo, hay tres resultados que
dan lugar a x x 2, a saber, (1,2),(2,2),(2,1). Cada uno de estos resultados tiene probabilidad
1/16, por lo que pX(2) a 3/16, como se indica en la figura.
7
Por toda su simplicidad, la variable aleatoria Bernoulli es muy importante. En la
práctica, se utiliza para modelar situaciones probabilísticas genéricas con solo dos
resultados, tales como:
(a) El estado de un teléfono en un momento dado que puede ser libre o ocupado.
(b) Una personapuede estar sana o enferma con una determinada enfermedad.
(c) La preferencia de una persona que puede estar a un a campo o en contra de un
determinado candidato político.
Además, al combinar múltiples variables aleatorias de Bernoulli, se pueden construir
ables var aleatorios máscomplicados.
2.2 Probabilidad Función de masa La variable
aleatoria binomial
Una moneda sesgada se va n veces. En cada lanzamiento, la moneda sube una cabeza
con probabilidad p,y una cola con probabilidad de 1p, independientemente de los
lanzamientos anteriores. Deje que X sea el número de cabezas en la secuencia n-
toss. Nos referimos a X como una variable aleatoria binomial con los parámetros
n y p. El PMF de X consiste en las probabilidades binomiales que se calcularon en la
Sección 1.4:
(Tenga en cuenta que aquí y en otros lugares, simplificamos la notación y usamos k,

enlugar de x, paradenotar los valores experimentales de las variables aleatorias con
valores enteros.) La propiedad de
normalización ) 1, especializada en la
variable aleatoria binomial, se escribe como
.
Algunos casos especiales del binomio PMF se esbozan en la Fig. 2.3.
PX (K)
PX (K)
Binomial PMF NN.o 9,P 1/2 Binomial PMF
N• Grande, P • Pequeño
0 1 2 3 4 5 6 7 8 9 K 0 N K
Figura 2.3: El PMF de una variable aleatoria binomial. Si p es 1/2, el PMF es simétrico
alrededor de n/2. De lo contrario, el PMF se sesga hacia 0 si p < 1/2, y hacia n si p > 1/2.
La variable geométrica aleatoria
Supongamos que repetida e independientemente lanzamientomos una moneda

sesgada con probabilidad de una cabeza p, donde 0 < p < 1. La variable geométrica
aleatoria es el número
X de los dedos necesarios para que una cabeza sume por primera vez. Su PMF es dado
por
pX(k) á(1 á p)ká1p, k a 1,2,...,
puesto que (1op)ka1p es la probabilidad de que la secuencia consista en k a1 colas
sucesivas seguidas de una cabeza; véase la Fig. 2.4. Este es un PMF legítimo porque
.
Naturalmente, el uso de lanzamientos de monedas aquí es sólo para
proporcionar información. En términos más generales, podemos interpretar la
variable geométrica aleatoria en términos de ensayos independientes repetidos hasta
el primer "éxito". Cada ensayo tiene probabilidad de éxito p y el número de trials hasta
(e incluyendo) el primer éxito se modela por la variable aleatoria geométrica.
P X(K)
0 1 2 3 K
Figura 2.4: El PMF
pX(k) á(1 á p)ká1p, k a 1,2,...,
de una variable geométrica aleatoria. Disminuye como progresión geométrica con el

parámetro 1 p.
9
La variable aleatoria de Poisson
Una variable aleatoria de Poisson toma valores enteros no negativos. Su PMF es dado
por
en el que es un parámetro positivo que caracteriza el PMF, véase la Fig. 2.5. Es un

PMF legítimo porque
Para hacerse una idea de la variable aleatoria de Poisson, piense en una variable
aleatoria binomial con p muy pequeño y muy grande n. Por ejemplo, considere el
número de errores tipográficos en un libro con un total de n palabras, cuando la
probabilidad p de que cualquier palabra está mal escrita es muy pequeña (asociar
una palabra con un lanzamiento de moneda que viene una cabeza cuando la palabra
está mal escrita), o el número de coches en vérpiradoenaccidentes en una ciudad en
un día determinado (asociar un coche con un lanzamiento de moneda que viene una
cabeza cuando el coche tiene un accidente). Tal variable aleatoria puede ser bien
modelada como una variable aleatoria de Poisson.
2.3 Funciones de variables aleatorias
P X( K) P X (K)
Poisson Λ 0,5 Poisson Λ = 3

e −Λ 0,6
e −Λ 0,05
0 1 2 3 K 0 1 2 3 4 5 6 7 K
Figura 2.5: El PMF de la variable aleatoria de Poisson para diferentes valores de .

Tenga en cuenta que si el p. < 1, el PMF está disminuyendo de forma monótona, mientras
de tipo > 1, el PMF primero aumenta y, a continuación, disminuye a medida
que si es
que aumenta el valor de k (esto se muestra en los problemas de fin de capítulo).
Más precisamente, el Poisson PMF con el parámetro de la unidad es una buena

aproximación para un PMF binomial con los parámetros n y p, siempre que el p.o
np, n sea muy grande, y p es muy pequeño, es decir,
En este caso, el uso del PMF de Poisson puede dar lugar a modelos y cálculos más
simples. Por ejemplo, deje que n a 100 y p a 0. 01. A continuación, la probabilidad
de k a 5 éxitos en n a 100 ensayos se calcula utilizando el PMF binomial como
Usando el PMF de Poisson con el valor de "np" a 100o 0. 01 a 1, esta probabilidad se
aproxima por
.
Proporcionamos una justificación formal de la propiedad de aproximación de
Poisson en los problemas de fin de capítulo y también en el capítulo 5, donde la
interpretaremos, ampliaremos y utilizaremos en el contexto del proceso de Poisson.
2.3 FUNCIONES DE VARIABLES ALEATORIAS
Considere un modelo de probabilidad del clima de hoy, deje que la variable aleatoria
X sea la temperatura en grados Celsius, y considere la transformación Y - 1. 8X + 32,
que da la temperatura en degrees Fahrenheit. En este ejemplo, Y es una función
lineal de X, dela forma
Y á g(X) -aX + b,
donde a y b son escalares. También podemos considerar funciones no lineales de la
forma general
Y á g(X).
Por ejemplo, si queremos mostrar las temperaturas en una escala logarítmica, nos
gustaría utilizar la función g(X)- logX.
Si Y á g(X) es unafunción de una variable aleatoria X,entonces Y también es
una variable aleatoria, ya que proporciona un valor numérico para cada
resultado posible. Esto se debe a que cada resultado en el espacio de muestra define
un valor numérico x para X y, por lo tanto, también el valor numérico y á g(x)para
Y . Si X es discreto con PMF pX,entonces Y también es discreto, y su PMF pY se
puede calcular utilizando el PMF de X. En particular, para obtener pY (y)
paracualquier y,añadimos las probabilidades de todos los valores de x tales que g(x)-
y:
.
11
Ejemplo 2.1. Dejar Y ? X? y vamos a aplicar la fórmula anterior para el PMF pY al caso en
que
es un entero en el rango [-4,4], 0
en caso contrario.
Los valores posibles de Y son y a 0,1,2,3,4. Para calcular pY (y) para un valordado y
de este rango, debemos agregar pX(x) sobre todos losvalores x de tal manera que
- x? y y. En particular, sólo hay un valor de X quecorresponde a y á 0, a saber, x a that
co 0. Por lo tanto,
.
Además, hay dos valores de X que corresponden a cada y - 1,2,3,4, por lo que, por ejemplo,
.
Por lo tanto, el PMF de Y es
2/9 si y a 1,2,3,4,
0,
Lo contrario.
Para otro ejemplo relacionado, deje Z a X2. Para obtener el PMF de Z,podemos verlo
como el cuadrado de la variable aleatoria X o como el cuadrado de la variable
aleatoria Y . Al aplicar la fórmula ) o la fórmula),
obtenemos
2/9 si z a 1,4,9,16,
0,
Lo contrario.
12 Discreta Variables aleatorias Capítulo 2
P X (X) P Y (y)
Y = |X |
2
9
1 1
9 9
-4 -3-2-1 0 1 2 3 4 X 0 1 2 3 4 y
Figura 2.7: Los PMF de X e Y (EN IN) X? en el ejemplo 2.1.
2.4 EXPECTATIVA, MEDIA Y VARIANZA
El PMF de una variable aleatoria X nos proporciona varios números, las probabilidades
de todos los valores posibles de X. Sería deseable resumir esta información en un
único número representativo. Esto se logra por la expectativa de X, que es un
promedio ponderado (en proporción a las probabilidades) de los valores posibles de
X.
Como motivación, supongamos que giras una rueda de la fortuna muchas veces.
En cada giro, uno de los números m1,m2,...,mn viene con la probabilidad
correspondiente p1,p2,...,pn,y esta es su recompensa monetaria de ese giro. ¿Cuál
es la cantidad de dinero que "esperas" obtener "por giro"? Los términos "esperar" y
"por giro" son un poco ambiguos, pero aquí hay una interpretación razonable.
Supongamos que gira la rueda k veces, y tsombrero ki es el número de veces
que el resultado es mi. A continuación, el importe total recibido es de m1k1 +m2k2 +
+ mnkn. La cantidad recibida por giro es
Si el número de giros k es muy grande, y si estamos dispuestos a interpretar las

probabilidades como frecuencias relativas, es razonable anticipar que mi sube una
fracción de veces que es aproximadamente igual a pi:
Por lo tanto, la cantidad de dinero por giro que "espera" recibir es
.
Sec. 2.4 Expectativa, media y varianza 13
Motivados por este ejemplo, introducimos una definición importante.
Expectativa
Definimos el valor esperado (también llamado la expectativa o la media)de
una variable aleatoria X,con PMF pX(x),por .
E .
X
Ejemplo 2.2. Considere dos lanzamientos de monedas independientes, cada uno con una
probabilidad de 3/4 de una cabeza, y deje que X sea el número de cabezas obtenidas.
Se trata de una variable aleatoria binomial con los parámetros n a 2 y p a 3/4. Su PMF es
0,
N.o 1,
N.o 2,
por lo que la media es
E .
Es útil ver la media de X como un valor "representativo" de X,que se encuentra

en algún lugar en el medio de surango. Podemos hacer esta declaración más
precisa, viendo la media como el centro de gravedad de la PMF, en el sentido
explicado en la Fig. 2.8.
• Cuando se trata de variables aleatorias que toman un número de valores

infinitamente infinito, uno tiene que lidiar con la posibilidad de que la suma infinita
no está bien definido. Más concretamente, diremos que la

expectativa está bien definida si. En ese caso, se sabe
que la suma infinita converge a un valor finito que es independiente del
orden en el que
los diversos términos se resumen.
Para obtener un ejemplo en el que la expectativa no está bien definida,
considere una variable aleatoria X que tome el valor 2k con probability 2ák, para k a
1,2,... . Para obtener un ejemplo más sutil, considere la variable aleatoria X que toma
los valores 2k y 2k con la probabilidad 2xk, para k a 2,3,... . La expectativa es de nuevo
indefinida, aunque el PMF es simétrico alrededor de cero y uno podría ser tempted
para decir que E[X] escero.
A lo largo de este libro, a falta de una indicación en contrario, suponemos
implícitamente que el valor esperado de las variables aleatorias de interés está bien
definido.
Centro de gravedad
C = Medios E[X]
Figura 2.8: Interpretación de la media como centro de gravedad. Dada una barra con un peso
pX(x) colocado en cada punto x con pX(x) > 0, el centro de gravedad c es el punto
en el que la suma de los pares de torsión de los pesos a su izquierda son iguales
a la suma de los pares de torsión de los pesos a su derecha, es decir,
, o ,
y el centro de gravedad es igual a la media E[X].
Hay muchas otras cantidades que se pueden asociar con una variable aleatoria
y su PMF. Por ejemplo, definimos el2o momento de la variable random X como el
valor esperado de la variable aleatoria X2. Más generalmente, definimos el né
momento como E[Xn], el valor esperado de la variable aleatoria Xn. Con esta
terminología, el primer momento de X es sólo la media.
La cantidad más importante asociada a una variable aleatoria X,distinta de la
media, es su varianza,que se denota por var(X) y se define como el valor esperado
de lavariable aleatoria, es decir,
Puesto que sólo puede tomar valores no negativos, la varianza

es siempre no negativo.
La varianza proporciona una medida de dispersión de X alrededor de su media.
Otra medida de dispersión es la desviación estándar de X,que se define como la raíz
cuadrada de la varianza y se denota por XX:
La desviación estándar es a menudo más fácil de interpretar, porque tiene las mismas
unidades que X. Por ejemplo, si X mide la longitud en metros, las unidades de
varianza son metros cuadrados, mientras que las unidades de la desviación estándar
son metros.
One manera de calcular var(X), es utilizar la definición delvalor esperado,
después de calcular el PMF de la variable aleatoria . Esta última variable
aleatoria es una función de X,y su PMF se puede obtener de la manera discutida en
la sección anterior.
Example 2.3. Considere la variable aleatoria X del Ejemplo 2.1, que tiene la
Pmf
es un entero en el,rango [-4,4], de lo

contrario.
La media E[X] es iguala 0. Esto se puede ver de la simetría del PMF de X alrededor de
0, y también se puede verificar de la definición:
E .
Deje . Como en el Ejemplo 2.1, obtenemos
2/9 si z a 1,4,9,16,
0,
Lo contrario.
La varianza de X se obtiene
.
Resulta que hay un método más fácil de calcular var(X),

que utiliza el PMF de X pero no requiere el PMF de. Este método
se basa en la siguiente regla.
Regla de valor esperado para funciones de variables aleatorias

Deje que X sea una variable aleatoria con PMF pX(x), y dejeque g(X) sea
unafunción realvalorada de X. A continuación, el valor esperado de la variable
aleatoria g(X) esdado por
E.
Para verificar esta regla, usamos la fórmuladerived

en la sección anterior, hemos
Usando la regla de valor esperado, podemos escribir la varianza de X como
.
Del mismo modo, elmomento en
E ,
y no hay necesidad de calcular el PMF de Xn.
Ejemplo 2.3. (Continuación) Para la variable aleatoria X con PMF
es un entero en el rango [-4,4], de lo contrario,
Tenemos
que es coherente con el
resultado obtenido
anteriormente.
Como
hemos señalado
anteriormente,
la varianza siempre es no
negociativa, pero ¿podría ser
cero? Puesto que cada
término de la fórmula para la varianza no es negativo, la suma
es cero si y sólo si es - pX( )- 0 para cada . Esta
condición implica que para cualquier x con pX(x) > 0, debemos tener x - E[X] y la
variablealeatoria X no es realmente "aleatoria": su valor experimental es igual a la
media E[X], con probabilidad 1.
Varianza
La varianza var( X ) de una variable aleatoria
X se define por
2
var( X )= E X − E [X ]
y se puede calcular como

2
var( X )= X − E [X ] PX ( X ) .
X
Siempre es no negativo. Su raíz cuadrada es denotada por Σ X y se llama el

desviación estándar .
Ahora vamos a utilizar la regla de valor esperado para las funciones con el fin de
derivar algunas propiedades importantes de la media y la varianza. Comenzamos con
una variable aleatoria X y definimos una nueva variable aleatoria Y , de la forma
Y aX + b,
donde a nd b se les da escalares. Vamos a derivar la media y la varianza de la función

lineal Y . Tenemos
Además
Media y varianza de una función lineal de una variable aleatoria

Deje que X sea una variable aleatoria y deje que
Y aX + b,
donde a y b se les dan escalares. Entonces,
E[Y ] á a EE[X] + b,var(Y ) á 2var(X).
También vamos a dar una fórmula conveniente para la varianza de una variable
aleatoria X con PMF dado.
Variación en términos de expresión de momentos

2
var( X )= E [X 2 ] − E [X ] .
Esta expresión se verifica de la siguiente manera:

Ahora derivaremos la media y la varianza de algunas variables aleatorias

importantes.
Ejemplo 2.4. Media y varianza de los Bernoulli. Considere el experimento de la lanzamiento

de una moneda sesgada, que surge una cabeza con probabilidad p y una cola con
probabilidad 1 p p, y la variablealeatoria bernoulli X con PMF
1, 0.
Su media, segundo momento y varianza se dan por
lossiguientes cálculos:
E[X]á 1 ? p + 0 ? (1o p) á p,
E[X2] á 12 ? p + 0 ? (1o p) á p,
Ejemplo 2.5. Variable aleatoria uniforme discreta. ¿Cuál es la media y la varianza del rollo
de un dado justo de seis caras? Si vemos el resultado del rollo como una variable aleatoria
X, su PMF es
6,
Dado que el PMF es simétrico alrededor de 3,5, llegamos a la conclusión de que E[X]a 3. 5.
En cuanto a la varianza, hemos
,
que rinde var(X) a 35/12.
La variable aleatoria anterior es un caso especial de una variable aleatoria distribuida

uniformemente discreta (o uniforme discreto para abreviar), que por definición, toma
uno de un rango de valores enteros contiguos, con la misma probabilidad. Más
precisamente, esta variable aleatoria tiene un PMF de la forma
,
donde a y b son dos enteros con un < b;véase la Fig. 2.9.
La media es
E ,
como se puede ver por inspección, ya que el PMF es simétrico alrededor (a + b)/2. Para
calcular la varianza de X, primeroconsideramos el caso más simple en el que a 1 y b n
n. Se puede verificar por inducción en n que
E .
Dejamos la verificación de esto como un ejercicio para el lector. La varianza ahora se puede
obtener en términos del primer y segundo momento
P X(K)
1
B - O+1
n
...
O B K
n
Figura 2.9: PMF de la variable aleatoria discreta que se distribuye uniformemente entre
dos enteros a y b. Su media y varianza son
E .
Para el caso de los enteros generalesa a y b,observamos que la variable aleatoria
distribuida uniformemente sobre [a,b] tiene la mismavarianza que la variable aleatoria

distribuida uniformemente sobre el intervalo [1,ba+1], ya que estas dos variables aleatorias
difieren por la constante a1. Por lo tanto, la varianza deseada es dada por la fórmula
anterior con n á b á + 1, lo que produce
Ejemplo 2.6. La media del Poisson. La media del PMF de Poisson
puede calcularse a continuación:
el término k a 0 es cero
let m á k á 1
La última igualdad se obtiene señalando que ) 1 es la
propiedad de normalización para el PMF de Poisson.
Un cálculo similar muestra que la varianza de una variable aleatoria de Poisson
también es de tipo "ver los problemas resueltos"). Tendremos la ocasión de derivar este
hecho de varias maneras diferentes en capítulos posteriores.
Los valores esperados a menudo proporcionan un vehículo conveniente para

elegir de manera óptima entre varias decisiones candidatas que resultan en diferentes
recompensas esperadas. Si consideramos que la recompensa esperada de una
decisión es su "pago promedio sobre un gran número de juicios", es razonable elegir
una decisión con la recompensa máxima esperada. A continuación se muestra un
ejemplo.
Ejemplo 2.7. El problema del cuestionario. Este examenple, cuando se generaliza

adecuadamente, es un modelo prototípico para la programación óptima de una colección
de tareas que tienen resultados inciertos.
Considere un juego de preguntas en el que a una persona se le dan dos preguntas y

debe decidir qué pregunta responder primero. La pregunta 1 se responderá correctamente
con la probabilidad 0. 8, y la persona recibirá como premio $100, mientras que la pregunta
2 será respondida correctamente con probabilidad 0. 5, y la persona recibirá como premio
$200. Si la primera pregunta intentada se responde incorrectamente, el cuestionario
termina, es decir, la persona no puede intentar la segunda pregunta. Si la primera pregunta
se responde correctamente, se permite a la persona intentar la segunda pregunta. ¿Qué
pregunta debe responderse primero para maximizar elvalor expected del dinero total del
premio recibido?
La respuesta no es obvia porque hay una compensación: intentar primero la pregunta
2 más valiosa pero también más difícil conlleva el riesgo de no tener nunca la oportunidad
de intentar la pregunta 1 más fácil. Veamos el dinero total del premio recibido como una
variable aleatoria Xy calculemos el valor esperado E[X] bajo lasdos posibles órdenes de
preguntas (cf. Fig. 2.10):
0.5 $0
0.2
0.5
0.8
$300 $0
0.2
Pregunta 1 Respuesta Pregunta 2
1a Respuesta 1a 0.5
0.8
$100 $200
0.5 $300
Figura 2.10: Descripción secuencial del espacio de muestra del problema de prueba para
los dos casos en los que respondemos primero a la pregunta 1 o a la pregunta 2.
(a) Responder a la pregunta 1 primero: Entonces el PMF de X es (cf. el lado izquierdo
de la Fig. 2.10) pX(0) a 0. 2, pX(100) a 0. 8 x 0. 5, pX(300) a 0. 8 x 0. 5, y tenemos
E[X]á 0. 8 x 0. 5 x 100 + 0. 8 x 0. 5 a 300 x 160 dólares.

(b) Responder a la pregunta 2primero: Entonces el PMF de X es (cf. el lado derecho de
la Fig. 2.10) pX(0) a 0. 5, pX(200) a 0. 5 x 0. 2, pX(300) a 0. 5 x 0. 8, y tenemos
E[X]á 0. 5 x 0. 2 x 200 + 0. 5 x 0. 8 x 300 x $140.
Por lo tanto, es preferible intentar la pregunta más fácil 1 primero.

Generalicemos ahora el análisis. Denote por p1 y p2 las probabilidades de responder
correctamente a las preguntas 1 y 2, respectivamente, y por v1 y v2 los premios
correspondientes. Si la pregunta 1 se responde primero, tenemos
E[X] á p1(1 á p2)v1 + p1p2(v1 + v2)á p1v1 + p1p2v2, mientras
que si la pregunta 2 se responde primero, tenemos
E[X] á p2(1 á p1)v2 + p2p1(v2 + v1)á p2v2 + p2p1v1.
Por lo tanto, es óptimo responder a la pregunta 1 primero si y sólo si
p1v1 + p1p2v2 á p2v2 + p2p1v1,
o equivalentemente, si
.
Por lo tanto, es óptimo ordenar las preguntas en valor decreciente de la expresión pv/(1o
p), lo que proporciona un índice conveniente de calidad para una pregunta
con probabilidad de respuestacorrecta p y valor v. Curiosamente, esta regla
generaliza al caso de more que dos preguntas (ver los problemas de fin de capítulo).
Finalmente ilustramos con el ejemplo un escollo común: a menos que g(X) sea
unafunción lineal, no es generalmente cierto que E sea igual a .
Ejemplo 2.8. Velocidad media frente al tiempo promedio. Si el clima es bueno (lo que
sucede con probabilidad 0,6), Alice camina las 2 millas a clase a una velocidad de V a 5
millas por hora, y de lo contrario conduce su motocicletaa una velocidad de V a 30
millas por hora. ¿Cuál es el medio del tiempo T para llegar a clase?
La forma correcta de resolverel problema es derivar primero el PMF de T,,
Horas
0. 4 si t a 2/30 horas,
y luego calcular su media por
E horas.
Sin embargo, es erróneo calcular la media de la velocidad V, ,
E[V ] á 0. 6 x 5 + 0. 4 x 30 x 15 millas por hora,,
y luego afirmar que la media del tiempo T es
horas.
E[V ] 15
En resumen, en este ejemplo tenemos
, y E .
2.5 PMFS CONJUNTAS DE MÚLTIPLES VARIABLES ALEATORIAS
Los modelos probabilísticos a menudo implican varias variables aleatorias de interés.

Por ejemplo, en un contexto de diagnóstico médico, los resultados de varias pruebas
pueden ser significativos, o en un contexto de red, las cargas de trabajo de varias
puertas de enlace pueden ser de interés. Todas estas variables aleatorias están
asociadas con el mismo experimento, espacio de muestra y ley de probabilidad, y sus
valores pueden relacionarse de maneras interesantes. Esto nos motiva a considerar
las probabilidades que implican simultáneamente los valores numéricos de varias
variables aleatorias e investigar sus acoplamientos mutuos. En esta sección,
ampliaremos los conceptos de PMF y la expectativa desarrollada hasta ahora a
múltiples variables aleatorias. Más adelante, también desarrollaremos nociones de
condicionamiento e independencia que analizan de cercalas ideas discutidas en el
Capítulo 1.
Considere dos variables aleatorias discretas X e Y asociadas con el mismo
experimento. El PMF conjunto de X e Y se define por
pX,Y (x,y)- P(X - x,Y - y)

para todos los pares de valores numéricos (x,y) que X e Y pueden tomar. Aquí y en
otro lugar, usaremos la notación abreviada P(X y á x,Y - y)en lugar de las notaciones
más precisas P(X x xáyyy) o P(X á x e Y á x).
2.5 PMF conjunto de múltiples variables aleatorias
La PMF conjunta determina la probabilidad de cualquier evento que se pueda

especificar en términos de las variables aleatorias X e Y . Por ejemplo, si A es el
conjunto de todos los pares (x,y) que tienen una determinada propiedad,
P .
De hecho, podemos calcular los PMF de X e Y usando las fórmulas
.
La fórmula para pX(x) se puede verificarutilizando el cálculo
x} is the union of the disjoint events { donde la segunda igualdad sigue

señalando que el evento y ran. La fórmula para pY (y) se verifica de
formasimilar. A veces nos referimos a pX y pY como los PMF marginales, para

distinguirlos de la PMF conjunta.
El ejemplo de la Fig. 2.11 ilustra el cálculo de los PMF marginales de la PMF
conjunta utilizando el método tabular. Aquí, la PMF conjunta de X e Y se organiza
en una tabla bidimensional, y el PMF marginal de X o Y a un valor dado se obtiene
agregando las entradas de la tabla a lo largo de una columna o fila
correspondiente,respectivamente.
Funciones de múltiples variables aleatorias
Cuando hay múltiples variables aleatorias de interés, es posible generar nuevas

variables aleatorias considerando funciones que implican varias de estas variables
aleatorias. En particular, una función Z á g(X,Y ) de las variables aleatorias X e Y
define otravariable aleatoriar. Su PMF se puede calcular a partir de la
PMF pX,Y según
.
Además, la regla de valor esperado para las funciones se extiende naturalmente y
adopta la forma
27
E .
La verificación de esto es muy similar al caso anterior de una función de una sola
variable aleatoria. En el caso especial donde g es lineal y de la forma aX+bY
+c,donde a, b,y c se dan escalares, tenemos
aE [aX + bY + c]á E[X]+ bE[Y ] + c.
PMF conjunta
P X ,Y ( X,y )
y en forma tabular
3 /20
4 0 1 /20 1 /20 1 /20
7 /20
3 1 /20 2 /20 3 /20 1 /20 Sumas de fila:
2 1 /20 2 /20 3 /20 1 /20 7 /20
1 1 /20 1 /20 1 /20 0 3 /20
1 2 3 4 X
3 /20 6 /208/ 20 3 /20 Marginal PMF PY(y)

Sumas de columna:
Marginal PMF PX(x)
Figura 2.11: Ilustración del método tabular para calcular los PMF marginales a partir de PMF
conjuntos. La junta PMF está representada por una tabla, donde el número en cada cuadrado
(x,y) da el valor de pX,Y (x,y). Para calcular el marginal PMF pX(x) para un valor dadode
x,add los números en la columna correspondiente a x. Por ejemplo pX(2) a 8/20. Del mismo
modo, para calcular el marginal PMF pY (y )ypara un valor dado de y, añadimos los números
en la fila correspondiente a y. Por ejemplo, pY (2) a 5/20.
Más de dos variables aleatorias
Tque une PMF de tres variables aleatorias X, Y , y Z se define en analogía con el

pX,Y,Z(x,y,z), P(X , x, Y , y, Z , z),
para todos los trillizos posibles de valores numéricos (x,y,z). Los PMF marginales
correspondientes se obtienen de manera análoga mediante ecuaciones como
,
Y
.
La regla de valor esperado para las funciones adopta la forma
E ,
x,y,z
y si g es lineal y de la forma aX + bY + cZ + d,entonces
E a[aX + bY + cZ + d]á E[X]+ bE[Y ] + cE[Z]+ d.

2.5 PMF conjunto de múltiples variables aleatorias
Además, hay generalizaciones obvias de lo anterior a más de tres variables aleatorias.

Por ejemplo, para cualquier variable aleatoria X1,X2,...,Xn y cualquier escalar a
a1,a2,...,an,tenemos
E a[ a[a1X1 + a2X2 + a nXn] a a1E[X1]+ a2E[X2] + an nE[Xn].
Ejemplo 2.9. La media del binomio. Su clase de probabilidad tiene 300 estudiantes y cada
estudiante tiene probabilidad 1/3 de obtener una A, independientemente de cualquier otro
estudiante. ¿Cuál es el medio de X, el número de estudiantesque obtienen una A?
Dejemos que
1 si elestudiante obtiene una A, 0

de lo contrario.
Por lo tanto X1,X2,...,Xn son variables aleatorias Bernoulli con p media común á 1/3 y
varianza p(1 á p) á(1/3) (2/3) - 2/9. Su suma
X X X1 + X2 + + Xn
es el número de estudiantes que obtienen una A. Puesto que X es el número de "éxitos"

en n ensayos independientes, es un binomial random variable con losparámetros n
y p. Usando la linealidad de X como una función del Xi,hemos
E .
Si repetimos este cálculo para un número general de estudiantes n y la probabilidad de

Un igual a p, obtenemos
29
Ejemplo 2.10. El problema del sombrero. Supongamos que n personas tiran sus
sombreros en una caja y luego cada uno coge un sombrero al azar. ¿Cuál es el valor
esperado de X, el número de personasque recuperan su propio sombrero?
Para la persona ith, introducimos una variable aleatoria Xi que toma el valor 1 si
la persona selecciona su propio sombrero, y toma el valor 0 de lo contrario. Puesto que P(Xi
- 1) - 1/n y P(Xi á 0) - 1 x 1/n, la mediade Xi es
E .
Ahora tenemos
X X X1 + X2 + + Xn,
Para
E .
Resumen de los hechos sobre los PMF conjuntos
Deje que X e Y sean variables aleatorias asociadas con el mismo
experimento. • La PMF conjunta de X e Y se define por
pX,Y (x,y)á P(X á x,Y á y).
• Los PMF marginales de X e Y se pueden obtener de la PMF conjunta,
utilizando las fórmulas
• Una función g(X,Y ) de X e Y define otra variable aleatoria, y
E .
Si g es lineal, de la forma aX + bY + c,tenemos
aE [aX + bY + c]á E[X]+ bE[Y ] + c.
• Lo anterior tiene extensiones naturales en el caso de que haya más de dos

variables aleatorias implicadas.
2.6 ACONDICIONAMIENTO
Si tenemos un modelo probabilístico y también se nos dice que se ha producido un

determinado evento A, podemos capturar este conocimiento empleando
lasprobabilidades conditional en lugar de las probabilidades originales
(incondicionales). Como se explica en el Capítulo 1, las probabilidades condicionales
son como probabilidades ordinarias (satisfacer los tres axiomas) excepto que se
refieren a un nuevo universo en el que se sabe que A ocurrióen rojo. En el mismo
espíritu, podemos hablar de PMF condicionales que proporcionan las probabilidades
de los valores posibles de una variable aleatoria, condicionadas a la ocurrencia de
algún evento. Esta idea se desarrolla en esta sección. En realidad, sin embargo, hay
Sec. 2.6 Acondicionado 31
no mucho que es nuevo, sólo una elaboración de conceptos que son familiares del
Capítulo 1, junto con una dosis justa de nueva notación.
Aconteciendo una variable aleatoria en un evento
El PMF condicional de una variable aleatoria X,condicionado en un evento

determinado A with P(A) > 0, se define por
P
pX? A(x) á P(X á xá A) a P(A) .
Tenga en cuenta que los eventos dela versión de los eventos de X a Xa A son
desarticulados para los diferentes valores de x, suunión es Ay, por lo tanto,
P .
Combinando las dos fórmulas anteriores, vemos que
,
así que pX| A es un PMF legítimo.
Por ejemplo, deje que X sea el rollo de un dado y deje que A sea el evento de
que el rollo es un número par. Luego, al aplicar la fórmula anterior, obtenemos
pX? A(x) - P(X - x-roll es par)
P(X x y X es par)
P(el rollo es par)
6,
El PMF condicional se calcula de forma similar a su contraparte incondicional:
para obtener pX| A(x),añadimos las probabilidades de los resultados que dan lugar a X
x y pertenecen al evento de acondicionamiento A, yluego normalizamos dividiendo
con P(A)(véase la Fig. 2.12).
Evento ?X = X} P X |O (X|O)
n n
Evento ?X = x' }
EventoO
n
x' X
Espacio de muestra
Ω
Figura 2.12: Visualización y cálculo del PMF condicional pX| A(x). Para cada x, añadimos las
probabilidades de los resultados en la intersección deX a Xa A y normalizamos buceando
con P(A).
Acondicionamiento de una variable aleatoria en otra
Deje que X e Y sean dos variables aleatoriosasociados con el mismo experimento. Si

sabemos que el valor experimental de Y es algo en particular y (con pY (y y) > 0),
esto proporciona un conocimiento parcial sobre el valor de X. Este conocimiento es
capturado por el condicional PMF pX| Y de X dado Y , que se define por la
especialización de la definición de pX| A a los eventos A de la forma "Y - y"Y": pX? Y
(x? y) á P(X á xá Y á y).
Usando la definición de probabilidades condicionales, tenemos
.
Vamos a arreglar algunos| y,con pY (y y) > 0 y considerar pX Y (x? y) en función
de x. Esta función es una PMF válida para X:asigna valores no negativos a cada
xposible, y estos valores se suman a 1. Además, esta función de x, tiene la
mismaforma que pX,Y (x,y) excepto que se normaliza dividiendo con pY (y ), lo que
aplica la propiedad deynormalización
.
La figura 2.13 proporciona una visualización del PMF condicional.
PMF condicional
P X |Y (X|3)
condicional
"Vista de slice"
de PMF condicional
P X |Y ( X|y ) X
PMF condicional
P X |Y (X|2)
y
y =3
X X
y=2
PMF condicional
y =1 P X |Y (XN. )
Pmf P X,Y (x,y ) o1
Figura 2.13: Visualización del PMF condicional pX| Y (x? y). Para cada y,vemos la junta PMF
a lo largo de la rebanada Y - y y renormalizar de modo que
El PMF condicional es a menudo conveniente para el cálculond the formula de

la PMF conjunta, utilizando un enfoque secuencial
pX,Y (x,y)á pY (y)pX| Y (x? y),
| o su contraparte pX,Y (x,y)á pX(x)pY X(y ? x).
Este método es totalmente similar al uso de la regla de multiplicación del Capítulo 1.

Los ejemplos siguientes proporcionan una ilustración.
Ejemplo 2.11. Profesor May B. A menudo tiene sus hechos equivocados, y responde a cada
una de las preguntas de sus alumnos incorrectamente conla probabilidad 1/4,
independientemente de otras preguntas. En cada conferencia se hace mayo 0, 1, o 2
preguntas con la misma probabilidad 1/3. Deje que X e Y sean el número de
preguntas que se hace en mayo y el número de preguntas que responde
mal en una conferencia dada, respectively. Para construir la junta PMF pX,Y
(x,y),necesitamos calcular todas las probabilidades P(X x,Y á y) para todas las
combinaciones de valores de x e y. Esto se puede hacer mediante una descripción

secuencial del experimento y la regla de multiplicación pX,Y (x,y) á pY (y)pX| Y (x? y), como
se muestra en la Fig. 2.14. Por ejemplo, para el caso en que se hace una pregunta y se
responde mal, hemos
La PMF conjunta se puede representar mediante una tabla bidimensional, como se muestra
en la Fig. 2.14. Se puede utilizar para calcular la probabilidad de cualquier evento de interés.
Por ejemplo, hemos
P(al menos una respuesta incorrecta)

.
Ejemplo 2.12. Considere cuatro rollos independientes de un troquel de 6 lados. Deje que X
sea el número de 1 y deje que Y sea el número de 2 obtenidos. ¿Cuál es la PMF
conjunta de X e Y? ?
El PMF marginal pY es dado por la fórmula binomial
Para calcular el pmF condicional pX| Y , tenga en cuenta que dado que Y - y, X es el número
de 1 en los rollos restantes de 4 y, cada uno de los cuales puede tomar los 5 valores
Prob: 1/48 y
2 1 /16
1
Prob: 6/48 0 0 1 /48
0 6 /16
2 1 /3 9 /16 Prob: 9/48 0 4 /48 6 /48
1 1 0 16 /48 12 /48 9 /48

Prob: 4/48
1 /3 0 1 /4
0 2
3 /4 Prob: 12/48 1
1 /3
Prob: 16/48
0 1 2 x
Junta PMF P
X : Número de Y : Número de X,Y(x,y)
preguntas respondidas en forma tabular mal
Figura 2.14: Cálculo de la junta PMF pX,Y (x,y) en el ejemplo2.11.
1,3,4,5,6 con la misma probabilidad

1/5. Por lo tanto, el condicional PMF pX| Y
es binomio con los parámetros 4
para todas las x e y de tal manera que x, y a 0,1,...,4, y 0 x + y á 4. El PMF conjunto

ahora es dado por
para todos los enteros no negativos x e y de tal manera que 0 x + y 4. Para otros
valores de x e y y, tenemos pX,Y (x,y) a0.
El PMF condicional también se puede utilizar para calcular los PMF marginales.
En particular, tenemos mediante el uso de las definiciones,
Esta fórmula proporciona un método de división y conquista para calcular los PMF
marginales. Es en esencia idéntico a la probabilidad total quese da en el Capítulo 1,
pero se funde en notación diferente. En el ejemplo siguiente se proporciona una
ilustración.
Ejemplo 2.13. Considere un transmisor que está enviando mensajes a través de una red
informática. Vamos a definir las siguientes dos variables aleatorias:
X : el tiempo de travel de un mensajedado, Y : la longitud del mensaje dado.
Conocemos el PMF del tiempo de viaje de un mensaje que tiene una longitud determinada,
y conocemos el PMF de la longitud del mensaje. Queremos encontrar el PMF (incondicional)
del tiempo de viaje de un mensaje.
Suponemos que la longitud de un mensaje puede tomar dos valores posibles: y a
102 bytes con probabilidad 5/6, e y a 104 bytes con probabilidad 1/6, de modo que
,4
.
Suponemos que el tiempo de viaje X del mensaje depende de su longitud Y y el nivel de

congestión de la red en el momento de la transmisión. En particular, el tiempo de viaje es
de 10a4segundos Y con probabilidad de 1/2, 10a3segundosY con probabilidad de
1/3 y 10a2segundos Y con probabilidad de 1/6. Por lo tanto,tenemos
,
1,
p X? Y (x 10 ) , p X- Y (x104)á
1/3 si x a 10,
1/6 si x a 1, 100.
Para encontrar el PMF de X,usamos la fórmula de probabilidad total
.
Obtenemos
Tenga en cuenta, por último, que se pueden definir PMF condicionales que
implican más de dos variables aleatorias, como en pX,Y. | Z(x,y ? z) o pX? Y,Z(x? y,z). Los
conceptos y métodos descritos anteriormente se generalizan fácilmente (consulte los
problemas de fin de capítulo).
Resumen de los hechos sobre losPMFs conditi onal

Deje que X e Y sean variables aleatorias asociadas con el mismo experimento.
• Los PMF condicionales son similares a los PMF ordinarios, pero se refieren a
un universo donde se sabe que el evento de acondicionamiento ha ocurrido.
• El PMF condicional de X dado un evento A con P(A) > 0, se define por
pX? A(x) á P(X á xá A)
y satisface
.
• El PMF condicional de X dado Y - y está relacionado con la PMF conjunta

por pX,Y (x,y)á pY (y)pX- Y (x? y).
Esto es análogo a la regla de multiplicación para calcular probabilidades y

se puede utilizar para calcular la PMF conjunta a partir del PMF condicional.
• El PMF condicional de X dado Y se puede utilizar para calcular los PMF
marginales con la fórmula
Esto es analógicos al enfoque de división y conquista para calcular las

probabilidades utilizando el teorema de probabilidad total.
• Hay extensiones naturales a la anterior que implican más de dos variables
aleatorias.
Expectativa condicional
Un PMF condicional puede ser considerado como unPMF o rdinary sobre un nuevo
universo determinado por el evento de acondicionamiento. En el mismo espíritu, una
expectativa condicional es la misma que una expectativa ordinaria, excepto que se
refiere al nuevo universo, y todas las probabilidades y PMF son reemplazados por
suscontrapartes cond itional. A continuación enumeramos las principales definiciones
y los hechos relevantes.
Resumen de los hechos sobre las expectativas condicionales

DejaX Y Y Ser variables aleatorias asociadas con el mismo experimento.
r • La expectativa condicional de X dado un evento U Con P ( U ) > 0Es
definido por n n
E [X |U ]= Xp X |U ( X |U ) .
n X n n
Para una funciónG( X ) , es dado por
E G( X ) |U = G( X ) PX |U ( X |U ) .
n X n n
• La expectativa condicional de X dado un valor y D Y se define por

e
E [X |Y = y ]= XpX |Y ( X |y ) .
X
• Tenemos
E [X ]= PY ( y ) E [X |Y = y ].
y
Este es el teorema total de la expectativa.

• DejaU 1 ,...,A N Ser eventos desarticulados que forman una partición de la muestra
espacio,
r n y asumir que P ( U Ⅰ) > 0 para Ⅰ. Entonce
n todos s
N
E [X ]= P ( U Ⅰ) E [X |U Ⅰ].
Ⅰ
N.o n n
1
Vamos a verificar el teorema total de la expectativa, que básicamente dice que

"el promedio incondicional se puede obtener promediando los promedios
condicionales".
El teorema se deriva utilizando la fórmula de probabilidad total
y el cálculo
E
La relación E can severifica viéndola como un caso
especial del teorema total de la expectativa. Vamos a introducir la variable aleatoria
Y que toma el valor i si y solo si se produce el evento Ai. Su PMF es dado por
,
El teorema total de la expectativa produce
E ,
y ipuesto que el evento"Y" es sólo Ai, obtenemos la expresión deseada
E .
El teorema de expectativa total es análogo al teorema de probabilidad total. Se

puede utilizar para calcular la expectativa incondicional E[X] a partir delPMF
condicional o la expectativa, utilizando un enfoque de división y conquista.
Ejemplo 2.14. Los mensajes transmitidos por una computadora en Boston a través de una
red de datos están destinados a Nueva York con probabilidad 0. 5, para Chicago con
probabilidad 0. 3, y para San Francisco con probabilidad 0. 2. El tiempo de tránsito X de
un mensaje es aleatorio. Su media es de 0,05 segundos si está destinada a Nueva York,
de 0,1 segundos si está destinada a Chicago, y de 0,3 segundos si está destinada a San
Francisco. A continuación, E[X] se calculafácilmente utilizando el teorema de expectativa
total como
E[X]á 0. 5 x 0. 05 + 0. 3 x 0. 1 + 0. 2 x 0. 3 x 0. 115 segundos.

Ejemplo 2.15. Media y Variance de la variable aleatoria geométrica. Escribes un programa

de software una y otra vez, y cada vez que hay probabilidad p
que funciona correctamente, independientemente de los intentos anteriores. ¿Cuál es la

media y la varianza de X, el número de intentos hasta que el programa funciona
correctamente? Reconocemos X como un va riable aleatorio geométricoconPMF pX(k)á
(1 x p)ká1p, k a 1,2,....
La media y la varianza de X son dadas por
E
pero evaluar estas sumas infinitas es algo tedioso. Como alternativa, aplicaremos el
teorema de expectativa total, con A1 áX á 1o , el primer intento es un success, A2 ,X > 1 ,
el primer intento es un error, y terminamos con un cálculo mucho más simple.
Si el primer intento es exitoso, tenemos X - 1, y
E[X ? X a 1] a 1.
Si el primer intento falla (X > 1), hemos desperdiciado un intento, y estamos de vuelta
donde comenzamos. Por lo tanto, el número esperado de intentos restantes es E[X], y
E[X ? X > 1] a 1 + E[X].
Así
E
de la que obtenemos
E .
Con un razonamiento similar, también tenemos
E[X2 ? X - 1] a 1, E ,
Para
E ,
de la que obtenemos
E ,
Y
E .
Concluimos que
.
2.7 INDEPENDENCIA
Ahora discutimos conceptos de independencia relacionados con variables aleatorias.

Estos conceptos son análogos a los conceptos de independencia entre
acontecimientos (cf. Capítulo 1). Se desarrollan simplemente introduciendo eventos
adecuados que involucran los valores posibles devariables aleatorias variosas, y
considerando su independencia.
Independencia de una variable aleatoria de un evento
La independencia de una variable aleatoria de un evento es similar a la independencia

de dos eventos. La idea es que conocer la ocurrencia del evento de acondicionamiento
nos dice nada sobre el valor de la variable aleatoria. Más formalmente, decimos que
la variable random X es independiente del evento A si
P(X á x y A)á P(X á x)P(A)á pX(x)P(A),para todos los x,
lo que es lo mismo que exigir que los dos eventos -X xx y A seanindependientes,

para cualquier opción x. Siempre y cuando P(A) > 0, y utilizando la definición pX|
A(x) - P(X - x y A))/P(A) de laPMF condicional, vemos que la independencia es la
misma que la condición
pX? A(x)á pX(x),para todas las x.
Ejemplo 2.16. Considere dos lanzamientos independientes de una moneda justa. Deje que
X sea el número de cabezas y deje que A sea el evento de que el número de
cabezas es par. El PMF (incondicional) de X es
4 si x a 0,
2 si x a 1,
4 si x a 2,
y P(A) a1/2. El PMF condicional se obtiene de la definición pX| A(x) ?

P
2 si x a 0,
0 si
x a 1, 2 si
x es 2.
Claramente, X y A no son independientes, ya que los PMF pX y pX| A son diferentes. Para
obtener un ejemplo de una variable aleatoria que es independiente de A, considere la
variable aleatoria que toma elvalor 0 si el primer tos es un head y el valor 1 si el
primer toss es una cola. Esto es intuitivamente claro y también se puede verificar mediante
el uso de la definición de independencia.
Independencia de variables aleatorias
La noción de independencia de dos variables aleatorias es similar. Decimos que dos

variables aleatorias X e Y son independientes si
pX,Y (x,y)á pX(x)pY (y),para todos los x,y.
Esto es lo mismo que exigir que los dos eventos ,X, x,y"Y" y "Y"sean independientes
para cada x e y. Por último, la fórmula pX,Y (x,y) - pX- Y (x? y)pY (y)muestra que la
independencia es equivalente a la condición pX| Y (x? y) á pX(x), para todos y con
pY (y ) > 0 y todo x. y
Intuitivamente, la independencia significa que el valor experimental de Y no nos dice

nada sobre el valor de X.
Hay una noción similar de independencia condicional de dos variables aleatorias,
dado un evento A con P(A > 0. El evento de acondicionamiento A define un nuevo
universo y todas las probabilidades (o PMF) tienen que ser reemplazadas por sus
contrapartes condicionales. Por ejemplo, se dice que X e Y son
condicionalmenteindependientes, dado un evento de probabilidad positivo A,si
P(X x,Y á y - y - A) - P(X á x- A)P(Y á y ? A),para todos los x e y, y,
o, en la notación de este capítulo, pX,Y | A(x,y) á pX- A(x)pY ? A(y),para
todos los x e y. y.
Una vez más, esto es equivalente a pX| Y,A(x? y) á pX? A(x)para todas las x e
y de tal manera que pY | A(y) > 0.
Al igual que en el caso de los acontecimientos (sección 1.4), la independencia

condicional no puede implicar independencia incondicional y viceversa. Esto se ilustra
con el ejemplo en Fig. 2.15.
Si X e Y son variables aleatorias independientes, entonces
E[XY ] - E[X]E[Y ],
como se muestra en el siguiente cálculo:
) por la independencia
y
4 1 /20 2 /20 2 /20 0
3 2 /20 4 /20 1 /20 2 /20
2 0 1 /20 3 /20 1 /20
1 0 1 /20 0 0
1 2 3 4
X
Figura 2.15: Ejemplo que ilustra que la independencia condicional no puede implicar
independencia incondicional. Para el PMF mostrado, las variables aleatorias X y
Y no son independientes. Por ejemplo, tenemos
Por otro lado, condicionado al evento A -X - 2,Y - 3o (el shaded establecido en la figura), las
variables aleatorias X e Y se pueden ver como independientes.

En particular, hemos
N.o 1,
N.o 2,
para ambos valores y a 3 y a 4.

Un cálculo muy similar también muestra que si X e Y son independientes, entonces
E ,
para cualquier función g y h. De hecho, esto sigue inmediatamente una vez que nos
damos cuenta de que si X e Y son independientes, entonces lo mismo es cierto para
g(X) y h(Y ). Esto es intuitivamente claro y su verificación formal se deja como un
problema de fin de capítulo.
Considere ahora la suma Z x X + Y de dos variables aleatorias independientes
X e Y , y vamos a calcular la varianza de Z. Tenemos, usando la relación
E[X + Y ] - E[X] + E[Y ],
.
Para justificar la última igualdad, tenga en cuenta que las
variables aleatoriasE[Y ] son independientes (son
funciones de las variables aleatorias independientes e Y , respectivamente) y
E .
Concluimos que var(Z) á var(X)+ var(Y ).
Por lo tanto, la varianza de la suma de dos variables aleatorias independientes es

igual a la suma de sus desviaciones. Como contraste interesante, tenga en cuenta que
la media de la suma de dos variables aleatorias siempre es igual a la suma de sus
medios, incluso si no son independent.
Resumen de los hechos sobre variables aleatorias independientes

Deje que A sea un evento, con P(A) > 0, y deje que X e Y sean variables
aleatorias asociadas con el mismo experimento.
• X es independiente del evento A si
pX? A(x)á pX(x),para todos los x,
es decir, si para todos los x, loseventos deX x xy A son independientes.
• X e Y son independientes si para todos los pares posibles (x,y), los
eventos delos eventos x xyY son yindependientes, o de forma
equivalente
pX,Y (x,y)á pX(x)pY (y),para todos los x,y.
• Si X e Y son variables aleatorias independientes, entonces
E[XY ] á E[X]E[Y ].
Además, para cualquier función f y g,las variables aleatorias g(X) y h(Y )

son independientes, y tenemos
E .
• Si X e Y son independientes, entonces
var[X + Y ] á var(X) +var(Y ).

Independencia de varias variables aleatorias
Todo lo anterior tiene extensiones naturales al caso de más de dos variables aleatorias.
Por ejemplo, se dice que tres variables aleatorias X, Y y Z son independientes si
pX,Y,Z(x,y,z)á pX(x)pY (y)pZ(z), para todos los x,y,z.
Si X, Y y Z son variables aleatorias independientes, las tres variables aleatorias

de la forma f(X), g(Y ) y h(Z), también sonindependientes. Del mismo modo, las dos
variables aleatorias de la forma g(X,Y ) y h(Z)son independientes. Por otro lado,

lasvariables aleatorias t wo de la forma g(X,Y ) y h(Y,Z)generalmente no son
independientes, porque ambas se ven afectadas por Y . Propiedades como las
anteriores son intuitivamente claras si interpretamos la independencia en términos
de no interacción (sub)experimentos. Pueden serverificados porvía oral (ver los
problemas de fin de capítulo), pero esto a veces es tedioso. Afortunadamente, hay un
acuerdo general entre la intuición y lo que es matemáticamente correcto. Esto es
básicamente un testimonio de que las definiciones de independencia que hemos
estado utilizando reflejan adecuadamente la interpretación prevista.
Otra propiedad que se extiende a varias variables aleatorias es la siguiente. Si
X1,X2,...,Xn son variables aleatorias independientes, a continuación, var(X1 + X2 + x +
Xn) ávar(X1) +var(X2) + á +var(Xn).
Esto se puede verificar mediante un cálculo similar al del caso de dos variables
aleatorias y se deja como un ejercicio para el lector.
Ejemplo 2.17. Variación del Binomio. Consideramos n lanzamientos de monedas

independientes, con cada lanzamiento tiene probabilidad p de subir una cabeza. Para
cada i, dejamos que Xi ser la variable aleatoria Bernoulli que es igual a 1 si el ith toss
sube una cabeza, y es 0 de lo contrario. A continuación, X X X1 + X2 + x + Xn es una
variable dom corrida binomial. Por la independencia de los lanzamientos de moneda, las
variables aleatorias X1,...,Xn son independientes, y
Las fórmulas para la media y la varianza de una suma ponderada de variables

aleatorias forman la base para muchos procedimientos estadísticos que estiman la
media de una variable aleatoria promediando muchas muestras independientes. Un
caso típico se ilustra en el siguiente examplio.
Ejemplo 2.18. Media y varianza de la media de la muestra. Deseamos estimar la calificación

de aprobación de un presidente, que se llamará C. Con este fin, pedimos n personas
extraídas al azar de la población de votantes, y dejamos que Xi sea una variable
aleatoria que codifica la respuesta de la persona i:th person:
1 si la ipersona aprueba laactuación de C,

=
0 si la ipersona desaprueba la
actuación de C.
Modelamos X1,X2,...,Xn como variables aleatorias independientes de Bernoulli con media p
común y varianza p(1 a p). Naturalmente, vemos p como la verdadera calificación
de aprobación de C. "promediamos" las respuestas y calculamos la media de la muestra
Sn,definida como
Por lo tanto, Sn es la calificación de aprobación de C dentro de nuestra muestran-

persona. n
Tenemos, utilizando la linealidad de Sn como una función de la Xi,
y haciendo uso de la independencia de X1,...,Xn,
La media de la muestra Sn se puede ver como una estimación "buena" de la calificación

de aprobación. Esto se debe a que tiene el valor esperado correcto, que es la calificación
de aprobación p, ysu precisión, como se refleja en su varianza, mejora a medida que
aumenta el tamaño de la muestra n. increases.
Tenga en cuenta que incluso si las variables aleatorias Xi no son Bernoulli, el mismo
cálculo produce
siempre y cuando las Xi sean independientes, con la media común E[X] yla varianza var(X).
Por lo tanto, de nuevo, la media de la muestra se convierte en una muy buena estimación
(en términos de varianza) de la verdadera media E[X], a medida que aumenta el tamaño de
la muestra n. Revisaremos las propiedades de la media de la muestra y las discutiremos
con mucho más detalle en el Capítulo 7, cuando discutamos las leyes de grandes cantidades.
Ejemplo 2.19. Estimación de probabilidades por simulación. En muchas situaciones

prácticas, el cálculo analítico de la probabilidad de algún evento de interés es muy difícil.
Sin embargo, si tenemos un modelo físico o informático que puede generar resultados de
un experimento dado de acuerdo con sus verdaderas probabilidades, podemos
utilizar la simulación para calcular con alta precisión la probabilidad de cualquier evento
dado A. En particular, generamos independientemente con nuestro modelo n resultados,
registramos el número m que pertenecen al evento A de interés, y nos aproximamos a
P(A)por m/n. Por ejemplo, para calcular la probabilidad p á P(Cabezas) de una moneda
sesgada, volteamos la moneda n veces, y nos aproximamos p con la relación (número
de cabezas registradas)/n.
Para ver qué tan preciso es este process, considere n variables aleatorias
independientes de Bernoulli X1,...,Xn, cada una conPMF
1, 0.
En un contexto de simulación, Xi corresponde al resultado i,y toma el valor 1 si el

resultado ith pertenece alevento A. El valor de la variable aleatoria
es la estimación de P(A) proporcionada porla simulación. Según el ejemplo 2.17, X

tiene la media P(A) yla varianza P, de modo que para ngrande ,
proporciona unaestimación precisa de P(A).
Las variables aleatorias proporcionan las herramientas naturales para tratar modelos
probabilísticos en los que el resultado determina ciertos valores numéricos de interés.
En este capítulo, nos centramos en variables aleatorias discretas, y desarrollamos los
conceptos principales y algunas herramientas de relevant. También discutimos varias
variables aleatorias especiales, y derivamos su PMF, media y varianza, como se resume
en la tabla siguiente.
Resumen de resultados de variables aleatorias especiales

Uniforme discreto sobre [a,b ]:
1
PX ( K)= Si K = a,a +1 ,...,b ,
B − O +1
0 n Lo contrario
O+ B ( B − O)( B − O +2)
E [X ]= , var( X )= .
n2 n 12 n
Bernoulli con parámetro P: ( Describa el éxito o el fracaso en un solo

juicio.)
P Si K N.o ,
PX ( K) =
1 − P Si K 0
1 ,
E [X ] = P var( X ) = P(1 − P) .
52
Binomial con parámetros PY N: ( Describe el número de éxitos

En N juicios independientes de Bernoulli.)
N K
PX ( K)= P (1 − P) N − K , K N.o , 1,...,n,
K
0
E [X ] = Np var( X ) = Np(1 − P) .
Geométrico con parámetro P: ( Describe el número de ensayos hasta que el

primer éxito, en una secuencia de ensayos independientes de Bernoulli.)
PX ( K) á (1 − P) K − 1 P K N.o , 2,...,
1
1 1− P
E [X ]= , var( X )= .
P P2
Poisson con parámetro Λ: ( Se aproxima al PMF binomial cuando N

es grande,P es pequeño, y Λ = Np.)
ΛK
PX ( K)= e− Λ , K N.o , 1,...,
K!
0
E [X ] = Λ var( X ) = Λ.
También consideramos varias variables aleatorias, e introdujimos sus PMF

conjuntos y condicionales, y los valores esperados asociados. Los PMF condicionales
son a menudo el punto de partida en los modelos probabilísticos y se pueden utilizar
para calcular otras cantidades de interés, como PMF marginales o conjuntas y
expectativas, a través de un enfoque secuencial o de división y conquista. En particular,
dado el condicional PMF pX| Y (x? y):
(a) La PMF conjunta puede calcularse
pX,Y (x,y)á pY (y)pX| Y (x? y).
Esto se puede extender a la case de tres o más variables aleatorias, como en
pX,Y,Z(x,y,z)á pY (y)pY - Z(y ? z)pX? Y,Z(x? y,z),
y es análogo al método de cálculo secuencial basado en árbol utilizando la regla

de multiplicación, que se describe en el capítulo 1. (b) El PMF marginal puede
calcularse
,
que generaliza el método de cálculo de dividir y conquistar que discutimos en el
Capítulo 1.
(c) El método de cálculo de división y conquista en la letra b) anterior puede
ampliarse para calcular los valores esperados utilizando el teorema de
expectativa total:
E .
Los conceptos y métodos de este capítulo se extienden adecuadamente a las

variables aleatorias generales (véase el siguiente capítulo), y son fundamentales para
nuestro tema.
Variables aleatorias generales
Contenido
3.1. Variables y archivos PDF aleatorios continuos . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .
p ................................................................................................................................................... 22
........................................................................................................................................................ 2
3.2. Funciones de distribución acumulativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
p .............................................................................................................................................. 1211
..................................................................................................................................................... 12
3.3. Variables aleatorias normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
p .............................................................................................................................................. 1817
..................................................................................................................................................... 18
3.4. Acondicionamiento en un evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
p .............................................................................................................................................. 2321
..................................................................................................................................................... 23
3.5. Múltiples variables aleatorias continuas . . . 31 . . . . . . .
p .............................................................................................................................................. 3127
..................................................................................................................................................... 31
3.6. Distribuciones derivadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p .............................................................................................................................................. 4739
..................................................................................................................................................... 47
3.7. Resumen y discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . .
p.............................................................................................................................................. 6151
......................................................................................................................................................61
1
2 Variables aleatorias generales Capítulo 3
Las variables aleatorias con un rango continuo de valores experimentales posibles son
bastante comunes: la velocidad de un vehículo que viaja a lo largo de la carretera
podría ser un ejemplo. Si tal velocidad se mide mediante un velocímetro digital, la
lectura del velocímetro es una variable aleatoria discreta. Pero si también queremos
modelar la velocidad exacta, se pide una variable aleatoria continua. Los modelos que
implican variables aleatorias continuas pueden ser útiles por varias razones. Además
de ser más fino y posiblemente más preciso, they permite el uso de herramientas
poderosas de cálculo y a menudo admitir un análisis perspicaz que no sería posible
bajo un modelo discreto.
Todos los conceptos y métodos introducidos en el Capítulo 2, tales como
expectativa, PMF y condicionamiento, tienencontrapartes continuas. Desarrollar e
interpretar estas contrapartes es el tema de este capítulo.
3.1 VARIABLES ALEATORIAS CONTINUAS Y PDF
Una variable aleatoria X se llama continua si su ley de probabilidad se puede

describir en términos de una función no negativo fX, llamada la función de densidad
de probabilidad de X, o PDFpara abreviar, que satisface
para cada subconjunto B de la línea real. falls within an interval is
P
y puede interpretarse como el área bajo el gráfico del PDF (véase la Fig. 3.1). Para
cualquier valor único a, tenemos P a 0. Por esta razón,
incluir o excluir los puntos finales de un intervalo no tiene ningún efecto en su
probabilidad:
P(a á X á b)á P(a< X < b)á P(a á X < b)á P(a< X á b).
Tenga en cuenta que para calificar como PDF, una función fX debe ser no
negativo, es decir, fX(x)- 0 para cada x, y también debe satisfacerla ecuación de
normalización
.
Sec. 3.1 Variables aleatorias continuas y archivos PDF 3
• La integral debe ser interpretada en el sentido habitual de

cálculo/Riemann y asumimos implícitamente que estábiendefinida. Para funciones y conjuntos
muy inusuales, esta integral puede ser más difícil, o incluso imposible, de definir, pero tales
cuestiones pertenecen a un tratamiento más avanzado del tema. En cualquier caso, es
reconfortante saber que las sutilezas matemáticas desu tipo no surgen si fX es una función
continua por vías con un número finito de puntos de discontinuidad, y B es la unión de un
número finito o contable de intervalos.
Pdf FX ( X)
Espacio de muestra
O B X
Evento ?O < X < B }
nu
nu
Figura 3.1: Ilustración de un PDF. La probabilidad de que X tome valor en un intervalo

[, que es el área sombreada de la figura.
Gráficamente, esto significa que toda el área bajo el gráfico del PDF debe ser igual a 1.
Para interpretar el PDF, tenga en cuenta que para un intervalo [ δx,x + ]con una
longitud muy pequeña, hemos
para que podamos ver fX(x) comola "masa de probabilidad por longitud de unidad"
cerca de x (cf. Fig. 3.2). Es importante tener en cuenta que aunque un PDF se utiliza
para calcular las probabilidades de eventos, fX(x) no es la probabilidad deningún
evento en particular. En particular, no se limita a ser less que o igual a uno.
Pdf FX ( X )
Figura 3.2: Interpretación del PDF fX(x) como "masa
de probabilidad por unidad de longitud" alrededor
de x. Si Δ es muy pequeña, la probabilidad de que X
toma valor en el intervalo [x,x + δ] es el área
sombreada de la figura, que es aproximadamente
Δ
igual a fX(x) · δ.
X X +Δ
Ejemplo 3.1. Variable aleatoria uniforme continua. Un jugador gira una rueda de la fortuna,
calibrada continuamente entre 0 y 1, y observa el número resultante. Suponiendo que
todos los subintervalos de [0,1] de la misma longitud son igualmente probables, este
experimento se puede modelar en términos de una variable aleatoria X con PDF
si 0 x 1,
()= -- -
0 de lo contrario,
para alguna cconstante. Esta constante se puede determinar mediante la propiedad de
normalización
de modo que c . 1.
Más generalmente, podemos considerar una variable aleatoria X que toma valores
en un intervalo [a,b], y de nuevo asumir que todos los subintervalos de la misma longitud
son igualmente probables. Nos referimos a este tipo de variable aleatoria como uniforme
o uniformemente distribuida. Su PDF tiene la forma
c si a x b,
fX(x)- ≤
0 de lo contrario,
donde c es una constante. Este es el análogo continuo de la variable aleatoria uniforme

discreta discutida en el capítulo 2. Para que fX satisfaga la propiedad de normalización,
debemos tener (cf. Fig. 3.3)
Para
Pdf FX ( X)
1
b-a
Figura 3.3: El PDF de una variable aleatoria
uniforme.
O B X
nu
Tenga en cuenta que la probabilidad P(X - I)que X toma valor en un conjunto I

es
P .
La variable aleatoria uniforme guarda una relación con la ley uniforme discreta, que implica
un espacio de muestra con un número finito de resultados igualmente probables. La
diferencia es que para obtener la probabilidad de varios eventos, ahora debemos calcular
la "longitud" de varios subconjuntos de la línea real en lugar de contar el número de
resultados contenidos en varios eventos.
Ejemplo 3.2. PDF constante a por pieza. El tiempo de conducción de Alvin para trabajar es
entre 15 y 20 minutos si el día es soleado, y entre 20 y 25 minutos si el día es lluvioso,
siendo todos los tiempos igualmente probable en cada caso. Supongamos que un día es
soleado con probabilidad 2/3 y lluvioso con probabilidad 1/3. ¿Cuál es el PDF del tiempo de
conducción, visto como una variable aleatoria X??
Interpretamos la afirmación de que "todos los times son igualmente probables" en
los casos soleados y lluviosos, para significar que el PDF de X es constante en cada uno
de los intervalos [15,,20] y [20,,25]. Además, dado que estos dos intervalos contienen todos
los tiempos de conducción posibles, el PDF debe ser cero en cualquier otro lugar:
c1 si 15 x < 20,
si 20 x x 25, 0
de lo contrario,
donde c1 y c2 son algunas constantes. Podemos determinar estas constantes utilizando
las probabilidades dadas de un día soleado y lluvioso:
• P(día soleado) ,
• P(día lluvioso) ,
Para
.
Generalizar este ejemplo, considere una variable aleatoria X cuyo PDF tiene la forma
constante por pieza
1,
donde un1,a2,...,an son

algunos escalares con uni < ai+1 para todos i,y c1,c2,...,cn son
algunas constantes no negociativas (cf. Fig. 3.4). Las constantes ci pueden ser
determinadas por datos problemáticos adicionales, como en el caso del contexto de
conducción anterior. Generalmente, el ci debe ser tal que la propiedad de

normalización tenga:
Pdf FX ( X)
C2
C1
C3
O1 O2 O3 O4 X
nu nu nu nu
Figura 3.4: Un PDF constante por pieza que implica tres intervalos.
Ejemplo 3.3. Un PDF puede ser arbitrariamente grande. Considere una variable aleatoria
X con PDF
si 0 < x a 1,
Lo contrario.
A pesar de que fX(x) sevuelve infinitamente grande a medida que x se acerca a cero, esto
sigue siendo un PDF válido, porque
Resumen de las propiedades de PDF

DejaX Ser O variable aleatoria continua con PDF FX .
r • F ( Xn) ≥ 0 para X .
X
∞
• −∞ F X ( X ) todos
Dx N.o .
1
• Si Δ es muy pequeño, P [x,x + Δ] ≈ FX ( X) · Δ.
• Paraentonces
Subconjentonces
B de la línea real,
cualquierunto
P ( X ∈ B )= F X ( X ) Dx.
B
Expectativa
El valor esperado o la media de una variable aleatoria continua X se define por .
• Uno tiene que lidiar con la posibilidad de que la integral sea infinita o
indefinida. Más concretamente, diremos que la expectativa está bien definida si
. En ese caso, se sabe que la

un valor finito e inequívoco.
Para obtener un ejemplo en el que la expectativa no está bien definida, considere una
variable aleatoria X con PDF fX(x) á c/(1+x2), donde c es una constante elegida para
aplicar la condición de normalización. La expresión ? x? fX(x) es aproximadamente el mismo
que 1/| x? cuando
| x? es grande. Usando el hecho ∞, uno puede mostrar que

∞ ..
Por lo tanto, E[X] se dejaindefinido, a pesar de la simetría del PDF alrededor de cero.
A lo largo de este libro, a falta de una indicación en contrario, suponemos implícitamente
que el valor esperado de las varia bles deinterés aleatorios está bien definido.
Esto es similar al caso discreto, excepto que el PMF es reemplazado por el PDF, y la
suma se reemplaza por la integración. Al igual que en el capítulo 2, E[X]puede
interpretarse como el "centro de gravedad" de la ley de probabilidad y, also, como el
valor medio previsto de X en un gran número de repeticiones independientes del
experimento. Sus propiedades matemáticas son similares al caso discreto – después
de todo, una integral es sólo una forma limitante de una suma.
Si X es un var aleatorio continuoiable con PDF dado, cualquier función de valor
real Y á g(X)de X también es una variable aleatoria. Tenga en cuenta que Y puede
ser una variable aleatoria continua: por ejemplo, considere el caso trivial en el que
Y es g(X)- X. Pero Y también puede resultar ser discreto. Por ejemplo, supongamos
que g(x) á1 para x > 0, y g(x) a0, de lo contrario. Entonces Y á g(X) es una variable
aleatoriadiscreta. En cualquier caso, la media de g(X) satisface la reglade valor
esperado
en completa analogía con el caso discreto.

El nmomento de una variable aleatoria continua X se define como E[Xn], el

valor esperado de la variable aleatoria Xn. La varianza, indicada
por var(X), se define como el valor esperado de lavariable
aleatoria.
Ahora resumimos esta discusión y enumeramos una serie de hechos adicionales
que son prácticamente idénticos a sus homólogos discretos.
Expectativa de una variable aleatoria continua y sus propiedades

DejaX Ser O variable aleatoria continua con PDF FX .
r • La expectativa
n de X se define por
∞
E [X ]= Xf X ( X ) Dx.
−∞
• La regla de valor esperado para una función

G( X ) tiene la forma
∞
E G( X ) = G( X) F X ( X ) Dx.
−∞
• La varianza de X se define por

∞
2 2
var( X )= E X − E [X ] = X − E [X ] FX ( X ) Dx.
−∞
• Tenemos
2
0 ≤ var( X )= E [X 2 ] − E [X ] .
• Si Y = Ax + B, Dónde O Y B se les dan escalares, entonces

n
E [Y ] = OE [X ] + B var( Y ) = O2 var( X ) .
n n
Ejemplo 3.4. Media y varianza de la variable aleatoria uniforme. Considere el caso de un

PDF uniforme en un intervalo [a,b], como en el ejemplo 3.1. Tenemos
E
como uno espera basado en la simetría del PDF alrededor (a + b)/2.

Para obtener la varianza, primero calculamos el segundo momento. Tenemos
Por lo tanto, la varianza se obtiene como
después de un poco de cálculo.

Supongamos ahora que [a,b] á [0,1], y considere la función g(x) -1 si x á 1/3, y g(x)
á2 si x > 1/3. El variabl aleatorioe Y á g(X) es discreto conPMF pY (1) á P(X á 1/3) á
1/3, pY (2) a 1 p Y (1) a p Y (1) a 2/ p 3. Por lo tanto,
E .
El mismo resultado se podría obtener utilizando la regla de valor esperado:
E .
Variable aleatoria exponencial
Una variable aleatoria exponencial tiene un PDF del formulario
si x a 0,
X
0 de lo contrario,
en el que es un parámetro positivo que caracteriza el PDF (véase la Fig. 3.5). Este es
un PDF legítimo porque
.
Tenga en cuenta que la probabilidad que
supera un determinado valor disminuye exponencialmente. De hecho, para cualquier
0, tenemos
P.
Una variable aleatoria exponencial puede ser un modelo muy bueno durante la
cantidad de tiempo hasta que un equipo se descompone, hasta que una bombilla se
quema o hasta que ocurre un accidente. Desempeñará un papel importante en
nuestro estudio de los procesos aleatorios en el Capítulo 5, pero por el momento
simplemente lo veremos como un ejemplo de un variable aleatoriocapaz que es
bastante manejable analíticamente.
Λ
Λ PequeñΛ GrandeΛ
o
0 X 0 X
Figura 3.5: El PDF es−x de una variable aleatoria exponencial.

La media y la varianza se pueden calcular para ser
E .
Estas fórmulas se pueden verificar mediante un cálculo sencillo, como ahora

mostramos. Tenemos, utilizando la integración por partes,
Utilizando de nuevo la integración por partes, el segundo momento es
Finalmente, usando la fórmula var( , obtenemos
Ejemplo 3.5. El tiempo hasta que un smtodometeorito primera aterriza en cualquier lugar
en el desierto del Sahara se modela como una variable aleatoria exponencial con una media
de 10 días. La hora es actualmente medianoche. ¿Cuál es la probabilidad de que un
meteorito aterrice por primera vez en algún momento entre las 6 de la mañana y las 6 de
la tarde del primer día??
Deje que X sea el tiempo transcurrido hasta que el evento de interés, medido en
días. A continuación, X es exponencial, con una media de 1/o 10, lo que produce un
valor de 1/10. La probabilidad deseada es
P(1/4 x X a 3/4) a P(X á 1/4) á P(X> 3/4) á e-1/40 á eá3/40 á 0. 0476, donde hemos
utilizado la fórmula P(X a a) - P(X >a ) - e-..

También vamos a derivar una expresión para la probabilidad de que el momento en

que un meteorito aterriza por primera vez será entre las 6am y las 6pm de algún día. Para
el kthdía, este conjunto de tiempos corresponde al evento k á (3/4) - X á k á (1/4).
Dado que estos eventos son desarticulados, la probabilidad de interés es
Omitimos el resto del cálculo, que implica el uso de la fórmula de serie geométrica.
3.2 FUNCIONES DE DISTRIBUCIÓN ACUMULATIVA
Hemos estado tratando con variables aleatorias discretas y continuas de una manera
algo diferente, utilizando PMF y PDFs, respectivamente. Sería deseable describir todo
tipo de variables aleatorias con un solo concepto matemático. Esto se logra by la
función de distribución acumulativa, oCDF para abreviar. El CDF de una variable
aleatoria X es denotado por FX y proporciona la probabilidad P(X x x). En particular,
por cada x que tenemos
: discreto,
: continuo.
En términos generales, el CDF FX(x) "acumula" probabilidad "hasta" el valor x.

Cualquier variable aleatoria asociada a un modelo de probabilidad determinado
tiene un CDF, independientemente de si es discreto, continuo u otro. Esto se debe
aque xsiempre es un evento y, por lo tanto, tiene una probabilidad bien definida.
Las figuras 3.6 y 3.7 ilustran los CDF de varias variables aleatorias discretas y continuas.
Sec. 3.2 Funciones de distribución acumulativa 13
A partir de estas cifras, así como de la definición, se pueden observar algunas

propiedades generales del CDF.
Pmf P X (X)
Fcd F X (X)
P X(2)
1
. ..P X(2)
0 1 2 3 4 0
.
1 2 3 4
X X
Fcd F X (X)
Pmf P X (X)
1
. .
0 0
.
X X
Figura 3.6: CDF de algunas variables aleatorias discretas. El CDF está relacionado con la
PMF a través de la fórmula
y tiene una forma de escalera, con saltos que ocurren en los valores de la masa de
probabilidad positiva. Tenga en cuenta que en los puntos donde se produce un salto, el valor
de FX es el larger de los dos valorescorrespondientes (es decir, FX es continuo
desde la derecha).
Propiedades de un CDF
El CDF FX de una variable aleatoria X se define por
FX(x)- P(X á x),para todos los x,
y tiene las siguientes propiedades.

• FX es monotónicamente no disminuyente:
si x es y, a continuación, FX(x)- FX(y).
• FX(x) tiende a 0 como x , y a 1 como x → ∞. .
• Si X es discreto, entonces FX tiene una constante por pieza y una
forma similar a una escalera.

• Si X es continuo, FX tiene una forma que varía continuamente.
• Si X es discreto y toma valores enteros, el PMF y el CDF se pueden obtener
entre sí sumando o diferenciando:
pX(k)á P(X á k)- P(X á k á 1) - FX(k)- FX(k á 1),
para todos los enteros k.

• Si X es continuo, el PDF y el CDF se pueden obtener entre sí por integración o
diferenciación:
(Esta última relación es válida para aquellas x para las que el CDF tiene un
derivado.)
Dado que el CDF se define para cualquier tipo de variable aleatoria, proporciona
un medio conveniente para explorar las relaciones entre variables aleatorias continuas
y discretas. Esto se ilustra en el ejemplo siguiente, que muestra que hay un estrecho
relation entre las variables geométricas y aleatorias exponenciales.
Ejemplo 3.6. Los CDF Geométricos y exponenciales Permiten que X sea

una variable
geométrica aleatoria con el parámetro p;es decir, X es el número de ensayos
para obtener el primer éxito en una secuencia de ensayos independent
Bernoulli, donde la probabilidad de éxito es p. Por lo tanto, para k a 1,2,... , tenemos P(X
á k)á p(1 á p)ká1 y el CDF es dado por
, para n a 1,2,...
Supongamos que ahora que X es una variable aleatoria exponencial con el parámetro > 0.
Su CDF es dado por
Fexp(x) á P(X á x)- 0, para x a 0,
, para x > 0.
Pdf FX ( X) Fcd F X (X )
1
1
b-a
X- O
Zona F X (C)
B - On
(área)
n
O C B X O C B X
nu nu
Pdf FX ( X) Fcd F X (X )
2
1
b-a
( X- O) 2
( B - nO)2
n
O B X O B X
nu nu
Figura 3.7: CDF de algunas variables aleatorias continuas. El CDF está relacionado con el PDF
a través de la fórmula
Por lo tanto, el PDF fX se puede obtener del CDF por diferenciación:
Para una variable aleatoria continua, el CDF no tiene saltos, es decir, es continuo.
Para comparar losdos CDF anteriores, deje que el valor de "ln"(1 á p))/-, de
modoque
e.−. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.
Entonces vemos que los valores de los CDF exponenciales y geométricos son iguales para
todos los x , nδdonde n á 1,2,... , es decir,
Fexp(n )á Fgeo(n), n á 1,2,...,
como se ilustra en la Fig. 3.8.

Si es muy pequeño, hay una proximidad cercana de los CDF exponenciales y
geométricos, siempre que escalemos los valores tomados por la variable geométrica
aleatoria por . Esta relación se interpreta mejor viendo X como tiempo, either continuo,
en el caso de lo exponencial, o δ-discretizado, en el caso de lo geométrico. En particular,
supongamos que es un número pequeño, y que cada segundo, volteamos una moneda
con la probabilidad de que las cabezas sean un número pequeño p. Entonces, el
tiempo de la primera aparición de cabezas es bien aproximado por una variable aleatoria
exponencial. El parámetro
CDF exponencial 1 - e- Λ X
0 NΔ X
CDF geométrico
n -á
1 - (1 - p) con p a 1 - e
Figura 3.8: Relación de los CDF geométricos y exponenciales. Tenemos
Fexp(n )á Fgeo(n), n á 1,2,...,

si el intervalo es tal que e-á 1 p.p. A medida que se acerca a 0, la variable aleatoria
exponencial se puede interpretar como el "límite" de la geometría.
p)/δEl valor de este exponencial es tal que e. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

...............................................................
. . . . .. Esta relación entre las variables geométricas y las variables aleatorias exponenciales
desempeñará unpapel imparante en la teoría de los procesos estocásticos de Bernoulli y
Poisson en el capítulo 5.
A veces, para calcular el PMF o PDF de una variable aleatoria discreta o continua,
respectivamente, es más conveniente calcular primero el CDF y luego use las
relaciones anteriores. El uso sistemático de este enfoque para el caso de una variable
aleatoria continua se discutirá en la Sección 3.6. A continuación se muestra un
ejemplo discreto.
Ejemplo 3.7. El máximo de varias variables aleatorias. Se le permite realizaruna prueba

determinada tres veces, y su puntuación final será el máximo de las puntuaciones de la
prueba. Por lo tanto,
X x xx1,X2,X3,,
donde X1,X2,X3 son las tres puntuaciones de la prueba y X es la puntuación final.

Supongamos que su puntuación en cada prueba toma uno de los valores de 1 a 10 con la
misma probabilidad 1/10, independientemente de las puntuaciones en otras pruebas. ¿Cuál
es el PMF pX de la puntuación final?
Calculamos el PMF indirectamente. Primero calculamos el CDF FX(k)y luego
obtenemos el PMF como pX(k) á FX(k) á FX(k á 1), k á 1,...,10.
Tenemos
FX(k)- P(X á k)
• P(X1 k, X2 k, X3 x k)
cuando la tercera igualdad se deriva de la independencia de los eventos de los eventos
deXX1 a k,}, {X2 a k,XX3 a k. Por lo tanto, el PMF es dado por

3.3 VARIABLES ALEATORIAS NORMALES
Se dice que una variable aleatoria continua X es normal o gaussiana si tiene un

PDF del formulario (véase la Fig. 3.9)
en los que los parámetros escalares son dos parámetros escalares que caracterizan
el PDF, con el valor no negativo. Se puede verificar que la propiedad de
normalización
(ver los problemas teóricos).
Normal PDF FX(X) Normal CDF F X (X)

1
0.5
-1 0 1 2 3 X -1 0 1 2 3 X
µ N.o 1 µ N.o 1
Figura 3.9: Un PDF y un CDF normales, con los valores de 1 y σ2 a 1. Observamos que el
PDF es simétrico alrededor desumedia, y tiene una forma de campana característica.
A medida que x se aleja de ,el término eá(xáµ)2/2x2 disminuye muy rápidamente. En esta
figura, el PDF está muy cerca de cero fuera del intervalo [-1,3].
19
3.3 Variables aleatorias normales
La media y la varianza se pueden calcular para ser
E[X] á, µ, var(X) á 22.
Para ver esto, tenga en cuenta que el PDF es simétrico alrededor de ,por lo que su
media debe ser ..
Además, la varianza es dada por
Usando el cambio de las variables y - (x á )/ á yla integración por partes, hemos
La última igualdad anterior se obtiene utilizando el hecho de que
que es sólo la propiedad de normalización del PDF normal para el caso en el que los
valores de los valores de los valores de los valores de los valores de los valores de los
valores de los valores de los valores de los valores de los valores de los valores
de los valores de los valores de los valores de los valores de los valores de los
valores de los valores de los valores de los valores de los valores de
La variable aleatoria normal tiene varias propiedades especiales. La siguiente es
particularmente importante y estará justificada en la Sección 3.6.
La normalidad se preserva mediante transformaciones lineales

Si X es una variable aleatoria normal con la media y la varianza 22,y si a, b son
escalares, entonces la variable aleatoria
Y aX + b
también es normal, con media y varianza
E[Y ] á + b, var(Y ) a a2x2.
La variable aleatoria normal estándar
Se dice que una variable aleatoria normal Y con media cero y varianza unitaria es una
normal estándar. Su CDF se denota por ,
Se registra en una tabla (dada en la página siguiente), y es una herramienta muy útil
para calcular las probabilidades de variouque implican variables aleatorias normales;
véase también la Fig. 3.10.
Tenga en cuenta que la tabla solo proporciona los valores de la palabra"y"para
y - 0, ya que los valores omitidos se pueden encontrar utilizando la simetría del PDF.
Por ejemplo, si Y es un variable aleatorio normal estándar,tenemos
• (0. . 5) - P(Y - 0. 5) - P(Y - 0. 5) 1o P(Y < 0. 5) a 1o (0. 5) 1o
. 6915 a 0. 3085.
Deje que X sea una variable aleatoria normal con la media y la varianza σ2. Nosotros
"estandarizar" X definiendo una nueva variable aleatoria Y dada por
Dado que Y es una transformación lineal de X,esnormal. Además,
E , .
Por lo tanto, Y es una variable aleatoria normal estándar. Este hecho nos permite
calcular la probabilidad de cualquier evento definido en términos de X:redefinimos el
evento en términos de Y , y luego usamos latabla normal standard.
PDF normal estándar ESTÁNDAR normal de CDF

ϕ (y )
0.399 1
Medios de
Zona ϕ (0.7) Variación 1 ϕ (0.7)
comunicación
(área)
-1 0 0.7 2 -1 0 0.7 2 y
21
Figura 3.10: El PDF
de la variable aleatoria normal estándar. Su CDF correspondiente, que se denota por el

nombrede la letra y, se registra en unatabla.
3.3 Variables aleatorias normales
Ejemplo 3.8. Uso de la tabla normal. La nevada anual en una ubicación geográfica
determinada se modela como una variable aleatoria normal con una media de 60
pulgadas y una desviación estándar de 20. ¿Cuál es la probabilidad de que las nevadas de
este año sean de al menos 80 pulgadas?
Deje que X sea la acumulación de nieve, vista como una variable aleatoria normal, y
Dejar
,
ser la variable aleatoria normal estándar correspondiente. Queremos encontrar
P ,
donde es el CDF de la normal estándar. Leemos el valor de la tabla:
•1) a 0. 8413,
Para
P(X a 80) a 1 a 1o (1) a 0. 1587.
Generalizando el enfoque en el example anterior, tenemos el siguiente

procedimiento.
Cálculo CDF de la variable aleatoria normal

El CDF de una variable aleatoria normal X con medios µ y la varianza Σ 2 Es
obtenido utilizando la tabla normal como estándar como
X − µ X− µ X− µ X− µ
P ( X ≤ X)= P ≤ = P Y ≤ =Φ ,
Σ Σ Σ Σ
Dónde Y es una variable aleatoria normal estándar.
La variable aleatoria normal se utiliza a menudo en el procesamiento de señales

y la ingeniería de comunicaciones para modelar el ruido y las distorsiones
impredecibles de las señales. A continuación se muestra un ejemplo típico.
Ejemplo 3.9. Detección de señal. Un mensaje binario se transmite como una señal que es 1
o +1. El canal de comunicación corrompe la transmisión con un ruido normal aditivo con la
media de 0 y la varianza σ2. El receptor concluye que la señal 1 (o +1) se transmitió si el
valor recibido es < 0 (o 0, respectivamente); véase la Fig. 3.11. ¿Cuál es la probabilidad de
error?
Se produce un error siempre que se transmite el número 1 y el ruido N es al menos
1 de modo que N +S a1 a 0, o siempre que se transmita +1 y el ruido N sea menor

Medios cero normales
Ruido N
+1 Si N + S > 0
con varianza Σ 2
Transmisor Canal ruidoso Receptor

Señal N+ S
S •1 o -1
-1 Si N + S <0
Región de error Región de error

cuando un -1 es cuando un +1 es
Transmitida Transmitida
-1 0 0 1
Figura 3.11: El esquema de detección de señal del ejemplo 3.9. El área de la región
sombreada da la probabilidad de error en los dos casos en los que se transmiten los
números 1 y +1.
más de 1 para que N + S a N + 1 < 0. En el primer caso, la probabilidad de error es
En este último case, la probabilidad de error es la misma, por simetría. De la/σtabla

normal se puede obtener el valor de latabla normal. Para el número 1, tenemos
el valor de la/σletra de la letra de la letra de la letra de la letra de la letra de
la letra de la letra de la letra de la letra de la letra de la letra de la letra de
la letra de la letra de la letra de la letra de la letra de la letra de la letra de
la letra de la letra de la letra de la letra de la letra de la letra de. 8413, y la
probabilidad del error es 0. 1587.
23
La variable aleatoria normal desempeña un papel importante en una amplia
gama de modelos probabilísticos. La razón principal es que, en términos generales,
modela bien el efecto aditivo de muchos factores independientes, en una variedad de
contextos de ingeniería, físicos y estadísticos. Matemáticamente, el hecho clave es que
la suma de un gran número de variables aleatorias independientes e idénticamente
distribuidas (no necesariamente normales) tiene un CDF aproximadamente normal,
independientemente del CDF de las variables aleatorias individuales. Esta propiedad se
captura en el límite central celebrado elorem,que se discutirá en el capítulo 7.
3.4 ACONDICIONAMIENTO EN UN EVENTO
El PDF condicional de una variable aleatoria continua X,condicionado a un

evento particular| A con P(A) > 0, es una función fX A que satisface
P
para cualquier subconjunto B de la línea real. Es lo mismo que un PDF ordinario,

excepto que ahora se refiere a un nuevo universo en el quese sabe que ocurrió
elevento A. is known to have occurred.
Un caso especial importante surge cuando condicionamos en X que pertenece
a un subconjunto A de la línea real, con P(X - A) > 0. Entonces tenemos
P . P(X A A)
P(X - A)
Esta fórmula debe estar de acuerdo con la anterior, y por lo tanto,
si x a A,
0 de lo contrario.
Como en el caso discreto, el PDF condicional es cero fuera del conjunto de
acondicionamiento. Dentro del conjunto de acondicionamiento, el PDF condicional
tiene exactamente la misma forma que el incondicional, excepto que es escalado por
el factor constante 1/P(X - A). Estaización normal garantiza que fX| A se integra en
1, lo que lo convierte en un PDF legítimo; véase la Fig. 3.13.
FX Un( X) FX ( X)
O B X
nu
Figura 3.13: El PDF incondicional fX y el PDF condicional fX| A, donde A es el intervalo
[a,b]. Tenga en cuenta que dentro del evento de acondicionamiento A, fX| A conserva la
misma forma que fX,excepto que se escala a lo largo del eje vertical.
Sec. 3.4 Acondicionamiento en un evento 25
Ejemplo 3.10. La variable aleatoria exponencial no tiene memoria. Alvin va a una parada
de autobús donde el tiempo T entre dos autobuses sucesivos tiene un PDF exponencial
con el parámetro . Supongamos que Alvin llega t secs después de la llegada del autobús
anterior y vamos a expresareste hecho con el evento A -T > t. Que X sea el momento
en que Alvin tenga que esperar a que llegue el próximo autobús. ¿Cuál es el condicional
CDF FX? A(x? A)?
• Estamos usando aquí la notación más simple fX| A(x) enlugar de fX| XAA, que esmás
preciso.
Tenemos
=
P(T > t)
donde hemos utilizado la expresión para el CDF de una variable aleatoria exponencial
derivada en el ejemplo 3.6.
Por lo tanto, el CDF condicional de X el parámetro
es exponencial con
,independientemente del tiempo transcurrido entre la llegada del bus anterior y la
llegada de Alvin. Esto se conoce como la propiedad memorylessness del exponencial.
Generalmente, si modelamos el tiempo para completar una determinada operación
mediante una variable aleatoria exponencial X, estapropiedad implica que mientras no
se haya completado la operación, el tiempo restante hasta su finalización tiene el mismo
CDF exponencial, independientemente de cuándo se inició la operación.
Para una variable aleatoria continua, la expectativa condicional se define de

forma similar al caso unconditional, excepto que ahora necesitamos usar el PDF
condicional. Resumimos la discusión hasta ahora, junto con algunas propiedades
adicionales en la tabla siguiente.
PDF y expectativa condicional dado un evento
• El PDF condicional condicional

F X |O de una variable aleatoria continua X Dado
un eventoO Con P ( O ) > 0nuAmosa-
n n
P ( X ∈ B |O )= F X |O ( X ) Dx.
B nu
n
P ( X ∈ O ) > 0Entonce
• Si O Ser O de la subconjunto línea real con
n n n s
FX ( X)
FX |U ( X ) = Si X ∈ U ,
P (X ∈ U)
n 0 n
Lo contrario
n
Y
P ( X ∈ B |X ∈ U )= FX |U ( X ) Dx
B n
n
para cualquier
B.
conjunto
• La expectativa condicional correspondiente se define por

∞
E [X |U ]= Xf X |U ( X ) Dx.
−∞ n
n
• La regla de valor esperado sigue siendo válida:

∞
E G( X ) |U = G( X) F X |U ( X ) Dx.
−∞ n
n
( U Ⅰ) > 0 para cadaⅠ

• Si U 1 Un2 ,...,A N son eventos desarticuladosPcon , ese
formar
n una partición del espacio de muestra, a n
continuación,
N
F X ( X )= P ( U Ⅰ) F X |U Ⅰ( X )
Ⅰ
N.o n n
1
( una versión del teorema de probabilidad total), y
N
E [X ]= P ( U Ⅰ) E [X |U Ⅰ]
Ⅰ
N.o n n
1
( el teorema total de la expectativa). Semejantemente
N
E G( X ) = P ( U Ⅰ) E G( X ) |U Ⅰ .
Ⅰ
N.o n n
1
Para justificar la versión anterior del teorema de probabilidad total, utilizamos

el teorema de probabilidad total del Capítulo 1, para obtener
P .
Esta fórmula se puede reescribir como
Tomamos la derivada de ambas partes, con respecto a x, y obtenemos la relación

deseada
.
Si ahora multiplicamos ambos lados por x y luego nos integramos de s a , obtenemos
el teorema de expectativa total para variables aleatorias continuas.

El heorema total de la expectativaa menudo puede facilitar el cálculo de la
media, la varianza y otros momentos de una variable aleatoria, utilizando un enfoque
de división y conquist.
Ejemplo 3.11. Media y varianza de un PDF constante a piecewise. Supongamos que la

variable aleatoria X tiene la constante PDF por enstamos
1/3 si 0 x x 1,
3 si 1 < x a 2,
0 de lo contrario,
(véase la Fig. 3.14). Considere los eventos
se encuentra en el primer intervalo [0,1],
se encuentra en el segundo
intervalo (1,2] .
Tenemos del PDF dado,
P , P .
Además, la media condicional y el segundo momento de| X,condicionados en A1 y A2,
secalculan fácilmente desde los PDFs condicionales correspondientes fX A1 y fX| A2 son

uniformes. Recordamos del ejemplo 3.4 que la media de unavariable uniforme
aleatoria2 2 en un intervalo [a,b] es (a+b)/2 y su segundo momento es (a +ab+b )/3. Por

lo tanto,
E , E ,
E , E .
FX( X)
2 /3
1 /3 stantPDFforExample3.11.
Figura 3.14:
Piecewise con-
1 2 x
Ahora utilizamos el teorema de expectativa total para obtener
E ,
E .
La varianza es dada por
.
Tenga en cuenta que este enfoque para el cálculo de media y varianza se generaliza
fácilmente a archivos PDF constantes por partes con más de dos piezas.
El siguiente ejemplo ilustra un enfoque de división y conquista que utiliza el

teorema de probabilidad total para calcular un PDF.
Ejemplo 3.12. El tren de metro llega a la estación cerca de su casa cada cuarto de hora a
partir de las 6:00 AM. Entras a la estación todas las mañanas entre las 7:10 y las 7:30 AM,
siendo el tiempo en este intervalo una variable aleatoria uniforme. ¿Cuál es el PDF del
tiempo que tienes que esperar a que llegue el primer tren?
FX ( X) FY- ( y )
Un
1/5
7:10 7:15 7:30 X 5 y

( O) ( B)
n
FY- B( y ) FY ( y )
1/10
1/15 1/20
15 5 15
(C)
y ( D) y
Figura 3.15: Los archivos PDF fX, fY| A, fY? B, y fY en el ejemplo 3.12.
La hora de su llegada, denotada por X, es una variable aleatoria uniforme en el

intervalo de 7:10 a 7:30; véase la Fig. 3.15(a). Que Y sea el tiempo de espera. Calculamos
el PDF fY usando una estrategia de división y conquista. Que A y B sean los eventos
A • 7:10 x x x 7:15o ,se sube al tren7:15,,

B • 7:15 < X a 7:30o , se sube al tren 7:30..
Condicionado en el evento A, su hora de llegada es uniforme en el intervalo de 7:10 a 7:15.

En ese caso, el tiempo de espera Y también es uniforme y toma valores entre 0 y 5
es uniforme y
minutes; véase la Fig. 3.15(b). Del mismo modo, condicionado en B, Y
toma valores entre 0 y 15 minutos; véase la Fig. 3.15(c). El PDF de Y se obtiene
utilizando el teorema de probabilidad total,
fY (y) á P(A)fY| A(y)+ P(B)fY| B(y),
y se muestra en la Fig. 3.15(d). En particular,
, para 0 x y 5,
, para 5 < y a 15.

3.5 MÚLTIPLES VARIABLES ALEATORIAS CONTINUAS
Ahora extenderemos la noción de un PDF al caso de múltiples variables aleatorias. En

completa analogía con variables aleatorias discretas, introducimos archivos PDF
conjuntos, marginales y condicionales. Su interpretación intuitiva, así como sus
propiedades principales paralel el caso discreto.
Decimos que dos variables aleatorias continuas asociadas con un experimento
común son conjuntamente continuas y se pueden describir en términos de una joint
PDF fX,Y , si fX,Y es una función no negociativa que satisface
P
(x,y)∈ )B
para cada subconjunto B of elplano bidimensional. La notación anterior significa que

la integración se lleva sobre el conjunto B. En el caso concreto en el que B es un
rectángulo de la forma B -a,b] á [c,d], hemos = [
Además, al dejar que B sea todo el plano bidimensional, obtenemos la propiedad de

normalización
.
Para interpretar el PDF, dejamos que sea muy pequeño y consideremos la

probabilidad de un rectángulo pequeño. Tenemos
P ,
por lo que podemos ver fX,Y (a,c) como la"probabilidad por unidad de área" en la
vicinity de
(a,c).
El PDF conjunto contiene toda la información probabilística concebible sobre las
variables aleatorias X e Y, así como sus dependencias. Nos permite calcular la
probabilidad de cualquier evento que se pueda definir en términos de estas dos
variables aleatorias. Como caso especial, se puede utilizar para calcular la probabilidad
de que un evento involucre sólo a uno de ellos. Para example, deje que A sea un
subconjunto de la línea real y considere el evento . A Tenemos
Comparando con la fórmula
vemos que el PDF marginal fX de X es dado por
Semejantemente
Ejemplo 3.13. PDF uniforme bidimensional. Romeo y Julieta tienen una fecha en un
momento dado, y cada uno llegará al lugar de reunión con un retraso entre 0 y 1 hora
(recuerde el ejemplo dado en la Sección 1.2). Dejemos que X e Y denoten los retrasos de
Romeo y Juliet, respectivamente. Suponiendo que no haya pares (x,y) en el cuadrado [0,1]
- [0,1] son más probables que otros, un modelo natural implica una unión
PDF del formulario
c si 0 x 1y0 y
1, de lo contrario,
f- á - ≤
Sec. 3.5 Múltiples variables aleatorias continuas 33
donde c es una constante. Para que este PDF satisfaga la propiedad de normalización
,
debemos tener c a 1.
Este es un ejemplo de un PDF uniforme en el cuadrado de la unidad. En términos más

generales, vamos a arreglar algún subconjunto S del plano bidimensional. El PDF conjunto
uniforme correspondiente en S se define para ser
si (x,y) , S,
0 de lo contrario.
Para cualquier conjunto A a S, la probabilidad de que el valor experimental

de(X,Y ) se encuentre en A
Es
.
área de S
Ejemplo 3.14. Se nos dice que el PDF conjunto de las variables aleatorias X e Y es una
constante c en el conjunto S que se muestra en la Fig. 3.16 y es cero fuera.
Encuentre el valor de c y los archivos PDF marginales de X e Y .
El área del conjunto S es igual a 4 y, por lo tanto, fX,Y (x,y)á c á 1/4, para (x,y)á S.
Para encontrar el PDF marginal fX(x) para alguna xenparticular, integramos (con
respecto a y) el PDF conjunto sobre la línea vertical correspondientea esa x.
El PDF resultante se muestra en la figura. Podemos calcular fY de forma similar.

y
4
3
S
2
1/2
1
1/4
1 2 3
FY ( y )
X
3/4
FX ( X) 1/4
y X
Figura 3.16: El PDF conjunto en el ejemplo 3.14 y los PDF marginales resultantes.
Ejemplo 3.15. Aguja de Buffon. Este es un ejemplo famoso, que marca el origen del sujeto
de probabilidad geométrica, es decir, el análisis de la configuración geométrica de objetos
pla ced aleatoriamente.ced objects.
Una superficie se rige con líneas paralelas, que están a una distancia d entre sí (véase
la Fig. 3.17). Supongamos que tiramos una aguja de longitud l sobre la superficie al
azar. ¿Cuál es la probabilidad de que la aguja se interseque una de las líneas?
Figura 3.17: La aguja de Buffon. La longitud del segmento

de línea entre el punto medio de la aguja y el punto de
D intersección del eje de la aguja con la línea paralela más
Θ cercana es x/Pecadoθ. La aguja se cruzará con la línea
X paralela más cercana si y sólo si este length es menor que
l/2.
L
Suponemos aquí que l < d para que la aguja no pueda intersecar dos líneas
simultáneamente. Deje que X sea la distancia desde el punto medio de la aguja
hasta la más cercana de las líneas paralelas, y deje que el ángulo agudo formado por
el eje de la aguja y las líneas paralelas (véase la Fig. 3.17). Modelamos el par de variables
aleatorias (X,) con un PDF conjunto uniforme sobre el rectángulo [0,d/2] á [0,o/2], de modo
que
2] y [0,2],2],
Como se puede ver en la Fig. 3.17, la aguja intersecará una de laslíneas si y sólo si
,
por lo que la probabilidad de intersección es
P
La probabilidad de intersección se puede estimar empíricamente, repitiendo el experimento
un gran número de veces. Dado que es igual a 2l/d, esto nos proporciona un método para
la evaluación experimental de ..
Expectativa
Si X e Y sonconjuntamente variables aleatorias continuas, y g es alguna función,

entonces Z á g(X,Y ) también es una variable are jointly continuou aleatoria.
Veremos en la Sección 3.6 métodos para calcular el PDF de Z,si tieneuno. Por ahora,
tomemos nota de que la regla de valor esperado sigue siendo aplicable y
E
Como caso especial important, para cualquier escalar a a, b,tenemos
E[ aX + bY ] a aE[X]+ bE[Y ].
Acondicionamiento de una variable aleatoria en otra
Deje que X e Y sean variables aleatorias continuas con PDF fX,Y . Para cualquier y
fijo con fY (y) > 0, el PDF condicional de X dado que Y - y, se definepor
.
Esta definición es análoga a la fórmula pXX Y á pX,Y /pY para el caso discreto.
Cuando se piensa en el PDF condicional, lo mejor es ver y como un número fijo
y considerar fX| Y (x? y) en función de la variable única x. En función de x, el
PDFcondicional fX| Y (x? y) tiene la misma forma que la junta PDF fX,Y (x,y), porque
el factor deormalización n fY (y ) no dependeyde x; véaselaFig. 3.18. Tenga en

cuenta que la normalización garantiza que
,
por lo que para cualquier y fijo, fX| Y (x? y) es un PDF legítimo.
y
4 1 FX |Y ( XN.o
3,5)
3 FX |Y ( XN.o X
1 /2
S 2,5)
2 1 FX |Y ( XN.o X
1.5)
1 1 2 3 X
1 2 3
X
Figura 3.18: Visualización del PDF condicional fX| Y (x? y). Deje que X,Y tenga un PDF
conjunto que sea uniforme en el set S. Para cada yfijo, consideramos el PDF conjunto a lo
largo de la rebanada Y y lo normalizamos para que se integre en 1.
Ejemplo 3.16. Uniforme circular PDF. Juan lanza un dardo a un objetivo circular de radio r
(ver Fig. 3.19). Suponemos que siempre golpea el objetivo, y que todos los puntos de
impacto (x,y) son igualmente probables, de modo que el PDF conjunto de las variables
aleatorias X e Y es uniforme. Siguiendo el Ejemplo 3.13, y dado que el área del círculo es
22, hemos
1 si (x,y) está en elcírculo,
área del círculo

0 de lo contrario,
,
y Figura 3.19: Objetivo circular para el ejemplo 3.16.
Para calcular el PDF condicional fX| Y (x? y),
vamos a calcular primero el PDF marginal fY (y). Para
el número de y? > r, es cero. Para el número de y? - r, se puede calcular de lasiguiente
manera:
Tenga en cuenta que el marginal fY (y) no es unPDF uniforme.

El PDF condicional es
Por lo tanto, para un valor fijo de y, el PDF condicional fX| Y es uniforme.
Para interpretar el PDF condicional, vamos a corregir algunos númerospositivos

pequeños1 y δ2, y lacondición en el evento B -y - Y - y + .2 Tenemos
P(x X x + 1y y Y y + 22)
P(x x x x + 1 ? y , Y , y ≤ ≤ ≤ + , 22) ,á, á , ≤
P(y Y y + 22)
.
En palabras, fX| Y (x? y) δ δ1 nos proporciona la probabilidad de que X pertenezca en
un pequeño intervalo [x,x + 1], dado que Y pertenece en un pequeño intervalo [y,
y + 2]. Desde fX| Y (x? y)1 no depende de 2 ,podemos pensar en elcaso limitante
en el que el número2 disminuye a cero y escribe
P(x x x x + 1 ? Y á y) á fX- Y (x? yδ)11 ,1 pequeño),,
y, en términos más generales,
P
Las probabilidades condicionales, dado el evento de probabilidad cero, el evento de
probabilidad cero, el evento de probabilidad yde Y, se dejaron indefinidos en el
Capítulo 1. Pero la fórmula anterior proporciona una forma natural de definir tales
probabilidades condicionales en el contexto actual. Además, nos permite ver el PDF
conditional fX| Y (x? y) (en función de x) como una descripción de la ley de
probabilidad de X, dado que se yha producido el evento .
Como en el caso discreto, el PDF condicional fX| Y , junto con el PDF marginal fY
se utilizan a veces para calcular el PDF conjunto. Además, este enfoque también
se puede utilizar para el modelado: en lugar de especificar directamente fX,Y , a
menudo es natural proporcionar una ley de probabilidad para Y , en términos de un
PDF fY , y luego proporcionar una ley de probabilidad condicional fX- Y (x,y)para X,darn
cualquier valorposible y de Y .
Ejemplo 3.17. Deje que X se distribuya exponencialmente con la media 1. Una vez que
observamos el valor experimental x de X,generamos una variable aleatoria normal Y con
media cero y varianza x + 1. ¿Cuál es el PDF conjunto de X e Y? ?
Tenemos fX(x)á eáx,para x 0, y
.
Así
para todos los x 0 y todas las y.
Después de haber definido una ley de probabilidad condicional, también

podemos definir una expectativa condicional correspondiente
Las propiedades de la expectativa (incondicional) llevan, con las modificaciones

obvias, a la expectativa condicional. Por ejemplo, la versión condicional de la regla de
valor esperado
sigue siendo válido.

Resumen de hechos sobre múltiples variablesaleatorios continuos permiten
que X e Y sean conjuntamente variables aleatorias continuas con PDF fX,Y . •
Los archivos PDF conjuntos, marginales y condicionales están relacionados entre
sí por las fórmulas
El PDF condicional fX| Y (x? y) se define sólo para aquellos y para los que
fY (y y) > 0.
Para justificar la primera versión del teorema total de la expectativa,

observamos que
Las otras dos versiones están justificadas de manera similar.
Inferencia y la Regla continua de los bayes
En muchas situaciones, tenemos un modelo de un fenómeno subyacente pero no

observado, represented por una variable aleatoria X con PDF fX,y hacemos
mediciones ruidosas Y . Se supone que las mediciones proporcionan información
sobre X y se modelan en términos de un PDF condicional fY | X. Por ejemplo, si Y es
el mismo que X, pero se corrompe por ruido distribuido normalmente de media cero,
se permitiría que el PDF condicional fY | X(y ? x) de Y , dado que X x x, ser normal
con la mediaigual a x. Una vez medido el valor experimental de Y, ¿qué información
proporciona esto sobre el value desconocido de X??
Esta configuración es similar a la que se encuentra en la Sección 1.4, cuando
introdujimos la regla Bayes y la usamos para resolver problemas de inferencia. La única
diferencia es que ahora estamos tratando con variables aleatorias continuas.
Tenga en cuenta que la información proporcionada por el evento "Y - y- y -
sedescribe mediante el pdf condicional fX? Y (x? y). Por lo tanto, basta con evaluar
este último PDF. Un cálculo análogo a la derivación original de la regla de Bayes,
basado en las fórmulas fXfY |X á fX,Y á fY fX| Y , rinde
,
que es la fórmula deseada.
Ejemplo 3.18. Se sabe que una bombilla producida por la General Illumination Company
tiene una vida útil exponencial Y. Sin embargo, la empresa ha estado experimentando
la PDF de Y es en
problemas de control de calidad. En un día dado, el parámetro de
realidad una variable aleatoria, distribuida uniformemente en el intervalo [0,1/2].
Probamos una bombilla y registramos el valor experimental y desuvida útil. ¿Qué
podemos decir sobre el parámetro subyacente λ?
Modelamos el parámetro como una variable aleatoria X,con una

distribuciónuniforme. Toda la información disponible sobre X está contenida en el PDF
condicional fX| X(x? y). Vemos y como una constante (igual al valor observado de Y)
y nos concentramos en la dependencia del PDF en x. Tenga en cuenta que fX(x) a 2, para
0x x a 1/2. Por la regla continua de Bayes, hemos
, para 0 .
En algunos casos, el fenómeno no observado es inherentemente discreto. Por
ejemplo, si se observa una señal binary en presencia de ruido con una distribución
normal. O si se va a realizar un diagnóstico médico sobre la base de mediciones
continuas como la temperatura y los recuentos sanguíneos. En tales casos, se aplica
una versión algo diferente de la regla de Bayes.
Deje que X sea una variable aleatoria discreta que toma valores en un conjunto
finito de 1,...,n y que representa las diferentes posibilidades discretas para el
fenómeno de interés no observado. Se supone que el PMF pX de X es conocido.
Deje que Y sea una variable aleatoria continua que, para cualquier valor dado x, es
descrita por un PDF condicional fY | X(y ? x). Estamos interesados en el PMF
condicional de X dado el valor experimental y de Y .
En lugar de trabajar con el eventode yacondicionamiento , quetiene cero
probabilidad, vamos a condicionar en su lugar en el evento -y - Y - y + -, donde es
un pequeño número positivo, und entonces tomar el límitecomo tiende a cero.
Tenemos, usando la regla Bayes
P
El denominador se puede evaluar utilizando una versión del teorema de probabilidad
total introducido en la Sección 3.4. Tenemos
.
Ejemplo 3.19. Revisemos el problema de detección de señal considerado en 3.9. Se

transmite una señal S y se nos da que P(S - 1) - p y P(S - 1) - 1 pp. La señal recibida
es Y - N+S,donde N es cero ruido normal medio, con varianza σ2, independiente de S.
¿Cuál es la probabilidad de que S -1, en función del valor observado y de Y ?
Condicionada en S s s,la variable aleatoria Y tiene una distribución normal con la
media s y la varianza σ2. Aplicando la fórmula desarrollada anteriormente, obtenemos
P .
Independencia
En plena analogía con el caso discreto, decimos que dos variables aleatorias continuas
X e Y son independientes si su PDF conjunto es el producto de los PDF
marginales:
fX,Y (x,y)á fX(x)fY (y),para todos los x,y.
Comparando con la| fórmula fX,Y (x,y)- fX Y (x? y)fY (y),vemos que la independencia
es la misma que la condición
fX? Y (x? y) á fX(x), para todas las x y todas las y con fY

(y) > 0,
o, simétricamente,
para todas las y y todas las x con

fY | X(y ? x) á fY (y), fX(x) > 0.
Si X e Y son independientes, entonces los dos eventos de la forma son X - Ay
Los valores de Y-B Bson independientes. De hecho,

Una instrucción inversa también es true; ver los problemas teóricos.

Un cálculo similar al caso discreto muestra que si X e Y son independientes,
E[g(X)h(Y )] - E[g(X)]E[h(Y )],
para dos funciones g y h. Por último, la varianza de la suma de variables aleatorias

independientes es de nuevo igual a la suma de las desviaciones.
Independencia de las variables aleatorias continuas

Supongamos que X e Y son independientes, es decir,
fX,Y (x,y)á fX(x)fY (y),para todos los x,y.
A continuación, tenemos las siguientes propiedades.

• Las variables aleatorias g(X)y h(Y ) son independientes, para
cualquier función g y h. •Tenemos
E[XY ] - E[X]E[Y ],
E ,
• Tenemos var(X + Y ) á var(X) +var(Y ).
CDF conjuntas
Si X e Y son dos variables aleatorias asociadas con el mismo experimento, definimos

su CDF conjunto por
FX,Y (x,y)- P(X á x, Y - y).
Como en el caso de una variable aleatoria, la ventaja de trabajar con el CDF es que se
aplica igualmente bien a variables aleatorias discretas y continuas. En particular, si X
e Y son descritos por un PDF conjunto fX,Y , entonces
Por el contrario, el PDF se puede recuperar del PDF diferenciando:
Ejemplo 3.20. Deje que X e Y sean descritos por un PDF uniforme en el cuadrado de la
unidad. El CDF conjunto es dado por
FX,Y (x,y)á P(X á x, Y á y)- xy,para 0 x,y á 1.

A continuación, verificamos que
,
para todos (x,y) en el cuadrado de la unidad.
Más de dos variables aleatorias
El PDF conjunto de tres variables aleatorias XX, Y y Z se define en analogía con lo

anterior. Por ejemplo, tenemos
P
para cualquier conjunto B. También tenemos relaciones como
Y
También se pueden definir archivos PDF condicionales mediante fórmulas como
, para fZ(z) > 0,
para fY,Z(y,z) > 0.
Hay un análogo de la regla de multiplicación:
fX,Y,Z(x,y,z)- fX| Y,Z(x? y,z)fY ? Z(y ? z)fZ(z).
Por último, decimos que las tres variables aleatorias X, Y y Z son independientes si
fX,Y,Z(x,y,z)á fX(x)fY (y y)fZ(z), para todos los x,y,z.
La regla de valor esperado para las funciones adopta la forma
E
y si g es lineal y de la forma aX + bY + cZ,entonces
E [ aX + bY + cZ]á E[X]+ bE[Y ] + cE[Z].

Sec. 3.6 Distribuciones derivadas 47
Además, hay generalizaciones obvias de lo anterior en el caso de más de tres variables

aleatorias. Por ejemplo, para cualquier variable aleatoria X1,X2,...,Xn y cualquier escalar
a a1,a2,...,an,tenemos
E a[ a[a1X1 + a2X2 + a nXn] a a1E[X1]+ a2E[X2] + an nE[Xn].

3.6 DISTRIBUCIONES DERIVADAS
Hemos visto que la media de una función Y á g(X) de una variable aleatoriacontinua
X, se puede calcularutilizando la regla de valor esperado
sin encontrar primero el PDF fY de Y . Sin embargo, en algunos casos, podemos estar
interesados en una fórmula explícita para fY . A continuación, se puede usar el
siguiente enfoque de dos pasos.
Cálculo del PDF de una función Y = G( X ) de un continuo

Variable aleatoria X
1. Calcular el CDF F Y D Y usando la fórmula
e
F Y ( y )= P G( X ) ≤ y = FX ( X ) Dx.
{ X | G( X ) ≤ y }
2. Diferenciar para obtener el PDF de Y:

Df Y
F Y ( y )= (y).
Dy
Ejemplo 3.21. Deje que X sea uniforme en [0,1]. Encuentra el PDF de Y áX. Tenga en
cuenta que Y toma valores entre 0 y 1. Por cada y -[0,1], tenemos
FY (y) á P(Y á y)- P(xx y) - P(X á y2)á y2, 0 á y á 1.
A continuación, diferenciamos y obtenemos
.
Fuera del rango [0,1], el CDF FY (yy ) esconstante, con FY (y ) ay0 para y a 0, y FY (y) a1
para y a 1. Al diferenciar, vemos que fY (y )ya 0 para y fuera [0,1].
Ejemplo 3.22. John Slow está conduciendo desde Boston hasta el área de Nueva York, a una
distancia de 180 millas. Su velocidad media se distribuye uniformemente entre 30 y 60
millas por hora. ¿Cuál es el PDF de la duración del viaje?
Deje que X sea la velocidad y deje que Y á g(X) sea laduración del viaje: ) be t
.
Para encontrar el CDF de Y , debemos calcular
P .
Utilizamos el PDF uniforme dado de X,que es
30 si 30 x x 60, de lo
contrario,
y el CDF correspondiente, que es
0 si x a 30,
30 si 30 x x 60,
1 si 60 x ..
Así
0 si y a 180/60,
si 180/60 a y a 180/30,
1 si 180/30 o y,
3,
• 2o (6/y)si 3 x y á 6,
1 si 6 x y,
(véase la Fig. 3.20). Diferenciando esta expresión, obtenemos el PDF de Y :

3,
fY (y)á 6/y2si 3 x y a 6,
y.
Ejemplo 3.23. Deje que Y - g(X)- X2,donde X es una variable aleatoria con conocido
Pdf. Para cualquier y 0, tenemos
,
y por lo tanto, al diferenciar y utilizar la regla de la cadena,
.
Pdf FX ( X) Fcd F X ( X)
1
30 60 X 30 60 X
Pdf FY ( y ) Fcd F Y ( y )
1
3 6 y 3 6 y
Figura 3.20: El cálculo del PDF de Y a 180/X en el ejemplo 3.22. Las flechas indican el flujo del
cálculo.
El caso lineal
Un caso importante surge cuando Y es una función lineal de X. Véase la Fig. 3.21 para
una interpretación gráfica.
El PDF de una función lineal de una variable aleatoria

Deje que X sea una variable aleatoria continua con PDF fX,y deje que
Y aX + b,
para algunos escalares 0 y b. Entonces,
Para verificar esta fórmula, usamos el procedimiento de dos pasos. Sólo mostramos la
FX
FAx FaX+b
−2 −1 2 3 4 9
Figura 3.21: El PDF de aX + b en términos del PDF de X. En esta figura, a 2 y b a 5. Como

primer paso, obtenemos el PDF de aX. El rango de Y es más amplio que el rango de
X, por unfactor de un. Por lo tanto, el PDF debe ser estirado (escalado
fX
horizontalmente) por este factor. Pero para mantener el área total bajo el PDF igual a1,
necesitamos escalar el PDF (verticalmente) por el mismo factor a. La variable aleatoria aX
+ b es la misma que aX excepto que sus valores se desplazan por b. En
consecuencia, tomamos el PDF de aX y lo desplazamos (horizontalmente) por b. El
resultado final de lasoperaciones e es el PDF de Y aX + by se da matemáticamente
por
.
Si a fuera negativo, el procedimiento sería el mismo, excepto que el PDF de X
primero tendría que reflejarse alrededor del eje vertical ("volteado")
produciendo f-X. A continuación, una escala horizontal y vertical (por un factor de la a? y 1 ,

respectivamente) da como consecuencia el PDF de la palabra a? X aX aX. Finalmente, un
desplazamiento horizontal de nuevo producen el PDF de aX + b.
pasos para el caso donde un > 0; el caso un < 0 es similar. Tenemos
Ahora diferenciamos esta igualdad y utilizamos la regla de la cadena, para obtener
Ejemplo 3.24. Función lineal de una variable aleatoria exponencial. Supongamos que X es
una variable aleatoria exponencial con PDF
0,
en el que es un parámetro positivo. Deje Y aX + b. Entonces,
0,
Tenga en cuenta que si b a 0 y a > 0, entonces Y es una variable aleatoria

exponencial con el parámetro ./a. En general, sin embargo, Y no tiene por qué ser
exponencial. Por ejemplo, si un < 0 y b a 0, entonces el rango de Y es el eje real negativo.
Ejemplo 3.25. Una función lineal de una variable aleatoria normal es normal.
Supongamosque X es una variable aleatoria normal con la media y la varianza σ2, y deja
que Y aX + b,donde a y b son algunos escalares. Tenemos
.
por lo tanto
Reconocemos esto como un PDF normal con media a + b y varianza a2x2. En particular, Y es
una variable aleatoria normal.
El caso monotónico
El cálculo y la fórmula para el caso lineal se pueden generalizar en el caso donde

g es una función monotónica. Deje que X sea una variable aleatoria continua y
supongamos que su rango está contenido en un cierto intervalo I,en el sentido de que
fX(x) -0 para x /. I Consideramos la variable aleatoria Y á g(X), yasumimos que g es
estrictamente monotónico durante el intervalo I. Es decir, ya sea
para todos los satisfactorios (aumento monotónico
caso), o
para todos los satisfactorios (decrecientes
monotónicamente
caso).
Además, suponemos que la función g es diferenciable. Su derivado será
necesariamente no negativo en el caso creciente yno-sitivo en el caso decreciente.
Un hecho importante es que una función monotónica puede ser "invertida" en
el sentido de que hay alguna función h, llamada la inversa de g, de tal manera que
paratodos los x - I, tenemos y á g(x) si y sólosi x á h(y). Por ejemplo, la inversa
de la función g(x) -180/x considerada en el ejemplo 3.22 es h(y) á180/y,
porquetenemos y á 180/x si y sólo si x a 180/y. Otros ejemplos de pares de funciones
inversas incluyen
donde a y b son escalares con 0 (véase la Fig. 3.22), y
,
donde a es un escalar distinto de cero.

y X
G(X)= Ax + B
y-B
H( y )=
O
B n
Pendient
O Pendient
1 /O
e nu e n
0 X 0 B y
y X
H( y )
y = G (X) G( X)
0 X = H( y ) X 0 y
Figura 3.22: Una función g (a la izquierda) y su inversa (a la derecha)

aumentan monotónicamente. Tenga en cuenta que el gráfico de h tiene la misma
forma que el gráfico de g, excepto que se gira 90 grados y luego se refleja (esto
es lo mismo que el intercambio de los ejes x e y). axes).
Para las funciones monotónicas g, la siguiente es una fórmula analítica conveniente

para el PDF de la función Y á g(X).
Fórmula PDF para unaunción monotónica F de un aleatorio continuo

Variable
Supongamos que g es monotónico y que para alguna función h y todas las x en
el rango I de X tenemos
y á g(x)si y sólo si x á h(y).
Supongamos que h tiene la primera derivada (dh/dy)(y). A continuación, el PDF

de Y en la región donde fY (y y) > 0 es dado por
Para una verificación de la fórmula anterior, suponga primero que g está

aumentando monotónicamente. Entonces, tenemos
donde la segunda igualdad puede justificarse utilizando la propiedad

monotónicamente creciente de g (véase la Fig. 3.23). Al diferenciar esta relación,
utilizando también la regla de la cadena, obtenemos
Debido a que g está aumentando monótonamente, h también está aumentando

monótonamente, por lo que su derivado es positivo:
.
Esto justifica la fórmula PDF para una función monotónicamente creciente g. La

justificación del caso de la función decreciente monotónica es similar: diferenciamos
en cambio el ionion
,
y usar la regla de la cadena.
Existe una fórmula similar que implica la derivada de g, en lugar de la derivada
de h. Para ver esto, diferencie la igualdad y utilice la regla de cadena para
obtener
.
Vamos a arreglar algunas x x e y que están relacionadas por g(x) - y, que es lomismo
que h(y) x . Entonces,
lo que lleva a
.
y = G(X)
y = G( X)
y
y
H(y ) X H( y ) X
Evento { X < H(Y ) } Evento { X > H( Y )}
Figura 3.23: Cálculo de la probabilidad P . Cuando g(X y h g está aumentando
monótonamente (figura izquierda), el evento es el mismo que elevento deX(y) . Cuando
g(X y h(y g está disminuyendo monótonamente (figura de la derecha), el evento es
elmismo que elevento.
Ejemplo 3.22. (Continuación) Para comprobar la fórmula PDF, vamos a aplicarla al problema
del Ejemplo 3.22. En la región de interés, x á [30,60], tenemos h(y)a 180/y,y
Por lo tanto, en la región de interés y - [3,6], la fórmula PDF rinde
de acuerdo con la expresión obtenida anteriormente.

Ejemplo 3.26. Deje Y á g(X)- X2,donde X es una variable aleatoria uniforme

continua en el intervalo (0,1]. Dentro de este intervalo, g es monotónico, y su inverso
es h(y) áy. Por lo tanto, para cualquier y (0,1], tenemos
Y
1],
Finalmente observamos que si interpretamos archivos PDF en términos de

probabilidades de pequeñas intervals, el contenido de nuestras fórmulas se vuelve
bastante intuitivo; véase la Fig. 3.24.
Funciones de dos variables aleatorias
El procedimiento de dos pasos que calcula primero el CDF y luego diferencia para obtener
el PDF también se aplica a las funciones de más de una variable aleatoria.
Ejemplo 3.27. Dos arqueros disparan a un objetivo. La distancia de cada disparo desde el
centro del objetivo se distribuye uniformemente de 0 a 1, independientemente del otro
disparo. ¿Cuál es el PDF de la distancia de la toma perdedora desde el centro?
Deje que X e Y sean las distancias desde el centro del primer y segundo disparo,
respectivamente. Que también Z sea la distancia del disparo perdedor:
Z - máx.X,Y ..
Sabemos que X e Y se distribuyen uniformemente en [0,1], de modo que para todos los z -
[0,1], hemos
P(X á z)- P(Y - z)- z.
Por lo tanto, utilizando la independencia de X e Y , tenemos para todos z á [0,1],

Diferenciando, obtenemos
1,
0
Ejemplo 3.28. Deje que X e Y sean variables aleatorias independientes que se distribuyen
uniformemente en el intervalo [0,1]. ¿Cuál es el PDF de lavariable random Z - Y/X?
Dg
Pendien (X)
y Dx
te
G(X)
[y , y +Δ2 ]
X
[X, X+ Δ1 ]
Figura 3.24: Ilustración de la fórmula PDF para una función monotónicamente creciente g.
Considere un intervalo [x,x + 11], donde el número1 es un número pequeño. Bajo la
asignación g, la imagen de este intervalo es otrointervalo [y,y + 22]. Dado que
(dg/dx)(x) es la pendientede g,hemos
o en términos de la función inversa,
We now note that the event {x ≤ X ≤ x+δ1} is the same as the event {y ≤ Y ≤ y + δ2}. Por
lo tanto,
fY (y)(á2o (y á Y á Y δ + á 22) á
P(x á x + á1 )
fX(x)11.
Nos movemos 1 al lado izquierdo y usamos nuestra fórmula anterior para la relación δde 2/
11,para obtener
Alternativamente, si nos movemos 2 al lado derecho y usamos la fórmula para el

número1/2,obtenemos
Encontraremos el PDF de Z encontrando primero su CDF y luego diferenciando.

Consideramos por separado los casos 0 á z á 1 y z > 1. Como se muestra en la Fig. 3.25,
tenemos
Y z/2si 0á za
1,
FZ(z)- P1,
0 de lo contrario.
Al diferenciar, obtenemos
1/2 si 0 á z á 1,
) si 1,
0 de lo contrario.
1
y y
Z
1 1
Pendien
Z
te Pendien
Z
Z
te
0 1 X 0 1 X
Figura 3.25: El cálculo de la CDF de Z a Y/X en el ejemplo 3.28. El valor P(Y/X a z) es

igual a lasubárea sombreada del cuadrado de la unidad. La figura de la izquierda trata el
caso en el que 0 á z - 1 y la figura de la derecha se refiere al caso donde z > 1.
Ejemplo 3.29. Romeo y Julieta tienen una fecha en un momento dado, y cada uno, de forma
independiente, llegará tarde por una cantidad de tiempo que se distribuye
exponencialmente con el parámetro . ¿Cuál es el PDF de la diferencia entre sus tiempos de
llegada?
Denoremos por X e Y las cantidades por las que Romeo y Julieta llegan tarde,
respectivamente. Queremos encontrar el PDF de Z - X - Y , suponiendo que X e Y son
independientes y se distribuyen exponencialmente con el parámetro . Primero
calcularemos el CDF FZ(z) considerando por separado loscasos z a 0 y z < 0 (véase
la Fig. 3.26). Para z 0, tenemos (ver el lado izquierdo de la Fig. 3.26)
60
y Línea x - y = Z y Línea x - y = Z
0 Z X Z 0 X
Figura 3.26: El cálculo de la CDF de Z a X aY en el ejemplo 3.29. Para obtener el
valor P(X - Y > z)debemos integrar la unión PDF fX,Y (x,y) sobre el áreasombreada
en las figuras anteriores, que corresponden a z á 0 (lado izquierdo) y z < 0 (lado
derecho).
Para el caso z < 0, podemos usar un cálculo similar, pero también podemos
argumentar usando simetría. De hecho, la simetría de la situación implica que las variables
aleatorias Z - X - Y y Z - Y - X tienen la misma distribución. Tenemos FZ(z)á P(Z á
zz ) - P(z )áz) á P(Z áz) á1 - FZ(zz).
Con z < 0, tenemos áz á 0 y usando la fórmula derivada anteriormente,
Combinando los dos casos z a 0 y z < 0, obtenemos
si z es 0,
si z < 0,
Ahora calculamos el PDF de Z diferenciando su CDF. Obtenemos
0,
si z < 0,
Esto se conoce como un PDF exponencial de dos caras,también conocido comoel PDF de
Laplace..
Las variables aleatorias continuas se caracterizan por archivos PDF y surgen en muchas
aplicaciones. Los archivos PDF se utilizan para calcular las probabilidades de eventos.
Esto es similar al uso de PMF para el caso discreto, excepto que ahora necesitamos
integrar en lugar de agregar. Los PDF conjuntos son similares a los PMF conjuntos y se
utilizan para determinar la probabilidad de eventos que se definen en términos de
múltiples variables aleatorias. Por último, los PDF condicionales son similares a los
PMF condicionales y se utilizan para calcular las probabilidades condicionales, dado
elvalor de la variable aleatoria de acondicionamiento.
También hemos introducido algunas leyes importantes de probabilidad continua y
hemos derivado su media y varianza. En la tabla se proporciona un resumen que
Sigue.
Resumen de resultados de variables aleatorias especiales

Uniforme continuo sobre [a,b ]:
1
FX ( X )= Si U ≤ X ≤ B,
B− U
0 n Loncontrario
U+ B ( B − U) 2
E [X ]= , var( X )= .
n2 12n
Exponencial con parámetro Λ:
−x
E Si X ≥ 0, 1 − e− x Si X ≥ 0,
FX ( X )= F X ( X)=
0 Lo contrario 0 Lo contrario
1 1
E [X ]= , var( X )= .
Λ Λ2
Normal con parámetros µ Y Σ2:

1 2 2
FX ( X)= √ e− ( X − µ ) / 2 Σ ,
2πσ
E [X ] = µ, var( X ) = Σ 2 .
62 General Random VariAbles Capítulo 3
Otros temas
sobre Variables y Expectativas Aleatorias
Contenido
4.1. Transformaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.........................................
4.2. Sumas de variables aleatorias independientes - Convoluciones . . . pág. 13
4.3. Expectativa condicional como variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
...... pág. 17
4.4. Suma de un número aleatorio de variables aleatorias independientes p. 25
4.5. Covarianza y correlación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.............. p. 29
4.6. Estimación de mínimos cuadrados .........................................
........................... p. 32 4,7. La distribución normal de bivariato ....
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pág. 39
1
2 Otros temas sobre variables y expectativas aleatorias Capítulo 4
En este capítulo, desarrollamos una serie de temas más avanzados. Introducimos

métodos que son útiles en:
(a) tratar con la suma de variables aleatorias independientes, incluyendo el caso
donde el número de variables aleatorias es en sí mismo aleatorio;
(b) problemas de estimación o predicción de un azarvariable desconocido sobre la
base de valores observados de otras variables aleatorias.
Con estos objetivos en mente, introducimos una serie de herramientas, incluyendo
transformaciones y convoluciones, y refinamos nuestra publicidaddel concepto de
expectativa condicional.
4.1 TRANSFORMAS
En esta sección, presentamos la transformación asociada a una variable aleatoria. La

transformación nos proporciona una representación alternativa de su ley de
probabilidad (PMF o PDF). No es particularmente intuitivo, pero a menudo es
conveniente para ciertos tipos de manipulaciones matemáticas.
La transformación de la distribución de una variable aleatoria X (también
conocida como la función generadora de momento de X) es unafunción MX(s) de
un parámetrolibre s,defined by by
MX(s)- E[esX].
La notación mássimple M(s) también se puede utilizar siempre que la
variablealeatoria subyacente X esté clara del contexto. Con más detalle, cuando X
es una variable aleatoria discreta, la transformación correspondiente es dada por
,
mientras que en el caso continuo,tenemos
Ejemplo 4.1. Dejemos

que
N.o 2,
3, 5.
• El lector que está familiarizado con las transformaciones de Laplace puede reconocer que
la transformación asociada a una variable aleatoria continua es esencialmente la misma que la
transformación de Laplace de su PDF, la única diferencia es que las transformaciones de Laplace
Sec. 4.1 Transforma 3
suelen implicar esx en lugar de esx. Para el caso discreto, a veces se utiliza una variable z
en lugar de es y la transformación resultante) se conoce como la
transformación z-.
Sin embargo, no usaremos z-transforms en este libro.
A continuación, la transformación correspondiente es
(véase la Fig. 4.1).
P X (X)
1
2 1
1 3
6
0 2 3 5 X
M(s )
(1 /3) e 5 s
(1 /6) e 3 s
1 (1 /2) e 2 s
0 s
Figura 4.1: El PMF y la transformación correspondiente para el ejemplo 4.1. La

transformación M(s) consiste en la sumaponderada de los tres exponenciales
mostrados. Tenga en cuenta que en s 0, la transformación toma el valor 1. Esto es
genéricamente cierto ya que
Ejemplo 4.2. La transformación de una variable aleatoria de Poisson. Considere una

variable aleatoria de Poisson X con el parámetro ::
La transformación correspondiente es dada por
.
Dejamos que a e ssá y obtengamos
Ejemplo 4.3. Transformación de una variable aleatoria exponencial. Deje que X sea una
variable aleatoria exponencial con el parámetro ::
fX(x) á . .−.. . . . . . . . . . . ., . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . ..
Entonces
(si s < ))
El cálculo anterior y la fórmula para M(s) sólo es correcto si el integrador e(ssλ)x se
descompone a medida que x aumenta, lo que es el caso si y sólo si s < ; delocontrario, la

integral es infinita. −
Es importante darse cuenta de que la transformación no es un número, sino más

bien una función de una variable libre o parámetro s. Por lo tanto, estamos tratando
con una transformación que comienza con una función, por ejemplo, un PDF fX(x)(que
es una función de una variable libre x) y da como resultado una nuevafunción, esta
vez de un parámetro real s. Estrictamente hablando, M(s) sólo se define para
aquellos valores de s para los que E[esX] esfinito, como se señaló en el ejemplo
anterior.
Ejemplo 4.4. Transformación de una función lineal de una variable aleatoria. Deje que
MX(s) sea latransformación asociada a una variable aleatoria X. Considere una nueva
variable aleatoria Y aX + b. Entonces tenemos
MY (s)á E[es(aX+b)]á esbE[esaX]á esbMX(sa).
Por ejemplo, si X es exponencial con el parámetro .- 1, de modo que MX(s)- 1/(1 s)sy si
Y es 2X + 3, entonces
.
Ejemplo 4.5. La transformación de una variable aleatoria normal. Deje que X sea
una
variable aleatoria normal con la media y la varianza σ2. Para calcular la
transformación correspondiente, primero consideramos el caso especial de la variable
aleatoria normal estándar Y , donde los valores de σ los valores de los valores de
los valores de los valores de los valores de los valores de los valores de los
valores de los valores de los valores de los valores de los valores de los
valores de los valores de los valores de los valores de los valores de los
valores de los valores de los valores de los valores de los valores de los valores de
los valores de los valores de los valores de los estados de la aplicación. El PDF de la normal
estándar es
y su transformación es
donde la última igualdad sigue mediante el uso de la propiedad de normalización de un PDF

normal con la varianza media s y la unidad.
Se obtiene una variable aleatoria normal general con la media y la varianza σ2 de la
normal estándar a través de la transformación lineal
X a O + . µ.
Tla transformación de la normal estándar es MY (s) ás2/2,

como se ha
verificadoanteriormente. Al aplicar la fórmula del Ejemplo 4.4, obtenemos
De las transformaciones a los momentos
La razón detrás del nombre alternativo "función de generación de momentos" es que

los momentos de un va riable aleatoriose calculan fácilmente una vez que una fórmula
para la transformación asociada está disponible. Para ver esto, tomemos la derivada
de ambos lados de la definición
con respecto a s. Obtenemos
Esta igualdad se aplica a todos los valores de s. Teniendo en cuenta el caso especial en
el que s . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .
.
De manera más general, si diferenciamos los tiempos de la función
M(s)con respecto a s, un cálculosimilar produce
.
Ejemplo 4.6. Vimos anteriormente (Ejemplo 4.1) que el PMF
N.o 2,
N.o 3,
N.o 5,
tiene la transformación
.
Así
• Esta derivación implica un intercambio de diferenciación e integración. El intercambio

resulta estar justificado para todas las aplicaciones que se deben considerar en este libro.
Además, la derivación sigue siendo válida para variables aleatorias generales, including
discretas. De hecho, podría llevarse a cabo de manera más abstracta, en la forma
llevando a la misma conclusión.

Además
Para una variable aleatoria exponencial

con PDF
fX(x) - áe-x, x á 0,
encontramos
antes que
Así
.
Al ajustar s 0, obtenemos
E , E ,
que está de acuerdo con las fórmulas derivadas en el capítulo 3.
Inversión de transformaciones
Una propiedad muy importante de las transformaciones es la siguiente.
Propiedad De inversión
La transformación MX(s) determina completamente la ley de probabilidad de
la variable aleatoria X. En particular, si MX(s)- MY (s) paratodos s, entonces
lasvariables aleatorias X e Y tienen la misma ley de probabilidad.
Esta propiedad es un hecho matemático bastante profundo que usaremos con

frecuencia. Existen fórmulas explícitas que nos permiten recuperar el PMF o PDF de una
variable aleatoria a partir de la transformación asociada, pero son bastante difíciles de
usar. En practice, las transformaciones generalmente se invierten mediante la
"coincidencia de patrones", basada en tablas de pares de distribución-transformación
conocidos. Veremos una serie de estos ejemplos en breve.
De hecho, la ley de probabilidad de una variable aleatoria se determina por completo
incluso si sólo conocemos la transformación M(s) para los valoresde s en algún

intervalo de longitud positiva.
Ejemplo 4.7. Se nos dice que la transformación asociada con una variable aleatoria
X es
Dado que M(s) es una sumade términos de la forma esx,podemos comparar con la
fórmula general
y deducir que X es una variable aleatoria discreta. Los diferentes valores que X puede
tomar se pueden leer de los exponentes correspondientes y son1, 0, 4 y 5. La
probabilidad de cada valor x viene dada por el coeficiente multiplicando el
término esx correspondiente. En nuestro caso, P(X á 1) a 1/4, P(X a 0) a 1/2, P(X a 4)
a 1/8, P(X a 5) a 1/8.
Generalizando desde el último ejemplo, la distribución de una variable aleatoria

discreta valorada finisiempre se puede encontrar mediante la inspección de la
transformación correspondiente. El mismo procedimiento también funciona para
variables aleatorias discretas con un rango infinito, como en el ejemplo siguiente.
Ejemplo 4.8. La transformación de una variable aleatoria Geometric. Se nos dice que la
transformación asociada con la variable aleatoria X es de la forma
,
donde p es una constante en el rango 0 < p < 1. Deseamos encontrar la distribución de X.
Recordamos la fórmula para la serie geométrica:
que es válido siempre que sea . . . . . . .. . .. < 1. Usamos esta fórmula con s & p)yspara s
lo suficientemente cerca de cero de modo que (1 á p)es < 1. Obtenemos
Como en el ejemplo anterior, deducimos que se trata de una variable aleatoria discreta que
toma valores enteros positivos. La probabilidad P(X á k) se encuentraleyendo el
coeficiente del término eks. En particular, P(X - 1) - p, P(X - 2) - p(1p), etc., y
P(X á k)á p(1 á p)ká1, k á 1,2,...
Reconocemos esto como la distribución geométrica con el parámetro p.

Tenga en cuenta que
.
Si establecemos s a 0, la expresión anterior se evalúa como 1/p, lo que está deacuerdo
con la fórmula para E[X] derivada en elcapítulo 2.
Ejemplo 4.9. La transformación de una mezcla de dos distribuciones. El banco del

vecindario tiene tres cajeros, dos de ellos rápido, uno lento. El tiempo para ayudar a un
cliente se distribuye exponencialmente con el parámetro 6 en los cajeros rápidos, y el
número 4 en el te ller lento. Jane entra en el banco y elige un cajero al azar, cada uno
con probabilidad 1/3. Encuentra el PDF del tiempo que se tarda en ayudar a Jane y su
transformación.
Tenemos
Entonces
(para s <
4) .
Más generalmente, deje que X1,...,Xn sean variables aleatorias continuas con PDFs
fX1,... fXn, y dejar Y ser una variable aleatoria, que es igual a Xi con probabilidad pi.
Entonces,
fY (y)á p1fX1(y) + á+ pnfXn(y),
MY (s)á p1MX1(s) + á+ pnMXn(s).
Los pasos de este problema se pueden invertir. Por ejemplo, se nos puede decir que
la transformación asociada con una variable aleatoria Y es de la forma
A continuación, podemos reescribirlo como
y reconocer que Y es la mezcla de dos variables aleatorias exponenciales con el paramoters

2 y 1, que se seleccionan con probabilidades 1/4 y 3/4, respectivamente.
Sumas de variables aleatorias independientes
Los métodos de transformación son particularmente convenientes cuando se trata de

una suma de variables aleatorias. Esto se debe a que resulta que la adición devariables
aleatorias independent corresponde a la multiplicación de transformaciones,como
ahora mostramos.
Deje que X e Y sean variables aleatorias independientes, y deje que W - X +

Y . La transformación asociada a W es, por definición,
MW(s)á E[esW]á E[es(X+Y )]á E[esXesY ].
Considere un valor fijo del parámetro s. Dado que X e Y son independientes, esX y
esY son variables aleatorias independientes. Por lo tanto, la expectativa de su producto
es el producto de las expectativas, y
MW(s)á E[esX]E[esY ] á MX(s)MY (s).
Por el mismo argumentment, si X1,...,Xn es una colección de variables aleatorias

independientes, y
W - X1 + + Xn,
Entonces
MW(s) - MX1(s) MXn(s).
Ejemplo 4.10. La transformación del binomio. Deje que X1,...,Xn sean variables aleatorias
independientes de Bernoulli con un parámetro común p. Entonces,
MXi(s) á (1 á p)e0s + pe1s á 1 p + pes,para todos los i.
La variable aleatoria Y - X1 + + Xn es binomial con los parámetros n y p. Su transformación

es dada por
.
Ejemplo 4.11. La suma de las variables aleatorias independientes de Poisson es Poisson.

Deje que X e Y sean variables aleatorias independientes de Poisson con las medias ,
µrespectivamente, y deje que W - X + Y . Entonces,
MX(s)á eá(esá1), MY (s)á eá(ess á1),
Y
MW(s)á MX(s)MY (s)á e eá(esá1) á e(á+)(esá1). •(eess s1) −
Por lo tanto, W tiene la misma transformación que una variable aleatoria de Poisson con la
media de + . Por la propiedad de unicidad de las transformaciones, W es Poisson con la
media de + ..
Ejemplo 4.12. La suma de variables aleatorias normales independientes es normal. Deje
que X e Y sean variables aleatorias normales independientes con las medias µx, yyylas
varianzas xx2, yy2,respectivamente. Dejar que W a X + Y . Entonces,
Por lo tanto, W tiene la misma transformación que unavariable random normal con
la media dex + ay y la varianza y xx 2 +y2.
Por la propiedad uniqueness de las
transformaciones, W es normal con estos parámetros.
Resumen de las transformaciones y sus propiedades

• La transformación asociada a la distribución de una variable aleatoria
X es dado por
eSx PX ( X ) , X Discreta,
X
M X ( s )= E [eSx ]= ∞
eSx FX ( X ) Dx X Continua .
−∞
• La distribución de una variable aleatoria está completamente determinada por la

transformación correspondiente.
• Propiedades generadoras de momento:
D DN
M X (0) 1 , M X (s) = E [X ], M X (s) = E [X N ].
Ds s N.o DsN s N.o
0 0
• Si Y = Ax + B, EntonM Y ( s )= eSb M X ( Co).

• Si X Y Y son ces M X mo
independientes, entonces + Y
( s ) = M X ( s ) M Y ( s ).
Hemos derivado fórmulas para las transformaciones de algunas variables

aleatorias comunes. Tales fórmulas se pueden derivar con una cantidad moderada de
álgebra para muchas otras distribuciones. Algunos de los más útiles se resumen en las
tablas siguientes.
Transformaciones de distribuciones conjuntas
Si dos variables aleatorias X e Y son descritas por alguna distribución conjunta (por
ejemplo, un PDF conjunto), entonces cada una está asociada con una transformación
MX(s) o MY (s). Estos
Transformaciones para variables aleatorias discretas comunes

Bernoulli ( P)
P Si K N.o ,
PX ( K)= M X (s) 1 − P + Pes .
1− P Si K 0.
Binomio ( n,p )
N K
PX ( K)= P (1 − P) N − K , K N.o , 1,...,.
K
0
M X ( s )(1 − P + Pes ) N .
Geométrica ( P)
Pes
PX ( K)= P(1 − P) K − 1 , K N.o , 2,... M X ( s )= .
1 − (1 − P) es
1
Poisson ( Λ)
e− Λ ΛK s−
PX ( K)= , K N.o , 1,... M X ( s )= eΛ ( e 1)
.
K!
0
Uniforme ( a,b )
1
PX ( K)= , K = a,a +1 ,...,b.
B − U +1
n eCo e( B− U+1) s − 1
M X ( s )= mo n .
B − U +1 es − 1
n
son las transformaciones de las distribuciones marginales y no transmiten información

sobre la dependencia entre las dos variables aleatorias. Dicha información está
contenida en una transformación multivariada, que ahora definimos.
Considere n variables aleatorias X1,...,Xn relacionadas con el mismo
experimento. Vamos s1,...,sn ser parámetros libres escalares. La transformación
multivariada asociada es una función de estos n parámetros y se define por
.
La propiedad de inversión de las transformaciones descritas anteriormente se
extiende al caso multivariante. Que is, si Y1,...,Yn es otro conjunto de variables
aleatorias y MX1,...,Xn(s1,...,sn), MY1,...,Yn(s1,...,sn) son las mismasfunciones de s1,...,sn,
15
4.2 Sumas de variables aleatorias independientes — Convoluciones
Transformaciones para variables aleatorias continuas comunes

Uniforme ( a,b )
1 1 eSb − eSa
F X ( X)= , O ≤ X ≤ B. M X ( s )= .
B− O B− O s
n
n n
Exponencial ( Λ)
− x Λ
F X ( X )= E , X ≥ 0. M X ( s )= , (s > ? ).
−
Λ s
Normal ( μ,σ 2 )
1 2 2 Σ 2s2
FX ( X )= √ e− ( X − µ ) / 2 Σ , − ∞ < X < ∞. M X ( s )= e 2 + Μs .
Σ 2Π
a continuación, la distribución conjunta de X1,...,Xn es la misma que la distribución

conjunta de Y1,...,Yn.
4.2 SUMAS DE VARIABLES ALEATORIAS INDEPENDIENTES — CONVOLUCIONES
Si X e Y son variables aleatorias independientes, la distribución de su suma W a X

+ Y se puede obtener calculando y, a continuación, invirtiendo la transformación
MW(s)- MX(s)MY (s). Pero también se puede obtener directamente, utilizando el
método desarrollado en esta sección.
El caso discreto
Deje que W - X+Y , donde X e Y son variables aleatorias independientes con valores
enteros con PMFs pX(x)y pY (y). Entonces, para cualquier entero w,
pW(w)áP(X + Y á w)
P(X x x e Y á y)
e Y á w á x)
.
y
.
. (0 ,3)
. (1 ,2)
. (2 , 1)
. (3 , 0)
X
.
Figura 4.2: La probabilidad pW(3) que X+Y - 3 es la suma de las probabilidades de todos los
pares (x,y) de tal maneraque x + y - 3, que son los puntos indicados en la figura. La
probabilidad de un punto genérico es de la forma pX,Y (x,3 x) á pX(x)p Y (3 x x).
El PMF pWresultante(w) se denomina convolución de los PMF de X e Y . Véase la

Fig. 4.2 para obtener una ilustración.
Ejemplo 4.13. Deje

que X e Y sean
independientes y
que los PMF sean dados por
0,
N.o 1,
N.o 2,
0 de lo contrario.
Para calcular el PMF de W a X + Y por convolución, primero observamos que el rango de
valores posibles de w son los enteros del rango [1,5]. Por lo tanto, hemos
.
Calculamos pW(w) para cada uno de losvalores w á 1,2,3,4,5 utilizando la fórmula de

convolución. Tenemos
,
donde la segunda igualdad anterior se basa en el hecho de que para 1 pX(x)o pY (1 x
x) (o ambos) es cero. Del mismo modo, obtenemos
17
, Sec.
4.2 Sumas de variables aleatorias independientes — Convoluciones
El caso continuo
Deje que X e Y sean variables aleatorias continuas independientes con archivos PDF
fX(x) y fY (y). Deseamos encontrar el PDF de W x + Y . Puesto que W es una
función de dos variables aleatorias X e Y , podemos seguir el método del Capítulo 3,
y comenzar derivando el CDF FW(w) de W. Tenemos
El PDF de W se obtiene difiliando el CDF:
Esta fórmula es totalmente análoga a la fórmula para el caso discreto, excepto que la
suma se sustituye por una integral y los PMF se sustituyen por archivos PDF. Para una
comprensión intuitiva de esta fórmula, véase la Fig. 4.3.
Ejemplo 4.14. Las variables aleatoriass X e Y son independientes y se distribuyen

uniformemente en el intervalo [0,1]. El PDF de W x X + Y es
El integrador fX(x) ffY (w á x) es distinto de cero(e igual a 1) para 0 x á 1 y 0 á w á x
á 1. Combinando estas dos desigualdades, el integrador es distinto de cero para máx.-0,w
- 1o á x á mín.1,w. Por lo tanto,
2,
y
W+ Δ
W
X + y = W+ Δ
W X
X+ y= W
Figura 4.3: Ilustración de la fórmula de convolución para el caso de variables aleatorias

continuas (comparar con la Fig. 4.2). Para un pequeño ,la probabilidad de la tira indicada en
la figura es P(w á X + Y á w + á) - fW(w) .. . . . . . . . . . Por lo tanto,
La fórmula deseada sigue cancelando el valor de los dos lados.
F W( W)
2 W
Figura 4.4: El PDF de la suma de dos variables aleatorias uniformes independientes en [0,1].
19
que tiene la forma triangular que se muestra en la Fig. 4.4.
El cálculo del último ejemplo se basó en una aplicación literal de la fórmula de

convolución. El paso más delicado fue determinar los límites correctos para la
integración. Esto es a menudo tedioso ye rror propenso, pero se puede pasar por alto
utilizando un método gráfico descrito a continuación.
Cálculo gráfico de convoluciones
Utilizaremos una variable ficticia t como argumento de las diferentes funciones

involucradas en esta discusión; véase también la Fig. 4.5. Considere un PDF fX(t) que
es cero fuera delrango a á t á b y un PDF fY (t) que es cerooutside el rango c á
t á d. Fijemos un valor w,y tracemos fY (w á t) como unafunción de t. Este trazado
tiene la misma forma que el trazado de fY (t) excepto que primero se"voltea" y
luego se desplaza por una cantidad w. (Si w > 0, esto es un desplazamiento a la
derecha, si w < 0, esto es un desplazamiento a la izquierda.) A continuación,
colocamos las parcelas de fX(t)y fY (w át) unaencima de la otra. El valor de fW(w) es
igual a la integral del producto de estas dosparcelas. Al variar la cantidad por la
que estamos desplazando, obtenemos fW(w) paracualquier w.
F X ( T)
F Y ( T)
O B T C D T
n
F Y ( W− T) F Y ( − T)
W− D W− C T −D −C T
F Y ( W− T) F X ( T)
O B T
n
Figura 4.5: Ilustración del cálculo de la convolución. Para el valor w considerado, fW(w) es
igual a la integral de lafunción mostrada en la última gráfica.
Sec. 4.3 Expectativa condicional como variable aleatoria 21
4.3 EXPECTATIVA CONDICIONAL COMO VARIABLE ALEATORIA
El valor de la expectativa condicional E[X | Y - y] de una variablealeatoria X dada
otra variable aleatoria Y depende del valor experimental realizado y de Y . Esto

hace que E[X - Y ] una función de Y , y por lo tanto una variable aleatoria. En esta
sección, estudiamos la expectativa y la varianza de E[X | Y ]. En el proceso,
obtenemos algunas fórmulas útiles (la ley de expectativas iteradas y la ley de

varianzas condicionales)que a menudo son convenientes para el cálculo de los valores
esperados y las desviaciones.
Recuerde que la expectativacondicional E[X | Y - y] sedefine por
E , (caso discreto),,
E (caso continuo).
Una vez que se da un valor de y, la suma o integración anterior produce un valor
numérico para E[X ? Y - y].
Ejemplo 4.15. Deje que las variables aleatorias X e Y tengan un PDF conjunto que
sea igual a 2 para (x,y) quepertenezca al triángulo indicado en la Fig. 4.6(a), y cero en
todas partes else. Con el fin de calcular E[X | Y - y], primero necesitamos obtener la
densidad condicional de X dado Y - y.
F X |Y ( X |y )
y
1 1
F X ,Y ( X ,y ) = 2
1−y
1−y 1 X 1−y 1 X
( O) ( B)
n
Figura 4.6: a) El PDF conjunto en el ejemplo 4.15. (b) La densidad condicional de X.
Tenemos
, 0x x a 1o y.
La densidad condicional se muestra en la Fig. 4.6(b).
Intuitivamente, dado que el PDF conjunto es constante, el PDF condicional (que es
un "slice" de la articulación, en algunos y fijos)también es una constante. Por lo tanto, el
PDF condicional debe ser una distribución uniforme. Dado tsombrero Y - y, X oscila
entre 0 y 1 yy. Por lo tanto, para que el PDF se integre en 1, su altura debe ser igual a 1/(1
x y), de acuerdo conla Fig. 4.6(b).
Para y > 1 o y < 0, el PDF condicional es indefinido, ya que estos valores de y son
imposibles. Para y 1, X debe ser igual a 0, con certeza, y E[X | Y 1] a 0.
Para 0 a y < 1, la media condicional E[X ? Y - y] es la expectativa del PDF
uniforme en laFig. 4.6(b), y tenemos have
E .
Desde E[X ? Y - 1] - 0, la fórmula anterior también es válida cuando y - 1. La expectativa
condicional es indefinida cuando y está fuera [0,1].
Para cualquier número y, E[X ? Y - y] también esun número. A medida que y

varía, también lo hace E[X | Y - y], y por lo tanto podemos ver E[X | Y - y]en función
de y. Puesto que y es el valor experimental de la variable aleatoria Y , estamos
tratando con una función de una variable aleatoria, por lo tanto una nueva variable
aleatoria. Más precisamente, definimos E[X | Y ] para ser la variable aleatoria cuyo
valor es E[X ? Y - y] cuando elresultado de Y es y.
Ejemplo 4.15. (continuación) Vimos que E[X | Y á y]á (1 x y)/2. Por lo tanto, E[X ? Y ]
es la variable aleatoria (1 x Y )/2:

E .
Desde E[X ? Y ] es una variable aleatoria, tiene una expectativa E

propia. Aplicando la regla de valor esperado, esto es dado por
, Y discreto,
E y
Continua.
Ambas expresiones en el lado derecho deben ser familiares de los capítulos 2 y 3,

respectivamente. Por lasversiones de encharcamiento corres del teorema de
expectativa total, son iguales a E[X]. Esto nos lleva a la siguiente conclusión, que en
realidad es válida para cada tipo de variable aleatoria Y (discreta, continua, mixta,
etc.), siempre y cuando X tenga una expectativa bien definida y finite E[X].
Ley de expectativas iteradas: E E [X |Y ] = E [X ].
Ejemplo 4.15 (continuación) En el Ejemplo 4.15, encontramos E[X | Y ] á (1 x Y )/2 [véase

la Fig. 4.6(b)]. Tomando las expectativas de ambas partes, y utilizando la ley de expectativas
iteradas para evaluar el lado izquierdo, obtenemos E 2. Debido a la
simetría, debemos tener E[X] á E[Y ]. Por lo tanto, E 2, que produce
E[X] á1/3. En unaversión ligeramente diferentede este ejemplo, donde no hay
simetría entre X e Y , usaríamos un argumento similar para expresar E[Y ].
Ejemplo 4.16. Comenzamos con un palo de longitud. Lo rompemos en un punto que se elige
al azar y uniformemente sobre su longitud, y keep la pieza que contiene el extremo
izquierdo del palo. Luego repetimos el mismo proceso en el palo que nos quedamos. ¿Cuál
es la longitud esperada del palo que nos queda, después de romper dos veces?
Deje y sea la longitud del palo después de que nos rompamos por primera vez. Deje
que X sea la longitud después de la segunda vez. Tenemos E[X ? Y ] - Y/2, ya que
el punto de interrupción se elige uniformemente sobre la longitud Y del palo restante. Por
una razón similar,
también tienen E 2. Por lo tanto,

E .
Ejemplo 4.17. Promedio de las puntuaciones de la prueba por sección. Una clase tiene n
estudiantes y la puntuación del cuestionario del estudiante i es xi. La puntuación media
del cuestionario es
La clase consta de secciones S, con nestudiantes en la sección s. La puntuación media en la

sección s es
xi.
stdnts. i en sec.s
La puntuación media de toda la clase se puede calcular tomando la puntuación media ms
de cada sección y, a continuación, formando un promedio ponderado;el peso dado
a lasección s es proporcional al número de alumnos en esa sección, y es ns/n.
Verificamos que esto dé el resultado correcto:
xi
stdnts. i en sec.s
xi
stdnts. i en sec.s
.
¿Cómo se relaciona esto con las expectativas condicionales? Considere un
experimento en el que un alumno es seleccionado al azar, cada alumno tiene
probabilidad de ser seleccionado. Considere las dos variables aleatorias siguientes:
X • Puntuación de un cuestionario de unestudiante,

Y • sección de un alumno, (Y - 1,...,S)}).
Entonces tenemos
E[X] á m.
Acondicionamiento en Y s es lo mismo que suponiendo que el alumno seleccionado

está en la sección s. Condicional en ese evento, cada estudiante de esa sección tiene la
misma probabilidad 1/ns de ser elegido. Por lo tanto,
E xi á ms.
stdnts. i en sec.s
Un alumno seleccionado aleatoriamente pertenece a la sección s con probabilidad ns/n, es

decir, P(Y s s) á ns/n. Por lo tanto,
S S
E .
s1 s1
Como se muestra anteriormente, esto es lo mismo que m. Por lo tanto, el promediado por
sección puede considerarse como un caso especial de la ley de expectativas iteradas.
Ejemplo 4.18. Previsiones de previsión. Deje que Y sea las ventas de una empresa
en el primer semestre del próximo año, y deje que X sea las ventas durante
todo el año. La empresa ha construido un modelo estadístico de ventas, por lo que se
supone que se conoce la distribución conjunta de X e Y. A principios de año,
el valor esperado E[X] sirve comoprevisión de las ventas reales X. A mediados del año,
las ventas del primer semestre se han realizado y ahora se conoce el valor
experimental del valor aleatorio Y. is now known. Esto nos coloca en un nuevo
"universo", donde todo está condicionado al valor realizado de Y . A continuación,
consideramos la previsión revisada a mitad de año de las ventas anuales, que es E[X | Y ].
Vemos E[X ? Y ] - E[X] como larevisión de la previsión, a la luz de la reforma de

mediados del año. La ley de las expectativas iteradas implica que
E .
Esto significa que, a principios de año, no esperamos que nuestra previsión se revise en
ninguna dirección específica. Por supuesto, la revisión real suele ser positiva o negativa,
pero las probabilidades son tales que es cero en el promedio. Esto es bastante intuitivo. Por
ejemplo, si se esperaba una revisión positiva, el pronóstico original debería haber sido
mayor en primer lugar.
La varianza condicional
La distribución condicional de | X dado Y - y tiene una media, que es E[X Y - y], y

por el mismo token, también tiene una varianza. Esto se define por la misma fórmula
que la varianza incondicional, excepto que todo está condicionado a Y - y:
Tenga en cuenta que la varianza condicional es unafunción del valor

experimental y de la variable aleatoria Por lo tanto, es una función de una variable
aleatoria, y es en sí misma una variable aleatoria que será denotada por var(X | Y ).
Argumentando por analogía con la ley de expectativas iteradas, podemos
conjeturar que la expectativa de la varianza condicional var(X | Y ) está relacionado
con la varianza incondicional var(X). Este es el caso, pero la relación es más compleja.
Ley de Variaciones Condicionales:
var( X )= E var( X |Y ) + Var E [X |Y ]
Para verificar la ley de varianzas condicionales, comenzamos con la identidad

.
Cuadramos ambos lados y luego tomamos expectativas para obtener
Usando la ley de expectativas iteradas, el primer término en el lado derecho de la

ecuación anterior se puede escribir como
E ,
ya que E[X] es lamedia de]. Por último, el tercer término es cero, como
ahora es lo mismo que E var( . El segundo término es igual a var,
show. De hecho, si definimos, el tercer
término es
Ejemplo 4.16. (continuación) Considere de nuevo el problema donde rompemos dos veces
siendo la longitud del palo
un palo de longitud, en puntos elegidos al azar, con Y
después de la primera rotura y X siendo la longitud después de la segunda
rotura. Calculamos la media de 4, y ahora vamos a utilizar la ley de desviaciones
condicionales para calcular var(X). Tenemos E[X ? Y ] a Y/2,por lo queya que Y se distri
uniformementeentre 0 y ,
.
Además, dado que X se distribuye uniformemente entre 0 e Y, hemos
Por lo tanto, dado que Y se distribuye uniformemente entre 0 y ,
E.
Usando ahora la ley de las varianzas condicionales, obtenemos
Ejemplo 4.19. Promedio de las puntuaciones de la prueba por sección – Variación. La

configuración es la misma que en el ejemplo 4.17 y consideramos las variables aleatorias
X • Puntuación de un cuestionario de unestudiante,
Y • sección de un alumno, (Y - 1,...,S)}).
Deje que ns sea el número de alumnos en la sección s, ydeje n ser el número total
de estudiantes. Interpretamos las cantidades differentes en la fórmula
.
En este contexto, var(X | Y - s) es lavarianza de las puntuaciones de la prueba

dentro de la sección s. A continuación, E es el promedio de las
desviaciones de sección. Este último
expectativa es un promedio sobre la distribución de probabilidad de Y, es decir,,
E .
Recuerde que E[X ? Y s s] esla puntuación media en la sección s. Entonces, var

es una medida de la variabilidad de los promedios de las diferentes secciones. La
ley de varianzas condicionales establece que la varianza total de la puntuación del
cuestionario se puede dividir en dos partes:
(a) La variabilidad media de la puntuación E dentro de las secciones
individuales.
(b) La variabilidad var entre secciones.
Hemos visto anteriormente que la ley de expectativas iteradas (en forma del
teorema total de la expectativa) se puede utilizar para desglosar cálculos de
expectativa complicados, considerando diferentes casos. Un método similar se aplica
a las determinaciones de desviación.
Example 4.20. Computación de varianzas por acondicionamiento. Considere una variable

aleatoria continua X con el PDF indicado en la Fig. 4.7. Definimos una variable aleatoria
auxiliar Y de la siguiente manera:
1,
1.
Aquí, E[X ? Y ] toma los valores 1/2 y 3/2, con probabilidades 1/3 y 2/3, respectivamente.
Por lo tanto, la media de E[X | Y ] es 7/6. Por lo tanto,
.
FX ( X )
2/ 3
1/ 3
1 2 X
Figura 4.7: El PDF en el ejemplo 4.20.
Condicionado en cualquiera de los valores de Y, X se distribuye uniformemente en

un intervalo de longitud de unidad. Por lo tanto, var(X ? Y - y)- 1/12 para cada uno de los
dos valores posibles de y, y E 12. Juntando todo, obtenemos
.
4.4 Suma de un número aleatorio de variables aleatorias independientes
Resumimos los puntos principales de esta sección.

La media y la varianza de una expectativa condicional
• E[X ? Y - y] esun número, cuyo valor depende de y.
• E[X ? Y ] es una función de la variable aleatoria Y , por lo tanto, una
variable aleatoria. Su valor experimental es E[X ? Y - y] siempre que el
valorexperimental de Y sea y.
(ley de expectativas iteradas).

• var(X ? Y ) es una variable aleatoria cuyo valor experimental es var(X | Y (
Y)
y), siempre que el valor experimental de Y sea y.
.
4.4 SUMA DE UN NÚMERO ALEATORIO DE VARIABLES ALEATORIAS
INDEPENDIENTES
En nuestra discusión hasta ahora de sumas de variables aleatorias, siempre hemos
asumido que el número de variables en la suma es conocido y fijo, es decir, esdecir, es
no aleatorio. En esta sección vamos a considerar el caso donde el número de variables
aleatorias que se agregan es en sí mismo aleatorio. En particular, consideramos la
suma
Y a X1 + + XN,
donde N es una variable aleatoria que toma valores enteros no negativos, y X1,X2,... son
variables aleatorias distribuidas de forma idéntica. Suponemos que N,X1,X2,... son
independientes, lo que significa que cualquier subcolección finita de estas variables
aleatorias es independiente.
En primer lugar, nonos importa que la aleatoriedad de N pueda afectar
significativamente al carácter de la suma aleatoria Y - X1 + x + XN. En particular, el
PMF/PDF de Y es muy diferente del PMF/PDF de la suma en la
que
N se ha reemplazado por su valor esperado (suponiendo que E[N]es entero). Por
ejemplo, deje que Xi se distribuya uniformemente en el intervalo [0,1], y deje que N
sea igual a 1 o 3 con probabilidad 1/2 cada uno. A continuación, el PDF de la suma
aleatoria Y toma valores en el interval [0,3], mientras que si reemplazamos N por
su valor esperado
31
E[N]á 2, la suma Y a X1 +X2 toma valores en el intervalo [0,2]. Además, utilizando

el teorema de probabilidad total, vemos que el PDF de Y es una mezcla del PDF
uniforme y el PDF de X1 +X2 +X3, y tiene considerablemente diferente
carácter que el PDF triangular de Y x XX 1 + X2 que se indica en la Fig. 4.4.

Vamos a denotar por s y 2 la media común y la varianza de la Xi. Deseamos
derivar fórmulas para la media, la varianza y la transformación de Y . El método que
seguimos es a la primera condición en el evento N n n, bajo elcual tenemos la suma
de un número fijo de al azar de variables aleatorias, un caso que ya sabemos cómo
manejar.
Arreglar algún número n. La variable aleatoria X1 + +Xn es independiente de
N y, por lo tanto, independientemente del evento . n Por lo tanto,
E[Y ? N á n]á E[X1 + x + XN - N a n]
• E[X1 + á + Xn - N a n]
• E[X1 + á + Xn]- n .
Esto es cierto para cada entero no negativo n y, por lo tanto,
E[Y ? N] - No.
Utilizando la ley de expectativas iteradas, obtenemos
E .
Semejantemente
Puesto que esto es cierto para cada entero no negativo n, la variable aleatoria var(Y ?
N) es igual a N.o2. Ahora utilizamos la ley de varianzas condicionales para obtener

El cálculo de la transformación procede en líneas similares. La transformación
asociada con Y , condicionada en N , nes E[esY ? N a n]. Sin embargo, condicionado
en N , N, Y es la suma de las variables aleatorias independientes X1,...,Xn,y
E
Utilizando la ley de expectativas iteradas, la transformación (incondicional) asociada con
Y es
E .
4.4 Suma de un número aleatorio de variables aleatorias independientes
Esto es similar a la transform M((s) - E[esN] asociadaa N, exceptoque es se sustituye

por MX(s).
Ejemplo 4.21. Un pueblo remoto tiene tres gasolineras, y cada una de ellas está abierta en
un día dado con probabilidad 1/2, independientemente de las demás. La cantidad de gas
disponible en cada estación de servicio es desconocida y se distribuye uniformemente entre
0 y 1000 galones. Queremos caracterizar la distribución de la cantidad total de gas
disponible en las gasolineras que son opluma.
El número = N de estaciones de servicio abiertas es una variable aleatoria binomial con p
1/2 y la transformación correspondiente es
La transformación MX(s) asociada con la cantidad de gas disponible enuna

gasolinera abierta es
La transformación asociada con el total de amount Y disponible es la misma que MN(s),

excepto quecada aparición de es se sustituye por MX(s),es decir,
Ejemplo 4.22. Suma de un número geométrico de variables aleatorias exponenciales

independientes. Jane visita una serie de librerías, en busca de Great Expectations.
33
Cualquier librería determinada lleva el libro con probabilidad p,independientemente de los
demás. En una librería típica visitada, Jane pasa una cantidad aleatoria de tiempo,
distribuida exponencialmente con el parámetro ,hasta que encuentra el libro o
decideque lalibrería no lo lleva. Suponiendo que Jane seguirá visitando librerías hasta que
compre el libro y que el tiempo que pasa en cada uno es independiente de todo lo demás,
deseamos determinar la media, la varianza y el PDF del tiempo total invertido en las
librerías.s.
El número total N de librerías visitadas se distribuye geométricamente con el
parámetro p. Por lo tanto, el tiempo total Y invertido en las librerías es la suma de un
número distribuido geométricamente N de variables aleatorias exponenciales
independientes X1,X2,... . Tenemos
E .
Usando las fórmulas para la varianza de variables aleatorias geométricas y exponenciales,
también obtenemos
Para encontrar la transformación MY (s), recordemos que
A continuación, se encuentra MY (s)empezando por MN(s) yreemplazando cada aparición de

es por MX(s). Tsus rendimientos
,
lo que simplifica la
.
Reconocemos esto como la transformación de una variable aleatoria distribuida
exponencialmente con el parámetro p ,y por lo tanto,
fY (y)á p-e-p-y, y - 0.
Este resultado puede ser sorprendente porque la suma de un número fijo n de

variables aleatorias exponenciales independientes no se distribuye exponencialmente. Por
ejemplo, si n es 2, la transformación asociada a la suma es , que no corresponde a
la distribución exponencial. distribution.

Ejemplo 4.23. Suma de un número geométrico de variables aleatorias geométricas
independientes. Este ejemplo es un homólogo discreto del anterior. Dejamos que N se
distribuya geométricamente con el parámetro p. También dejamos que cada variable
aleatoria Xi sedistribuya geométricamente con el parámetro q be geo. Suponemos que
todas estas variables aleatorias son independientes. Dejar Y a X1 + + X XN. Tenemos
Para determinar MY (s), comenzamos con la fórmula para MN(s) yreemplazamos cada
aparición de es con MX(s). Esto produce
,
y, después de un poco de álgebra,
.
Concluimos que Y se distribuye geométricamente, con el parámetro pq.
Sec. 4.5 Covarianza y correlación
Propiedades de sumas de un número aleatorio de aleatorio independiente
Variables
Deje que X1,X2,... ser variables aleatorias con media común y varianza común
22. Deje que N sea una variable aleatoria que toma valores enteros no
negativos. Suponemos que todas estas variables aleatorias son independientes,
y consideramos
Y a X1 + + X NN.
Entonces
• E[Y ] á EE[N].
• var(Y ) á 22E[N]+ á2var(N).
• La transformación MY (s) se encuentracomenzando con la

transformación MN(s) yreemplazando cada aparición de es por MX(s).
4.5 COVARIANZA Y CORRELACIÓN
La covarianza de dos variables aleatorias X e Y se denota mediante cov(X,Y ), y se

define por cov( .
Cuando cov(X,Y ) á 0, decimos que X e Y no están correlacionados..
En términos generales, una covarianza positiva o negativa indica que los valores
de X - E[X]e Y - E[Y ] obtenidos en un solo experimento "tienden" a tener el mismo
35
signo o el signo opuesto, respectivamente (véase la Fig. 4.8). Por lo tanto, el signo de
la covarianza proporciona un indicador cualitativo importante de la relación entre
Xe Y .
Si X e Y son independientes, entonces
cov( .
Por lo tanto, si X e Y son independientes, también son no correlacionados. Sin embargo,
lo contrario no es cierto, como se muestra en el ejemplo siguiente.
Ejemplo 4.24. El par de variables aleatorias (X,Y ) toma los valores (1,0), (0,1),
1), cada uno con probabilidad 1/4 (véase Fig.
4.9). Por lo tanto, los PMF marginales de y son simétricos alrededor
de 0, y E[X] á E[Y ] - 0. Además, para todos los pares de valores posibles (x,y), x o y es
igual a 0, lo que implica que
XY a 0 y A[XY ] a 0. Por lo tanto,
cov( ,
y y
x x
(a) (b)
Figura 4.8: Ejemplos de variables aleatorias correlacionadas positiva y negativamente. Aquí X e

Y se distribuyen uniformemente sobre las elipses mostradas. En el caso (a) la cov de
covarianza(X,Y ) es negativa, mientras que en el caso (b) es positiva.
Figura 4.9: PMF conjunta de X Y Y Ejemplo 4.21.
y
Cada uno de los cuatro puntos mostrados tiene
(0 ,1) probabilidad de 1/4. Aquí X Y Y son no
correlacionados pero no independientes.
(-1,0) (1 , 0) X
(0,-1)
y X e Y no están correlacionados. Sin embargo, X
e Y no son independientes ya que, por ejemplo, un
valor distinto de cero de X corrige el valor de Y a cero.
El coeficiente de correlación de dos variables aleatorias X e Y que tienen

varianzas no
cov(X,Y ) .
.
Se puede ver como una versión normalizada de la cov de covarianza (X,Y ), y de hecho
se puede demostrar que el número oscila entre 1 y 1 (véase los problemas de fin de
capítulo).
Si es el valor de > 0 (o < 0), los valores de x á E[X] ey - E[Y ] "tend" tengan
el mismo signo (o opuesto, respectivamente) y el tamaño de la palabra . ? proporciona
una medida normalizada de la medida en que esto es cierto. De hecho, siempre
suponiendo que X e Y tienen varianzas positivas, se puede demostrar que el valor
de la palabra 1 (o 1) si existeuna constante positiva(o negativa, respectivamente)
de modo que
, para todos los valores numéricos posibles (x,y)

Sec. 4.5 Covarianza y correlación
(ver los problemas de fin de capítulo). En el ejemplo siguiente se muestra en parte esta
propiedad.
Ejemplo 4.25. Considere n lanzamientos independientes de una moneda sesgada con

probabilidad de una cabeza igual a p. Dejemos que X e Y sean el número de cabezas
y de colas, respectivamente, y veamos la correlación de X e Y . Aquí, para todos los pares
posibles de valores (x,y),tenemos x + y n n, y también tenemos E[X]+ E[Y ] á n. Por lo
tanto, , para todos los posibles (x,y).
37
Calcularemos el coeficiente de correlación de X e Y, y verificaremos que es realmente igual
a 1.
Tenemos
cov(
Por lo tanto, el coeficiente de correlación es
La covarianza se puede utilizar para obtener una fórmula para la varianza de la

suma de varias variables aleatorias (no necesariamente independientes). En particular,
si X1,X2,...,Xn son variables aleatorias con varianza finita, tenemos
.
Esto se puede ver en el siguiente cálculo, donde por brevedad, denotamos
.
En el ejemplo siguiente se muestra el uso de esta fórmula.
Ejemplo 4.26. Considere el problema de sombrero que se discute en la Sección 2.5, donde
n personas tiran sus sombreros en una caja y luego escoge un sombrero al azar. Vamos
a encontrar la varianza de X, el número de personas que eligen su propio sombrero.
Tenemos
X x X1 + + Xn,
donde Xi es la variable aleatoria que toma el valor 1 si la persona ith selecciona

su propiosombrero, y toma el valor 0 de lo contrario. Observando que Xi es Bernoulli con
el parámetro p á P(Xi á 1) - 1/n,obtenemos
Porque, tenemos
cov(
por lo tanto
4.6 ESTIMACIÓN DE MÍNIMOS CUADRADOS
En muchos contextos prácticos, queremos formar una estimación del valor de una
variable aleatoria X dado el valor de una variable aleatoria relacionada Y , que puede
ser vista
Sec. 4.6 Estimación de mínimos cuadrados 39
como alguna forma de "medida" de X. Por ejemplo, X puede ser el alcance de una
aeronave y Y puede ser una medida dañada por ruido de ese rango. En esta
sección analizamos una fórmula popularsobre el problema de estimación, que se basa
en encontrar la estimación c que minimiza el valor esperado del error cuadrado
(X - c)2 (de ahí el nombre "menos cuadrados").
Si el valor de Y no está disponible, podemos considerar encontrar una

estimación (o predicción) c de X. El error de estimación Xac es
aleatorio (porque X es aleatorio), pero el error cuadrado medio
Ees un número que dependede c y se puede minimizar sobre c. Con respecto a
este criterio, resulta que la mejor estimación posible es c - E[X], como proceed para
verificar.
Deje que m - E[X]. Para cualquier estimación c, tenemos
E
donde usamos el hecho de que[[X x m] á0. El primer término en el lado derecho es
la varianza de X y no se ve afectado por nuestra elección de c. Por lo tanto,
debemos elegir c de una manera que minimice el segundo término, lo que conduce
a c á m - E[X]
(véase la Fig. 4.10).
Esperado cuadrado
Error de estimación
E [( X- c ) 2 ]
var( X )
E[ X ] C
Figura 4.10: El error cuadrado medio E ], en función de la estimación c, esun

cuadrático en c y se minimiza cuando c - E[X]. El valor mínimo del error cuadrado medio
es var(X).
Supongamos ahora que observamos el valor experimental y de alguna variable

aleatoria relacionada Y , antes de formar un estimate de X. ¿Cómo podemos
explotar esta información adicional? Una vez que se nos dice que Y toma un valor
particular y, la situación es idéntica a la considerada anteriormente, excepto que
ahora estamos en un nuevo "universo", donde todo está condicionado a Y . y Por lo
tanto, podemos adaptar nuestra conclusión anterior y
afirmar que c - E[X | El y error Squ ared medio condicional E. Tenga en cuenta
que la estimación resultante c depende del valor experimental y de Y (como
debería). Por lo tanto, llamamos A E[X | Y - y]la estimación de mínimos cuadrados
de X dado el valor experimental y.
Ejemplo 4.27. Dejemos que X se distribuya uniformemente en el intervalo [4,10] y

supongamos que observamos X con algún error aleatorio W,es decir, observamos el
valor experimental de la variable aleatoria
Y x X + W.
Suponemos que W se distribuye uniformemente en el intervalo [-1,1], e independiente de
X. ¿Cuál es el menor cuadrado estimate de X dado el valor experimental de Y ?
Tenemos fX(x) a 1/6 para 4 x x a 10, y fX(x) a0, en otro lugar. Condicionado en X
siendo igual a algunos x, Y es el mismo que x + W, y es uniforme en el
intervalo[x á 1,x + 1]. Por lo tanto, el PDF conjunto es dado por
si es 4 x á 10 y x á 1 á y á x + 1, y es cero para todos los demás valores de (x,y).
El rectángulo inclinado en el lado derecho de la Fig. 4.11 es el conjunto de pares (x,y) para
los cuales fX,Y (x,y) es distinto decero.
Dado un valor experimental y de Y , el PDF condicional fX| Y de X es uniforme
en la sección vertical correspondiente del rectangleinclinado. La estimación óptima E[X ?
Y - y] es el punto medio deesa sección. En el caso especial del presente ejemplo,
resulta ser una función lineal por piezas de y.
X
Y = X+W 10
Dónde W es una medida
error que es uniformemente
el intervalo en el intervalo [-1,1]
FX (X )
1 /6 Estimación de mínimos cuadrados

4
E [X | Y = y ]
4 X 3 5 9 11
10 y
Figura 4.11: Los archivos PDF del ejemplo 4.27. La estimación de mínimos cuadrados de X
dado el valor experimental y de la variable aleatoria Y - X + W depende de y
y está representada por la función lineal por piezas que se muestra en la figura de
la derecha.
Como se ilustra en el ejemplo 4.27, la estimación E[X | El yvalor y »Y depende
del valor observado y debe considerarse como una función de y; véase la Fig. 4.12.
Para amplificar este punto, reemosfer a cualquier función de la información disponible
como estimador. Dado un resultado experimental y de Y , un estimador g(que es
una función) produce una estimación g(y)(que es un número). Sin embargo, si y no
se especifica, el estimador da como resultado una variable aleatoria g(Y ). El valor
esperado del error de estimación al cuadrado asociado con un estimador g(Y ) es
E .
De todos los estimadores, resulta que el error de estimación al cuadrado medio

se minimiza cuando g(Y ) - E[X ? Y ]. Para ver esto, tenga en cuenta que si c es
cualquier número, tenemos
E .
Considere ahora un estimador g(Y ). Para un valor dado y de Y , g(y) es un
númeroy, por lo tanto,
E .
Esta desigualdad es verdadera para todos los valores experimentales posibles y de
Y . Por lo tanto,
E ,
que ahora es una desigualdad entre variables aleatorias (funciones de Y). Tomamos
las expectativas de ambas partes, y utilizamos la ley de expectativas iteradas,para
concluir que
para todas las funciones g(Y ).
y E[ X |Y y ]
MÍNIMOS CUADRADOS
Estimador
Figura 4.12: El estimador de mínimos cuadrados.
Datos clave sobre la estimación de mínimos cuadrados medios

• E ( X − C) 2 se minimiza cuando C = E [X ]:
2
E X − E [X ] ≤ E ( X − C) 2 , para C.
todos
• E ( X − C) 2 |Y = y se minimiza cuando C = E [X |Y = y ]:
2
E X − E [X |Y = y ] Y = y ≤ E ( X − C) 2 |Y = y , para C.
todos
• De todos los estimadores
G( Y ) D X basado en Y , la media esti-
2
E X − G( Y ) e se minimiza cuando G( Y ) = E [X |Y ]:
error de mation
2 2
E X − E [X |Y ] ≤ E X − G( Y ) , para todas las G( Y ) .
funciones
Algunas propiedades del error de estimación
Vamos a introducir la notación
XÁ E E[X ? Y ], Xá X - X, x,ˆ
para el estimador (óptimo) y el error de estimación asociado, respectivamente. Tenga

en cuenta que tanto Xcomo Xson variables aleatorias, y por la ley de
Expectativas
E .
La ecuación E[X-]- 0 sigue siendo válida incluso si condicionamos en Y , porque
E[X? Y ] - E[X - Xá Y ] á E[X ? Y ] - E[X? Y ] - Xá Xá 0.
Hemos utilizado aquí el hecho de que Xestá completamente determinado por Y y por
lo tanto E[Xˆ | Y ] - X. Por razones similares,
E .
Tomando expectations y utilizando la ley de expectativas iteradas, obtenemos
E .
Tenga en cuenta que X - X+ X,que produce X , E[X], X, E[X]+ X. Cuadramos
ambas partes de esta última igualdad y tomar las expectativas para obtener
(La última igualdad se mantiene debido a E[X]á E[X]y E[Xá] a0.) En resumen, hemos
establecido la siguiente fórmula importante, que es sólo otra versión de la ley de
varianzas condicionales introducida en la Sección 4.3.
var(X) á var(Xá) + var(X).
Ejemplo 4.28. Digamos que la variable aleatoria observada Y is uninformático si el error

de estimación al cuadrado medio E[Xs2 ] á 2var(X) es el mismo quela varianza
incondicional var(X) de X. ¿Cuándo es este el caso?
Usando la fórmula
var(X) á var(Xá )+ var(X),
vemos que Y no es informativo si y sólo si var 0. La varianza de una variable aleatoria

es cero si y sólo si esa variable aleatoria es una constante, igual a su media. Concluimos que
Y no es informativo si y sólo si X- E[X - Y ] - E[X], para cada realización de Y .
Si X e Y son independientes, tenemos E[X | Y ] - E[X]e Y es de hecho poco
informativo, lo que es bastante intuitivo. Lo contrario, sin embargo, no es cierto. Es decir,
es posible que E[X | Y ] ser siempre igual a la constante E[X], sin que X e Y sean
independientes. (¿Puede construir un ejemplo?)
Estimación basada en varias mediciones
Hasta ahora, hemos discutido el caso en el que estimamos una variable aleatoria X
sobre la base de otra variable aleatoria Y . En la práctica, a menudo se tiene acceso a
los valores experimentales of varias variables aleatorias Y1,...,Yn, que se puede
utilizar paraestimar X. Generalizar nuestra discusión anterior, y usando
esencialmente el mismo argumento, el error de estimación al cuadrado medio se
minimiza si usamos E[X | Y1,...,Yn] como nuestroestimador. Es decir,
E ,
para todas las funciones g(Y1,...,Yn).
Esto proporciona una solución completa al problema general de la estimación
de mínimos cuadrados, pero en algún momentoes difícil de implementar, porque:
(a) Con el fin de calcular la expectativa condicional E[X | Y1,...,Yn], necesitamos un
modelo probabilístico completo, es decir, el PDF conjunto fX,Y1,...,Yn(a) de n+1
variables aleatorias.
(b) Incluso si este PDF conjunto está disponible, E[X | Y1,...,Yn] puede ser una
función muy complicada de Y1,...,Yn.
Como consecuencia, los profesionales a menudo recurren a aproximaciones de la

expectativa condicional o se centran en estimadores que no son óptimos pero son
simples y fáciles de implementar. El enfoque más común implica estimadores
lineales,de la forma
a1Y1 + a + anYn + b.
Dada una elección particular de un1,...,an,b, el error cuadrado medio

correspondientees
E ,
y es significativo elegir los coeficientesa1,...,an,b de una manera que minimice la
expresión anterior. Este problema es relativamente fácil de resolver y sólo requiere
elconocimiento de losmedios, varianzas y covarianzas de las diferentes variables
aleatorias. Desarrollamos la solución para el caso en el que no 1.
Estimación lineal de cuadrados mínimos basados en una sola medición
Estamos interesados en encontrar a y b que minimicenel

error deestimación al cuadrado medio, asociado con un
estimador lineal aY +b de X. Supongamos que ya se ha elegido a a. ¿Cómo
debemos elegir b? Esto es lo mismo que tener que elegir una constante b para
estimar la a variable aleatoria aX - Y y, por nuestros resultados anteriores, la
mejor opción es dejar b - E[X - aY ] - E[X]a E[Y ]. Ahora queda minimizar, con
respecto a un,la expresión
E ,
que es lo mismo que
E
4.7 Distribución normal bivariada donde cov(X,Y ) es la
covarianza de X e Y: :
cov( .
Esta es una función cuadrática de un, que se minimiza en el punto donde su derivado
es cero, es decir, si
Dónde
cov(X,Y )
•?
XX -Y
es el coeficiente de correlación. Con esta elección de un, el error de estimación

cuadrada media es dado por
Fórmulas de estimación de cuadrados mínimos lineales El

estimador lineal de cuadrados medios menos de X basado en Y
es
E .
La estimación cuadrada resultante error es igual a
(1 x 22)var(X) .
4.7 LA DISTRIBUCIÓN NORMAL BIVARIADA
Decimos que dos variables aleatorias X e Y tienen una distribución normal bivariada
si hay dos variables aleatorias normales independientes U y V y algunos escalares
a,b,c,d, de tal manera que
X aU + bV, Y - cU + dV.
47
Para mantener la discusión simple, nos limitamos al caso en el que U, V (y por lo tanto, X
e Y también) tienen cero media.
Una propiedad más importante de la distribución normal bivariada es la siguiente:
Si dos variables aleatorias X e Y tienen una distribución normal bivariada y no están

correlacionadas, entonces son independientes.
Esta propiedad se puede verificar mediante transformaciones multivariantes.

Suponemos que X e Y tienen una distribución normal bivariada y no están
correlacionadas. Recuerde que si z es una variable aleatoria normal media cerocon
varianza zZ2 , entonces E[eZ] á MZ(1) - σZ2 /2. Corregir algunos escalares s1, s2 y dejar Z
s s1X + s2Y . Entonces, Z es la suma de las variables aleatorias normales independientes
(comoas1 +cs2)U y (bs1 +ds2)V , y por lo tanto es normal. Dado que X e Y no están
correlacionados, la varianza de Z es
. Entonces
MX,Y (s1,s2)- E[es1X+s2Y ] - E[eZ]
Deje que X e Y sean variables aleatorias normales de media cero independientes con las
mismas varianzas deX2 y σY2 que X e Y . Puesto que son independientes, no están
correlacionados, y el mismo argumento que los rendimientos anteriores
Por lo tanto, los dos pares de variables aleatorias (X,Y ) y (X,Y ) se asocian con la misma
transformación multivariada. Dado que la transformación multivariada determina
completamente el PDF conjunto, se deduce que el par (X,Y ) tiene la misma articulación
PDF como par (X,Y ). Dado que X e Y son independientes, X e Y también deben ser
independent.
Vamos a definir
X- Y, X, XX X. ˆ
E[Y 2] −
Por lo tanto, Xes el mejor estimador lineal de X dado Y, y Xes el error deestimación.
Dado que X e Y son combinaciones lineales de variables aleatorias normales
independientes U y V, se deduce que Y y Xtambién soncombinaciones lineales de U y
V. En particular, Y y Xtienen una distribución normalbivariada. Además,
cov(Y, .
4.7 La tribución D normal bivarianteistribution
Por lo tanto, Y y Xson nocorrelacionados y, por lo tanto, independientes. Dado que Xes
unmúltiplo escalar de Y , también vemos que Xy Xson independientes. Ahora comenzamos
desde la identidad
X x x+ X,˜
lo que implica que
E[X ? Y ] á E[Xá Y ] + E[X? Y ].
Pero E[X? Y ] - X- porque X- está completamentedeterminado por Y . Además,
Xesindependiente de Y y
E[X? Y ] - E[Xs] - E[X x x] á 0.
(La última igualdad se obtuvo porque se supone que X e Y tienen media cero y X es un
múltiplo constante de Y .) Poniendo todo junto, llegamos a la importante conclusión de
que el mejor estimador lineal Xes dela forma
XÁ E E[X ? Y ].
Se ha dicho de manera diferente, el estimador óptimo E[X | Y ] resulta ser lineal.
Ahora vamos a determinar ladensidad condicional de X,condicionada a Y . Tenemos

X x Xx + X. Después del acondicionamiento en Y , el valor de la variable aleatoria Xse
determina porcompleto. Por otro lado, Xesindependiente de Y y su distribución no se
ve afectada por el acondicionamiento. Porsupuesto, la distribución condicional de X dada
Y es la misma que la distribución de X,desplazada por X. Puesto que Xes normal con
49
cero medio yalguna varianza, llegamos a la conclusión de que la distribución condicional
de X también es normal con la media Xyla varianza. .
A continuación resumimos nuestras conclusiones. Aunque nuestra discusión utilizó la
suposición de media cero, estas conclusiones también se mantienen para el caso de media
distinto de cero y afirmamos them con esta generalidad añadida.
Propiedades de la distribución normal bivariada
Deje que X e Y tengan una distribución normal bivariada. A continuación:
• X e Y son independientes si y solo si no están correlacionados.
• La expectativa condicional es dada por
E .
Es una función lineal de Y y tiene una distribución normal.

• La distribución condicional de X dado Y es normal con la media E[X | Y ] y
varianza
.
Por último, tengamos en cuenta que si si X e Y tienen una distribución normal
bivariada, entonces X e Y son (individualmente) variables aleatorias normales, lo contrario
no es cierto incluso si X e Y no están correlacionados. Esto se ilustra en el ejemplo
siguiente.
Ejemplo 4.29. Deje que X tenga una distribución normal con media cero y varianza
unitaria. Deje que z sea independiente de X,con P(Z - 1) - P(Z - 1) - 1/2. Dejar Y - ZX, que
también es normal con media cero (¿por qué?). Además,
E[XY ] - E[ZX2]- E[Z]E[X2] á0 á 1 a 0,
por lo que X e Y no están correlacionados. Por otro lado X e Y son claramente dependientes.
(Por ejemplo, si X a 1, a continuación, Y debe ser de 1 o 1.) Esto puede parecer contradecir
nuestra conclusión anterior de que la correlación cero implica independencia? Sin embargo, en
este ejemplo, la junta PDF de X e Y no es normal multivariable, aunque ambas distribuciones
marginales sean normales.
5
Procesos estocásticos
Contenido
5.1. El Proceso de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 3
5.2. El Proceso de Poisson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
............................ pág. 15
2 Procesos estocásticos Capítulo 5
Un proceso estocástico es un modelo matemático de un experimento probabilístico que

evoluciona en el tiempo y genera una secuencia de valores numéricos. Por ejemplo, un
proceso estocástico se puede utilizar para modelar:
(a) la secuencia de precios diarios de una acción;
(b) la secuencia de puntuaciones en un partido de fútbol;
(c) la secuencia de tiempos de falla de una máquina;
(d) la secuencia de cargas de tráfico por hora en un nodo de una red de comunicación;e)
la secuencia de mediciones de radar de laposición de un avión.
Cada valor numérico de la secuencia está modelado por una variable aleatoria, por lo que
un proceso estocástico es simplemente una secuencia (finita o infinita) de variables
aleatorias y no representa una desviación conceptual importante de nuestro trabajo de
marcobásico. Todavía estamos tratando con un único experimento básico que implica
resultados regidos por una ley de probabilidad, y variables aleatorias que heredan sus
propiedades probabilísticas de esa ley. En particular:
(a) Tendemos a centrarnos en las dependencias en la secuencia de valores generados
por el proceso. Por ejemplo, ¿cómo dependen los precios futuros de una acción de los
valores pasados?
(b) A menudo nos interesan los promedios a largo plazo,que implican toda la secuencia
de valores generados. Por ejemplo, ¿cuál es la fracción de time de que una máquina
está inactiva?
(c) A veces deseamos caracterizar la probabilidad o frecuencia de ciertos eventos
delímites. Por ejemplo, ¿cuál es la probabilidad de que dentro de una hora
determinada todos los circuitos de algún sistema telefónico se ocupen
simultáneamente, o cuál es la frecuencia con la que algún búfer en una red de
computadoras se desborda de datos?
En este libro, discutiremos dos categorías principales de procesos estocásticos.
(a) Procesos de tipo dellegada: Aquí, estamos interesados en ocurrencias que tienen el
carácter de una "arrival", como recepciones de mensajes en un receptor,
terminaciones de trabajos en una celda de fabricación, compras de clientes en una
tienda, etc. Nos centraremos en los modelos en los que los tiempos interarrivales
(los tiempos entre llegadas sucesivas) son variables aleatorias independientes. En
la Sección 5.1, consideramos el caso en que las llegadas se producen en tiempos
discretos y los tiempos interarrivales se distribuyen geométricamente – este es el
Sec. 5.1 El proceso de Bernoulli 3
proceso Bernoulli. En la Sección 5.2, consideramos el caso en que las llegadas se

producen en
• Vamos a emfasize que todas las variables aleatorias que surgen en un proceso estocástico se
refieren a un experimento único y común, y por lo tanto se definen en un espacio de muestra común.
La ley de probabilidad correspondiente se puede especificar directa o indirectamente (suponiendo
some de sus propiedades), siempre y cuando determine inequívocamente el CDF conjunto de
cualquier subconjunto de las variables aleatorias implicadas.
los tiempos interarrivales se distribuyen exponencialmente – este es el proceso
de Poisson.
(b) Procesos Markov: Aquí, estamos viendo experiments que evolucionan en el tiempo
y en los que la evolución futura exhibe una dependencia probabilística del pasado.
Por ejemplo, los precios diarios futuros de una acción suelen depender de los
precios pasados. Sin embargo, en un proceso Markov, asumimos un tipoe muy
especialde dependencia: el siguiente valor depende de valores pasados sólo a
través del valor actual. Existe una metodología rica que se aplica a estos procesos,
y que se desarrollará en el capítulo 6.
5.1 EL PROCESO DE BERNOULLI
El proceso de Bernoulli se puede visualizar como una secuencia de lanzamientos de

monedas independientes, donde la probabilidad de cabezas en cada lanzamiento es
un número fijo p en el rango 0 < p < 1. En general, el proceso de Bernoulli consiste
en una secuencia de ensayos de Bernoulli, donde cada ensayo produce un 1 (un éxito)
con probabilidad p, y un 0 (un fracaso) con probabilidad 1 p p, independientemente
de lo que sucede en otros ensayos.
Por supuesto, el lanzamiento de monedasg es sólo un paradigma para una
amplia gama de contextos que implican una secuencia de resultados binarios
independientes. Por ejemplo, un proceso de Bernoulli se utiliza a menudo para
modelar sistemas que implican llegadas de clientes o puestos de trabajo en centros de
servicio. Aquí, el tiempo se discretiza enlos períodos, y un "éxito" en el ensayo kth se
asocia con la llegada de al menos un cliente en el centro de servicio durante el
período k. De hecho, a menudo utilizaremos el término "llegada" en lugar de "éxito"
cuando esto esté justificado por el contexto.
En una descripción más formal, definimos el proceso Bernoulli como una
secuencia X1,X2,... de variables aleatorias independientes de Bernoulli Xi con
P(Xi - 1) - P(éxito en el ensayo ith) - p,

P(Xi á 0) - P(fallo en el ensayo ith) a 1 p, p,
para cada i.
Dado un proceso de llegada, a menudo uno está interesado en variables
aleatorias como el número de llegadas dentro de un cierto período de tiempo, o el
tiempo hasta la primera llegada. Para el caso de un proceso de Bernoulli, algunas
respuestas ya están disponibles en capítulos anteriores. Aquí hay un resumen de los
hechos principales.
• Generalizar a partir del caso de un número finito de variables aleatorias, la

independencia de una secuencia infinita de variables aleatorias Xi se define por el
requisito de que las variables aleatorias X1,...,Xn sean independientes para cualquier finito
n. Intuitivamente, conocer los valores experimentales de cualquier subconjunto finito de las
variables aleatorias no proporciona ninguna nueva información probabilística sobre las
variables aleatorias restantes, y la distribución condicional de esta última permanece igual que
la incondicional.
Algunas variables aleatorias asociadas con el proceso de Bernoulli y sus

propiedades
• El binomio con los parámetros p y n. Este es el número S de éxitoque ve
en n ensayos independientes. Su PMF, media y varianza son
E[S] á np, var(S)á np(1 á p).
• El geométrico con parámetro p. Este es el número T de ensayos hasta (e

incluyendo) el primer éxito. Su PMF, media y varianza son
pT(t) á(1 á p)tá1p, t a 1,2,...,
E .
Independencia y memorylessness
La suposición de independencia subyacente al proceso de Bernoulli tiene importantes

implicaciones, incluyendo una propiedad de falta de memoria (lo que ha sucedido en
ensayos anteriores no proporciona información sobre los resultados de futuros ensayos).
Una apreciación e intuitivadesconfiado de tales propiedades es muy útil, y permite la
solución rápida de muchos problemas que serían difíciles con un enfoque más formal. En
esta subsección, pretendemos desarrollar la intuición necesaria.
Comencemos por considerar variables aleatorios que se definen en términos de lo que

sucedió en un cierto conjunto de ensayos. Por ejemplo, la variable aleatoria Z (X1 + X3)X6X7
se define en términos de la primera, tercera, sexta y séptima prueba. Si tenemos dos
variables aleatorias de este tipo y si los dos conjuntosde ensayos que las definen no tienen
ningún elemento común, entonces estas variables aleatorias son independientes. Esta es
una generalización de un hecho visto por primera vez en el capítulo 2: si dos variables
aleatorias U y V son independientes, entonces cualquiera de las dos funciones de ellas,
g(U)y h(V ), unare tambiénindependiente.
Ejemplo 5.1.
(a) Deje que U sea el número de éxitos en los ensayos 1 a 5. Que V sea el número de éxitos
en los ensayos 6 a 10. Entonces, U y V son independientes. Esto se debe a que U x X1
+ +X5, V á X6 + +X10, y las dos colecciones XX1,...,X5,}, {X6,...,X10no tienenelementos
comunes.
(b) Deje que U (respectivamente, V ) sea el primer tiempo impar (respectivamente, par)
en el que tengamos éxito. A continuación, U viene determinada por la secuencia
de tiempo impar X1,X3,... , mientras que V se determina by la secuencia detiempo
par X2,X4,... . Puesto que estas dos secuencias no tienen elementos comunes, U y V son
independientes.
Supongamos que ahora que un proceso Bernoulli se ha estado ejecutando durante n

pasos de tiempo, y que hemos observado los valores experimentales de X1,X2,...,Xn.
Observamos que la secuencia de ensayos futuros Xn+1,Xn+2,... son ensayos independientes
de Bernoulli y, por lo tanto, forman un proceso de Bernoulli. Además, estas pruebas futuras
son independientes de las anteriores. Concluimos que a partir de cualquier punto dado en
time, el futuro también se modela mediante un proceso de Bernoulli, que es independiente
del pasado. Nos referimos a esto como la propiedad de inicio fresco del proceso Bernoulli.
Recordemos ahora que el tiempo T hasta el primer éxito es una variable geométrica
aleatoria. Supongamos que hemos estado viendo el proceso durante n pasos de tiempo y
no se ha registrado ningún éxito. ¿Qué podemos decir sobre el número Tn de las pruebas
restantes hasta el primer éxito? Dado que el futuro del proceso (después del tiempo n)es
independiente del pasado y constituye un proceso deBernoulli de nuevo inicio, el
número de ensayos futuros hasta el primer éxito es descrito por el mismo PMF geométrico.
Matemáticamente, tenemos
P(T á n á t- T > n) á (1 á p)tá1p á P(T á t), t á 1,2,....
Esta propiedad memorylessness también se puede derivar algebraicamente, utilizando la

definición de probabilidades condicionales, pero el argumento dado aquí es ciertamente
más intuitivo.
Memorylessness and the Fresh-Start Property of the Bernoulli Process

• El número T n de ensayos hasta el primer éxito después de tiempo n
tiene una distribución geométrica con el parámetro p, y es
independientedel pasado.
• Para cualquier tiempo dado n, la secuencia de variables aleatorias
Xn+1,Xn+2,... (el futuro del proceso) es también un proceso Bernoulli, y es
independiente de X1,...,Xn (el pasado del proceso).
El siguiente ejemplo trata de una extensión de la propiedad fresh-start, en la que

comenzamos a mirar el proceso en un momento aleatorio, determinado por el historial
pasado del proceso.
Ejemplo 5.2. Que N sea la primera vez en la que tengamos un éxito inmediatamente
folldebido a un éxitoanterior. (Es decir, N es la primera i para la que Xi-1 x Xi - 1.) ¿Cuál es
la probabilidad P(XXN+1 x XN+2 a 0) de que no haya éxitos en los dos ensayos que siguen?
Intuitivamente, una vez que se cumple la condición XN-1 x XN - 1, a partir de entonces, el
futuro del proceso todavía consiste en ensayos independientes de Bernoulli. Por lo tanto, la
probabilidad de un evento que se refiere al futuro del proceso es la misma que en un proceso de
Bernoulli de nuevo inicio, de modo que P(XN+1 x XN+2 á 0) á (1 x p)2.
Para precisar este argumento, argumentamos que el tiempo N es una variable aleatoria, y
al condicionar los posibles valores de N,hemos
Debido a la forma en que se definió N, el evento n á ná se produce si y solo si los

valoresexperimentales de X1,...,Xn cumplen una determinada condición. Pero estas últimas
variables aleatorias son independientes de Xn+1 y Xn+2. Por lo tanto,
P(Xn+1 x Xn+2 a 0o N á n) á P(Xn+1 x Xn+2 á 0) á (1 á p)2,
lo que lleva a
P .
Interarrival Times
Una variable aleatoria importante asociada con el proceso Bernoulli es el tiempo del éxito
k,que denota por Yk. Una variable aleatoria relacionada es el tiempointerarrival k th,
denotado por Tk k. Se define por
T1 a Y1, Tk a Yk á Yká1, k a 2,3,...
y representa el número de ensayos que siguen al k- − 1er éxito hasta el siguiente éxito.
Véase la Fig. 5.1 para una ilustración, y también tenga en cuenta que
Yk a T1 + T2 + á + Tk.
Y3
001 0000 1 0 11 0 0
T1 T2 T3 T4 Tiempo
Figura 5.1: Ilustración de los tiempos interarrivales. En este ejemplo, T1 a 3, T2 a 5, T3 a 2, T4 a

1. Además, Y1 a 3, Y2 a 8, Y3 a 10, Y4 a 11.
Ya hemos visto que el tiempo T1 hasta el primer éxito es una variable geométrica
aleatoria con el parámetro p. Habiendo tenido un éxito en el tiempo T1,el futuro es un
proceso de Bernoulli de nuevo comienzo. Por lo tanto, el número de ensayos T2 hasta el
siguiente éxito tiene el mismo PMF geométrico. Además, los ensayos anteriores (hasta el
tiempo incluido T1)son independientes de los ensayos futuros (desde el momento T1 + 1
en adelante). Puesto que T2 está determinado exclusivamente por lo que sucede en
estos ensayos futuros, vemos que T2 es independiente de T1. Continuando de manera
similar, llegamos a la conclusión de que las variables aleatorias T1,T2,T3,... son
independientes y todos tienen la misma distribución geométrica.
Esta importante observación conduce a una forma alternativa, pero equivalente de
describir el proceso de Bernoulli, que a veces es más conveniente trabajar con él.
Descripción alternativa del proceso de Bernoulli
1. Comience con una secuencia de variables geométricas aleatorias
independientes T1, T2,... , con el parámetro común p, y deje queestos
soporten para los tiempos de interarrival.
2. Registre un éxito (o llegada) a veces T1, T1 + T2, T1 + T2 + T3,etc.
Ejemplo 5.3. Un equipo ejecuta dostipos de tareas, prioridad y no toporidad, y funciona en

unidades de tiempo discretas(ranuras). Una tarea de prioridad surge con la probabilidad pal
principio de cada slot, independientemente de otros slots, y requiere un slot completo para
completar. Una tarea de nopriridad se executed en un slot determinado sólo si no hay ninguna
tarea de prioridad disponible. En este contexto, puede ser importante conocer las propiedades
probabilísticas de los intervalos de tiempo disponibles para las tareas noprioridad.
Con esto en mente, vamos a llamar a una ranura ocupada si dentro de esta ranura, tél
ordenador ejecuta una tareaprioritaria, y de lo contrario vamos a llamarlo inactivo.
Llamamos a una cadena de ranuras inactivas (o ocupadas), flanqueadas por ranuras ocupadas (o
inactivas, respectivamente), un período de inactividad (o período de trabajo,respectivamente).
Vamos a derivar el PMF, la media y la varianza de lassiguientes variables aleatorias (cf. Fig. 5.2):
(a) T - el índice de tiempo de la primera ranura inactiva;
(b) B - la longitud (número de ranuras) del primer período ocupado; (c) I - la longitud
del primer período de inactividad.

Reconocemos T como una variable aleatoria distribuida geométricamente con el parámetro
1 p p. Su PMF es
pT(k)á pká1(1 á p), k á 1,2,....
Su media y varianza son
E , .
B Ⅰ
BBBI Ⅰ BBBB Ⅰ Ⅰ ⅠⅠ B
Hora
T Ocupa Inte
Z Período
do Período
de
I B
Ⅰ Ⅰ ⅠⅠ IBBBB Ⅰ Ⅰ ⅠⅠ B
Hora
T Z
Figura 5.2: Ilustración de períodos ocupados (B) e inactivos (I) en el ejemplo 5.3. En el diagrama
superior, T a 4, B a 3, y A 2. En el diagrama inferior, T a 1, I a 5 y B a 4.
Consideremos ahora el primer período ocupado. Comienza con el primer slot ocupado,
llámelo slot L. (En el diagrama superior de la Fig. 5.2, L a 1; en el diagrama inferior, L a 6.) El
número Z de las ranuras subsiguientes hasta (e incluyendo) la primera ranura inactiva posterior
tiene la misma distribución que T, porque elproceso bernoulli comienza fresco en el momento
L + 1. A continuación, observamos que Z - B y llegamos a la conclusión de que B tiene la misma
PMF que T.
Si invertimos los roles de las ranuras inactivas y ocupadas, y el intercambio p con 1 pp,
vemos que la longitud I del primer período de inactividad tiene el mismo PMF que el índice
de tiempo de la primera ranura ocupada, de modo que
pI(k) á(1 á p)ká1p, k a 1,2,..., E .
Finalmente observamos que el argumento dado aquí también funciona para el segundo,
tercero, etc. ocupado (o inactivo) período. Por lo tanto, los PMF calculados anteriormente se
aplican al período deinactividad y ocupado, para cualquier i.
La hora dellegadak th
El tiempo Yk del éxito kth es igual a lasuma Yk á T1 + T2 + á + Tk de k variables

geométricas aleatorias independientes distribuidas de forma idéntica. Esto nos permite
derivar fórmulas para la media, la varianza y el PMF de Yk, que se dan en latabla siguiente.
Propiedades de la Ka la hora de llegada

• el Kla hora de llegada es igual a la suma de la primera
K tiempos interarrivales
Y K = T 1 + T 2 + ··· + T K ,
y estas últimas son variables geométricas aleatorias independientes con com-

parámetro mon P.
• La media y la varianza de Y K hijo dados por
K
E [Y K ]= E [T 1 ]+ ··· + E [T K ]= ,
P
K(1 − P)
var( Y K )= Var( T 1 )+ ··· + Var( T K )= .
P2
• El PMF de Y K es dado por
T− 1 K
PY K ( T)= P (1 − P) T− K , T = k,k +1 ,...,
K− 1
y es conocido como el Pascal PMF de orden K.
Para verificar la fórmula para el PMF de Yk, primeroobservamos que Yk no puede ser
menor que k. En el caso de t a k, observamos que el evento "Yk á t"(el kth success viene
en el momento t) se producirá si y sólo si se producen los dos eventos siguientes A y
B: occur:
(a) evento A:el ensayo t es un éxito;
(b) evento B: se producenexactamente los éxitos de k a 1 en los primeros ensayos t .
Las probabilidades de estos dos eventos son
P(A) - p
P ,
Respectivamente. Además, estos dos eventos son independientes (si el ensayo t es un éxito
o no es independiente de lo que sucedió en los primeros ensayos t.1). Por lo tanto,
,
como se afirma.
Ejemplo 5.4. En cada minuto de juego de baloncesto, Alice comete una sola falta con probabilidad
p y sin falta con probabilidad de 1 a p. Se supone que el número de faltas en diferentes
minutos es independiente. Alice se ensuciará del juego una vez que cometa su sexta falta, y jugará
30 minutos si no se ensucia. ¿Cuál es el PMF del tiempo de juego de Alice?
Modelamos las faltas como un proceso bernoulli con el parámetro p. El tiempo de juego de
Alice Z es igual a Y6, el tiempo hasta la sextafalta, excepto si Y6 es mayor que 30, en cuyo
caso, su tiempo de juego es 30, la duración del juego; es decir, Z á min á yY6,30 . La variable
aleatoria Y6 tiene un Pascal PMF de la orden 6, que es dado por
Para determinar el PMF pZ(z) de Z,primero consideramos el caso donde z está entre 6 y 29. Para
z en este rango, tenemos
La probabilidad de que Z a 30 se determine a partir de
División y fusión de los procesos de Bernoulli
Comenzando con un proceso de Bernoulli en el que hay una probabilidad de una llegada en
cada momento, considere dividirlo de la siguiente manera. Siempre que hay una llegada,
elegimos o bien mantenerla (con probabilidad q),orpara descartarla (con probabilidad
1oq);verFig. 5.3. Supongamos que las decisiones de mantener o descartar son
independientes para diferentes llegadas. Si nos centramos en el proceso de llegadas que se
mantienen, vemos que es un proceso Bernoulli: en cada franja horaria, hay una probabilidad
pq de una llegada mantenida, independientemente de lo que suceda en otras ranuras. Por
la misma razón, el proceso de llegadas descartadas es también un proceso Bernoulli, con
una probabilidad de una llegada descartada en cada franja horaria igual a p(1 x q).
En una situación inversa, start con dos procesos independientes Bernoulli (con los
parámetros p y q, respectivamente) y fusionarlos en un solo proceso, de la siguiente
manera. Una llegada se registra en el proceso combinado si y sólo si hay una llegada en al
menos uno de los dos processes originales, lo que ocurre con la probabilidad p + q á pq
[uno menos la probabilidad (1 á p)(1 x q) de ninguna llegada en ninguno de losprocesos.]
Dado que diferentes intervalos de tiempo en cualquiera de los procesos originales son
independientes, diferentes ranuras en el proceso combinado también son independent. Por

lo tanto, el proceso combinado es Bernoulli, con probabilidad de éxito p+q ápq en cada
paso de tiempo; véase la Fig. 5.4.
Hora
Texto
Proceso
original en Hora
1- q
Hora
Figura 5.3: División de un proceso de Bernoulli.
Bernoulli(p)
Hora
Proceso combinado:
Bernoulli(p+q-pq)
Hora
Bernoulli(q)
Hora
Figura 5.4: Fusión del proceso independiente de Bernoulli.
La división y fusión de Bernoulli (u otros) procesos de llegada surge en muchos

contextos. Por ejemplo, un centro de trabajo de dos máquinas puede ver un flujo de piezas
que llegan para procesarlas y dividirlas enviando cada parte a una máquina elegida al azar.
Por el contrario, una máquina puede enfrentarse a llegadas de diferentes tipos que se
pueden fusionar en una sola corriente de llegada.
La aproximación de Poisson al binomio
El número de éxitos en n ensayos independientes de Bernoulli es una variable aleatoria

binomial con los parámetros n y p,y su media es np. En esta subsección, nos concentramos
en el caso especial donde n es grande pero p es pequeño, de modo que la media np has
unvalor moderado. Una situación de este tipo surge cuando uno pasa de tiempo discreto a
continuo, un tema que se recogerá en la siguiente sección. Para algunos ejemplos más,
piense en el número de accidentes de avión en un día dado: hay un gran número depruebas
f (vuelos de avión), pero cada uno tiene una probabilidad muy pequeña de estar involucrado
en un accidente. O piense en contar el número de errores tipográficos en un libro: hay un
gran número de palabras n, pero una probabilidad muy pequeña de escribir mal cada uno.
Matemáticamente, podemos abordar situaciones de este tipo, dejando que n crezca
mientras simultáneamente disminuye p, de una manera que mantieneel producto np
en un valor constante . En el límite, resulta que la fórmula para el PMF binomial simplifica
al PMF de Poisson. A continuación se proporciona una declaración precisa, junto con un
recordatorio de algunas de las propiedades del PMF de Poisson que se derivaron en
capítulos anteriores.
Poisson Aproximación al Binomio
• Una variable aleatoria de Poisson Z con el parámetro de n.o toma valores
enteros nonnegative y es descrita por el PMF
Su media y varianza son dadas por
E[Z] á, λ, var(Z). λ.
• Para cualquier entero no negativo fijo k, la probabilidad binomial
converge a pZ(k), cuando tomamos el límite como n á y p a /n, mientras
mantenemos la constante.
• En general, el Poisson PMF es una buena aproximación al binomio, siempre

y cuando el valor de Np np, n sea muy grande y p sea muy pequeño.
La verificación del comportamiento limitante de las probabilidades binomiales se dio
en el Capítulo 2 como un problema de fin de capítulo, y se replica aquí por conveniencia.
Dejamos que p a /n y tenga en cuenta que
.
Vamos a centrarnos en un k fijo y dejar n . Cada una de las relaciones (n á 1)/n,
(n n 2) − /n,...,(n á k + 1)/n converge a 1. Además,
, .
Concluimos que para cada kfijo, y como n, hemos
Ejemplo 5.5. Como regla general, la aproximación Poisson/binomial
es válido para varios decimales si n a 100, p a 0. 01, y de np. Para comprobar esto, tenga en
cuenta lo siguiente.
Gary Kasparov, el campeón mundial de ajedrez (en 1999) juega contra 100 aficionados en
una gran exposición simultánea. Se ha estimado a partir de la experiencia pasada que Kasparov
gana en este tipo de exhibiciones 99% de sus juegos en el promedio (en términos probabilísticos
precisos, suponemos que gana cada juego con probabilidad 0. 99, independientemente de
otrosjuegos). ¿Cuáles son las probabilidades de que gane 100 juegos, 98 juegos, 95 juegos y 90
juegos?
Modelamos el número de juegos X que Kasparov no gana como una variable aleatoria
binomial con los parámetros n s 100 y p a 0. 01. Por lo tanto, las probabilidades de que con
enn100 juegos, 98, 95 juegos, y 90 juegos son
,
• Estamos usando aquí, la fórmula bien conocida limx→∞á (1 x1)x á eá1. Dejando x á n/ ,tenemos
lim, de la que se deduce que el limn→∞á (1o)

•)n á eá..
N
Respectivamente. Ahora vamos a comprobar las aproximaciones de Poisson correspondientes con
100o 0. 01 x 1. Son:
.
Al comparar los valores binomiales PMF pX(k) consus aproximaciones de Poisson pZ(k), vemos que
hay un acuerdo estrecho.
Supongamos que ahora que Kasparov juega simultáneamente sólo 5 oponentes, que son, sin
embargo, más fuertes por lo que su probabilidad de una victoria por partido es 0. 9. Aquí están las
probabilidades binomiales pX(k)para n a 5 y p a 0. 1, y las aproximaciones de Poisson
correspondientes pZ(k) para el valor de la = 0verga: . 5,
pX(0) a 0. 590, pZ(0) a 0. 605,
pX(1) a 0. 328, pZ(1) a 0. 303,
pX(2) a 0. 0729, pZ(2) a 0. 0758,
pX(3) a 0. 0081, pZ(3) a 0. 0126,
pX(4) a 0. 00045, pZ(4) a 0. 0016,
pX(5) a 0. 00001, pZ(5) a 0. 00016.
Vemos que la aproximación, aunque no es deficiente, es considerablemente menos precisa que en el
caso de que n a 100 y p a 0. 01.
Ejemplo 5.6. Un paquete que consta de una cadena de n símbolos se transmite a través de un canal
ruidoso. Cada símbolo tiene probabilidad p a 0. 0001 de ser transmitido por error,
independientemente de los errores en los otros símbolos. ¿Qué tan pequeño debe ser n para que
la probabilidad de transmisión incorrecta (al menos un símbolo por error) sea menor que 0.001?
Cada transmisión de símbolos es vista como un ensayo independent Bernoulli. Por lo tanto, la
probabilidad de un número positivo S de errores en el paquete es
1o P(S a 0) a 1o (1o p)n.
Para que esta probabilidad sea inferior a 0,001, debemos tener 1o (1 x 0. 0001) n < 0. 001 o
.
También podemos utilizar la aproximación de Poisson para P(S - 0), que es e- con el valor de "np" y
"0".. 0001 ? n, y obtener la condición 1o eá0. 0001o n < 0. 001, lo que lleva a
.
Dado que n debe ser entero, ambos métodos conducen a la misma conclusión de que n puede ser
como máximo 10.
Sec. 5.2 El proceso de Poisson 17
5.2 EL PROCESO DE POISSON
El proceso de Poisson se puede ver como un análogo de tiempo continuo del proceso
Bernoulli y se aplica a situaciones en lasque no existe una forma natural de dividir el
tiempo en períodos discretos.
Para ver la necesidad de una versión continua del proceso de Bernoulli,
consideremos un posible modelo de accidentes de tráfico dentro de una ciudad.
Podemos empezar por eltiempo de etizing en períodos de un minuto y grabar un
"éxito" durante cada minuto en el que hay al menos un accidente de tráfico.
Suponiendo que la intensidad del tráfico sea constante a lo largo del tiempo, la
probabilidad de un accidente debe ser la misma durante cada período. Bajo la
suposición adicional (y bastante plausible) de que los diferentes períodos de tiempo
son independientes, la secuencia de éxitos se convierte en un proceso de Bernoulli.
Tenga en cuenta que en la vida real, dos o más accidentes durante el mismo intervalo
de un minuto son ciertamente posibles,pero el modelo de proceso Bernoulli no realiza
un seguimiento del número exacto de accidentes. En particular, no nos permite
calcular el número esperado de accidentes dentro de un período determinado.
Una manera de evitar esta dificultad es elegir la longitud de un período de
tiempo para ser muy pequeño, de modo que la probabilidad de dos o más accidentes
se vuelve insignificante. Pero, ¿qué tan pequeño debería ser? ¿Un segundo? ¿Un
milisegundo? En lugar de responder a esta pregunta, es posibleconsiderar una
situación limitante en la que la duración del período de tiempo se convierte en cero y
trabajar con un modelo de tiempo continuo.
Consideramos un proceso de llegada que evoluciona en tiempo continuo, en el
sentido de que cualquier número real t es una posible llegada time. Definimos
P(k,)- P(hay exactamente k llegadas durante un intervalo de longitud )),
y supongamos que esta probabilidad es la misma τpara todos los intervalos de la

mismalongitud. También introducimos un parámetro positivo que se denominará la
tasa de llegada o la ensidad intdel proceso, por razones que pronto serán evidentes.
Definición del proceso de Poisson

Un proceso de llegada se denomina proceso de Poisson con tarifa, si tiene las
siguientes propiedades:
(a) (Homogeneidad del tiempo.) La probabilidad P(k,))de las llegadas de k es
la misma para todos los intervalos de la misma τlongitud.
(b) (Independencia.) El número de llegadas durante un intervalo determinado
es independiente del historial de llegadas fuera de este intervalo.
(c) (Probabilidades de intervalos pequeños.) Las probabilidades
P(k,))satisfacen
Aquí o( Τ ) Y o1 ( Τ ) son funciones de Τ que se puede
o( Τ ) o1 ( Τ )
Lim N.o , Lim N.o .
Τ→ 0 Τ Τ→ 0 Τ
0 0
La primera propiedad indica que las llegadas son "igualmente probables" en todo
momento. Las llegadas durante cualquier intervalo de tiempo de longitud son
estadísticamente las mismas, en el sentido de que obedecen a la misma ley de probabilidad.
Esta es una contrapartida de la suposición de que la probabilidad de éxito p en un proceso
Bernoulli es constante en el tiempo.
Para interpretar la segunda propiedad, considere un intervalo determinado [ ], de
longitud . La probabilidad incondicional de llegadas k durante ese intervalo es
). Supongamos ahora que se nos da informaciónde complete o parcial sobre las
llegadas fuera de este intervalo. La propiedad b) indica que esta información es irrelevante:
la probabilidad condicional de llegadas k durante [ sigue siendo igual a la
probabilidad incondicional). Esta propiedad es análoga a la independencia de
los juicios en un proceso de Bernoulli.
La tercera propiedad es crítica. Los términos o()y o1()están destinados a ser
insignificantes en comparación con ,cuando la longitud del intervalo es muy pequeña. Se
les puede considerar como los términos de O((2)en unaexpansión de Taylorseries de P(τk,
. Por lo tanto, para los pequeños ,la probabilidad de una sola llegada es aproximadamente
,más untérmino insignificante. Del mismo modo, para las pequeñas ,la probabilidad de
quese acosten las llegadas cero es de aproximadamente 1 . Tenga en cuenta que la

probabilidad de dos o más llegadas es
1τá P(0,), P(1,),o(), o1(τ),
y es insignificante en comparación con P(1,)a medida que se hace más pequeño y más
pequeño.
número de probabilidad de éxito número de

períodos:n.o/o/o por período: llegadas
p .. . . . . . . . . . . . . . . esperado:
npá-
δδδδδ δδδ
X X X
0 Τ Hora
Llegadas
Figura 5.5: Aproximación de Bernoulli del proceso de Poisson.
Ahora comencemos con un intervalo de tiempo fijo de longitud y particionemos en

períodos de longitud , δdonde es un número muy pequeño; véase la Fig. 5.5. La
probabilidad de más de dos llegadas durante cualquier período puede ser descuidada,
debido a la propiedad (c) y la discusión anterior. Diferentes períodos son independientes,
por propiedad (b). Además, cada período tiene unarrival con una probabilidad
aproximadamente igual a λδ, ocero llegadas con una probabilidad aproximadamente igual
a 1 . Por lo tanto, el proceso que se está estudiando puede ser aproximado por un proceso
Bernoulli, con la aproximación cada vez más precisa, el más pequeño se elige. Por lo tanto,
la probabilidad P(k, )de las llegadasde k en el tiempo τ, es aproximadamente la misma
que la probabilidad (binomial) de éxitos k en ensayos bernoulli independientes n s /o con
probabilidad de éxito p - en cada ensayo. Mientras se mantiene la longitud del intervalo
fijo, dejamos que la longitud del período disminuya a cero. A continuación, observamos que
el número n de los períodos va al infinito, mientras que el producto np permanece
constante e igual a . En estas circunstancias, vimos en la sección anterior que el binomial
PMF converge a un PMF de Poisson con el parámetro . Luego se nos lleva a la importante
conclusión de que
Tenga en cuenta que una expansión de la serie Taylor de e-λτ,

P(0,τ) = e−λτ = 1 − λτ + O(τ2)
P(1,τ) = λτe−λτ = λτ − λ2τ2 + O(τ3) = λτ + O(τ2),
consistente con la propiedad (c).

Usando nuestras fórmulas anteriores para la media y la varianza del Poisson PMF,
obtenemos
E[Ná] , λτ, var(Nτ), ,
donde Nes el número de llegadas durante un intervalo de tiempo de longitud τ. Estas

fórmulas no son sorprendentes, ya que estamos tratando con el límite de un PMF binomial
con los parámetros λτ. p λτ np λδ n τ/δ.
Ahora vamos a derivar la ley de probabilidad para el momento T de la primera llegada,
suponiendo que el proceso comienza en el momento cero. Tenga en cuenta que tenemos T
> t si y sólo si no hay llegadas durante el intervalo [0,t]. Por lo tanto,
FT(t) á P(T á t)á 1 á P(T > t) á1 á P(0,t) á 1 á eλt, t a 0. −
A continuación, diferenciamosel CDF FT(t)de T, yobtenemos la fórmula PDF
fT(t) - áe,λt, t á 0,
lo que demuestra que el tiempo hasta la primera llegada se distribuye exponencialmente

con el parámetro . Resumimos este debate en la tabla siguiente. Véase también la Fig. 5.6.
Variables aleatorias asociadas con el proceso de Poisson y sus propiedades
• El Poisson con el parámetro .. Este es el número N de llegadas en un

proceso de Poisson con la tasa ,sobre un intervalo de longitud τ. Su PMF,
media y varianza son
E[Ná] , λτ, var(N )τ, var (N ) , .
• El exponencial con elparámetro. Este es el tiempo T hasta la primera
llegada. Su PDF, la media y la varianza son
, fT(E,t) á . .−. ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.. ... .................
P = λδ
δδδδδ δδδ
X X X
0 Hora Llegadas
Poisson Bernoulli
Tiempos de llegada Continua Discreta
PMF de n.o de llegadas Poisson Binomio
Tiempo Interarrival CDF Exponencial Geométrica

Tiempo
Tasa de llegada deunidad p/por prueba
/unidad
Figura 5.6: Vista del proceso Bernoulli como la versión en tiempo discreto del Poisson. Discretizamos el tiempo en
pequeños intervalos y asociamos cada intervalo con un ensayo de Bernoulli cuyo parámetro es p . λδ El cuadro
resume algunas de las correspondencias básicas.
Ejemplo 5.7. Recibirás un correo electrónico de acuerdo con un proceso de Poisson a una velocidad
de 0. . 2 mensajes por hora. Revisas tu correo electrónico cada hora. ¿Cuál es la probabilidad de
encontrar 0 y 1 mensajes nuevos?
Estas probabilidades se pueden encontrar utilizando elλτPoisson PMFλτ(a)keá/k!, con el valor
de "1" y k a 0 o k a 1: τ
P(0,1) á eá0. 2 x 0. 819, P(1,1) a 0. 2 ? e.0. 2 x 0. 164

Supongamos que no ha revisado su correo electrónico durante todo un día. ¿Cuál es la

probabilidad de no encontrar mensajes nuevos? Usamos de nuevo el Poisson PMF y obtenemos
P(0,24) á eá0. 2 x 24 x 0. 008294.
Alternativamente, podemos argumentar que el evento de ningún mensaje en un período de 24 horas

es la intersección de los eventos sin mensajes durante cada una de 24 horas. Estos últimos eventos
son independientes y la probabilidad de cada uno es de P(0,1) a ea0. 2, así que
P ,
que es consistent con el método de cálculo anterior.
Ejemplo 5.8. Suma de variables aleatorias independientes de Poisson. Las llegadas de los clientes al
supermercado local se modelan mediante un proceso de Poisson con una tasa de 10 clientes por
minuto. Que M sea el número decostumbres que llegan entre las 9:00 y las 9:10. Además, deje que
N sea el número de clientes que llegan entre las 9:30 y las 9:35. ¿Cuál es la distribución de M +
N?
Observamos que M es Poisson con el parámetro de 10 a 100 y N es Poisson con el
parámetro de Poisson con el parámetro de 10 a 50. Furthermore, M y N son independientes.
Como se muestra en la Sección 4.1, usando transformaciones, M +N es Poisson con el parámetro de
+ á 150. Ahora procederemos a obtener el mismo resultado de una manera más directa e intuitiva.
Deje que Nsea el número de clientes que llegan entre las 9:10y las 9:15. Tenga en cuenta que
Ntiene la mismadistribución que N (Poisson con el parámetro 50). Además, Nes
tambiénindependiente de N. Por lo tanto, la distribución de M + N es la misma que la
distribución de M + N. Pero M + N es el número de llegadas durante un intervalo de longitud 15,
y por lo tanto tiene una distribución de Poisson con el parámetro 10 a 15 x 150.
En este ejemplo se hace un punto que es válido en general. La probabilidad de llegadas k

durante un conjunto de horas de longitud total siempre es dada por P(k, ?), incluso si ese
conjunto no es unintervalo. (En este ejemplo, tratamos el conjunto [9 : 00,9 : 10] [9 : 30,9 : 35], de
longitud total 15.)
Ejemplo 5.9. Durante las horas pico, de 8 am a 9 am, los accidentesde tráfico ocurren de acuerdo
con un process de Poisson con una tasa de 5 accidentes por hora. Entre las 9 am y las 11 am,
ocurren como un proceso independiente de Poisson con una tasa de 3 accidentes por hora.
¿Cuál es el PMF del número total de accidentes entre las 8 am y las 11 am?
Esta es la suma de dosvariables aleatorias de Independiente nt Poisson con los parámetros
5 y 3 x 2 a 6, respectivamente. Dado que la suma de las variables aleatorias independientes de
Poisson también es Poisson, el número total de accidentes tiene un PMF de Poisson con el
parámetro 5+6-11.
Independencia y memorylessness
El proceso de Poisson tiene varias propiedades que son paralelas a las del proceso de
Bernoulli, incluida la independencia de los conjuntos de tiempo no superpuestas, una
propiedad de nuevo inicio y la falta de memoria de la distribución del tiempo interarrival.
Dado que el Poisson process puede ser visto como un caso limitante de un proceso Bernoulli,
el hecho de que herede las propiedades cualitativas de este último no debería sorprender.
(a) Independencia de los conjuntos de tiempos no superpueste. Considere dos
conjuntos desarticulados de tiempos A y B, tales comouns A a [0,1] - [4,)y B a [1.
5,3. 6], por ejemplo. Si U y V son variables aleatorias que están completamente
determinadas por lo que sucede durante A (respectivamente, B),entonces U y V
son independientes. Esto es una consecuencia de la segunda propiedad definitoria del
proceso de Poisson.
(b) Propiedad de inicio fresco. Como caso especial de la observación anterior, notamos
que la historia del proceso hasta un momento determinado t es independiente del
futuro del proceso. Además, si nos centramos en esa parte del proceso de Poisson
que comienza en el momento t, observamos que hereda las propiedades definitorias
del proceso original. Por esta razón, la parte del proceso de Poisson que comienza en
unmomento concreto t> 0 es una réplica probabilística del proceso de Poisson que
comienza en el momento 0, y es independiente de la parte del proceso antes del tiempo
t. Por lo tanto, podemos decir que el proceso de Poisson comienza de nuevo en cada
momento instantáneo.
(c) Distribución de tiempo interarrival sin memoria. Ya hemos visto que el PMF
geométrico (tiempo interarrival en el proceso Bernoulli) no tiene memoria: el número
de ensayos restantes hasta la primera llegada futura no depende del pasado. El PDF
exponencial (interarrival time en el proceso de Poisson) tiene una propiedad similar:
dada la hora actual t y la historia pasada, el futuro es un proceso de Poisson de inicio
fresco, de ahí el tiempo restante hasta la próxima llegada tiene la misma
distribución exponencial. En particular, si T es la hora de la primera llegada y si se

nos dice que T > t, entonces el tiemporestante T -t se distribuye
exponencialmente, con el mismo parámetro . Para una derivación algebraica de este
último hecho, primero usamos el CDF exponencial para obtener P(T > t) e.λt. A
continuación, observamos que
para todos los escalares positivos s y t, tenemos
P
P(T > t)
P(T > t + s)?
P(T > t)
Estos son algunos ejemplos de razonamiento basado en la propiedad memoryless.
Ejemplo 5.10. Usted y su pareja van a una cancha de tenis, y tienen que esperar hasta que los
jugadores que ocupan la cancha terminen de jugar. Supongamos (algo irrealmente) que su tiempo
de juego tiene un PDF exponencial. A continuación, el PDF de su tiempo de espera
(equivalentemente, sutiempo de reproducción remaining) también tiene el mismo PDF
exponencial, independientemente de cuándo comenzaron a jugar.
Ejemplo 5.11. Cuando usted ingresa el banco, usted encuentra que los tres cajeros están ocupados
sirviendo a otros clientes, y no hay otros clientes en la cola. Supongamos que lostiempos de
servicio para usted y para cada uno de los clientes que se sirven son variables aleatorias
exponenciales distribuidas de forma idéntica. ¿Cuál es la probabilidad de que seas el último en
salir?
La respuesta es 1/3. Para ver esto, concéntrese en el momento en quecomience el servicio
con uno de los cajeros. Luego, el tiempo restante de cada uno de los otros dos clientes que se
sirven, así como su propio tiempo restante, tienen el mismo PDF. Por lo tanto, usted y los otros
dos clientes tienen la misma probabilidad 1/3 de ser el pt asalir.
Interarrival Times
Una variable aleatoria importante asociada con un proceso de Poisson que comienza en el
momento 0, es la hora de la llegada kth, que denota por Yk. Una variable aleatoria
relacionada es el tiempointerarrival k th, denotado por Tk k. Se defined por
T1 a Y1, Tk a Yk á Yká1, k a 2,3,...
y representa la cantidad de tiempo entre la k-1a y la llegada k. Tenga en cuenta que
Yk a T1 + T2 + á + Tk.
Ya hemos visto que el tiempo T1 hasta la primera llegada es una variable aleatoria
exponencial con el parámetro λ. A partir del momento T1 de la primera llegada, el futuro
es un proceso de Poisson de nuevo comienzo. Por lo tanto, el tiempo hasta la próxima
llegada tiene el mismo PDF exponencial. Además, el pasado del proceso (hasta el tiempo
T1) es independiente del futuro (después del tiempo T1). Puesto que T2 está determinado
exclusivamente por lo que sucede en el futuro, vemos que T2 es independiente de T1.
Continuando de manera similar, llegamos a la conclusión de que las variables aleatorias
T1,T2,T3,. .. son independientes y todos tienen la misma distribución exponencial.
Esta importante observación conduce a una forma alternativa, pero equivalente, de
describiendo el proceso de Poisson.
Descripción alternativa del proceso de Poisson

1. Comience con una secuencia devariables aleatorias
exponencialesindepende ntT1,T2,... , con el parámetro común ,y deje
queestos soporten para los tiempos de interarrival.
2. Registre una llegada a horas T1, T1 + T2, T1 + T2 + T3,etc.
La hora dellegadak th
+
El tiempo Yk de la kth arrival es igual a la suma Yk á T1 + T2 á + Tk de k variables
aleatorias exponenciales independientes distribuidas de forma idéntica. Esto nos permite
derivar fórmulas para la media, la varianza y el PMF de Yk, que se dan en latabla siguiente.
Propiedades de la hora dellegadak th

• La hora dellegada k th es igual a la suma delos primeros k tiempos
interarrival
Yk a T1 + T2 + á + Tk,
y estos últimos son variables aleatorias exponenciales independientes con

parámetrocomún.
En nuestra definición original, un proceso se llamaba Poisson si poseía ciertas propiedades. Sin
embargo, el lector astuto puede haber notado que no hemos establecido hasta ahora que existe un
proceso con las propiedades requeridas. En una línea alternativa de desarrollo, podríamos haber
definido el proceso de Poisson por la descripción alternativa dada aquí, y tal proceso está claramente
bien definido: comenzamos con una secuencia de tiempos interarrivales independientes, a partir de
los cuales los tiempos de llegada se determinan completamented. A partir de esta definición, entonces
es posible establecer que el proceso satisface todas las propiedades que se postularon en nuestra
definición original.
• La media y la varianza de Y K hijo dados por
K
E [Y K ]= E [T 1 ]+ ··· + E [T K ]= ,
Λ
K
var( Y K )= Var( T 1 )+ ··· + Var( T K )= .
Λ2
• El PDF de Y K es dado por
ΛK y K − 1 e− Ay
FY K ( y )=
( K − 1)!
y es conocido como el Erlang PDF de orden K.
Para evaluar el PDF fYk de Yk,podemos argumentar que para un pequeño ,elproducto
-. f δ+δYk(y) es la probabilidad deque la kth llegada se produzca entre las horas y y +.
...................................... .................................
............................................................... ........
. . . . . . . .. . Por lo tanto, la kth llegada se produce entre y y + - si y sólo si se producen
los dos eventos siguientes A y B: (a) evento A: hay una llegada durante lainterval[y,y
+ ]; (b) evento B: hayexactamente k 1 llegadas antes de la hora y.
Las probabilidades de estos dos eventos son
P(A) , λδ, y P .
• Para una derivación alternativa que no se base en argumentos de aproximación,

tenga en cuenta que para una y 0 determinada, el evento es el mismo que el evento
Número de llegadas en el intervalo [0,y] á k? .
Por lo tanto,el CDF de Yk es dado por
El PDF de Yk se puede obtener diferenciando la expresión anterior, que mediante un cálculo sencillo
produce la fórmula ERlang PDF
.
Dado que A y B son independientes, hemos
,
de la que obtenemos
Ejemplo 5.12. Usted llama a la línea directa del IRS y se le dice que usted es la56a persona en la
fila, excluyendo a la persona que está siendo atendida actualmente. Las personas que llaman salen
de acuerdo con un proceso de Poisson con una tasa de 2 euros por minuto. ¿Cuánto tiempo
tendrá que esperar en promedio hasta que comience su servicio, y cuál es la probabilidad de que
tenga que esperar más de una hora?
Por la propiedad sin memoria, el tiempo de servicio restante de la persona que se está
sirviendo actualmente se distribuye exponencialmente con el parámetro 2. Los tiempos de servicio
de las 55 personas por delante también son exponenciales con el mismo parámetro, y todas estas
variables random son independientes. Por lo tanto, su tiempo de espera Y es Erlang de la orden
56, y
E .
La probabilidad de que tenga que esperar más de una hora es dada por la fórmula
Calcular esta probabilidad es bastante tedioso. En el capítulo 7, discutiremos una manera mucho
más fácil de calcular aproximadamente esta probabilidad. Esto se hace utilizando el teorema de
límite central, que nos permite aproximar el CDF de la suma de un gran número de variables dom
ejecutadascon un CDF normal y luego calcular varias probabilidades de interés utilizando las tablas
normales.
División y fusión de procesos de Poisson
Al igual que en el caso de un proceso de Bernoulli, podemos comenzar con un proceso de

Poisson con la tasa y split, de la siguiente manera: cada llegada se mantiene con
probabilidad p y se descarta con probabilidad 1 pp, independientemente de lo que sucede
con otras llegadas. En el caso Bernoulli, vimos que el resultado de la división era también un
proceso Bernoulli. En el presente context, el resultado de la división resulta ser un proceso
de Poisson con la tasa ..
Alternativamente, podemos comenzar con dos procesos independientes de Poisson,
con tasas de1 y λ2, ycombinarlos registrando una llegada cada vez que se produce una
llegada en cualquiera de los procesos. Resulta que el proceso combinado también es Poisson
con una tasa de 1 + 22. Además, cualquier llegada particular del proceso combinado tiene
probabilidad λ λ2/(λ +λ2 λ2/( dequese origine en el second, independientemente de todas
las demás llegadas y sus orígenes, tenga la probabilidadde que se origine en el second.
Analizamos estas propiedades en el contexto de algunos ejemplos y, al mismo tiempo,
proporcionamos algunos argumentos diferentes para establecer su validez.
Ejemplo 5.13. División de procesos de Poisson. Un paquete que llega a un nodo de una red de
datos es un paquete local que está destinado para ese nodo (esto sucede con la probabilidad p),o
de lo contrario es un paquete de tránsito que se debe retransmitir a otro nodo (esto sucede con
la probabilidad 1 - p). Los paquetes llegan de acuerdo con un proceso de Poisson con la tarifa ,y
cada uno es un paquete local o detránsito independientemente de otros paquetes y de las
horas de llegada. Como se indicó anteriormente, el proceso de llegadas de paquetes locales
es Poisson con la tasa de valoración. Veamos por qué.
Verificamos que el proceso de llegadas de paquetes locales satisface las propiedades
definitorias de un proceso de Poisson. Dado que los valores son constantes (no cambien con el
tiempo), la primera propiedad (homogeneidad del tiempo) se mantiene claramente. Además, no

hay dependencia entre lo que sucede en intervalos de tiempo separados, verificando la segunda
propiedad. Por último, si nos centramos en un intervalo de pequeña longitud, δla probabilidad de
una llegada local es aproximadamente la probabilidad deque haya una llegadade paquetes, y
que esto resulte ser local, es decir, . · p. Además, la probabilidad de dos o más llegadas locales
es insignificante en comparación con ,y esto verifica la tercerapropiedad. Concluimos quela
llegada de paquetes localesforma un proceso de Poisson y, en particular, el número L de
tales llegadas durante un intervalo de longitud, tiene un PMF de Poisson con el parámetro p.
Ahora rederremos el Poisson PMF de L- usando transformaciones. El número total de
paquetes N- durante un intervalo oflongitud es Poisson con el parámetro . Para i - 1,...,N,deje
Xi ser una variable aleatoria Bernoulli que es 1 si el paquete ieslocal, y 0 si no. A
continuación, las variables aleatorias X1,X2,... formar un proceso de Bernoulli con probabilidad de
éxito p. El número depaquetes lo cal es el número de
"éxitos", es decir,
L á X1 + + X XN . .
Estamos tratando aquí con la suma de un número aleatorio de variables aleatorias independientes.
Como se explica en la Sección 4.4, latransformación asociada con L se encuentra comenzando con la
transformación asociada con N,que es
MN ( (s), e,(esá1),
y la sustitución de cada ocurrencia de es por la transformación asociada con Xi,que es
MX(s) a1 p + pes.
Obtenemos
ML (s)á eá(1op+pesá1) á eáp(eessá1).
Observamos que esta es la transformación de una variable aleatoria de Poisson con el parámetro
.p, verificando así nuestra declaración anterior para el PMF de Lτ.
Concluimos con otro método para establecer que el proceso de paquetes local es Poisson. Let
T1,T2,... ser tiemposinterarrivales de paquetes de cualquier tipo; se trata de variables aleatorias
exponenciales independientes con el parámetro . Deje que K sea el número total de llegadas
hasta e incluyendo la primera llegada de paquetes locales. En particular, el tiempo S de la primera
llegada de paquetes locales es dado por
S a T1 + T2 + á + TK.
Puesto que cada paquete es un local con probabilidad p, independientemente de la otsuya, y al ver
cada paquete como un ensayo que es exitoso con la probabilidad p,reconocemos K como una
variable aleatoria geométrica con el parámetro p. Puesto que la naturaleza de los paquetes
es independiente de los tiempos de llegada, K es independiente de los tiempos interarrivales.
Por lo tanto, estamos tratando con una suma de un número aleatorio (distribuido geométricamente)
de variables aleatorias exponenciales. Hemos visto en el capítulo 4 (cf. Ejemplo 4.21) que tal suma se
distribuye exponencialmente con el parámetro . Puesto que los t imes interarrivalentre
lospaquetes locales sucesivos son claramente independientes, se deduce que el proceso de llegada
de paquetes local es Poisson con la velocidad de la velocidad.
Ejemplo 5.14. Fusión de procesos de Poisson. Las personas con cartas para enviar por correo llegan
a la oficina de correos de acuerdocon un proceso de Poisso ncon la tasa λ1, mientras que las
personas con paquetes para enviar por correo llegan de acuerdo con un proceso independiente de
Poisson con la tarifa λ2. Como se indicó anteriormente, el proceso combinado, que incluye llegadas
de ambos tipos, es Poisson con la tasa de1 + λ2. Veamos por qué.
En primer lugar, debe quedar claro que el proceso combinado satisface la propiedad de
homogeneidad temporal. Además, dado que los diferentes intervalos en cada uno de los dos procesos
de llegada son independientes, la misma propiedad se mantiene para el proceso combinado. Ahora
nos centramos en un pequeño interval delongitud δ. Ignorando los términos que son insignificantes
en comparación con el, we have
P)(0 llegadas en el proceso fusionado) á (1 á λ1)(1 ) λ,2,1 ,λ1 , 1 ,1 + λ2), P(1 llegada en el proceso
fusionado) á λ λ1oδ(1o 2o)δ+ (1 á1o)δ)λá2o (1 + ≈ (2 ), 2
y la tercera propiedad ha sido verificada.

Dado que acaba de registrar una llegada, ¿cuál es la probabilidad de que sea la llegada de una
persona con una carta por correo? Nos centramos de nuevo en un pequeño intervalo de longitud
alrededor de la hora actual, y buscamos la probabilidad
P(1 llegada de la persona con una llegada de carta 1)..
Usando la definición de probabilidades condicionales, e ignorando la probabilidad insignificante de

más de una llegada, esto es
P(1 llegada de persona con una carta)
.
P(1 llegada) (1 + 22)δ ,1 + 22
Ejemplo 5.15. Exponenciales de competición. Dos bombillas tienen una vida útil independiente y
distribuida exponencialmente T(1) y T(2),con losparámetros 1 y 2, λrespectivamente. ¿Cuál es la
distribución de la primera vez Z - min áT(1),T(2) - en la que una bombilla sequema?
Podemos tratar esto como un ejercicio en distribuciones derivadas. Para todas las z 0,
tenemos,
Esto se reconoce como el CDF exponencial con el parámetro 1 +22. Por lo tanto, el mínimo de dos
exponenciales independientes con los parámetros λ1 y λ2 es un exponencial con el
parámetro 1 + 22.
Para una explicación más intuitiva de este hecho, pensemos en T(1) (respectivamente, T(2))
como los tiempos de la primera llegada en dos procesos de Independent Poisson con la tasa λ1
(respectivamente, T(2)). Si fusionamos estos dos procesos de Poisson, la primera hora de llegada
será min-T(1),T(2). Pero ya sabemos que el proceso combinado es Poisson con una tasa de 1 +22, y
de ello se deduce que la primera hora de llegada, mín.T(1),T(2), es exponencial conel

parámetro 1 + 22.
La discusión anterior se puede generalizar al caso de más de dos procesos. Por lo tanto,
el proceso de llegada total obtenido mediante la fusión de las llegadas de n procesos
independientes de Poisson con las tasas de llegada de1,...,,...,λn es Poisson con una tasa de
llegada igual a la suma de1 + + + nn.
Ejemplo 5.16. Más sobre Competing Exponentials. Tres bombillas tienen una vida útil
independiente distribuida exponencialmente con un parámetro común λ. ¿Cuál es la expectativa
del tiempo hasta que la última bombilla se queme?
Pensamos en los momentos en que cada bombilla se quema como los primeros tiempos de
llegada en los procesos independientes de Poisson. Al principio, tenemos tres bombillas, y el
proceso combinado tiene una tasa de3o. Por lo tanto, el tiempo T1 del primer agotamiento es
exponencial con el parámetro 3,y la media 1/3. Una vez que una bombilla se quema, y debido a la
propiedad de falta de memoria de la distribución exponencial, las duraciones restantes de las otras
dos bombillas son de nuevo variablesaleatorias exponenciales de extremoindep con el
parámetro . Por lo tanto, tenemos dos procesos de Poisson ejecutándose en paralelo, y el
tiempo restante T2 hasta la primera llegada en uno de estos dos procesos es ahora exponencial
con el parámetro 2 y la media 1/2. Finalmente, una vez que una segunda bombilla se quema, nos
quedamos con una sola. Usando la falta de memoria una vez más, el tiempo restante T3 hasta
que la última bombilla se quema es exponencial con el parámetro s y la media 1/. Por lo
tanto, la expectativa del tiempo total es
E .
Tenga en cuenta que los variables aleatorios T1, T2, T3 son independientes, debido a la falta de
memoria. Esto también nos permite calcular la varianza del tiempo total:
Cerramos señalando un hecho relacionado y bastante profundo, a saber, que la suma

de un gran número de(no necesariamente Poisson) procesos de llegada independientes,
puede ser aproximado por un proceso de Poisson con tasa de llegada igual a la suma de las
tasas de llegada individuales. Los procesos de componentes deben tener una pequeña tasa
en relación con el total (de modo que ninguno de ellos imponga su carácter probabilístico
en el proceso de llegada total) y también deben satisfacer algunos supuestos matemáticos
técnicos. Un debate más profundo sobre este fact está fuera denuestro alcance, pero
observamos que es en gran medida responsable de la abundancia de procesos similares a
Poisson en la práctica. Por ejemplo, el tráfico telefónico originado en una ciudad consta de
muchos procesos componentes, cada uno de los cuales caracterizalas llamadastelefónicas
realizadas por residentes individuales. Los procesos de componentes no necesitan ser
Poisson; algunas personas, por ejemplo, tienden a hacer llamadas en lotes, y (generalmente)
mientras están en proceso de hablar, no pueden iniciar o recibir una segunda llamada. Sin
embargo, eltráfico totalde t elephone está bien modelado por un proceso de Poisson. Por
las mismas razones, el proceso de accidentes automovilísticos en una ciudad, la llegada de
los clientes a una tienda, las emisiones de partículas de material radiactivo, etc., tienden a
tener el carácter del proceso de Poisson.
La paradoja de la incidencia aleatoria
Las llegadas de un proceso de Poisson dividen el eje de tiempo en una secuencia de

intervalos interarrivales; cada intervalo interarrival comienza con una llegada y termina en
el momento de la próxima llegada. Hemos visto que las longitudes de los and mean 1/λ
intervalos interarrivales t hese son variables aleatorias exponenciales independientes con el
parámetro . Más precisamente, para cada k, lalongitud del intervalointerarrival kth
tiene esta distribución exponencial. En esta subsección, analizamos estos intervalos
interarrivales desde una perspectiva diferente.
Vamos a fijar un tiempo instantáneo t- y considerar la longitud L del intervalo

interarrival al que pertenece. Para un contexto concreto, piense en una persona que se
presenta en el bus station en algún momento arbitrario t- y mide el tiempo desde la
llegada anterior del autobús hasta la próxima llegada del autobús. La llegada de esta
persona se conoce a menudo como una "incidencia aleatoria", pero el lector debe ser
consciente de que el término es engañoso: t- es sólo una instanciade tiempo en particular,
no una variable aleatoria.
Asumimos que la∗ hora de inicio del proceso de Poisson es mucho más grande que la
hora de inicio del proceso de Poisson, de modo que podemos estar bastante seguros de que
ha habido una llegada antes dela hora t. Para evitar la cuestión de determinar qué tan grande
es un t, en realidad podemos suponer que el proceso de Poisson se ha estado ejecutando
para siempre, por lo que podemos estar completamente seguros de que ha habido una
llegada previa, y que L está bien definido. Se podría argumentar superficialmente que L es
la longitud de un intervalo interarrival "típico",y se distribuye exponencialmente, pero
esto resulta ser falso. En su lugar, estableceremos que L tiene un ERlang PDF de la orden
dos.
Esto se conoce como el fenómeno de incidencia aleatoria o paradoja,y se puede
explicar con la ayuda dela Fig. 5.7. Deje que [U,V ] sea el intervalo interarrival al que
pertenece t,∗ de modo que L a V a U. En particular, U es la hora de la primera llegada
antes de t- y V es la hora de la primera llegada después de t∗. Dividimos L en dos partes,
L á (tá U )+ (V á t)),
donde t-−U es el tiempo transcurrido desde la última llegada, y V -t- es el tiempo

restante hasta la próxima llegada. Tenga en cuenta que el∗ historial pasado del
proceso (antes det)(antes de t) (antes de t) − ∗ , mientras que el futuro del proceso
determina el futuro del proceso (después de la letra t∗t) ( Según las propiedades de
independencia del proceso de Poisson, las variables aleatorias t- , U y V, − t,∗ son
independientes. Mediante la propiedad memorylessness, el proceso de Poisson se inicia de
nuevo en el momento t∗, y, por lo tanto, V á tes exponencial con el parámetro . Lavariable
de dom de rodo t∗ á - U también es exponencial con el parámetro .. La forma más fácil
de ver esto es darnos cuenta de que si ejecutamos un proceso de Poisson hacia atrás en el
tiempo sigue siendo Poisson; esto es porque las propiedades definitorias de un proceso de
Poisson no hacen referencia a si el tiempo avanza o retrocede. Un argumento más formalse
obtiene señalando que
P no hay llegadas durante [ .

Por lo tanto, hemos establecido que L es la suma de dos variables aleatorias exponenciales
independientes con el parámetro ,esdecir, Erlang de la orden dos, con la media 2/.
T*
XⅤ
U
X
Hora
Transcurrid Elegido El ser restante

tiempo archivo tiempo −VT*
tiempo *t− U
o
Figura 5.7: Ilustración del fenómeno de incidencia aleatoria. Para un instante de tiempo fijo t,el
intervalointerarrival correspondiente [U,V ] consiste en el tiempo transcurrido t- U y el tiempo
restante V - t∗. Estas dos veces son independientes y se distribuyen exponencialmented con el
parámetro ,por lo que el PDF de su sumaes Erlang de la orden dos.
Los fenómenos de incidencia aleatoria son a menudo la fuente de conceptos erróneos

y errores, pero estos pueden evitarse con un modelado probabilístico cuidadoso. La cuestión
clave es que a pesar de que lasi ntervalsinterarrivales tienen una longitud de 1/- en
promedio, un observador que llega a un momento arbitrario es más probable que caiga en
un intervalo interarrival grande en lugar de pequeño. Como consecuencia, la longitud
esperada que ve el observador es mayor, 2/- en este caso. Este pomada pse amplifica con
el ejemplo siguiente.
Ejemplo 5.17. Incidencia aleatoria en un proceso de llegada no-Poisson. Los autobuses llegan a una
estación determinísticamente, en la hora, y quince minutos después de la hora. Por lo tanto, los
tiempos interarrivales alternan entre 15 y 45 minutos. El tiempo medio de interarrival es de 30
minutos. Una persona aparece en la estación de autobuses a una hora "aleatoria". Interpretamos
"aleatorio" para significar un tiempo que se distribuye uniformemente dentro de una hora
determinada. Tal persona cae en una int erval interarrivalde longitud15 con probabilidad 1/4, y un
intervalo interarrival de longitud 45 con probabilidad 3/4. El valor esperado de la longitud del intervalo
interarrival elegido es
que es considerablemente mayor que 30, el tiempo interarrival promedio.

6
Cadenas Markov
Contenido
6.1. Cadenas Markov en tiempo discreto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.............................................
6.2. Clasificación de los Estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 9
6.3. Comportamiento de estado estable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
......................................... pág. 13
6.4. Probabilidades de absorción y tiempo previsto para la absorción . pág. 25
6.5. Cadenas Más Generales de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
................................. pág. 33
2 Cadenas Markov Capítulo 6
Los procesos de Bernoulli y Poisson estudiados en el capítulo anterior no tienen

memoria, en el sentido de que el futuro no depende del pasado: las ocurrencias de
nuevos "éxitos" o"arri vals" no dependen de la historia pasada del proceso. En este
capítulo, consideramos los procesos en los que el futuro depende y se pueden predecir
en cierta medida por lo que ha sucedido en el pasado.
Hacemos hincapié en los modelos en los que el efecto del pasado en el futuro se
resume en un estado,que cambia con el tiempo de acuerdo con lasprobabilidades
dadas. Nos limitamos a modelos cuyo estado puede tomar un número finito de valores
y puede cambiar en instantes discretos de tiempo. Queremos analizar las propiedades
probabilísticas de la secuencia de valores de estado.
La gama de aplicaciones de los modelos de este capítulo es realmente vasta.
Incluye casi cualquier sistema dinámico cuya evolución a lo largo del tiempo implique
incertidumbre, siempre que el estado del sistema esté adecuadamente definido.
Talesystems surgen en una amplia variedad de campos, tales como comunicaciones,
control automático, procesamiento de señales, fabricación, economía, asignación de
recursos, etc.
6.1 CADENAS MARKOV DE TIEMPO DISCRETO
Primero consideraremos cadenas Markov en tiemposdiscretos, en las que el state

cambia en ciertos instantes de tiempo discretos, indexados por una variable entera n.
En cada paso de tiempo n, lacadena Markov tiene un estado,denotado por Xn, que
pertenece aun conjunto finito S de estados posibles, llamado el espacio de estado..
Sin pérdida de generalidad, y a menos que haya una declaración en sentido contrario,
asumiremos que S - 1,...,m,para algún entero positivo m. La cadena Markov se
describe en términos de sus probabilidades de transición pij: siempre que el estado
resulta ser i, elre es laprobabilidad pij que el siguiente estado es igual a j.
Matemáticamente,
pij á P(Xn+1 á j | Xn á i), i, j á S.
La suposición clave subyacente a los procesos de Markov es que las probabilidades

detransición pij se aplican cada vez que se visita el estado i, no importa lo que
Sec. 6.1 Cadenas Markov en tiempo discreto 3
sucedió en el pasado, y no importa cómo estado i fue alcanzado. Matemáticamente,

asumimos que el
Propiedad Markov, que requires que
P(Xn+1 á j á Xn á i,Xná1 i iná1,...,X0 á i0)á P(Xn+1 á j - Xn á i)
• pij,
i,j
para todos los tiempos n, todos los estados a S, y todas las secuencias posibles
i0,...,ina1 de los estados anteriores. Por lo tanto, la ley de probabilidad del siguiente
estado Xn+1 depende del pasado sólo a través del valor del estado actual Xn.
Las probabilidades de transición pij deben ser, por supuesto, no negativos, y
sumar a una:
, para todos los i.
Generalmente permitiremos que las probabilidades pii sean positivas, en cuyo caso es
posible que el siguiente estado sea el mismo que el actual. A pesar de que el estado no
cambia, todavía vemos esto como una transición estatal de un tipo especial (un
"auto-transition").
Especificación de los modelos Markov
• Un modelo de cadena Markov se especifica identificando
(a) el conjunto de estados S a 1,...,m,},
(b) el conjunto de posibles transiciones, a saber, esos pares (i,j) para los
que pij > 0, y,
(c) los valores numéricos de los pij que son positivos.
• La cadena Markov especificada por este modelo es una secuencia de
variables aleatorias X0,X1,X2,... , que toman valores en S y que satisfacen
P(Xn+1 á j á Xn á i,Xná1 á iná1,...,X0 á i0)á pij,
para todos los tiempos n, todos los estados i,j a S, y todas las secuencias
posibles i0,...,ina1 de los estados anteriores.
Todos los elementos de un modelo de cadena Markov se pueden codificar en una
matriz de probabilidad de transición, que es simplemente una matriz bidimensional cuyo
elemento en la fila iy jth columnaes pij:
.
También es útil establecer el modelo en el llamado gráfico de probabilidad de
transición,cuyos nodos son los estados y cuyos arcos son las posibles transiciones. Al
registrar los valores numéricos de pij cerca de los arcos correspondientes, se puede
visualizar todo el modelo de una manera que puede hacer que algunas de sus principales
propiedades sean fácilmente evidentes.
Ejemplo 6.1. Alice está tomando una clase de probabilidad y en cada semana puede estar al día
o puede haberse quedado atrás. Si está actualizada en una semana determinada, la probabilidad
de que esté actualizada (o detrás) en la próxima semana es de 0,8 (o 0,2, respectivamente). Si está
atrasada en la semana dada, la probabilidad de que esté actualizada(o detrás) en la próxima
semana es 0,6 (o 0,4, respectivamente). Suponemos que estas probabilidades no dependen de si
estaba actualizada o retrasada en semanas anteriores, por lo que el problema tiene el carácter
típico de la cadena Markov (el futuro depende delpasado sólo a través del presente).
Vamos a presentar los estados 1 y 2, e identificarlos con estar actualizados y detrás,
respectivamente. Entonces, las probabilidades de transición son
p11 a 0. 8, p12 a 0. 2, p21 a 0. 6, p22 a 0. 4,
y la matriz de probabilidad de transición es
El gráfico de probabilidad de transición se muestra en la Fig. 6.1.
0.2
1 2
0.8 0.4
Actualizado hasta la fecha0.6 Detrás
Figura 6.1: El gráfico de probabilidad de transición en el ejemplo 6.1.
Ejemplo 6.2. Una mosca se mueve a lo largo de una línea recta en incrementos de unidad. En cada
período de tiempo, mueve una unidad a la izquierda con probabilidad 0. 3, una unidad a la derecha
con probabilidad 0. 3, y se mantiene en su lugar con probabilidad 0. 4, independientemente de la

historia pasada de los hombres demovimiento. Una araña está al acecho en las posiciones 1 y m:si
la mosca aterriza allí, es capturada por la araña, y el proceso termina. Queremos construir un
modelo de cadena Markov, suponiendo que la mosca comience en una de las posiciones 2,...,m 1.
−
Vamos a introducir states 1,2,...,m, eidentificarlos con las posiciones correspondientes de

la mosca. Las probabilidades de transición distinta de cero son
p11 a 1, pmm a 1,
0. 3 si j a i 1 o j a i + 1, para i a 2,...,m á 1.
El gráfico de probabilidad de transición y la matriz se muestran en la Fig. 6.2.
Dado un modelo de cadena Markov, podemos calcular la probabilidad de cualquier

secuencia particular de estados futuros. Esto es análogo al uso de la regla de multiplicación
en modelos probabil ity secuenciales(árbol). En particular, hemos
P(X0 á i0,X1 i i1,...,Xin á in) á P(X0 á i0)pii1pi1i2 á ? 0 pina1in.

1 2 3 4
0.4 0.4 1 1.0 0 0 0
0.3
0.3 0.3 2 0.3 0.4 0.3 0
1 1 2 3 4 1
3 0 0.3 0.4 0.3
0.3 4 0 0 0 1.0
pij
Figura 6.2: El gráfico de probabilidad de transición y la matriz de probabilidad de transición en el

ejemplo 6.2, para el caso en el que m á 4.
Para verificar esta propiedad, tenga en cuenta que
P(X0 á i0,X1 a i1,...,Xen i in)

• P(Xn á in - X0 á i0,...,Xna1 á iná1)P(X0 á i0,...,Xna1 x ina1)
• pina1inP(X0 á i0,...,Xna1 á iná1),
donde la última igualdad hizo uso de la propiedad Markov. A continuación, aplicamos el

mismo argumento al término P(X0 á i0,...,Xná1 x iná1) ycontinuamos de forma similar, hasta
que finalmente obtengamos la expresión deseada. Si se da el estado inicial X0 y se sabe

que es equal aalgunos i0,un argumento similar produce
P(X1 i i1,...,Xin á in | X0 á i0)á pi0i1pi1i2 ? pina1in.
Gráficamente, una secuencia de estado se puede identificar con una secuencia de arcos en
el gráfico de probabilidad de transición, y la probabilidad de tal ruta (dado el estado inicial)
es dada por el producto de las probabilidades asociadas con los arcos atravesados por la
ruta.
Ejemplo 6.3. Para el ejemplo de araña y mosca (Ejemplo 6.2), hemos
P(X1 a 2,X2 a 2,X3 x 3, X4 x 4| X0 a 2) a p22p22p23p34o (0. 4) 2(0. 3) 2.
También tenemos
P(X0 á 2,X1 a 2,X2 Pa2 = 2,X3 ,3 = 3, X4 a 4) a P(X0 a 2)p22pp22p23p34 p (X0 a 2) (0.
4) 2(0. 3) 2.
Tenga en cuenta que para calcular una probabilidad de esta forma, en la que no hay
condicionamiento en un estado inicial fijo, necesitamos especificar una ley de probabilidad para
el estado inicial X0.
n-Probabilidades de transición de paso
Muchos problemas de la cadena Markov requieren lacaculación de la ley de probabilidad

del estado en algún momento futuro, condicionado al estado actual. Esta ley de probabilidad
es capturada por las probabilidades de transición n-paso, definidaspor
rij(n)á P(Xn á j - j | X0 á i).
En palabras, rij(n) es la probabilidad de queelestado despuésde n períodos de tiempo

sea j, dado que el estado actuales i. Se puede calcular utilizando la siguiente recursividad
básica, conocida como la ecuación Chapman-Kolmogorov.
Ecuación Chapman-Kolmogorov para lasprobabilidades de transición n-Paso

Las probabilidades de transición n-paso pueden ser generadas por la fórmula
recursiva
, para n > 1, y todo i, j,
comenzando con rij(1) á pij.
Para verificar la fórmula, aplicamos el teorema de probabilidad total de la siguiente

manera:
véase la Fig. 6.3 para una ilustración. Hemos utilizado aquí la propiedad Markov: una vez
que condicionamos en Xná1 k k, el acondicionamiento en X0 i no afecta a la probabilidad
pkj de llegar a j en el siguiente paso.
Podemos ver rij(n) como el elementoen la fila iy jth columna deuna matriz de dos
dimensiones, llamada la matriz de probabilidad de transición n-paso.
• Aquellos lectores familiarizados con la multiplicación de matriz, pueden reconocer que la

ecuación Chapman-Kolmogorov se puede expresar de la siguiente manera: la matriz de n-step
transition probabilities rij(n) se obtienemultiplicando la matriz de (n á 1)-step transition
probabilities rik(n á 1), con la matriz de transición de probabilidad de un paso. Por lo tanto, la matriz
de probabilidad de transición n-paso es la potencia nde la matriz de probabilidad

detransición. th power of the transi
Tiempo 0 Tiempo n-1 Tiempo n
1
Ri1 (n-1) P 1J
Ⅰ K
RIk(n-1)
P Kj J
RIm(n-1)
P Mj
M
Figura 6.3: Derivación de la ecuación Chapman-Kolmogorov. La probabilidad de estar en el estado j
en el momento n es la suma de las probabilidades rik(n á 1)pkj de las diferentes

formas de alcanzar j.
R11 ( N)
0.75 0.75 R21 ( N)
R22 (N)
0.25 0.25
R12 ( N)
0 N 0 N
n-probabilidades de transición escalonadas en función del númeron de transiciones
UpD B
Upd
0.8 0.2 .76 .7504 .2496
.24 .752 .248 .7501 .2499
B
0.6 0.4 .72 .28 .744 .256.7488 .2512

.7498 .2502
rij (1) rij (2) rij (3) rij (4) rij (5)
Secuencia de matrices de probabilidad de transición n -paso
Figura 6.4: n-paso probabilidades de transición para el ejemplo 6.1 "actualizado/detrás". Tenga en
cuenta que, como n, rij(n) converge a un límite que no depende del estadoinicial.
6.4 y 6.5 dan lasprobabilidades de transición n-paso rij(n) para los casos de los ejemplos
6.1 y 6.2, respectivamente. Hay algunas observaciones interesantes sobre el
comportamiento limitante de rij(n) en estos dosejemplos. En la Fig. 6.4, vemos que cada
rij(n) converge a unlímite, como n , y este límite no depende del estado inicial. Por lo
tanto, cada estado tiene una probabilidad positiva de "estado estable" de ser ocupado en
momentos lejanos en el futuro. Además, la probabilidad rij(n) depende del estadoinicial i
cuando n es pequeño, pero con el tiempo esta dependencia disminuye. Losmodelos
probabilísticos que evolucionan con el tiempo tienen un carácter tan largo: después de un
tiempo suficientemente largo, el efecto de su condición inicial se vuelve insignificante.
En la Fig. 6.5, vemos un comportamiento cualitativamente diferente: rij(n) de
nuevoconvergen,pero el límite depende del estadoinicial, y puede ser cero para los
estados seleccionados. Aquí, tenemos dos estados que son "absorbentes", en el sentido de
que se repiten infinitamente, una vez alcanzados. Estos son los estados 1 y 4 que
corresponden a la captura de la mosca por una de las dos arañas. Dado el tiempo
suficiente, es cierto que se alcanzará algún estado absorbente. En consecuencia, la
probabilidad de estar en los estados no absorbentes 2 y 3 disminuye a cero a medida que
aumenta el tiempo.
2 /3
R21 ( N)
1 /3
R24 ( N)
R22 ( N)
R23 ( N)
0 N
n-probabilidades de transición de paso en función del tiempo n
1 2 3 4
1.0 0 0 1.0
0 0 0 1.0
0 0 0 1.0
0 0 0 0 1.0 0 0 0
0.3 0.4 0.3 .42 .09 .17 .17 .55

0 .25 .24 .50 .16 .12 .12 .21 2/3 0 0 1/3
....
0 0.3 0.4 0.3 .42 .17 .17 .21
.09 .24 .25 .16 .50 .12 .12 .55 1/3 0 0 2/3
0 0 0 1.0
0 0 0 1.0
0 0 0
0 1.0 0 0 1.0 0 0 0 1.0
1
2
3
4
rij (1) rij (2) rij (3) rij (4) rij ())
Secuencia de matrices de probabilidad de transición
Figura 6.5: n-paso probabilidades de transición para el ejemplo 6.2 de "spiders-and-fly". Observe
que rij(n) converge a un límite que depende del estadoinicial.
Estos ejemplos ilustran que hay una variedad de tipos de estados y comportamiento
de ocupación asintomática en las cadenas Markov. Por lo tanto, estamos motivados para
clasificar y analizar las diversas posibilidades, y este es el tema de las siguientes tres
secciones.
11
6.2 Clasificación de los Estados
6.2 CLASIFICACIÓN DE LOS ESTADOS
En la sección anterior, vimos a través de ejemplos varios tipos de sta tes de cadena
Markovcon características cualitativamente diferentes. En particular, algunos estados,
después de ser visitados una vez, están seguros de ser revisados de nuevo, mientras
que para algunos otros estados este puede no ser el caso. En esta sección, nos
centramos en el mecanismo por el que estoocurre. En particular, queremos clasificar
los estados de una cadena markov con un enfoque en la frecuencia a largo plazo con
la que se visitan.
Como primer paso, hacemos precisa la noción de revisar un estado. Digamos que
un estado j es accesible desde un estado i si para algunos n, la probabilidad de
transición n-paso rij(n) espositivo, es decir, si hay una probabilidad positiva de
alcanzar j, a partirde i, después de algún número deperíodos de tiempo. Una
definición equivalente es que hay una posible secuencia de estado i,i1,...,ina1,j, que
comienza en i y terminaen j, en la que las transiciones (i,i1),(i1,i2),...,(iná2,iná1),(iná1,j)
todos tienen probabilidadpositiva. Deje que A(i) sea el conjunto deestados
accesibles desde i. Decimos que i es recurrente si para cada j que es accesible
desde i, i también es accesible desde j;es decir, para todos los j que pertenecen a
A(i)tenemos que i pertenece a A(j).
Cuando comenzamos en un estado recurrente i, sólopodemos visitar los
estados j A(i) desde losque i es accesible. Por lo tanto, desde cualquier estado
futuro, siempre hay alguna probabilidad de volver a i y, dado el tiempo suficiente,
esto es seguro que sucederá. Al repetir este argumento, si se visita un estado
recurrente una vez, se volverá a visitar un número infinito de veces.
Un estado se denomina transitorio si es notrecurrente. En particular, hay
estados j a(i) de tal maneraque i no es accesible desde j. Después de cada visita
al estado i, hay una probabilidad positiva de que el estadoentre tal j. Dado el
tiempo suficiente, esto sucederá, y el estado i no puede ser visitado después de
eso. Por lo tanto, un estado transitorio sólo se visitará un número finito de veces.
Tenga en cuenta que la transiencia o recurrencia viene determinada por los
arcos del gráfico de probabilidad de transición [esos pares (i,j) para los que pij > 0] y
no por los valores numéricos del pij. La Figura 6.6 proporciona un ejemplo de un
gráfico de probabilidad de transición y losestados recurrentes y transitorios que
responden por cor.
1 2 3 4
Recurrente recurrente transitorio recurrente
Figura 6.6: Clasificación de los estados dado el gráfico de probabilidad de transición. A partir
del estado 1, el único estado accesible es sí mismo, y así 1 es un estado recurrent. Los
Estados 1, 3 y 4 son accesibles desde 2, pero 2 no es accesible desde ninguno de ellos, por lo
que el estado 2 es transitorio. Los Estados 3 y 4 sólo son accesibles entre sí (y ellos mismos),
y ambos son recurrentes.
Si i es un estado recurrente, el conjunto de estados A(i) que sonaccesibles desde i

formar una clase recurrente (o simplemente clase),lo que significa que los estados de A(i)
son todosaccesibles entre sí, y no se puede acceder a ningún estado fuera de A(i)
desdeellos. Matemáticamente, para un estado recurrente i, tenemos A(i) a A(j) paratodos
los j que pertenecen a A(i), como se puede ver en la definiciónde recurrencia. Por
ejemplo, en el gráfico de la Fig. 6.6, los estados 3 y 4 forman una clase, y el estado 1 por
itself también forma una clase.
Se puede ver que al menos un estado recurrente debe ser accesible desde cualquier
estado transitorio dado. Esto es intuitivamente evidente, y se da una justificación más
precisa en la sección de problemas teóricos. De ello se deduce queexiste al menos un estado
recurrente y, por lo tanto, al menos una clase. Por lo tanto, llegamos a la siguiente
conclusión.
Descomposición de la Cadena Markov
• Aplus posiblemente algunos estados transitorios. La cadena Markov se

puede descomponer en una o más clases recurrentes,
• Aaccessible de estados recurrentes en otros classes.recurrent state es

accesible desde todos los estados de su clase, pero no es
• Un estado transitorio no es accesible desde ningún estado recurrente.
• Estado attransiento.al menos uno, posiblemente más, los estados

recurrentes son accesibles desde un
La Figura 6.7 proporciona ejemplos de descomposiciones de la cadena Markov. La
descomposición proporciona una poderosa herramienta conceptual para razonar sobre las
cadenas markov y visualizar la evolución de su estado. En particular, vemos que:
13
(a) una vez que el estado entra (o comienza en) una clase de estados recurrentes,
permanece dentro de esa clase; ya que todos los estados de la clase son accesibles
entre sí, todos los estados de la clase se visitarán un número infinito de veces;
(b) si el estado inicial es transitorio, la trayectoria del estado contiene una parte inicial
que consta de estados transitorios y una parte final que consta de estados recurrentes
de la misma clase.
Con el fin de entender el comportamiento a largo plazo de las cadenas Markov, es
importante analizar las cadenas que consisten en una sola clase recurrent. Para entender el
comportamiento a corto plazo, también es importante analizar el mecanismo por el cual se
introduce cualquier clase particular de estados recurrentes a partir de un estado
transitorio determinado. Estas dos cuestiones, el comportamiento a largo y corto plazo,
son el foco de las Secciones 6.3 y 6.4, respectivamente.
Periodicidad
Una caracterización más de una clase recurrente es de especial interés, y se relaciona

6.2 Clasificación de los Estados
1 2 3 4
Clase única de estados des?
1 2
Clase única de estados recurrentes (1 y 2) y un estado

transitorio (3)
1 2 3 4 5
Dos clases de estados recurrentes (clase de estado1

y clase de los estados 4 y 5) y dos estados
transitorios (2 y 3)
Figura 6.7: Ejemplos de descomposiciones de la cadena Markov en clases recurrentes y estados
transitorios.
a la presencia o ausencia de un cierto patrón periódico en los tiempos en que se visita un

estado. En particular, se dice que una clase recurrente es periódica si sus estados se pueden
agrupar en d > 1 subconjuntos desarticulados S1,...,Sd para que todas las transiciones de
un subconjunto conduzcan al siguiente subconjunto; véase la Fig. 6.8. Más precisamente,
1,
si i s Sk y pij > 0, entonces
Una clase recurrente que no es periódica, se dice que es aperiódica.

Por lo tanto, en una clase periódica recurrente, nos movemos a través de la secuencia
de subconjuntos en orden, y después de d pasos, terminamos en el mismo subconjunto.
Por ejemplo, la clase recurrente en la segunda cadena de la Fig. 6.7 (estados 1 y 2) es
periódica, y lo mismo es cierto de la clase que consta de los estados 4 y 5 en la tercera
cadena de Fig.
6.7. Todas las demás clases en las cadenas de esta figura son aperiódicas.
1 3
S1 S2
4
2
5
6
S3
Figura 6.8: Estructura de una clase periódica recurrente.
Tenga en cuenta que dada una clase periódica recurrente, un tiempo positivo n, y un
estado j en la clase, debe existir algún estado i tal que rij(n) -0. La razón es que, a partir
de la definición de periodicidad, los estados se agrupan en subconjuntos S1,...,Sd, y el
subconjunto alque pertenece j se puede alcanzar en el momento n desde los estados
en solo uno de los subconjuntos. Por lo tanto, una forma de verificar la aperioidad de una
clase R recurrente Rdada , es comprobar si hay untiempo especial n a 1 y un estado
15
especial s - R que se puede alcanzar en el momento n de todos los estados iniciales en
R,es decir, res(n) > 0 para todos los i - R. Como ejemplo, considere la primera cadena de
la Fig. 6.7. El estado s 2 se puede alcanzar en el tiempo n a 2 a partir de cada estado, por
lo que la clase recurrente única de esa cadena es aperiódica.
Una instrucción inversa, que no probamos, también resulta ser verdadera: si una clase
recurrente no es periódica, siempre se puede encontrar un tiempo n y un estado especial
s con las propiedades anteriores.
Periodicidad
Considere una clase recurrente R.
• La clase se denomina periódica si sus estados se pueden agrupar en d > 1
subconjuntos desarticulados S1,...,Sd, de modo que todas lastransiciones
de Sk conducen a Sk+1 (o a S1 si k á d).
• La clase es aperiódica (no periódica) si y sólo si existe un tiempo n y un

estado s en la clase, de tal manera que pes(n) > 0 para todo i - R.
6.3 COMPORTAMIENTO EN ESTADO ESTACIONARIO
En los modelos de cadena Markov, a menudo estamos interesados en el

comportamiento de ocupación del estado a largo plazo, es decir, en lasprobabilidades
de transición n-paso rij(n)cuando n es muy grande. Hemos visto en el ejemplo de la
Fig. 6.4 que el rij(n)puede converger a valores de estado estacionario que son
independientes del estado inicial, así que ¿hasta qué punto es típico este
comportamiento?
Si hay dos o más clases de estados recurrentes, está claro que los valores
limitantes de rij(n) deben depender del estado inicial (visitar j en el futuro
dependerá de si j está en la misma clase que el estado inicial i). Por lo tanto,
restringiremos la atención a las cadenas que implican una sola clase recurrente,
además posiblemente de algunos estados transitorios. Esto no es tan restrictivo como
puede parecer, ya que sabemos que una vez que el estado entra en una clase
recurrente en particular, permanecerá dentro de esa clase. Por lo tanto,
asintóticamente, la presencia de todas las clases excepto una es irrelevante.
Incluso para las cadenas con unaclase singl e recurrente, el rij(n) puede
noconverger. Para ver esto, considere una clase recurrente con dos estados, 1 y 2, de
tal manera que desde el estado 1 sólo podemos ir a 2, y de 2 sólo podemos ir a 1 (pp12
á p21 a 1). Entonces, comenzando en algún estado, estaremos en elmismo estado
después de cualquier número par de transiciones, y en el otro estado después de
cualquier número impar de transiciones. Lo que está sucediendo aquí es que la clase
recurrente es periódica, y para tal clase, se puede ver que el rij(n)oscilan
genéricamente.
Ahora afirmamos que para cada estado j, las probabilidades de transición n-
step rij(n) seacercan a un valor limitante que es independiente de i, siempre
queexcluyamos las dos situaciones discutidas anteriormente (múltiples clases
recurrentes y /o una clase periódica). Este valor limitante, denotado por jj, tienela
interpretación
Cuando P(X j)n es grande,cuando n esgrande, ,
y se llama la probabilidad de estado estacionario de j. El siguiente es un teorema

importante. Su prueba es bastante complicada y se describe junto con varias otras
pruebas en la sección de problemas teóricos.
Sec. 6.3Comportamiento de estado estacionario 17
Teorema de convergencia de Estado estable

Considere una cadena Markov con una sola clase recurrente, que esperiódica. A
continuación, los estados j están asociados con las probabilidades de estado
estacionario dej que tienen las siguientes propiedades.
(a) lim rij(n) á jj,para todos los i, j.
n
.
( b) El El ΠJ son la solución única del sistema de ecuaciones a continuación:

M
ΠJ = ΠK PKj , J N.o ,...,m,
K N.o 1
M1
1o ΠK .
K N.o
1
( c) Tenemos
ΠJ 0 , para todos los estados J
ΠJ > 0, transitorios
para todos los estados des?
J.
Puesto que las probabilidades de estado estacionario esj suma a 1, forman una
distribución de probabilidad en el espacio de estado, llamada la distribución estacionaria
de la cadena. La razón del nombre es que si el estado inicial se elige demanera
distribución, es decir, si
P(X0 á j) ,j, j , 1,...,m,
entonces, usando el teorema de probabilidad total, tenemos
P ,
donde la última igualdad se deriva de la parte b) del teorema de convergencia de estado

estacionario. Del mismo modo, obtenemos P(Xn á j), πj, paratodos los n y j. Por lo tanto,
si el estado inicial se elige según la distribución estacionaria, todos los estados subsiguientes
tendrán la misma distribución. Las ecuaciones
se llaman las ecuacionesde equilibrio. Son una simple consecuencia de la parte (a) del
teorema y de laecuación de Chapman-Kolmogorov. De hecho, una vez que se da por
sentada la convergencia de rij(n) a algunos j, podemos considerar la ecuación,
,
tomar el límite de ambos lados como n , y recuperar las ecuaciones de equilibrio.
πj Los siguientes ejemplos ilustran el proceso de solución.
Ejemplo 6.4. Considere una cadena Markov de dos estados con probabilidades de transición
p11 a 0. 8, p12 a 0. 2, p21 a 0. 6,
p22 a 0. 4.
[Esto es lo mismo que la cadena del Ejemplo 6.1 (cf. Fig. 6.1).] Las ecuaciones de equilibrio toman
la forma
1o 1 p π11 + 22p21, 2o π1p12 + π2p22,
O
1o 0. 8 ? 1 + 0. 6 ? 22, 2o 0. 2 ? 1 + 0. 4 ? 22.
Tenga en cuenta que las dos ecuaciones anteriores son dependientes, ya que ambas son
equivalentes a 1 x 3x2.
Esta es una propiedad genérica, y de hecho se puede mostrar que una de las ecuaciones de
equilibrio depende de las ecuaciones restantes (ver los problemas teóricos). However, sabemos
que la j satisfacer la ecuación de normalización
1 + 2 x 1,
que complementa las ecuaciones de equilibrio y es suficiente para determinar la j de forma única.
De hecho, sustituyendo la ecuación de1 πa π π 3oπ2 en la ecuación, 1 + π2o 1, obtenemos 3x2 +
2 ,2 o 1, o 2 a 0. 25,
que utilizando la ecuación 1 + 2 x 1,
1o 0. 75.
Esto es coherente con lo que encontramos anteriormente al iterar la ecuación Chapman-

Kolmogorov (cf. Fig. 6.4).
Ejemplo 6.5. Una profesora distraída tiene dos paraguas que usa cuando conmuta de casa en la
oficina y de vuelta. Si llueve y un paraguas esunvailable en
• Según un teorema famoso e importante del álgebra lineal (llamado teorema Perron-
Frobenius), las ecuaciones de equilibrio siempre tienen una solución nonnegativa, para cualquier
cadena Markov. Lo que es especial acerca de una cadena que tiene una sola clase recurrente, que es
aperiódica, es que la solución es única y también es igual al límite de las probabilidades de
transición n-step rij(n).
su ubicación, ella lo toma. Si no llueve, siempre se olvida de tomar un paraguas. Supongamos que
llueve con probability p cada vez que viaja, independientemente de otras veces. ¿Cuál es la
probabilidad de estado estacionario de que se moje en un día determinado? Modelamos este
problema utilizando una cadena Markov con los siguientes estados:
State i: i paraguas están disponibles en su ubicación actual,, i 0,1,2.
El gráfico de probabilidad de transición se indica en la Fig. 6.9, y la matriz de probabilidad de transición

es
.
La cadena tiene una sola clase recurrente que es aperiódica (suponiendo 0 < p < 1), por lo que se
aplica el teorema de convergencia steady-state. Las ecuaciones de equilibrio son
•0o (1 á p)á2, π1o (1 á π p))a1 + p á2,2o 0 + p á1. π
De la segunda ecuación, obtenemos s1 , π2quejunto con la primera ecuación p) ,0 , (1 ) , π π2 y la

ecuación de normalización, πde0 + 1 + 2, de rendimiento, se producen los rendimientos
.
De acuerdo con el teorema de convergencia de estado estacionario, la probabilidad de estado
estacionario de que el profesor se encuentre en un lugar sin paraguas es de 0 .. La probabilidad de
estado estacionario de que se moje es de 0 veces la probabilidad de lluvia p.
1 p
0 2 1 1-p
1-p p
Sin paraguas Dos paraguasUn paraguas
Figura 6.9: Gráfico de probabilidad de transición para el ejemplo 6.5.
Ejemplo 6.6. Un profesor supersticioso trabaja en un edificio circular con puertas m, donde m es
extraño, y nunca utiliza la misma puerta dos veces seguidas. En su lugar, utiliza con probabilidad p (o
probabilidad 1 á p) la puerta que está adyacente en el sentido de lasagujas del reloj (o en
sentido contrario a las agujas del reloj, respectivamente) hasta la última puerta. ¿Cuál es la
probabilidad de que una puerta dada se utilice en algún día en particular en el futuro?
P
Puerta 1 1 2 Puerta 2
1- P
P 1- P 1- P P
Puerta 5 5 1- P 1- P 3 Puerta 3
P P
4
Puerta 4
Figura 6.10: Gráfico de probabilidad de transición en el ejemplo 6.6, para el caso de m a 5 puertas.
Presentamos una cadena Markov con los siguientes estados m:
Estado i: La última puerta utilizada es la puerta i, i 1,...,m.
El gráfico de probabilidad de transición de la cadena se indica en la Fig. 6.10, para el caso m a 5. La

matriz de probabilidad de transición es
•0 p 0 0 ... 0 1 á pp áp á
1p 0 p 0 ... 0 0
0 1... p 0... p... ... ... 0... 0... .. . . . . . . . . . . . . . . . . . . . . .

............................................
...
•p 00 0 0 ... 1a p 0
Suponiendo que 0 < p < 1, la cadena tiene una sola clase recurrente que es aperiódica. [Para verificar
la aperiodicidad, argumente por contradicción: si la clase fuera periódica, sólo podría haber dos
subconjuntos de estados, de tal manera que las transiciones de un subconjunto conducen al otro, ya
que es posible e para volver al estado inicial en dos transiciones. Por lo tanto, no puede ser posible
alcanzar un estado i desde un estado j tanto en un número impar como en un número par de
transiciones. Sin embargo, si m es extraño, esto es cierto para los estados 1 y m – una contradicción
(por ejemplo, véase el caso en que m 5 en la Fig. 6.10, puertas 1 y 5 se puede alcanzar entre sí en 1
transición y también en 4 transiciones).] Las ecuaciones de equilibrio son
•1o (1 á p)ám, π 2 + p m, i á p áiá1 + (1 á p)ái+1,i á 2,...,m á
1,
ám á (1 á p)á1 + p áma1.
Estas ecuaciones se resuelven fácilmente una vez que observamos que por simetría, todas las puertas
deben tener la misma probabilidad de estado estacionario. Esto sugiere la solución
De hecho, vemos que estos j satisfacen las ecuaciones de equilibrio, así como la ecuación de
normalización, por lo que they debe ser lasprobabilidades de estado estacionario deseadas (por la
parte uniquenes del teorema de convergencia de estado estacionario).
Tenga en cuenta que si se trata de p a 0 o p a 1, la cadena todavía tiene una sola clase
recurrente, pero es periódica. En este caso, las probabilities de transición n-paso rij(n)
noconvergen a un límite, porque las puertas se utilizan en un orden cíclico. De forma similar, si m es
par, la clase recurrente de la cadena es periódica, ya que los estados se pueden agrupar en dos
subconjuntos, los estados pares y los estados numerados impares, de este tipo de cada
subconjunto sólo se puede ir al otrosubconjunto.
Ejemplo 6.7. Una máquina puede estar trabajando o descompuesta en un día determinado. Si está
funcionando, se descomibrará en el día siguiente con probabilidad b, ycontinuará trabajando con
probabilidad 1 a b. Sise descompone en un día dado, se reparará y estará trabajando en el día
siguiente con probabilidad r, y continuará descompuesto con probabilidad 1 r r. ¿Cuál es la
probabilidad de estado estacionario de que la máquina esté trabajando en un día determinado?
Presentamose una cadena Markov con los dos estados siguientes:
Estado 1: La máquina está funcionando,El estado 2: la máquina se descompone.
El gráfico de probabilidad de transición de la cadena se indica en la Fig. 6.11. La matriz de probabilidad

de transición es
.
Esta cadena Markov tiene una sola clase recurrente que es aperiódica (suponiendo 0 < b < 1 y 0 < r <
1), y de las ecuaciones de equilibrio, obtenemos )π π1o (1 x b))á1 + r á2,2 á b á1 + (1 ) rá2,
o 1o 22.
Esta ecuación, junto con la ecuación de π normalización,
probabilidades de estado estacionario
1-B 1 2 1-r
Working r Broken
Figura 6.11: Gráfico de probabilidad de transición para el ejemplo 6.7.

La situación considerada en el ejemplo anterior tiene evidentemente la propiedad
Markov, es decir, el estado de la máquina al día siguiente depende explícitamente sólo de
su estado en la actualidad. Sin embargo, es posible utilizar un modelo de cadena Markov
incluso si hay una dependencia de los estados en varios días pasados. La idea general es
introducir algunos estados adicionales que codifican lo que ha sucedido en períodos
anteriores. Aquí hay una ilustración de esta técnica.
Ejemplo 6.8. Considere una variación del Ejemplo 6.7. Sila máquina permanece rota durante un
número determinado de días, a pesar de los esfuerzos de reparación, es reemplazada por
una nueva máquina de trabajo. Para modelar esto como una cadena Markov, reemplazamos el
estado único 2, correspondiente a una máquina descompuesta, con varios estados que indicate el
número de días que la máquina está rota. Estos estados son
Estado (2,i): La máquina se ha roto durante i días, .
El gráfico de probabilidad de transición se indica en la Fig. 6.12 para el caso en el que Una
vez más esta cadena Markov tiene una sola clase recurrente quet esaperiódica. A partir de las
ecuaciones de equilibrio, tenemos
,
−
Las dos últimas ecuaciones se pueden utilizar para expresar á(2,i) en términos de 11,
Sustituyendo
a la ecuación de
normalización
n.o 1, obtenemos
Usando la ecuación de2,i) á (1 x r)i-1b-1, también podemos obtener fórmulas explícitas para el
valor de la palabra"2,i)). bπ
Trabajando B Roto
1- R 1- R 1- R
1- B 1 2 ,1 2 ,2 2 ,3 2,4
R
R
R
1
Figura 6.12: Gráfico de probabilidad de transición para el ejemplo 6.8. Una máquina que ha
permanecido rota durante 4 días es reemplazada por una nueva máquina de trabajo.
Interpretaciones de frecuencia a largo plazo
Las probabilidades a menudo se interpretan como frecuencias relativas en un stri ng

infinitamente largode ensayos independientes. Las probabilidades de estado estacionario
de una cadena Markov admiten una interpretación similar, a pesar de la ausencia de
independencia.
Consideremos, por ejemplo, una cadena Markov que involucra una máquina, que al
final de cualquier día puede estar en una de las dosestadísticas, trabajando o
descomponeste. Cada vez que se descompone, se repara inmediatamente a un costo de $1.
¿Cómo modelamos el costo esperado a largo plazo de la reparación por día? Una posibilidad
es verlo como el valor esperado del costo de reparación en un día elegido al azar en el
futuro; esto es sólo la probabilidad de estado estacionario del estado desglosado.
Alternativamente, podemos calcular el costo total de reparación esperado en n días, donde
n es muy grande, y dividirlo por n. La intuición sugiere que estos dos métodos de cálculo
deben dar el mismo resultado. La teoría apoya esta intuición, y en general tenemos la
siguiente interpretación de las probabilidades de estado estacionario (se da una justificación
en la sección de problemas teóricos).
Probabilidades de estado estacionario comofrecuencias de estado Expecte d

Para una cadena Markov con una sola clase que es aperiódica, las probabilidades
de estado estacionario satisfy
,
donde vij(n) es el valor esperado del número de visitas al estado j
dentrode las primeras n transiciones, comenzando desde state i.
Sobre la base deesta interpretación,j es la fracción de tiempo esperada a largo plazo
que el estado es igual a j. Cada vez que se visita el estado j, hay probabilidad pjk que la
siguiente transición nos lleva al estado k. Concluimos que eljk de jppuede ser visto como
la fracción esperada a largo plazo de las transiciones que mueven el estado de j a k.
De hecho, algunas declaraciones más fuertes también son ciertas. A saber, cada vez que
llevemos a cabo el experimento probabilístico y generemos una trayectoria de la cadena markov sobre
un horizonte temporal infinito, la frecuencia observada a largo plazo con la que se visita el estado
j será exactamente igual a jj, yla frecuencia observada a largo plazo de las transiciones de j a k será
exactamente igual a jjpjk. Aunque la trayectoria es aleatoria, estas igualdades se mantienen con
certeza, es decir, con probabilidad 1. El significado exacto de esta declaración se hará más evidente en
el siguiente capítulo, cuando discutamos conceptos relacionados con el comportamiento limitante de

los procesos aleatorios.
Frecuencia esperada de unatransición rticular Pa

Considere n transiciones de una cadena Markov con una sola clase que es
aperiódica, a partir de un estado inicial dado. Deje que qjk(n) sea el número
esperado de talestransiciones que toman el estado de j a k. Entonces,
independientemente del estado inicial, tenemos
.
La interpretación de la frecuencia de losjk dej y πjppermite una interpretación

sencilla de las ecuaciones de equilibrio. El estado es igual a j si y sólo si hay una transición
que lleva el estado a j. Por lo tanto, la frecuencia esperada πkp delas visitas a j es igual a
la suma de las frecuencias esperadas delas transiciones que conducen a j,y
;
véase la Fig. 6.13.
1 Π J Pj j
Π1P 1J
2 Π2 P 2J
J
ΠM P Mj
M
Figura 6.13: Interpretación de las ecuaciones de equilibrio en términos de frecuencias. En un gran

número de transiciones, habrá una fracción dekpkj que llevará el estado de k a j. (Esto
también se aplica a las transiciones de j a sí mismo, que se producen con la frecuencia jjpjj.) La suma
de las frecuencias de tales transiciones es la frecuencia deestar en el estado j.
Procesos de nacimiento-muerte
Un proceso de nacimiento-muerte es una cadena Markov en la que los estados están

dispuestos linealmente y las transiciones can sólo ocurren a un estadovecino, o de lo
contrario dejan el estado sin cambios. Surgen en muchos contextos, especialmente en la

teoría de la cola.
La Figura 6.14 muestra la estructura general de un proceso de nacimiento-muerte y también
introduce alguna notación genérica para el transition probabilidades. En particular,
m-2 B m-1
M- 1 M
B0 B
0 1
bi a P(Xn+1 á i + 1o Xn á i), ("nacimiento" probabilidad en el estado
i) ,
di á P(Xn+1 á i á 1o Xn á i), (probabilidad de muerte en el estado i).
1 - b0 1 - b1 - d1 1 - bm-1 - dm-1 1 - dm
b
1
...
d1 d2 dm-1 dm
Figura 6.14: Gráfico de probabilidad de transición para un proceso de muerte por nacimiento.
Para un proceso de muerte de nacimiento, las ecuaciones de equilibrio se pueden

simplificar sustancialmente. Vamos a centrarnos en dos estados vecinos, digamos, i y i+1.
En cualquier trayectoria de la cadena Markov, una transición de i a i+1 tiene que ir seguida
de una transición de i + 1 a i, antes de que pueda producirse otra transición de i a i +

1. Por lo tanto, la frecuencia de las transiciones de i a i + 1, que es πibi, debe ser igual a la
frecuencia de las transiciones de i + 1 a i,que es πi+1di+1. Esto conduce a las ecuaciones de
equilibrio local
ibi á πi+1di+1, i a 0,1,...,m á 1.
Usando las ecuaciones de equilibrio local, obtenemos
Junto con la ecuación de normalización
1, las probabilidades de estado estacionariose calculan fácilmente.
Ejemplo 6.9. (Caminata aleatoria con barreras reflectantes) Una persona camina a lo largo de
una línea recta y, en cada período de tiempo, da un paso a la derecha con probabilidad b,y un
paso a la izquierda con probabilidad 1 a b. La persona comienza en uno de los
• Una derivación más formal que no se base en la interpretación de la frecuencia se realiza de
la siguiente manera. La ecuación de equilibrio en el estado 0 es de0(1 x b0)+ á1d1 a π0, lo que
produce la primera ecuación de balance local , que produce laprimera ecuación de
balance local ,0b0 , π1d1.
La ecuación de equilibrio en el estado 1 es de0b0 + 11(1 x b1 a d1)+ á2d2 a 11. Usando la
ecuación deequilibrio local ,0b0 , π1d π π π1 en el estado anterior, se reescribe como 1d1 + π1(1
x b1 a d1) + á2d2 a 1, lo que simplifica a 1b1 a π2d122. Entonces podemos continuar de manera similar
para obtener los estados de equilibrio local en todos los demás estados.
las posiciones 1,2,...,m,

pero si alcanza laposición 0 (o la posición m+1), su paso se refleja
instantáneamente de nuevo a la posición 1 (o posición m,respectivamente).
Equivalentemente,podemos suponer que cuando la persona está en las posiciones 1 o m. se quedará
en esa posición con la probabilidad correspondiente 1 b y b,respectivamente. Presentamos un
modelo de cadena Markov cuyos estados son las posiciones 1,...,m. El gráfico de probabilidad de
transición de la cadena se indica en la Fig. 6.15.
b bb b b
1-B
1 2 ... M- 1 M
b
1-b 1- b 1- b 1- b
Figura 6.15: Gráfico de probabilidad de transición para el paseo aleatorio Ejemplo 6.9.
Las ecuaciones de equilibrio local son
ib á πi+1(1 x b), i á 1,...,m á 1.
Por πlo tanto,i+1 á ρπi, donde
,
y podemos expresar todos los áj en términos de π1, como
iá i áiá1x1, i a 1,...,m.
Usando la ecuación de normalización 1 -1 + + á ,mobtenemos
1 a ρ1o(1 + + + + á + áma1)
lo que lleva a
Tenga en cuenta que si es el número 1, entonces i á 1/m para todos los i.
Ejemplo 6.10. (Cadenas Markov Nacimiento-Muerte – Colas) Los paquetes llegan a un nodo de una
red de comunicación, donde se almacenan en un búfer y luego se transmiten. La capacidad de
almacenamiento del buffer es m:si los paquetes m ya están presentes,se descartan los
paquetes que llegan de forma newly. Discretizamos el tiempo en períodos muy pequeños, y
suponemos que en cada período, a lo sumo puede ocurrir un evento que puede cambiar el número de
paquetes almacenados en el nodo (una llegada de un nuevo paquete o una finalización de lamisión
transde un paquete existente). En particular, suponemos que en cada período se produce
exactamente una de las siguientes situaciones:
(a) llega un nuevo paquete; esto sucede con una probabilidad dada b > 0;
(b) un paquete existente completa la transmisión; esto sucede con una probabilidad dada d > 0 si
hay al menos un paquete en el nodo, y con la probabilidad 0 de lo contrario;
(c) no llega ningún paquete nuevo y ningún paquete existente completa la transmisión;
thishappens con una probabilidad de 1 abad si hay al menos un paquete en el nodo, y
con la probabilidad 1 a b de lo contrario.
Introducimos una cadena Markov con los estados 0,1,...,m, correspondiente al número de
paquetes en el buffer. El gráfico de probabilidad de transición se indica en la Fig. 6.16.
Las ecuaciones de equilibrio local son
ib á πi+1d, i a 0,1,...,m a 1.
Definimos
ρy obtener ii+1 á ρπi, lo queconduce a i á iá i0 para todos los i. Mediante el uso de la normalization
ecuación 1 -0 + 1 + + á +m,se obtiene
1 á0(1 + + + + ám),
Y
si es 1, si
es el número 1.
Las probabilidades de estado estacionario son dadas por
1, i a
0,1,...,m. N.o 1,
1-b 1-b-d 1-b-d 1- d

B B B B
0 1 ... M- 1 M
d d d d
Figura 6.16: Gráfico de probabilidad de transición en el ejemplo 6.10.

Sec. 6.4 Probabilidades de absorción y tiempo de absorción esperado 31
Es interesante considerar lo que sucede cuando el tamaño del búfer m es tan grande
que se puede considerar como prácticamente infinito. Distinguimos dos casos.
(a) Supongamos que b < d, o < 1. En este caso, las llegadas de nuevos paquetes son
menos probables que las salidas de paquetes existentes. Esto evita que el número de
paquetes en el buffer crezca, y las probabilidades de estado estacionario i
disminuyen con i. Observamos que, como ρ m, tenemos 1 a m+1 x 1, y
i á ρi(1 á),para todos los i.
Podemos ver estas como las probabilidades de estado estacionario en un sistema con
un búfer infinito. [Como un cheque, note que tenemos
(b) Supongamos que b > d, o .> 1. En este caso, las llegadas de nuevos paquetes son
más probables que las salidas de paquetes existentes. El número de paquetes en el
buffer tiende a aumentar, y las probabilidades de estado estacionarioi aumentan
con i. Como consideramos tamaños de búfer más grandes y más grandes m, la
probabilidad de estado estacionario de cualquier estado fijo i disminuye a cero:
i á 0,para todos los i.
Si considerábamos un sistema con un búfer infinito, tendríamos una cadena Markov

con un número totalmente infinito de estados. Aunque no tenemos la maquinaria
para evitartales cadenas, el cálculo anterior sugiere que cada estado tendrá cero
probabilidad de estado estacionario y será "transitorio". El número de paquetes en
la cola crecerá generalmente hasta el infinito, y cualquier estado en particular será
visitado solamente un número finitode veces.
6.4 PROBABILIDADES DE ABSORCIÓN Y TIEMPO ESPERADO DE ABSORCIÓN

En esta sección, estudiamos el comportamiento a corto plazo de las cadenas Markov.
Primero consideramos el caso en el que la cadena Markov comienza en un estado
transitorio. Estamos interesados en el primer estado recurrente que se debe
introducir, así como en el tiempo hasta que esto suceda.
Al centrarse en tales preguntas, el comportamiento posterior de la cadena
Markov (después de que se encuentre un estado recurrente) es irrelevante. Por lo
tanto, podemos suponer, sin pérdida de generalidad, que cada estado recurrente k
es absorbente,es decir,
pkk a 1, pkj a 0 para todos
Si hay un estado absorbente único k, su probabilidad de estado estacionario es 1

(porque todos los demás estados son transitorios y tienen cero probabilidad de estado
estacionario), y se alcanzará con probabilidad 1, comenzando desde cualquier estado
inicial. Si hay variosestados absorbing, la probabilidad de que uno de ellos sea
finalmente alcanzado es 1, pero la identidad del estado absorbente que se va a
introducir es aleatoria y las probabilidades asociadas pueden depender del estado
inicial. En la secuela, fijamos unestado de absorbing particular, denotado por s,y
consideramos la probabilidad de absorción ai que s finalmente se alcanza, a partir
de i: ai - P(Xn finalmente se convierte en igual al estado de absorción s. X0 á i).
Las probabilidades de absorción se pueden obtener resolviendo un sistema de ecuaciones

lineales, como se indica a continuación.
Ecuaciones de probabilidad de absorción

Considere una cadena Markov en la que cada estado sea transitorio o
absorbente. Fijamos un estado absorbente particular s. Entonces, las
probabilidades ai de llegar finalmente al estado s, apartir de i, sonla solución
única de las ecuaciones
as 1, ai a 0,para la absorción de
all
M
,para todos los transitorios i.
Las ecuaciones as 1, y uni - 0, para todos los absorbentes , son evidentes a

partir de las definiciones. Para verificar las ecuaciones restantes, argumentamos de la
siguiente manera. Consideremos un estado transitorio i y dejemos que A sea el evento
en el que finalmente se alcanza el estado s. Tenemos
(probabilidad total thm.)

La propiedad de unicidad de la solución de las ecuaciones de probabilidad de absorción
requiere un argumento separado, que se da en la sección de problemas teóricos.
En el ejemplo siguiente se muestra cómo podemos usar el método anterior para

calcular la probabilidad de introducir una clase recurrente determinada (en lugar de un
estado de absorción determinado).
Ejemplo 6.11. Considere la cadena Markov que se muestra en la Fig. 6.17(a). Nos gustaría calcular
la probabilidad de que el estado finalmente entre en la clase recurrente 4,5 a partir deede los
estadostransitorios. A los efectos de este problema, las posibles transiciones dentro de la clase
recurrente 4,5 son inmateriales. Por lo tanto, podemos aglutinar los estados de esta clase
recurrente y tratarlos como un solo estado absorbente (llámelo estado 6); se eFig. 6.17(b). A
continuación, basta con calcular la probabilidad de entrar finalmente en el estado 6 en esta nueva
cadena.
0.5
0.3
0.4 0.3 0.7
1 1 2 3 4 5
0.2 0.3
0.2 1
(O)
n 0.1
0.3
0.4
1 1 2 3 6 1
0.2 0.8
0.2
(B)
0.1
Figura 6.17: (a) Gráfico de probabilidad de transición en el ejemplo 6.11. (b) Un nuevo gráfico en el
que los estados 4 y 5 se han amontonado en el estado absorbente s. 6.
Las probabilidades de absorción unai de alcanzar finalmente el estado s 6 a partir del estado
i, satisfacerlos siguientesiones iguales:
a2 x 0. 2a1 + 0. 3a2 + 0. 4a3 + 0. 1a6, a3 x 0. 2a2 +

0. 8a6.
Usando los hechos un1 x 0 y un6 x 1, obtenemos

a2 x 0. 3a2 + 0. 4a3 + 0. 1, a3 x 0. 2a2 +
0. 8.
Este es un sistema de dos ecuaciones en las dos incógnitas a2 y a3,que se pueden

resolverfácilmente para producir un2 x 21/31 y un3 x 29/31.
Ejemplo 6.12. (Ruina del jugador) Un jugador gana $1 en cada ronda, con probabilidad p, y pierde $1,
con probabilidad de 1 p p. Lasrondas de alquiler de Diffese asumen independientes. El jugador
juega continuamente hasta que acumula una cantidad objetivo de $m,o pierde todo sudinero.
¿Cuál es la probabilidad de eventualmente acumular la cantidad objetivo (ganar) o de perder su
fortuna?
Presentamos la cadena Markov que se muestra en la Fig. 6.18 cuyo estado representa la riqueza
del jugador al comienzo de una ronda. Los estados i s 0 e i á m corresponden a la pérdida y
la victoria, respectivamente.
Todos los estados son transitorios, excepto los estados ganadores y losing que son absorbentes.
Por lo tanto, el problema equivale a encontrar las probabilidades de absorción en cada uno de estos
dos estados absorbentes. Por supuesto, estas probabilidades de absorción dependen del estado inicial
i.
p p
P
0 1 2 3 4
1-P
Perder 1- p 1- p Ganar
Figura 6.18: Gráfico de probabilidad de transición para el problema de la ruina del jugador (Ejemplo
6.12). Aquí m 4.
Vamos a establecer s 0 en cuyo caso la probabilidad de absorción ai es la probabilidad de

perder, a partir del estado i. Estas probabilidades satisfacen
a0 a 1,ai á (1 á p)aiá1 + pai+1,i a 1,...,m a 1,am a 0.
Estas ecuaciones se pueden resolver de diversas maneras. Resulta que hay un método elegante que
conduce a una solución de forma de sed cloagradable. Vamos a escribir las ecuaciones para la ai como
a(1 á p)(aix1 á i) p(ai a i+1), i a 1,...,m a 1.
Entonces, al denotando
i a ai a ii +1, i á 1,...,m 1 ,
,
las ecuaciones se escriben como
iá i ρδáiá1, i a 1,...,m 1 ,
de la que obtenemos
i á i á0δ0, i a 1,...,m a 1.
Esto, junto con la ecuación δ0 + a 1 + á + ám,1 a 0 , am , 1, implica que
(1 + + + á + ámá1) 0 x 1.
Por lo tanto, hemos
N.o 1,
N.o 1,
N.o 1,
A partir de esta relación, podemos calcular las probabilidades 1, tenemos
y finalmente la probabilidad de perder, a partir de una fortuna i, es

Si es el número 1, obtenemos de manera similar
La probabilidad de ganar, a partir de una fortuna i, es el complemento 1 aai, y es iguala
N.o 1,
La solución revela que si es > 1, que corresponde a p < 1/2 y las cuotas desfavorables para el
jugador, la probabilidad de perder se acerca a 1 como m - regardless del tamaño de la fortuna inicial.
Esto sugiere que si usted apunta a un gran beneficio bajo cuotas desfavorables, la ruina financiera es
casi segura.
Tiempo esperado para la absorción
Ahora nos dirigimos nuestra atención al número esperado de pasos hasta que se introduce
un estado recurrente (un evento al que nos referimos como "absorción"), a partir de un
estado transitorio particular. Para cualquier estado i, denotamos
número de transiciones hasta la absorción, starting from i
es recurrente. .
Si i es recurrente, esta definición establece i en cero.

Podemos derivar ecuaciones para el i usando el teorema de expectativa total.
Argumentamos que el tiempo de absorción a partir de un estado transitorio i es igual a 1
más el tiempo expected a la absorción a partir del siguiente estado, que es j con
probabilidad pij. Esto conduce a un sistema de ecuaciones lineales que se indica a
continuación. Resulta que estas ecuaciones tienen una solución única, pero el argumento
para establecer este hecho es beyond nuestro alcance.
Ecuaciones para el tiempo esperado de absorción

Los tiempos esperadosi a la absorción, a partir del estado i son la solución única
de las ecuaciones
i x 0,para todos los estados recurrentes i,

M
,para todos los estados transitorios i.
Ejemplo 6.13. (Arañas y mosca) Considere el modelo de arañas y moscas del Ejemplo 6.2. Esto
corresponde a la cadena Markov que se muestra en la Fig. 6.19. Los estados corresponden a
posibles posiciones de mosca, y los estados absorbentes 1 y m corresponden a la captura
por una araña.
Vamos a calcular el número esperado de pasos hasta que se captura la mosca. Tenemos
1 á m a 0,
y µi á 1 + 0. 3 ? i ái1 + 0. 4 ? i + 0. 3 ? ii+1, para i a 2,...,m a 1.
Podemos resolver estas ecuaciones de diversas maneras, como por ejemplo por sustitución
sucesiva. Como ilustración, deje que m 4, en cuyo caso, las ecuaciones se reducen a
2 x 1 + 0. 4 ? 2 + 0. 3 ? 3,3 a1 + 0. 3 ? 2 + 0. 4 ? 33.
La primera ecuación produce µ2o (1/0. 6) + (1/2)33,que podemos sustituir en la segunda ecuación
y resolver por 33. Se obtienen denuevo los3o 10/3 y, por sustitución, denuevo,de 2 a 10/3. /
0.4 0.4 0.4 0.4

0.3 0.3 0.3 0.3
0.3
1 1
0.3
2 3 ... M- 2 M- 1 M 1
0.3 0.3 0.3
Mean First Passage Times
La misma idea utilizada para calcular el tiempo esperado de absorción se puede utilizar para
calcular el tiempo esperado para alcanzar un estado recurrente determinado, a partir de
cualquier otro estado. A lo largo de esta subsección, consideramos una cadena Markov con
una sola clase recurrente. Nos centramos en un estado recurrente especial s,y denotamos
por ti el tiempo medio de primer paso del estado i al estado s,definido por el número
de transiciones para alcanzar s por primera vez, a partir de i
.
Las transiciones fuera del estado son irrelevantes para el cálculo de los tiempos
medios del primer pasaje. Por lo tanto, podemos considerar una nueva cadena de Markov
que es idéntica a la original, excepto que el estado especial s se convierte en un estado
absorbente (estableciendo pss s 1, y psj ass 0 para todos). A continuación, calculamos
ti como el número esperado de pasos para la absorción a partir de i, utilizando las
fórmulas dadas anteriormente en esta sección. Tenemos
, para todos
Este sistema de ecuaciones lineales se puede resolver para las incógnitas ti,y se sabe que
tiene una solución única.
Las ecuaciones anteriores dan el tiempo esperado para alcanzar el estado especial s a
partir de cualquier otro estado. También es posible que deseemos calcular el tiempo medio
de recurrencia del estado especial s, que sedefine como ts á E[número de transitions
hasta el primer retorno a s, a partir de s]
.
,
Podemos obtener t una vezque tenemos los primeros pasos veces ti, mediante el usodela
ecuación
.
Para justificar esta ecuación, argumentamos que el tiempo para volver a s, a partir de s, es
iguala 1 más el tiempo esperado para llegar a s desde el siguiente estado, que es j con
probabilidad psj. A continuación, aplicamos el teorema de expectativa total.
Ejemplo 6.14. Considere el modelo "actualizado"–"detrás" del Ejemplo 6.1. Los Estados 1 y 2
corresponden a estar al día y estar atrasados, respectivamente, y las probabilidades de transición
son
p11 a 0. 8, p12 a 0. 2,
p21 a 0. 6, p22 a 0. 4.
Vamos a centrarnos en el estado s 1 y calcular el tiempo medio de primer pasaje al estado 1,
comenzando desde el estado 2. Tenemos t1 x 0 y
t2 x 1 + p21t1 + p22t2 x 1 + 0. 4 ? t2,
de la que
.
El tiempo medio de recurrencia para el estado 1 es dado por
Resumen de los hechos sobre los tiempos de primer pasaje medio

Considere una cadena Markov con una sola clase recurrente, y deje s ser un
estado recurrente en particular.
• La media del primer pasaje veces ti para llegar al estado s a partir de i,
sonla solución única al sistema de equations
, para todos
• El tiempo medio de recurrencia∗ del estado es dado por
.
6.5 CADENAS MARKOV MÁS GENERALES
El modelo de cadena Markov de tiempo discreto y estado finito que hemos considerado
hasta ahora es el ejemplo más simple de un proceso Markov importante. En esta
sección, analizamos brevemente algunas generalizaciones que implican un número
totalmente infinito de estados o un tiempo continuo, o ambos. Un desarrollo teórico
detallado para este tipo de modelos está fuera de nuestro alcance, por lo que
simplemente discutimos sus principales ideas subyacentes, basándose principalmente
en ejemplos.
Cadenas con un número totalmente infinito de estados
Considere una Markov process xX1,X2,... • cuyo estado puede tomar cualquier valor
entero positivo. Las probabilidades de transición
pij á P(Xn+1 á j | Xn á i), i,j á 1,2,...
se dan, y se pueden utilizar para representar el proceso con un gráfico de probabilidad

de transición que tiene un número infinito de nodos, correspondiente a los enteros
1,2,...
Es sencillo verificar, utilizando el teorema de probabilidad total de una manera
similar a como en la Sección 6.1, que las probabilidades de transición n-paso
rij(n)á P(Xn á j - j | X0 á i), i,j a 1,2,...
satisfacer las ecuaciones Chapman-Kolmogorov
Además, si el rij(n) converge a valores deestado estacionario, πj como n, a
continuación, tomando el límite en el aumento anterior,obtenemos
Estas son las ecuaciones de equilibrio para una cadena Markov con los estados 1,2,...
Es importante tener condiciones que garanticen que → ∞ el rij(n) de
hechoconverjan a valores de estado estacionario ,j como n ,. Como podemos esperar
Sec. 6.5 Más Cadenas General Markov 41
del caso de estado finito, tales condiciones deben incluir algún análogo del requisito de
que hay una sola clase recurrente que es aperiódica. De hecho, requerimos que:
(a) cada estado es accesible desde cualquier otro estado;
(b) el conjunto de todos los estados es aperiódico en el sentido de que no hay d > 1
de modo que los estados se pueden agrupar en d > 1 subconjuntos desarticulados
S1,...,Sd para que todas las transiciones de un subconjunto conduzcan al siguiente
subconjunto.
Estas condiciones son suficientes para garantizar la convergencia a un estado estable
lim rij(n)á πj, i,j á 1,2,...

n
.
pero algo peculiar también puede suceder aquí, que no es posible si el número de estados es
finito: los límites πj no pueden añadir a 1, de modo que (11,2,... ) puede no ser una
distribución de probabilidad. De hecho, podemos probar el siguiente teorema (la prueba está
fuera de nuestro alcance).
Teorema de convergencia de Estado estable
Bajo los supuestos de accesibilidad y aperioidad anteriores (a) y b), sólo hay dos
posibilidades:
(1) El rij(n)convergen a una distribución de probabilidad de estado estacionario
(s1,22,... ). En este caso, la j resuelve de forma única las ecuaciones de
equilibrio junto con la ecuación de π normalización, 1 + 2 + 1 . Además,
la j tiene una interpretación de frecuencia esperada:
donde vij(n) es el número esperado de visitas alestado j dentro de las

primeras n transiciones, starting from state i.
(2) Todas las ecuaciones rij(n)convergen a 0 como n á y las ecuaciones de
equilibrio no tienen solución, excepto πj a 0 para todos los j.
Para un ejemplo de posibilidad (2) anterior, considere el sistema de colocación en cola
de paquetes del ejemplo 6.10 para el caso donde la probabilidad b de una llegada de paquetes
en cada período es mayor que la probabilidad d de una salida. Entonces, como vimos en ese
ejemplo, a medida queaumenta el tamaño m de buffer, el tamaño de la cola tenderá a
aumentar sin límite, y la probabilidad de estado estacionario de cualquier estado tenderá a 0
como m. En efecto, con el espacio de búfer infinito, el sistema es "inestable" cuando b > d,
y todos los estados son"transient."
Una consecuencia importante del teorema de convergencia de estado estacionario es

que si podemos encontrar una distribución de probabilidad(11,2,... ) que resuelve las
ecuaciones de equilibrio, entonces podemos estar seguros de que es la distribución de estado
estacionario. Esta línea de argumento esmuy útil en sistemas de cola como se muestra
en los dos ejemplossiguientes.
Ejemplo 6.15. (Colas con espacio de búfer infinito) Considere, como en el ejemplo 6.10, un nodo de
comunicación, donde los paquetes llegan y se salvan en un buffer antes de conseguir transmitido.
Suponemos que el nodo puede almacenar un número infinito de paquetes. Discretizamos el tiempo
en períodos muy pequeños, y suponemos que en cada período ocurre uno de los siguientes:
(a) llega un nuevo paquete; esto sucede con una probabilidad dada b > 0;
(b) un paquete existente completa la transmisión; esto sucede con una probabilidad dada d > 0 si
hay por lo menos un paquete en el nodo, y con probability 0 de lo contrario;
(c) no llega ningún paquete nuevo y ningún paquete existente completa la transmisión; thishappens
con una probabilidad de 1 abad si hay al menos un paquete en el nodo, y con la
probabilidad 1 a b de lo contrario.
1-b 1-b-d 1-b-d 1-b-d
B B B B B
0 1 ... M- 1 M
...
d d d d d
Presentamos una cadena Markov con estados son 0,1,... , correspondiente al número de
paquetes en el búfer. El gráfico de probabilidad de transición se indica en la Fig. 6.20. Al igual que en el
caso de un número finito de estados, las ecuaciones de equilibrio local son iib á πi+1d, i a 0,1,...,
y obtenemos ii+1 ái,donde á b/d. Noshan hecho ,tenemos el valor de ρii á i0 para todos los i. Si
es de < 1, la ecuación de normalización 1
,
en cuyo caso son ρ las probabilidadesde estado estacionario, y las probabilidades de estado
estacionario
i á i ρ), i(1 á ) , i á 0,1,... ρ
ρiEn el caso de la opción 1, que corresponde al caso en el que la probabilidad de llegada b no es
inferior a la probabilidad de salida d,la ecuación de normalización 1 a0(1+++2+2+ ) implica que el
valor de0 a 0, y también la πi, i,i, 0, 0, para todas las i.
Ejemplo 6.16. (La cola M/G/1) Queue) Los paquetes llegan a un nodo de una red de comunicación,
donde se almacenan en un búfer de capacidad infinita y, a continuación, se transmiten uno a la vez. El
proceso de llegada de los paquetes es Poissson con la velocidad λ, y el tiempo de transmisión de
un paquete tiene un CDFdado. Además, los tiempos de transmisión de diferentes paquetes son
independientes y también son independientes de todos los tiempos interarrivales del proceso de
llegada.
Este sistema de cola se conoce como el sistema M/G/1. Con los cambios en la terminología, se
aplica al hombrey a diferentescontextos prácticos en los que se presta "servicio" a los "clientes que
llegan", como en la comunicación, el transporte y la fabricación, entre otros. El nombre M/G/1 es un
ejemplo de terminología abreviada de la teoría de la cola, por la que el primer let ter(M en este caso)
caracteriza el proceso de llegada del cliente (Poisson en este caso), la segunda letra (G en este caso)
caracteriza la distribución del tiempo de servicio de la cola (general en este caso), y el número (1 en este
caso) caracteriza el número de clientes que se pueden servir simultáneamente.
Para modelar este sistema como una cadena Markov discreta, nos centramos en el tiempo
instantáneo cuando un paquete completa la transmisión y se aparta del sistema. Denotamos por Xn el
número de paquetes en el system justo después de la salida del cliente nth. Tenemos
0,
0,
donde Sn es el número de llegadas de paquetes durante latransmisión del paquete(n+1)st. En

vista de la suposición de Poisson, las variables aleatorias S1,S2,... son independientes y su PMF se puede
latarutilizando el CDF dado del tiempo de transmisión, y el hecho de que en un intervalo de longitud r,
el número dellegadas de paquetes es Poissondistributed con el parámetro . En particular, denoremos
k á P(Sn á k), k á 0,1,...,

y supongamos que si el tiempo detransmisión R de un paquete es una variable aleatoria

discreta tomando los valores r1,...,rm con probabilidades p1,...,pm. Entonces, tenemos para todos
los k 0,
mientras que si R es una variable aleatoria continua con PDF fR(r),tenemos para todos k a 0,
Las probabilidadesk definen a su vez las probabilidades de transición de la cadena markov aXn,de la
siguiente manera (véase la Fig. 6.21):
De lo contrario, 0 y j >
0, y j á − i-1.
Claramente, esta cadena Markov satisface las condiciones de accesibilidad y aperioidad que
garantizanla convergencia de estado estacionario. Hay dos posibilidades: o bien (s0, 11,... ) forman una
distribución de probabilidad, o de lo contrario πj > 0 para todos los j. Aclararemos
Α3
Α2 Α3
Α0 Α1 Α1 Α1
Α1 Α2 Α2
0 1 2 3 ...
Α0 Α0 Α0
Figura 6.21: Gráfico de probabilidad de transición para el número de paquetes dejados atrás por un
paquete que completa la transmisión en la cola M/G/1 (ejemplo
6.16).
las condiciones en las que se mantiene cada uno de estos casos, y también calcularemos la
transformación M(s) (cuando exista) ola distribución de estadoestacionario (s0, 11,... ):
Para este propósito, vamos a utilizar la transformación de la PMF-k- :
.
De hecho, multipliquemos las ecuaciones de equilibrio
con esj y añadir sobre todo j. Obtenemos
.
Para calcular el valor de0, tomamos el límite como s - 0 en la fórmula anterior, y usamos el hecho
M(0) - 1 cuando el valorπdelavariable de probabilidad es el valor de laclase. Obtenemos,

usando el hecho de
A(0) 1 y la regla de L'Hospital,
,
donde E es el valor esperado del número N de llegadas de paquetes dentro del
tiempo de transmisión de un paquete. Usando la fórmula de expectativas iteradas, hemos
E[N] á EE[R],
donde E[R] es el valor esperado del tiempo detransmisión. Por lo tanto,
•0 a 1o EE[R],
y la transformación de la distribución de estadoestacionariojes
.
Para que el cálculo anterior sea correcto, debemos tener E[N] < 1, es decir, los paquetes deben
llegar a una velocidad que sea menor que la velocidad de transmisión del nodo. Si esto no es cierto,
el sistema es not"estable" y no hay una distribución de estado estacionario, es decir, la única

solución de las ecuaciones de equilibrio es áj - 0 para todos los j.
Tengamos finalmente en cuenta que hemos introducido el j como la probabilidad de estado
estacionario que los paquetes j se dejan atrás en el sistema por un paquete al completar la
transmisión. Sin embargo, resulta que elj también es igual a la probabilidad de estado
estacionario de los paquetes j encontrados en el sistema por un observador que mira el sistema
en un momento "típico" en el futuro. Esto se discute en losproblemaseoreticales, pero para
hacerse una idea de la razón subyacente, tenga en cuenta que cada vez que el número de paquetes
en el sistema aumenta de n a n + 1 debido a una llegada, habrá una disminución futura
correspondiente de n + 1 a n debido a una salida. Efore,a largo plazo, la frecuencia de las
transiciones de n a n + 1 es igual a la frecuencia de transiciones de n + 1 a n. Por lo tanto, en
estado estacionario, el sistema aparece estadísticamente idéntico a un que llega y a un paquete que
sale. Ahora, porque los tiempos de interarrival del paquete son independientes y distribuidos
exponencialmente, los tiempos de las llegadas de paquetes son "típicos" y no dependen del número
de paquetes en el sistema. Con un poco de cuidado este argumento se puede hacer preciso, y
muestra que en los momentos en quen paquetes completan sus transmisiones y se van, el sistema
se "normalmente cargado."
Cadenas Markov de tiempo continuo
Hemos asumido implícitamente hasta ahora que las transiciones entre estados toman tiempo
unitario. Cuando el tiempo entre transiciones toma valores de un rango continuo, surgen
algunas preguntas nuevas. Por ejemplo, ¿cuál es la proporción de tiempo que el sistema pasa
en un estado determinado (a diferencia de la frecuencia de las visitas al estado)?
Que los estados se denota por 1,2,... , y supongamos que las transiciones de estado se
producen en momentos discretos, pero el tiempo de una transición a la siguiente es aleatorio.
En particular, aboumimosque:
(a) Si el estado actual es i, el siguiente estado será j con una probabilidad dada pij.
(b) El intervalo de tiempo i entre la transición al estado i y la transición al siguiente estado
se distribuye exponencialmente con un parámetro νdado::
νδ
i . P(i- - estado actual es i)- 1 á .
Además, es independientede los tiempos y estados de transición anteriores.

El νparámetroi se conoce como la tasa de transición asociada con el estado
i. Dado que el tiempo de transición previsto es
E ,
podemos νinterpretari como el número promedio de transiciones por unidad de tiempo.

También podemos ver
qij á pijii
como la velocidad a la que el proceso hace una transición a j cuando en el estado i. Por lo
tanto, llamamos qij la tasa de transición de i a j. Tenga en cuenta que dadas las tasas de
transición qij, se pueden obtener las tasas de transición de nodo utilizando la fórmula
.
El estado de la chain en el momento t 0 se indica por X(t), y permanece constante
entretransiciones. Recordemos la propiedad sin memoria de la distribución exponencial, que
en nuestro contexto implica que, para cualquier tiempo t entre la transición kth y (k + 1)st
veces tk y tk+1, el tiempoadicional tk+1 t necesario para realizar la siguiente transición es
independiente del tiempo t a tk de que el sistema ha estado en el estado actual. Esto
implica el carácter markov del proceso,
es decir, que en cualquier momento t, el futuro del proceso, [las variables aleatorias X(t)para
t > t] dependen del pasado del proceso[los valores de las variables aleatorias X(t)
para t á t] sólo a través del valor actualde X(t).
Ejemplo 6.17. (La cola M/M/1) Los paquetes llegan a un nodo de una red de comunicación de
acuerdo con un proceso de Poissson con la velocidad λ. Los paquetes se salvan en un búfer de
capacidad infinita y luego se transmiten uno a la vez. El tiempo de transmisión de un paquete se
distribuye exponencialmente conel parámetro ,ylos tiempos de transmisión de los diferentes
paquetes son independientes y también son independientes de todos los tiempos interarrivales
del proceso de llegada. Por lo tanto, este sistema de colocación en cola es idéntico al caso
especial del sistema M/G/1, donde lostiempos de transmisión se distribuyen exponencialmente
(esto se indica mediante la segunda M en el nombre M/M/1).
Modelaremos este sistema utilizando un proceso de tiempo continuo con el estado X(t) igual
al número depaquetes en el sistema en el momento t [si X(t) > 0, luego X(t) -1 paquetes
están esperando en la cola y un paquete está bajo transmisión]. El estado aumenta en uno cuando
un nuevo paquete llega y disminuye en uno cuando un paquete existente sale. Para demostrar que
este proceso es una cadena Markov de tiempo continuo, vamos a identificar las tasas de transición
νi y qij en cada estado i.
Considere primero el caso en el que en algún momento t, el sistema se vacía, es decir, el

estado se convierte en igual a 0. A continuación, la siguiente transición se producirá en la próxima
llegada, lo que ocurrirá a tiempo que se distribuya exponentementecon el parámetro . Por lo tanto,
en el estado 0, tenemos las tasas de transición 1,
0
0 de lo contrario.
Considere a continuación el caso de un estado positivo i, y supongamos que una transición oc-
curs en algún momento t a X(t)- i. Si la siguiente transición se produce en el momento t+ii, entonces
éi es el mínimo de dos variables aleatorias distribuidas exponencialmente: la hora a la siguiente
llegada, llámela Y, que tiene el parámetro ,y la hora a lasiguiente salida, llámela Z, que
tieneel parámetro . (W e están utilizando de nuevo aquí la propiedad sin memoria de la
distribución exponencial.) Por lo tanto, de acuerdo con el Ejemplo 5.15, que se ocupa de los
"exponenciales de la competencia", el tiempo se distribuye exponencialmente con νel
parámetroi . µ Además, la probabilidad de quela siguientetransición corresponda a una
llegada es
P
Por lo tanto, tenemos para . Del mismo
modo, obtenemos que la probabilidad de que la siguiente transición corresponda a una salida es
de /() µy tenemos . Así,
Si
j
á i + 1, qij 1,
Las tasas de transición positivas qij se registran junto a los arcos (i,j) del diagrama de transición,
como en la Fig. 6.22.
Nos interesarán las cadenas para las que la cadena Markov en tiempos discretos
correspondiente a las probabilidades de transición pij satisfaga la accesibilidad y
á áá á. . . . .. . . . . . . . . . . . . . . . . . . . . . .
0 1 ... M- 1 M
...
µ µ µ µ µ
Figura 6.22: Gráfico de transición para la cola M/M/1 (ejemplo 6.17).
aperiodicidad de la sección anterior. También requerimos una condición técnica, a saber, que
el número de transiciones en cualquier período de tiempo finito es finito con probabilidad
uno. Casi todos los modelos de uso práctico cumplen esta condición, aunque es posible
construir ejemplos que no lo hacen.
En las condiciones anteriores, se puede demostrar que el límite
existe y es independiente del estado inicial i. Nos referimos a j como la probabilidad de

estado estacionario del estado j. Se puede mostrar que si Tj(t)is el valor esperado del tiempo
pasado en el estado j hasta el tiempo t,entonces, independientemente del estado inicial,
hemos
es decir, j se puede ver como la proporción a largo plazo de tiempo que el proceso pasa en
el estado j.
Las ecuaciones de equilibrio para una cadena Markov de tiempo continuo toman la forma
Al igual que las cadenas Markov en tiempos discretos, se puede demostrar que hay dos
posibilidades:
(1) Las probabilidades de estado de tial de la esteason todas positivas y resuelven de forma
única las ecuaciones de equilibrio junto con la ecuación de normalización de1 +π2 + 1. (2)
Las probabilidades de estado estacionario son todas cero.
Para interpretar las ecuaciones de equilibrio, observamos que dado que i es laporción
pro del tiempo que el proceso pasa en elestado i, de ello se deduceque πiqij se puede
ver como frecuencia de transiciones de i a j (número esperado de transiciones de i a j por
tiempo de unidad). Por lo tanto, se ve que las ecuaciones de equilibrio expresan el hecho
intuitivo de que la frecuencia de las transiciones fuera del estado j (el término del lado
izquierdo
) es igual a la frecuencia de las transiciones al iestado j (el

término del lado derechoiá0 iqij).
Elanálogo de tiempo co ntinuo de las ecuaciones de equilibrio local para cadenas de
tiempo discreto es jjqji á πiqij, i,j á 1,2,...
Estas ecuaciones se mantienen en los sistemas de muerte de nacimiento donde qij á 0 para
i a j á j| > 1, pero no es necesario mantener en otros tipos de cadenas Markov. Expresan
el hecho de que las frecuencias de las transiciones de i a j y de j a i son iguales.
Para entender la relación entre las ecuaciones de equilibrio para las cadenas de tiempo
continuo y las ecuaciones de equilibrio para cadenas de tiempo discreto, considere cualquier
> 0, y la cadena de Markov en tiempos discretos .Z | n a 0o, donde
Zn á X(nnδ), n á 0,1,...
La distribución del estado estacionario de la unidad de estado de la unidad de estado de la
unidad de estado de la unidad de estado de laciudadnes claramentedela palabra"j" | j a 0o,
la distribución en estado estacionario de la cadena continua. Las probabilidades de

transición de laZn | n - 0o se puede derivar utilizando las propiedades de la distribución
exponencial. Obtenemos
Usando estas expresiones, las ecuaciones de equilibrio
para la cadena de tiempo discreto,n}, we obtain
Tomando el límite como 0, obtenemos las ecuaciones de equilibrio para la cadena de tiempo
continuo.
Ejemplo 6.18. (La cola M/M/1 – Continuación) Como en el caso de un número finito de estados, las
ecuaciones de equilibrio local son
iá i πi+1o,µ, i a 0,1,...,
y obtenemos el valor dei +1ái, donde se encuentra el valor de " i +1". Por lo tanto, tenemos
el valor de ρi i á i0 para todos los i. Si es de < 1, la ecuación de normalización 1
en cuyo caso son ρ las probabilidadesde estado estacionario, y las probabilidades de estado
estacionario
i á i ρ), i(1 á ) , i á 0,1,... ρ

En el caso de la ρopción 1, que corresponde al caso en el que la probabilidad de llegada b no es
inferior a la probabilidad de salida d, la ecuación de normalización 1 a0(1+++π π22+)implica que el
valor de0 a 0, y también el valor dei, i,i0, 0, para todas las i.
Ejemplo 6.19. (Las colas M/M/m y M/M/-) Queues) El sistema de colocación en cola M/M/m es
idéntico al sistema M/M/1 excepto que los paquetes m se pueden transmitir simultáneamente
(es decir, la línea de transmisión del node tiene canalesde transmisión m). Un paquete en la
cabeza de la cola se rutea a cualquier canal que esté disponible. El diagrama de transición de estado
correspondiente se muestra en la Fig. 6.24.
á .. . λ. . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .
0 1 ... M- 1 M M+1
...
mµmµm2o (m - 1) m ám á m á m á má m
Figura 6.24: Gráfico de transición para la cola M/M/m (ejemplo 6.19).
Al anotar las ecuaciones de equilibrio local para las probabilidades de estado estacionario nn,
obtenemos si n á m,si n > m.
De estas ecuaciones, obtenemos
en el que el número es dado por
Suponiendo que < 1, podemos calcular el valorde0 usando las ecuaciones anteriores y la condición
1. Obtenemos
y, por último,
.
En el caso de limitación en el que m - - en el sistema M/M/m (que se llama el sistema M/M/-
), las ecuaciones debalance local se convierten en
así que
A partir de la condición 1, obtenemos
así que,
finalmente,
Por lo tanto, en estado estacionario, el número en el sistema es Poisson distribuido con el parámetro ..
7
Limitar los teoremas
Contenido
7.1. Algunas desigualdades útiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 3
7.2. La Ley débil de los números grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5
7.3. Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 7
7.4. El Teorema de Límite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La
ley fuerte de los números grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
......... pág. 16
2 Limitar los teoremas Capítulo 7
Considere una secuencia X1,X2,... de variables aleatorias independientes distribuidas de

manera idéntica con la media y la varianza σ2. Dejemos que
Sn a X 1 + + X n
ser la suma de la primera n de ellos. Los teoremas de límite se refieren principalmente a las
propiedades de Sn y variables aleatorias relacionadas, ya que n se vuelve muy grande.
Debido a la independencia, tenemos var(Sn) á var(2. X1)+ var(Xn) á
nán.
Por lo tanto, la distribución de Sn se extiende como n aumenta, y no tiene un límite

significativo. La situación es diferente si consideramos la media de la muestra
.
Un cálculo rápido produce
E[Mn], µ, .
En particular, la varianza de Mn disminuye a cero a medida que n aumenta, y la mayor
parte de su distribución debe estar muy cerca de la media . Este fenómeno es objeto de
ciertas leyes de grandes números, que generalmente afirman que la media de la muestra
Mn (una variable aleatoria) converge a la verdadera media (un número), en un sentido
preciso. Estas leyes proporcionan una base matemática para la interpretación suelta de una
expectativa E[X] - , como el promedio de un gran número de muestras independientes
extraídas de la distribución de X..
También consideraremos una cantidad intermedia entre Sn y Mn. Primero restamos
S n-de s n, para obtener la variable aleatoria de mediacero Sn .nµ
y luego σdividir por n,para obtener
.
Se puede verificar (ver Sección 7.4) que
E[Zn] á0, var(Zn) a1.
Dado que la media y la varianza de Zno permanecen sin cambios a medida que no aumenta,
su distribución no se extiende ni se reduce hasta un punto. El teorema de límite central se
refiere a la s hape asintoticade la distribución de Zn y afirma que se convierte en la
distribución normal estándar.
3
Los teoremas de límite son útiles por varias razones:

(a) Conceptualmente, proporcionan una interpretación de las expectativas (así como las
responsabilidades) en términos de una larga secuencia de experimentos
independientes idénticos.
(b) Permiten un análisis aproximado de las propiedades de variables aleatorias como Sn.
Esto debe ser contrastado con un análisis exacto que requeriría una fórmula para el
PMF o PDF de Sn, una tarea complicaday tediosa cuando n es grande.
7.1 Algunas desigualdades útiles
7.1 ALGUNAS DESIGUALDADES ÚTILES
En esta sección, obtenemos algunas desigualdades importantes. Estas desigualdades

utilizan la media, y posiblemente la varianza, de una variable aleatoria para sacar
conclusiones sobre las probabilidades de ciertos eventos. Son principalmente útiles en
situaciones donde la media y la varianza de una variable aleatoria X son fácilmente
computables, pero la distribución de X no está disponible o es difícil de calcular.
Primero presentamos la desigualdad de Markov. En términos generales afirma
que si una variable aleatoria no negativo tiene una media pequeña, entonces
laprobabilidad de que tome un valor grande también debe serpequeña.
Markov Desigualdad
Si una variable aleatoria X sólo puede tomar valores no negativos, entonces
P , para todos a > 0.
Para justificar la desigualdad de Markov, fijemos un número positivo a y

consideremos la variable aleatoria Ya definida por
,
.
Se ve que la relación Y a X X
siempre sostiene y por lo tanto,

E[Yaa ] - E[X].
Por otro lado
aE[Yaa ] aa aP P(Y a a ) - aP(X a ),

de la que obtenemos
aP(X a a) - E[X].
Ejemplo 7.1. Deje que X se distribuya uniformemente en el intervalo [0,4] y tenga en

cuenta que E[X] a2. Entonces, la desigualdad de Markov afirma que
P , P , P .
Comparando con las probabilidades exactas
P(X a 2) a 0. 5, P(X x 3) a 0. 25, P(X x 4) a 0,
vemos que los límites proporcionados por la desigualdad de Markov pueden ser bastante flojos.
Continuamos con la desigualdad Chebyshev. En términos generales, afirma que si la

varianza de una variable aleatoria es pequeña, entonces la probabilidad de que tome un
valor lejos de su media también es pequeña. Tenga en cuenta que la desigualdad Chebyshev
no requiere que la variable aleatoria sea no negativo.
Chebyshev Desigualdad
Si X es una variable aleatoria con la media y la varianza σ2,entonces
P , para todos c > 0.
Para justificar la desigualdad de Chebyshev, consideramos la variable aleatoria no

negativo (X )2 y aplicamos la desigualdad de Markov con un c c2 − . Obtenemos
P .
La derivación se completa observando que el evento (X−á)2 á c2 es idéntico al evento ? X
á áá c y
P .
Una forma alternativa de la desigualdad Chebyshev se obtiene dejando c á k ,donde

k es positivo, lo que produce
5
P .
Por lo tanto, la probabilidad deque una variable aleatoria tome un valor superior a k
desviaciones estándar de su media es como máximo 1/k2.
La desigualdad Chebyshev es generalmente más poderosa que la desigualdad de
Markov (los límites que proporciona son más precisos), porque también hace uso de la
información sobre la varianza de X. Aún así, la media y la varianza de una variable aleatoria
son sólo un resumen aproximado de las propiedades de su distribución, y no podemos
esperar que los límites sean aproximaciones cercanas de las probabilidades exactas.
7.2 La ley débil de los grandes números
Ejemplo 7.2. Como en el ejemplo 7.1, deje que X se distribuya uniformemente en [0,4].
Vamos a usar la desigualdad Chebyshev para vincular la probabilidad de que el número de
X a 2o 1. Tenemos 2 x 16/12 a 4/3, y
P ,
que no es particularmente informativo.

Para otro ejemplo, deje que X se distribuya exponencialmente con el parameter á
1, de modo que E[X] ávar(X) a1. Para c > 1, usando la desigualdad de Chebyshev,
obtenemos
P .
Esto es de nuevo conservador en comparación con la respuesta exacta P(X á c)- eácc.
7.2 LA LEY DÉBIL DE GRANDES NÚMEROS
La ley débil de grandes números afirma que la media de la muestra de un gran

número de variables aleatorias independientes distribuidas idénticamente es muy
cercana a la media verdadera, con alta probabilidad.
Como en la introducción a este capítulo, consideramos una secuencia X1,X2,... de
variables aleatorias independientes distribuidas de manera idéntica con la media de
la 19y la varianza 2, y definir la media de la muestra por
Tenemos
E
y, usando la independencia,
Aplicamos la desigualdad de Chebyshev y obtenemos
P , para cualquier
Observamos que para cualquier fijo > 0, el lado derecho de esta desigualdad va a cero
a medida que n aumenta. Como consecuencia, obtenemos la ley débil de grandes
números, que se indica a continuación. Resulta que esta ley sigue siendo cierta incluso
si el Xi tiene infinita varianza, pero se necesita un argumento mucho más elaborado,
que omitimos. La única suposición necesaria es que E[Xi] está bien definidoy finito.
La ley ya de los números grandes (WLLN)

DejaX 1 X 2 ,... Servariables aleatorias independientes a las quedas de manera con cada dos
Decir
r µ . Por cada cada
> 0Tenemos
X 1 + ··· + X N
P |M N − µ |≥ = P − µ ≥ → 0, Co N → ∞ .
N
m
El WLLN afirma que para elgran n, el "bulk" de la distribución de Mn

se concentra cerca de . Es decir, si consideramos un intervalo de
longitud positivo [ alrededor de ,entonces hay una alta probabilidad de que Mn caiga en
ese intervalo; como n , esta utililidad probabconverge a 1. Por supuesto, si es muy
pequeño, es posible que tengamos que esperar más tiempo (es decir, necesitamos un valor
mayor de n)antes deque podamos afirmar que Mn es muy probable que caiga en ese
intervalo.
Ejemplo 7.3. Probabilidades y Frecuencias. Considere un evento A definido en el contexto de

algún experimento probabilístico. Deje que p - P(A) sea la probabilidad de eseevento.
Consideramos n repeticiones independientes del experimento, y dejamos que Mn sea la fracción
de tiempo que ocurrió el evento A; en este contexto, Mn a menudo se llama la
frecuencia empírica de A. Tenga en cuenta que
,
donde Xi es 1 siempre que se produce A, y 0 en caso contrario; en particular, E[Xi]á p. La ley
débil se aplica y muestra que cuando n es grande, la frecuencia empírica es más probable que
esté dentro de . En términos generales, esto nos permite decir que las frecuencias empíricas
7
son estimaciones fieles de p. Alternativamente, este es un paso hacia la interpretación de la

probabilidad p como la frecuencia de ocurrenciade A.
Ejemplo 7.4. Interrogación. Que p sea la fracción de votantes que apoyan a un candidato en
particular para el cargo. Entrevistamos a los votantes "seleccionados al azar" y registramos la
fracción Mn de ellos que apoyan al candidato. Vemos a Mn como nuestra estimación de
p y would como investigar suspropiedades.
Interpretamos "seleccionados al azar" para significar que los n votantes son elegidos de
manera independiente y uniforme de la población dada. Por lo tanto, la respuesta de cada persona
entrevistada puede ser vista como un ensayo independiente de Bernoulli Xi con probabilidad
de éxito p y varianza de2 a p(1 a p). La desigualdad de Chebyshev rinde
P .
7.3 Convergencia en probabilidad
Se supone que el valor verdadero del parámetro p es desconocido. Por otro lado, se verifica
fácilmente que p(1 p p) - 1/4, lo que produce
P .
Por ejemplo, si 100, obtenemos
P .
En palabras, con un tamaño de muestra de n a 100, la probabilidad de que nuestra
estimación sea incorrecta en más de 0. 1 no es mayor que 0,25.
Supongamos que ahora que imponemos algunas especificaciones estrictas en
nuestra encuesta. Nos gustaría tener alta confianza (probabilidad de al menos 95%) que
nuestra estimación será muy accurcomido (dentro de .01 de p). ¿Cuántos votantes se deben
muestrear? La única garantía que tenemos en este punto es la desigualdad
P .
Nos aseguraremos de satisfacer las especificaciones anteriores si elegimos n lo

suficientemente grande para que
que rinde n 50,000. Esta elección de n tiene las propiedades especificadas, pero en
realidad es bastante conservadora, porque se basa en la desigualdad de Chebyshev
bastante suelta. En la Sección 7.4 se considerará un refinamiento.
7.3 CONVERGENCIA EN PROBABILIDAD
Podemos interpretar el WLLN como diciendo que "Mn converge a ." Sin embargo,
desde M1,M2,... es una secuencia de variables aleatorias, no una secuencia de
números, el significado de la convergencia tiene que ser preciso. A continuación se
proporciona una definición en particular. Para facilitar la comparación con la noción
ordinaria de convergencia, también incluimos la definición de esta última.
Convergencia de una secuencia determinista

Deje un1,a2,... ser una secuencia de números reales, y dejar que un ser otro
número real. Decimos que la secuencia a an converge a un, o limna an
a a, si para cada uno existe algún n0 de tal manera que
para todos los n n n0.
Intuitivamente, para cualquier nivel de precisión dado debe estar dentro,

cuando n es lo suficientemente grande.
Convergencia en probabilidad
Deje Y1,Y2,... ser una secuencia de variables aleatorias (no necesariamente
independientes), unnd dejar un ser un número real. Decimos que la secuencia
Yn converge a a en probabilidad,si para cada > 0, tenemos
Dada esta definición, el WLLN simplemente dice que la media µde la muestra
converge en probabilidad a la media verdadera.
Si las variables aleatorias Y1,Y2,... tener un PMF o un PDF y converger en probabilidad
a un, entonces de acuerdo con ladefinición anterior, "casi todos" de laPMF o PDF de Yn
se concentra en dentro de un -intervalo alrededor de un para los valores grandes de n.
También es instructivo reformular la definición anterior de la siguiente manera: para cada >
0, y para cada > 0, existe algún n0 de tal manera que
P para todos los n n n0.
Sireemos fer como el nivel de precisión, y como el nivel de confianza, la definición toma
la siguiente forma intuitiva: para cualquier nivel dado de precisión y confianza, Yn será igual
a un, dentro deestos niveles de precisión y confianza, siempre que n sea lo
suficientemente grande. is large
9
Ejemplo 7.5. Considere una secuencia de variables aleatorias independientes Xn que se

distribuyen uniformemente en el intervalo [0,1], y deje
Yn á mín.X1,...,Xn..
La secuencia de valores de Yn no puede aumentar a medida que n aumenta, y

ocasionalmente disminuirá (cuando se obtiene un valor de Xn que es menor que los
valores anteriores). Por lo tanto, esperamos intuitivamente que Yn converge a cero. De hecho,
para > 0, tenemos utilizando la independencia de la Xn,
Puesto que esto es true para cada > 0, llegamos a la conclusión de que Yn converge a cero,
en probabilidad.
Ejemplo 7.6. Deje que Y sea una variable aleatoria distribuida exponencialmente con
el parámetro . Para cualquier entero positivo n, deje Yn á Y/n. (Tenga en cuenta que
estas variables aleatorias son dependientes.) Deseamos investigar si la secuencia Yn
converge a cero.
Para > 0, tenemos
P .
En particular,
.
Puesto que este es el caso para cada converge a cero, en probabilidad.
Uno podría estar tentado a creer que si una asecuencia Yn converge a un

número a ,entonces E[Yn] también debeconverger a un. En el ejemplo siguiente se
muestra que esto no tiene por qué no ser el caso.
Ejemplo 7.7. Considere una secuencia de variables aleatorias discretas Yn con la siguiente
distribución:
, para y 0,
P(Yn á y)á2 para y á n ,
en otro
lugar.
Por cada > 0, tenemos
y Yn converge a cero en probabilidad. Por otro lado, E[Yn]á n2/n á n, que va al

infinito a medidaque n aumenta.
7.4 EL TEOREMA DE LÍMITE CENTRAL
De acuerdo con la ley débil de grandes números, la distribución de la media de la

muestra Mn se concentra cada vez más en las proximidades de la media verdadera µ.
En particular, su varianza tiende a cero. Por otro lado, la varianza de la suma Sn á X1
Sec. 7.4 El teorema del límite central 11
+ x + Xn nM nMn aumenta hasta el infinito, y no se puede decir que la

distribución de Sn converja a nada significativo. Una vista intermedia se obtiene
teniendo en cuenta la desviación Sn á n á de Sn de su media n ,y la escala por un
factor proporcional a 1/√n. Lo que es especial acerca de esta escala en particular es
que mantiene la varianza en un nivel constante. El teorema de límite central afirma
que la distribución de esta variable aleatoria escalada se acerca a una distribución
normal.
Más específicamente, deje X1,X2,... ser una secuencia de variabl aleatorias
independientes distribuidas de manera idénticaconla media y la varianza σ2. Definimos
Un cálculo fácil produce
E ,
El teorema del límite central

Deje que X1,X2,... ser una secuencia de variables aleatorias independientes
distribuidas de manera idéntica con la media común y la varianza σ2, ydefinir
A continuación, el CDF de Zn converge con el CDF normal estándar
en el sentido de que
lim P(Zn á z) á(z),para cada z.

n
.
El teorema del límite central es sorprendentemente general. Además de la

independencia, y la suposición implícita de que la media y la varianza están bien definidas y
finitas, no impone ningún otro requisito a la distribución del Xi, que podría ser variables
aleatoriasdiscretas, continuas o mixtas. Es de enorme importancia por varias razones,
tanto conceptuales como prácticas. En el lado conceptual, indica que la suma de un gran
número de variables aleatorias independientes es aproximadamente normal. Como tal, es
unpplies a muchas situaciones en las que un efecto aleatorio es la suma de un gran número
de factores aleatorios pequeños pero independientes. El ruido en muchos sistemas
naturales o de ingeniería tiene esta propiedad. En una amplia gama de contextos, se ha
encontrado empíricamente que la estadística del ruido está bien descrita
pordistribuciones normales, y el teorema de límite central proporciona una explicación
convincente para este fenómeno.
En el aspecto práctico, el teorema de límite central elimina la necesidad de modelos
probabilísticos detallados y de manipulaciones tediosas de PMF y PDF. Además, estos
cálculos sólo requieren el conocimiento de las medias y las desviaciones.
Aproximaciones Basadas en elTeorema del Límite entral C
El teorema de límite central nos permite calcular las probabilidades relacionadas con Zn
como si Zn fuera normal. Puesto que la normalidad se conserva bajo transformaciones
lineales, esto equivale a tratar Sn como una variable aleatoria normal con la media n á
unavarianza d n-2. nσ
Aproximación normal basada en el teorema de límite central
Deje que Sn a X1 + x + Xn, donde el Xi son variables aleatorias independientes
distribuidas de forma idéntica con la media y la varianza σ2. Si n es grande, la
probabilidad P(Sn á c) se puede aproximar tratando Sn como si fuera normal,
de acuerdo con el siguiente procedimiento.
1. Calcular la media n á y la varianza n.o2 de Sn.
2. Calcular el valor normalizado z (c á n√ ))/án .
3. Utilice la aproximación
P(Sn á c) á(z),
donde elzarchivo de cdF normales de la verges de la que está

disponible el archivo de la versión.
Ejemplo 7.8. Cargamos en un avión 100 paquetes cuyos pesos son variables aleatorias
independientes que se distribuyen uniformemente entre 5 y 50 libras. ¿Cuál es la probabilidad de
que el peso total supere las 3000 libras? No es fácil calcular el CDF del total wocho y la probabilidad
deseada, pero una respuesta aproximada se puede obtener rápidamente utilizando el teorema de
límite central.
Queremos calcular P(S100 > 3000), donde S100 es la suma de los 100 paquetes. La media
y la varianza del peso de un solo paqueteson
,
basado en las fórmulas para la media y la varianza del PDF uniforme. Así calculamos el valor
normalizado
y utilizar las tablas normales estándar para obtener la aproximación
P(S100 a 3000) á (1. 92) 0. 9726.
Por lo tanto, la probabilidad deseada es
P(S100 > 3000) a 1 p P(SS100 a 3000) a 1 a 0. 9726 a 0. 0274.
Ejemplo 7.9. Una máquina procesa piezas, una a la vez. Los tiempos de procesamiento de
diferentes partes son variables aleatorias independientes, distribuidas uniformemente en [1,5].
Deseamos aproximar la probabilidad de que el número de piezas procesadas dentro de 320
unidades de tiempo sea de al menos 100.
Llamemos a N320 este número. Queremos calcular P(NN320 a 100). No hay una manera
obvia de expresar la variable aleatoria N320 como la suma de variables aleatorias independientes,
pero podemos proceder de manera diferente. Deje que Xi sea el tiempo de procesamiento de la
iith part, y deje que S100 x X1 + x x 100 sea el tiempo total de procesamiento de lasprimeras
100 piezas. El evento NN320 a 100o es el mismo que el de SS100 a 320o, y ahora podemos usar una
aproximación normal a la distribución de S100. Tenga en cuenta que los caracteres de la letra
E[e [Xi] y de2 a var(Xi) son16/12 a 4/3. Calculamos el valor normalizado
,
y utilizarla aproximación
P(S100 a 320) á (1. 73) 0. 9582.
Si se desconoce la varianza de la Xi, pero hay un límite superior disponible, se puede

utilizar la aproximación normal para obtener límites sobre las probabilidades de interés.
Ejemplo 7.10. Revisemos el problema de las encuestas en el ejemplo 7.4. Encuestamos a los
votantes y registramos la fracción Mn de los encuestadosque están a favor de un
candidato enparticular. Si p es la fracción de toda la población de votantes que apoya a este
candidato, entonces
donde los Xi son variables aleatorias independientes de Bernoulli con el parámetro p. En

particular, Mn tiene p media y varianza p(1op)/n. Por la aproximación normal, X1 + + Xn es
aproximadamente normal, y por lo tanto Mn también es aproximadamente normal.
Estamos interesados en la capacidad PproBability que el error de sondeo es
más grande que alguna precisión deseada. Debido a la simetría del PDF normal alrededor de la
media, tenemos
P .
La varianza p(1 pp)/n de Mnáp depende de p y, por lo tanto, se desconoce. Observamos que
la probabilidad de una gran desviación de la media aumenta con la varianza. Por lo tanto, podemos
obtener un límite superior en P suponiendo que Mn á p tiene la mayor varianza
posible, a saber, 1/4n. Para calcular este límite superior, evaluamos el valor estandarizado
y utilizar la aproximación normal
P .
Por ejemplo, considere el caso en el que 1. Asumiendo el
en el peor de los casos, obtenemos
P
.
Esto es mucho más pequeño (más preciso) que la estimación que se obtuvo en el ejemplo 7.4
usando la desigualdad Chebyshev.
Ahora consideramos un problema inverso. ¿Qué tan grande es un tamaño de muestra n si
deseamos que nuestra estimación Mn esté dentro de 0. 01 de p con probabilidady al
menos0,95? Suponiendo de nuevo la peor varianza posible, nos llevan a la condición
De las tablas normales, vemos que el .(1. 96) 0. 975, lo que lleva a
,
O
.
Esto es significativamente mejor que el tamaño de la muestra de 50.000 que encontramos usando
la desigualdad de Chebyshev.
La aproximación normal es cada vez más precisa ya que n tiende al infinito, pero en
la práctica generalmente nos enfrentamos a valores específicos y finitos de n. Yot sería útil
saber lo grande que se necesita una n antes de que se pueda confiar en la aproximación,
pero no hay directrices simples y generales. Mucho depende de si la distribución de la Xi
está cerca de lo normal para empezar y, en particular, si essimétrica. Por ejemplo, si el
Xi son uniformes, entonces S8 ya está muy cerca de lo normal. Pero si el Xi son, digamos,
exponenciales, un n significativamente más grande será necesario antes de que la
distribución de Sn esté cerca de una normal. Además, la aproximación normala P(Sn á c)
esgeneralmente más fiel cuando c se encuentra en las proximidades de la media de Sn.
El De Moivre – Aproximación de Laplace al Binomio
Una variable aleatoria binomial Sn con los parámetros n y p se puede ver como la suma
de n variables aleatorias independientes de Bernoulli X1,...,Xn, con parámetrocomún p:
Sn a X1 + + Xn.
Recuerde que
,
Ahora usaremos la aproximación sugerida por el teorema de límite central para
proporcionar una aproximación para la probabilidad del evento, donde
se dan enteros. Expresamos el evento de interés en términos de una variable
aleatoria estandarizada, utilizando lalence equiva
.
Por el teorema del límite central, (Sntiene aproximadamente un

esta-
distribución normal atrevida, y obtenemos
Una aproximación de esta forma equivale a tratar Sn como una variable aleatoria
normal con np media y varianza np(1 á p). La Figura 7.1 proporciona una ilustración e
indica que una aproximación más precisa puede ser posible si
reemplazamos y, respectivamente. La fórmula
correspondiente se indica a continuación.
K L K L
(a) (b)
Figura 7.1: La aproximación del límite central trata una variable aleatoria binomial Sn como si fuera
normal con np media y varianza np(1op). Esta figura muestra un PMF binomial junto con el PDF
normal aproximado. (a) Una primera aproximación de una probabilidad binomial ) se
obtiene integrando el área bajo el PDF normal de , que es el área sombreada en la figura. (b)
Con el enfoque en (a), si tenemos , la probabilidad P(Sn á k) seaproximaría por cero. Un remedio
potencial sería utilizar larobeability p normal entre y para aproximar P(Sn á k). Al
extender esta idea, P se puede aproximar utilizando el área bajo el PDF normal de, que
corresponde al área sombreada.
De Moivre – Aproximación de Laplace al Binomio

Si S N es una variable aleatoria binomial con parámetrosN Y P, N es grande, y
K, hijo enteros no negativos, entonces
1 1
+ − Np
2 K− − Np
2
P (K ≤ S N ≤ ) ≈ ϕ − ϕ .
Np(1 − P) Np(1 − P)
Ejemplo 7.11. Deje que Sn sea una variable aleatoria binomial con los parámetros n a 36 y p a 0.
5. Un cálculo exacto produce
P .
La aproximación del límite central, sin el refinamiento antes discutido, produce
P .
Utilizando el refinamiento propuesto, hemos
P ,
que está mucho más cerca del valor exacto.
La fórmula de Moivre – Laplace también nos permite aproximar la probabilidad de
un solo valor. Por ejemplo,
P .
Esto está muy cerca del valor exacto que es
7.5 LA LEY FUERTE DE GRANDES NÚMEROS
La ley fuerte de los grandes números es similar a la débil law en que también se ocupa
de la convergencia de la media de la muestra a la media verdadera. Es diferente, sin
embargo, porque se refiere a otro tipo de convergencia.
La ley fuerte de los números grandes (SLLN)

Deje que X1,X2,... ser una secuencia devariables aleatorias independientes
idénticamente distributed con la media . A continuación, la secuencia de la
muestra significa Mn (X1 + x + Xn)/ n converge a , con probabilidad 1, en el
sentido deque
P .
Para interpretar el SSLN, necesitamos volver a nuestra descripción original de los
modelos probabilísticos en términos de espacios de muestra. El experimento
contemplado es infinitamente largo y genera valores experimentales para cada una de
las variables aleatorias en las equence X1,X2,... . Por lo tanto, lo mejor es pensar en el
espacio de muestra como un conjunto de secuencias infinitas (x1,x2,... ) de números
reales: cualquier secuencia de este tipo es un posible resultado del experimento.
Ahora vamos a definir el subconjunto A de la secuencia que consiste en esas
secuencias (xx1,x2,... ) cuyo promedio a largo plazo es ,es decir,
El SLLN afirma que toda la probabilidad se concentra en este subconjunto en particular

de . Equivalentemente, la colección de resultados que no pertenecen a A (secuencias
infinitas cuyo promedio a largo plazo no est )tiene probabilidad cero.
19
7.5 La ley enérgica de los grandes números
La diferencia entre la ley débil y la ley fuerte es sutil y
merece una desviación significativa de Mn de á va a cero como n . La ley débil
establece que la probabilidad Pde un
n, esta probabilidad puede ser positiva y es concebible que de vez en cuando, aunque
sea con poca frecuencia, Mn se desvíe significativamente de . La ley débil no
proporciona información concluyente sobre el número de tales desviaciones, pero la
ley fuerte sí. De acuerdocon la ley fuerte, y con la probabilidad 1, Mn converge a .
Esto implica que para cualquier dado > 0, la diferencia Sólo − superará un número
finito de veces.
Ejemplo 7.12. Probabilidades y Frecuencias. Como en el ejemplo 7.3, considere un evento

A definido en términos de algún experimento probabilístico. Consideramos una secuencia
de repeticiones independientes del mismo experimento, y dejamos que Mn sea la fracción
de los primeros n ensayos en los que se produce A. La ley fuerte de los números grandes
afirma que Mn converge a P(A), conprobabilidad 1.
A menudo hemos hablado intuitivamente sobre la probabilidad de un evento A como
la frecuencia con la que ocurre en una secuencia infinitamente larga de ensayos
independientes. La ley fuerte respalda esta intuición y establece que la frecuencia a
largo plazo de ocurrencia de A es de hecho igual a P(A), con certeza (la
probabilidad de que esto sucedaes 1).
Convergencia con probabilidad 1
El concepto de convergencia detrás de la ley fuerte es diferente de la noción empleada

en la ley débil. Le proporcionamosuna definición y una discusión sobre este nuevo
concepto de convergencia.
Convergencia con probabilidad 1

Deje Y1,Y2,... ser una secuencia de variables aleatorias (no necesariamente
independientes) asociadas con el mismo modelo de probabilidad. Deje que c sea
un número real.
Decimos que Yn converge a c con la probabilidad 1 (o casi segura)si
P .
Al igual que nuestra discusión anterior, la forma correcta de interpretar este tipo
de convergencia es en términos de un espacio de muestra que consiste en secuencias
infinitas: toda la probabilidad se concentra en aquellas secuencias que convergen a c.
Esto no significa que otras secuencias sean imposibles, sólo que son extremadamente
improbables, en el sentido de que su probabilidad total es cero.
El ejemplo siguiente ilustra la diferencia entre la convergencia en la probabilidad
y la convergencia con la probabilidad 1.
Ejemplo 7.13. Consider un proceso de llegada en horario discreto. El conjunto de tiempos

se divide en intervalos consecutivos de la forma Ik a 2k,2k + 1,...,2k+1 a 1o. Tenga en cuenta
que la longitud de Ik es 2k, queaumenta con k. Durante cada intervalo K,hay exactamente
una llegada, y todas las veces dentro de un intervalo son igualmente probables.
Se supone que los horarios de llegada dentro de diferentes intervalos son independientes.
Vamos a definir Yn 1 si hay una llegada en el tiempo n, y Yn á 0 si no hay llegada.
Tenemos P . Tenga en cuenta que a medida que n aumenta,
pertenece a
intervalos Ik con índices cada vez más grandes k. En consecuencia,
y llegamos a la conclusión de que Yn converge a 0 en probabilidad. Sin embargo, cuando

llevamos a cabo el experimento, el número total de llegadas es infinito (una llegada durante
cada intervalo Ik). Por lo tanto, Yn es la unidad para infinitamente muchos valores de n, el
evento "limn" (y n) tiene cero probabilidad,y no tenemos convergencia con la probabilidad
1.
Intuitivamente, está sucediendo lo siguiente. En un momento dado, hay una
probabilidad pequeña (y disminuye con n)de una desviación sustancial de 0 (convergencia
en probabilidad). Por otro lado, dado el tiempo suficiente, una desviación sustancial de 0
es segura de que ocurra, y por esta razón, no tenemos convergencia con la probabilidad 1.
21
Ejemplo 7.14. Deje x1,X2,... ser una secuencia de variables aleatorias independientes que
se distribuyen uniformemente en [0,1], y dejar Yn á min xX1,...,Xn. Deseamos mostrar que
Yn converge a 0, con probabilidad 1.
En cualquier ejecución del experimento, la secuencia Yn no está en aumento, es

decir, Yn+1 a Yn para todos los n. Puesto que esta secuencia está limitada por debajo de
cero, debe tener un límite, que denote por Y . Vamos a arreglar un poco,
entonces para todos i, lo que implicaque
P .
Puesto que esto es cierto para todos n, debemos tener
P .
Esto demuestra que P ) a 0, para cualquier positivo . Concluimos que P(Y > 0) a 0,
lo que implica que P(Y - 0) - 1. Puesto que Y es el límite de Yn, vemos que Yn converge
a cero con la probabilidad 1.

Libro Estadistica

Cargado por

Copyright:

Formatos disponibles

Libro Estadistica

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Libro Estadistica

Cargado por

Copyright:

Formatos disponibles

Apuntes

Curso 6.041-6.431 M.I.T.

Dimitri P. Bertsekas y John N. Tsitsiklis

2. Variables aleatorias discretas . . . . . . . . . . . . . . . . . .........................

3. Variables aleatorias generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4. Otros temas sobre variables y expectativas aleatorias . . . . . . . . . . . . . . . . . . . . . . . . .

4.3. Expectativa condicional como variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . .

5. Los procesos de Bernoulli y Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Cadenas De Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..................

John N. Tsitsiklis jnt@mit.edu

Un paciente es ingresado en el hospital y se administra un medicamento

En esta conversación, el pariente intenta utilizar el concepto de probabilidad para

Por ejemplo, el conjunto de posibles resultados de un die roll es de 1,2,3,4,5,6 , y el

conjunto de posibles resultados de un lanzamiento de moneda es H,T,donde H

significa "cabezas" y T significa "colas."

Si S contiene infinitamente muchos elementos x1,x2,... , que se puede

El complemento de un conjunto S,con respecto al universo, es el conjunto dex x á . .

. x /s Ss de todoslos elementos de la clase que no pertenezcan a S, y que Sc . Tenga

en cuenta que el valor dela unidad deposición es c.

La unión de dos conjuntos S y T es el conjunto de todos los elementos que

S.A.-T -X-x -x- x s s y x á T..

En algunos casos, tendremos que considerar la unión o la intersección de varios,

para algunos, n,}

para todos los n..

Si x e y son dos objetos, usamos (x,y) para denotar el par ordenado de x e y

(d) (e) (f)

sombreada es S . T (c) La región sombreada es S- Tc. (d) Aquí, T . S. La región sombreada

es el complemento de S. (e) Los conjuntos S, Ty U están desarticulados.

(f) Los conjuntos S, Ty U forman una partición del conjunto .

El álgebra de los sets

S,T) ∪ ( (∪ S, c∪∩S.cUTc) , S SS ∪∪ ((TTSS∩∪∩∩UUSΩ =c) = () =

argumento de la segunda ley es similar.

1.2 MODELOS PROBABILÍSTICOS

Un modelo probabilístico es una descripción matemática de una situación incierta.

• La ley de probabilidad, que asigna a unconjunto A de posibles

Figura 1.2: Los ingredientes principales de un modelo probabilístico.

Cada modelo probabilístico implica un proceso subyacente, llamado experimento,

resultados, se llama un evento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Elegir un espacio de muestra adecuado

Independientemente de su número, diferentes elementos del espacio de la muestra

• Cualquier colección de posibles resultados, incluyendo todo el espacio de muestra y su

Muchos experimentos tienen un carácter inherentemente secuencial, como por

Ejemplo de espacio secuencial árbol par de rollos

cuadrícula de 2 dimensiones como en la figura de la izquierda, o pueden ser descritos por el

Supongamos que nos hemos asentado en el espacio de muestra asociado a un

1. (Nonnegativity) P(A)a 0, para cada evento A.

2. (Aditividad) Si A y B son dos eventos desarticulados, entonces la

P(A á B)- P(A)+ P(B).

Además, si el espacio de muestra tiene un número infinito de elementos y

P(A1 a A2o A) - P(AA1) + P(A2) +?

3. (Normalización) La probabilidad de que toda la muestra space - es igual

analogía, el axioma de aditividad se vuelve bastante intuitivo: la masa total en una

1 á P(o) á P(o ) - P(o) + P(o) - 1 + P(o),

y esto muestra que la probabilidad del evento vacío es 0:

Procediendo de manera similar, obtenemos que la probabilidad de la unión de los

Ejemplo 1.2. Lanzamientos de monedas. Considere un experimento que involucre un solo

•H,T? , ..... . . . {T} . . . . . . . . . . . . . . . . . . . . . . . . . . . ..

que es consistente con la normalización de unxiom. Por lo tanto, la ley de probabilidad es