NotasPyE2019Parte1 PDF
NotasPyE2019Parte1 PDF
NotasPyE2019Parte1 PDF
Matías Carrasco
19 de febrero de 2019
Índice general
1. Casos favorables sobre casos posibles 1-1
Por ejemplo, si lanzamos una moneda la probabilidad de que salga cara es 1/2, pues
se trata de un caso favorable en dos posibles, o si lanzamos un dado la probabilidad
de que salga un seis es 1/6, pues solo nos sirve una de seis posibilidades.
La pregunta es un poco tramposa, y de hecho la respuesta es más bien una forma
de medir la probabilidad que una definición. Esta es la primer idea importante a
retener, el simple hecho de que una probabilidad puede medirse. ¿Cómo se mide
algo? Pensemos en la longitud. Buscamos un estándar (como el metro), lo aplicamos
repetidamente y luego contamos. Lo mismo ocurre con la suerte, para medir una
probabilidad primero buscamos casos de igual probabilidad y luego contamos.1
Ejemplo 1
Una moneda es justa si sale cara o cruz con igual probabilidad. Se tira una moneda
tres veces. ¿Cuál es la probabilidad de que exactamente uno de los lanzamientos
resulte cara?
Con tres lanzamientos, podemos enumerar fácilmente los 8 casos posibles
1 Pueden indagar más sobre la analogía entre medir y calcular una probabilidad en el libro de
Diaconis y Skyrms “Ten Great Ideas about Chance” Princeton University Press, 2017.
1-1
Tres de estos casos tienen exactamente una cara
XXC, XCX,CXX.
Vamos a mantener un estilo bastante informal, al menos en esta clase, pero es im-
portante subrayar que cuando decimos probabilidad, nos referimos a la probabilidad
de un cierto evento. En general, denotaremos los eventos con letras mayusculas, co-
mo A, B, etc., y la probabilidad de un evento por P (A), P (B), etc. En el ejemplo de
la moneda, el evento A = “el resultado es cara” tiene probabilidad P (A) = 1/2. El
conjunto de todos los resultados posibles lo denotaremos Ω (la letra griega omega
mayúscula) y le daremos el pomposo nombre de espacio muestral. Si lo pensamos
como un evento, es simplemente el evento “algo ocurre”, y claramente P (Ω) = 1.
La definición (1.1) está basada en el principio de indiferencia: si no hay razones por
las cuales sospechar que un resultado particular tiene más chances de ocurrir que
los demás, entonces todos los resultados deben tener la misma probabilidad. Cuando
asignamos la probabilidad 1/2 de que salga cara en el lanzamiento de una moneda,
esto significa que nuestras razones para pensar que saldrá cara son idénticas a las
que nos hacen pensar que saldrá cruz. Lo mismo para un dado, siempre y cuando
éste sea perfectamente simétrico.2
Ejemplo 2
Un mazo de poker consiste de 52 cartas, divididas en 4 palos, corazones (♥), dia-
mantes (♦), piques (♠), y tréboles (♣). Cada palo contiene 13 cartas con valores 2,
3, ..., 10, J, Q, K, A. Una mano de poker consiste de 5 cartas. Un par consiste de
dos cartas con el mismo valor, y las tres restantes de valores diferentes (al valor del
par y entre ellas, por ejemplo 2♥, 2♠, 5♥, 8♣, K♦).
A menor a 5 % D entre 20 % y 40 %
B entre 5 % y 10 % E entre 40 % y 50 %
C entre 10 % y 20 % F mayor a 50 %
1-2
igualmente probable, podemos calcular la probabilidad de un par usando
número de manos con un par
P (un par) = .
número total de manos
Es decir, para calcular la probabilidad exacta, debemos contar cuántas posibilidades
hay en cada uno de estos eventos. Y debemos ser astutos, pues hay demasiados
elementos en éllos como para enumerarlos en una lista. Así que volveremos a este
problema cuando hayamos aprendido algunas técnicas de conteo.
Para resumir, por el momento usaremos el siguiente principio para calcular proba-
bilidades: si en un procedimiento hay n resultados posibles, éstos son igualmente
probables (equiprobables), y un evento puede ocurrir de k formas posibles, la pro-
babilidad del evento es entonces k/n.
Para pensar: Se debe tener cierto cuidado, pues este principio no se aplica en todas
las situaciones. ¿Se te ocurre algún ejemplo de casos no equiprobables?
Un escenario posible es el siguiente: si lanzamos dos dados y miramos la suma de
los resultados, podríamos decir que los casos posibles son los números del 2 al 12,
pero parece menos probable que salga un 2 a que salga un 7. En este caso sería
mejor aplicar el principio a los pares de números que representan los resultados de
cada dado. Este tipo de ejemplos es típico, los resultados posibles que nos interesan
no son equiprobables, pero se pueden formular a partir de otros que sí lo son.
El credo probabilístico
Reglas básicas
Regla 1: P (Ω) = 1.
Regla 2: P (A o B) = P (A) + P (B) si A y B son eventos incompatibles.
Estas son las reglas de juego. También se deducen otras reglas, por ejemplo: 1) la
probabilidad de cualquier evento es siempre un número entre 0 y 1; y 2) la proba-
bilidad de que un evento no ocurra es 1 menos la probabilidad de que sí ocurra. En
símbolos:
0 ≤ P (A) ≤ 1 para cualquier evento A.
P (no A) = 1 − P (A).
1-3
Sin embargo, estas reglas no son básicas en el sentido de que se pueden deducir
de la reglas 1 y 2. ¡Probarlo! Se pueden deducir muchas reglas más, pero las que
tenemos serán más que suficientes por ahora.
Existe una definición general de probabilidad que contiene a la definición (1.1)
como caso particular. Sin embargo, la ecuación (1.1) aparece con mucha frecuencia
y es muy útil en una gran variedad de situaciones. Aunque no es toda la historia, vale
la pena pasar un poco de tiempo con ella, ganar intuición sobre algunas propiedades
básicas del azar, y de paso prepararnos para entender mejor la definición general.
El glosario probabilístico
|A|
P (A) = . (1.2)
|Ω|
1-4
Este evento lo denotaremos por
Ac = {ω ∈ Ω : ω ∈
/ A}.
Es lo mismo decir que A no ha ocurrido a decir que Ac ha ocurrido.
Intersección: exprese la condición de que ambos A y B ocurran simultánea-
mente. Este evento se escribe
A ∩ B = {ω ∈ Ω : ω ∈ A y ω ∈ B} .
Cuando dos eventos no tienen elementos en común, decimos que son incom-
patibles o disjuntos y escribimos A ∩ B = 0.
/ En palabras, ésto quiere decir que
si A ocurre, B no puede ocurrir, y viceversa.
Unión: expresa la condición de que A o B ocurran. Se entiende la conjunción
o en el sentido amplio, una cosa o la otra o ambas. Este evento se escribe
A ∪ B = {ω ∈ Ω : ω ∈ A o ω ∈ B}.
1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4
2 2 3 3 4 4 1 1 3 3 4 4 1 1 2 2 4 4 1 1 2 2 3 3
3 4 2 4 2 3 3 4 1 4 1 3 2 4 1 4 1 2 2 3 1 3 1 2
4 3 4 2 3 2 4 3 4 1 3 1 4 2 4 1 2 1 3 2 3 1 2 1
A1 ◦ ◦ ◦ ◦ ◦ ◦
A2 ◦ ◦ ◦ ◦ ◦ ◦
A3 ◦ ◦ ◦ ◦ ◦ ◦
A4 ◦ ◦ ◦ ◦ ◦ ◦
Diagramas de Venn
Los diagramas de Venn ofrecen una manera sencilla de visualizar las operaciones
con conjuntos. En todas las figuras, las regiones rayadas representan al conjunto en
cuestión.
1-5
B
A A
Complemento Unión
B B
A A
Interseción Diferencia
Las leyes de De Morgan son dos reglas útiles que permiten pasar de uniones a
intersecciones tomando complementos.
Complemento de la unión. El complemento de la unión de A y B es la inter-
sección de sus complementos. En símbolos (A ∪ B)c = Ac ∩ Bc .
B B
A = A ∩
B B
A = A ∪
1-6
1-2. Las reglas de conteo
Principio de inclusión-exclusión
¿Cuántos casos posibles hay al tirar una moneda tres veces? Para enumerar las dis-
tintas secuencias podemos dibujar un árbol de posibilidades. Ver en la Figura 1.1.
Si seguimos todas la posibles ramas desde el origen o hasta el borde derecho del
árbol, obtenemos las 8 secuencias posibles.
1-7
Árbol de posibilidades 3 monedas
C X
C X C X
C X C X C X C X
2
Esto está indicado en el árbol por las 2 ramas que salen del origen o y que termi-
nan en la primera fila. Para cada una de las 2 maneras de llenar el primer espacio,
tenemos 2 maneras de llenar el segundo:
2 2
Esto está indicado en el árbol por las 2 ramas que salen de cada una de los nodos
de la primera fila. Luego podemos llenar los primeros dos espacios de 2 × 2 = 4
formas distintas. ¿Ya ven el final no? Por último, para cada una de estas 4 formas
de llenar el primer y segundo espacio, tenemos 2 maneras de llenar el tercero:
2 2 2
Entonces, el total de posibilidades para llenar los tres espacios con C’s o X’s es
2 × 2 × 2 = 23 = 8.
Para pensar: Si en lugar de lanzar tres veces la moneda, lo hacemos n veces, ¿cuán-
tas posibilidades hay?
No es necesario que las maneras de llenar los espacios sean siempre iguales. El
razonamiento sigue siendo válido incluso si las opciones para realizar la segunda
acción dependen de lo que se haya hecho en la primera. Lo único que realmente
importa es que la cantidad de opciones para realizar la segunda acción no dependa
de la opción elegida para realizar la primera.
Ejemplo 5
Si lanzamos dos dados distinguibles, el número total de posibilidades es 6 × 6 = 36.
Pero el evento A = “los resultados son distintos” tiene 6 × 5 = 30 casos favorables:
6 5
Para cada una de las 6 formas de llenar el primer espacio, tenemos 5 formas de
1-8
llenar el segundo. Entonces
6×5 5
P (A) = = .
6×6 6
Otra forma de ver esto es que sin importar lo que salga en el primer dado, la proba-
bilidad de que el segundo sea diferente es 5/6.
n1 × n2 × n3 × · · · × nk
maneras distintas.
En todos los ejemplos y ejercicios que veamos en este curso, contar posibilidades
se corresponderá con contar secuencias de símbolos con determinadas propiedades.
¿Qué queremos decir con esto? Por ejemplo, si lanzamos dos monedas, los resulta-
dos posibles podemos escribirlos como CC, CX, XC, XX, o incluso CC, CX, XX si
el orden no es relevante.
He aquí entonces la primera cuestión fundamental a la hora de contar posibilida-
des: el orden ¿es relevante o no? Aunque parezca paradójico, es más fácil contar
posibilidades cuando sí lo es. ¿Por qué? Porque podemos usar la regla del producto.
1-9
Ejemplo 6
Que el orden sea relevante o no depende del problema concreto en cuestión. Por
ejemplo, si queremos que nuestros cálculos reflejen lo que ocurre en el lanzamiento
real de dos monedas idénticas, ¿debemos tener en cuenta el orden a la hora de
contar?
Al ser las monedas idénticas, es difícil distinguir cuál es cuál, y parecería más ra-
zonable contar las posibilidades sin tener en cuenta el orden, como en CC, CX, y
XX. Si usamos el principio de indiferencia, cada una tendría probabilidad 1/3. Sin
embargo, también es cierto que cada moneda tiene su identidad propia, a pesar de
que no las podamos distinguir, y también resultaría razonable suponer que el caso
CX deba contar el doble que los otros dos. Si contamos las posibilidades con orden,
CC, CX, XC, CC, cada una tendría probabilidad 1/4.
Resultado
CC CX XC XX
26,2 26,4 23,4 24,0
Tabla 1.1: Resultados de tirar 500 veces dos monedas. Los números representan
porcentajes.
La única forma de saldar el asunto es con una simulación. La Tabla 1.1 muestra
los resultados de 500 lanzamientos de dos monedas reales.4 Los valores son muy
cercanos al valor ideal de 25 %.
Permutaciones
La regla del producto será más que suficiente para contar posibilidades en todos
los ejemplos y problemas que veamos en el curso. Sin embargo, los productos de
enteros consecutivos, que aparecieron en los ejemplos anteriores, son tan frecuentes
que vale la pena usar palabras especiales para ellos.
4 Los datos son reales. 500 lanzamientos dos monedas de $2, una de ellas marcada. Como dato
curioso, una de las monedas salió cara 14 veces seguidas. ¿Sorprendente?
1-10
¿De cuántas formas podemos elegir k elementos distintos de una lista de n elementos
distintos? Denotemos los n elementos por ∗1 , . . . , ∗n . Estos pueden ser de cualquier
tipo, eso no es relevante ahora. Notar que la lista original no tiene ningún orden
pre-establecido, lo único que importa es que los elementos son todos distintos y los
hemos numerado arbitrariamente de 1 a n para poder distinguirlos. Es como ponerle
un nombre a cada uno.
Queremos formar una lista ordenada
···
1 2 ··· k−1 k
en donde hay un primer elemento, un segundo elemento, y así sucesivamente hasta
el k-ésimo elemento. La elección de los k elementos se puede hacer por etapas,
contando cuántas posibilidades hay en cada una:
n n−1 ··· n − (k − 2) n − (k − 1)
1 2 ··· k−1 k
Esto es, hay n posibilidades para elegir el primer elemento, n − 1 para elegir el
segundo, y así sucesivamente hasta el último para el cual tenemos n − k + 1 posibi-
lidades. Entonces, el número total de listas ordenadas que podemos formar es
n × (n − 1) × (n − 2) × · · · × (n − k + 1).
Este número se llama permutaciones de n en k o arreglos de n en k, y lo denotamos
por (n)k . También se suele denotar por Ank , pero no usaremos esa notación.
Permutaciones de n en k
El número total de listas ordenadas de tamaño k formadas a partir de un con-
junto de n elementos es
(n)k = n × (n − 1) × (n − 2) × · · · × (n − k + 1)
| {z }
k factores
para 1 ≤ k ≤ n.
Combinaciones
1-11
general será obvio. Supongamos que n = 4 y que queremos elegir k = 2 elementos.
Llamemos A, B, C, y D a los elementos. Por lo anterior, hay (4)2 = 12 listas orde-
nadas de dos elementos, como se muestra a la izquierda en el siguiente diagrama:
Ordenadas Desordenadas
(A, B) (B, A) −→ {A, B}
(C, D) (D,C) −→ {C, D}
(A, D) (D, A) −→ {A, D}
(A,C) (C, A) −→ {A,C}
(B,C) (C, B) −→ {B,C}
(B, D) (D, B) −→ {B, D}
Hemos puesto listas entre paréntesis curvos para indicar que son ordenadas, y entre
llaves para indicar que no lo son. Siempre que precisemos hacer esta distinción
usaremos esta notación.
Lo que el diagrama muestra es que por cada posibilidad no ordenada, hay dos posi-
bilidades ordenadas, y por lo tanto
total de listas ordenadas
total de listas desordenadas = .
2
En general es igual. Imaginemos que hemos elegido una lista no ordenada de k
elementos. Podemos ordenarlos de k! formas distintas. Además, si las listas no or-
denadas son diferentes, también lo serán las listas ordenadas que así formemos. Esto
quiere decir que por cada lista no ordenada hay k! listas ordenadas distintas:
k! a 1
listas ordenadas −−−→ listas desordenadas
El número total de listas no ordenadas que podemos formar es entonces (n)k /k!.
n
Este número se llama combinaciones de n en k y lo escribiremos k . También es
común encontrarlo escrito como Ckn , pero nosotros no usaremos esta notación.
Combinaciones de n en k
El número total de listas no ordenadas de tamaño k formadas a partir de un
conjunto de n elementos distintos es
n n!
(n)k
= =
k k! k!(n − k)!
para 0 ≤ k ≤ n.
Respuesta al Ejemplo 2
1-12
posibles es 52
5 = 2598960, pues una mano consta de 5 cartas elegidas al azar de
un mazo de 52 cartas.
Para contar los casos favorables a un par, podemos dividir la tarea de la siguiente
forma: primero elegimos el valor del par (recordar que los valores son 2, 3, ..., J, Q,
K, A). Una vez hecho esto, elegimos los dos palos de las cartas que formaran el par.
Luego debemos elegir tres cartas de valores distintos, tanto al del par como entre
ellas. Usando la regla del producto, la cuenta queda
4
13 · · ?
|{z} 2 |{z}
Valor |{z} 3 cartas restantes
del par Palos
del par
Nos falta calcular de cuántas formas podemos elegir tres cartas de diferentes valores
entre ellas, y además de valor diferente al par. Para esto aplicamos nuevamente la
regla del producto: tenemos 12 formas de elegir el valor de la 3era carta, y 4 palos
posibles, 11 valores para la 4ta, y 4 palos posibles, 10 valores para la 5ta, y 4 palos
posibles. Esto daría 12 · 11 · 10 · 43 . Pero hay que recordar que la regla del producto
tiene en cuenta el orden, por lo que debemos dividir entre las formas posibles de
desordenar 3 cartas, esto es 3!. Así la respuesta final es
4 12 · 11 · 10 · 43
13 ·
|{z} 2 · 3!
= 1098240.
Valor |{z} | {z }
del par Palos 3 cartas restantes
del par
1-13
Clase 2
Probabilidades geométricas
1 Lamentablemente no hay casi material en español sobre probabilidades geométricas. Sin em-
bargo, los estudiantes que quieran ver más ejemplos de problemas de este tipo, puede consultar la
página web
http://lya.fciencias.unam.mx/lars/0625/
Contiene varios videos de un curso elemental de probabilidad de la Universidad Nacional Autónoma
de México. Allí pueden encontrar un video específico de probabilidades geométricas.
2-1
segmento.
L/2
A M O N B
L/4
P (AB) = 1
A C D E B
(1) 0 ≤ p(x) ≤ 1
(2) p(L) = 1
(3) p(x + y) = p(x) + p(y) si x + y ≤ L.
Ahora mostraremos que solo hay una función p(x) que tiene estas tres propiedades,
a saber, p(x) = x/L. Primero notamos que la propiedad (3) puede generalizarse a
2-2
Sean m, n enteros positivos con m < n. Por (4) de nuevo, tenemos
m términos
z }| {
m L L L
p L =p + +···+
n n n n
L L L
=p +p +···+ p
n n n
L m
= mp =
n n
Esto significa que p(x) = x/L siempre que x/L sea un número racional. Para tratar
el caso en el que x/L es irracional, primero observar que si 0 ≤ x ≤ y ≤ L, entonces
ya que p(y − x) > 0 por la propiedad (1). Así, la función p(x) es monótona no de-
creciente. Ahora, si x/L es irracional, y n es un entero positivo, podemos elegir los
números racionales a/L y b/L de modo que a < x < b y tal que b/L−a/L < 1/n (es-
to se debe a que los números racionales son densos, de modo que cualquier número
irracional se puede aproximar mediante números racionales). Luego obtenemos
a b
= p(a) ≤ p(x) ≤ p(b) = ,
L L
de lo cual se deduce que |p(x) − x/L| < 1/n. Como esto vale para todo n, vemos
que p(x) = x/L.
Por lo tanto, cuando la barra AB se rompe al azar, la probabilidad de que el punto de
ruptura se encuentre en un intervalo CD es igual a la longitud de CD dividida por la
longitud de AB:
long(CD)
P (CD) = ,
long(AB)
es decir, la fracción de la longitud total que representa CD.
Para pensar: comparar esta fórmula con la de casos favorables sobre casos posibles,
Para volver al problema original, observamos que la longitud de la pieza más peque-
ña en la que se rompe la varilla será mayor que L/4 si, y solo si, el punto de ruptura
se encuentra dentro del segmento MN (ver la primer figura) cuyo la longitud es L/2,
y cuyos puntos finales se encuentran a una distancia de L/4 de los extremos de la
varilla. Por lo tanto, la probabilidad requerida es (L/2)/L = 1/2.
2-3
Cuando decimos que elegimos un punto al azar en un intervalo [a, b] de los reales
(resp. en un círculo), lo que queremos decir es que el espacio muestral Ω es el
intervalo (resp. el círculo), y la probabilidad de cualquier sub-intervalo A de Ω es
long(A)
P (A) = . (2.1)
long(Ω)
Lo más importante desde el punto de vista teórico es que la definición (2.1) respeta
las dos reglas básicas del credo probabilístico:
P (Ω) = 1
P (A ∪ B) = P (A) + P (B) si A y B son incompatible.
En el caso del círculo, se puede pensar que el modelo representa el experimento de
rodar una rueda de la fortuna infinita, que tiene un premio por cada punto del borde
de la rueda.
Ejemplo 2
Se escoge un número a al azar dentro del intervalo (−1, 1). ¿Cuál es la probabilidad
de que la ecuación cuadrática ax2 + x + 1 = 0 tenga dos raíces reales?
long(A) 5/4 5
P (A) = = = .
long(Ω) 2 8
2-2. Experimentos en 2D
2-4
azar en el tablero, por simetría la probabilidad de que caiga en cada uno de los cua-
drados pequeños es la misma. Para que la probabilidad total sea 1, la probabilidad
de cada cuadrado debe ser 1/n2 .
Podemos así aproximar la probabilidad de la región A considerando los cuadrados
que están incluídos en ella. Llamemos Ak a la unión de todos aquellos cuadrados
que están incluídos en A. Entonces la probabilidad de Ak es
Area(Ak ) Area(Ak )
P (Ak ) = = .
L2 Area(Ω)
El problema es que por el momento no hemos enunciado ninguna regla que garan-
tice este pasaje al límite. Pero agregar reglas es gratis, así que:2
2 Eso parece, pero más adelante veremos cuál es el precio a pagar por esta nueva regla.
2-5
Regla 3: Continuidad de la probabilidad
Si {Ak } es una sucesión creciente de eventos y A = k Ak ,
S
entonces
Ejemplo 4
Los duelos en la ciudad de Los Apurados rara vez son fatales. Allí, cada conten-
diente llega en un momento aleatorio entre las 5 a.m. y 6 a.m. en el día pactado
y sale exactamente 5 minutos más tarde, honor servido, a menos que su oponente
llegue dentro de ese intervalo de tiempo y peleen. ¿Qué fracción de duelos terminan
en violencia?
Llamemos T1 y T2 los tiempos de llegada de los contendientes. Entonces, T1 y T2
son números al azar en el intervalo [5, 6]. Más aún, si miramos el punto de coorde-
nadas (T1 , T2 ) en el cuadrado [5, 6] × [5, 6], es un punto al azar que corresponde al
modelo uniforme en dimensión dos que vimos arriba. Es decir, las probabilidades
se resuelven calculando áreas.
Llamemos V al evento “el duelo termina en violencia”. Notar que los dos conten-
dientes se encontrarán si, y solo si la diferencia de tiempos |T1 − T2 | ≤ 1/12 (1/12
corresponde a 5 minutos en la escala horas). Entonces
T2 V
1
12 No se encuentran
0
0 1 T1 11 1
12 12
2-6
La probabilidad de V es por definición
Area(V )
P (V ) = = Area(V ),
Area(Ω)
Ejemplo 5
Imaginar un triángulo cualquiera: ¿es agudo u obtuso? Recordar que un triángulo es
agudo si sus tres ángulos son todos menores que un ángulo recto. Es muy probable
que el triángulo que imaginaron sea agudo. Pero ¿qué hay más: triángulos agudos u
obtusos?
Una forma de responder a esta pregunta es eligiendo un triángulo al azar y ver cuál
es la probabilidad de que sea agudo. Ahora, ¿cómo hacemos para elegir un triángulo
al azar?
Usando homotécias podemos siempre suponer que los vértices del triángulo están
sobre la circunferencia de un círculo de radio 1. Así que basta con elegir tres puntos
al azar sobre un círculo. ¿Cuál es la probabilidad de que el triángulo que forman sea
agudo?
Sean A, B y C los tres puntos. Podemos fijar uno de ellos, digamos C, ya que po-
demos girar el círculo para que C caiga siempre en el mismo lugar sin alterar las
probabilidades. Los otros dos son aleatorios.
Comenzando desde C, y en sentido antihorario, puede pasar que aparezca primero
A y luego B, o al revés. Pero haciendo una simetría podemos suponer que A es el
primero.
Sea F el evento “el triángulo es agudo”. Vamos a calcular P (F). Las posiciones de
A y B quedan determinadas por arcos de círculo de longitud α y β respectivamente,
siendo α un arco en el semi-círculo superior como se muestra en la figura.
A
α
C
β
2-7
Notar que la suma de las longitudes de los dos arcos debe ser menor que la longitud
de la circunferencia. Es decir α + β ≤ 2π. ¿Qué otras restricciones hay para α y β ?
Miremos primero el ángulo en C. Llamemos A0 el punto diametralmente opuesto de
A. Si B es exactamente igual a A0 , el ángulo en C es π/2. Si B está más cerca de
C que A0 , el ángulo en C es mayor que π/2. Y si B está más lejos de C que A0 , el
ángulo en C es menor que π/2.
A
B1
A0
B2
Por lo tanto, para que el ángulo en C sea agudo debemos tener α + β > π. De la
misma forma se puede ver que β < π para que el ángulo en A sea agudo, y α < π
para que el ángulo en B sea agudo.
De hecho estas son todas las restricciones. En un plano de coordenadas α y β ,
el espacio muestral consiste del triángulo recto que pasa por los puntos (2π, 0) y
(0, 2π).
2π
π
F
0 α
0 π 2π
2-8
Para pensar: ¿Se te ocurre cómo usar éste problema para probar que la probabilidad
de que tres puntos elegidos al azar en un círculo caigan todos en un semi-círculo es
igual a 3/4?
Hasta ahora los eventos que hemos considerado son todos bastante “lindos”, en el
sentido de que están representados por figuras geométricas para las cuales no hay
duda de como calcular su longitud, área o volumen. De hecho, en la práctica esto
siempre es así, y nunca tenemos que lidiar con eventos “feos” para los cuales no
esté muy claro lo que quiere decir su longitud o área.
Sin embargo, estos eventos “feos” existen. La Regla 3 que agregamos en esta clase
a nuestro credo probabilístico tiene un precio, y es que debemos excluir estos con-
juntos feos de la teoría. Es por esta razón que en los modelos continuos debemos
restringir la definición de probabilidad a eventos “lindos”. Es decir, no cualquier
subconjunto de Ω tiene una probabilidad bien definida.
En esta sección veremos un ejemplo de un tal conjunto “feo”. Nuestro objetivo es
solamente mostrar que estos eventos existen, pero no trataremos de hacer una teoría
rigurosa al respecto3 .
La siguiente construcción la hizo un matemático italiano del siglo XX que se lla-
maba Vitali. Por eso el evento “feo” que vamos a construir se llama conjunto de
Vitali.
Consideremos el experimento que consiste en elegir un punto al azar en un círcu-
lo de radio 1. Imaginemos que cada punto del círculo representa una persona de
una determinada población infinita. Así que queremos elegir una persona de esta
población al azar.
Como el círculo tiene radio 1, la longitud total de la circunferencia es L = 2π.
Vamos a dividir a la población en familias de parientes. Decimos que dos puntos
p y q del círculo son parientes si podemos ir de un punto al otro dando pasos de
longitud 1 a lo largo de la circunferencia del círculo. Con esto queremos decir que
cada paso nos mueve un ángulo de 1 radian en la circunferencia, y está permitido ir
dando vueltas alrededor del círculo en ambas direcciones. Ver la Figura 2.1.
Supongamos que cada familia elige uno de sus miembros para que sea el jefe de
familia. He aquí la pregunta: llamemos J al conjunto “la persona elegida es un
jefe de familia”, ¿cuál es la probabilidad de J? Resulta que esta pregunta no tiene
respuesta.
La primer cosa a notar es que cada familia tiene un número infinito de miembros4 .
3 Los estudiantes curiosos por estos temas pueden consultar el libro Probability and Measure de
P. Billingsley. También existe un curso de maestría en Fing que se llama Topología y Medida en el
cual estos asuntos se estudian rigurosamente.
4 ¡Lo que será esa navidad!
2-9
p
2-10
v(t)
rt
C
N
v0
C r
N
Figura 2.2: Modelo mecánico del experimento que consiste en tirar una moneda. El
centro de masa de la moneda sale con velocidad inicial vertical v0 y dando r vueltas
por segundo. Un lado de la moneda dice C y el otro dice N.
v(t) = v0 − gt,
2-11
Si NTot es un entero, el resultado es C.
Si NTot es 1
2 + un entero, el resultado es N.
Si NTot es 1
4 + un entero
2 , la moneda cae de canto.
En general, la moneda mostrará C o N según si
(
k − 41 , k + 14 ⇒ el resultado es C;
NTot ∈
k + 14 , k + 34 ⇒ el resultado es N.
Y caerá de canto si
1 k
NTot = + ⇒ la moneda cae de canto.
4 2
Aquí, k es cualquier entero mayor o igual a cero.
2-12
Figura 2.4: Se muestra lo mismo que en la Figura 2.3 pero para valores de v0 en
[4,21, 4,65] y de r en [7, 13].
2-13
Clase 3
Los axiomas de Kolmogorov
Axiomas de Kolmogorov
Sea Ω un espacio muestral cualquiera. Una probabilidad es una función
P : Eventos → [0, 1]
que a cada evento A asigna un número real 0 ≤ P (A) ≤ 1, y que para ser digna
de ese nombre debe cumplir:
Regla 1: P (Ω) = 1
Regla 2: P (A ∪ B) = P (A) + P (B) si A y B son incompatibles
Regla 3: Si {Ak } es una sucesión creciente de eventos y A = k Ak , en-
S
tonces
P (A) = lı́m P (Ak ) .
k→+∞
Antes de ver algunos ejemplos, vamos a probar varias propiedades básicas que cum-
plen las probabilidades. Estas propiedades son consecuencia de las reglas básicas 1
y 2, de modo que son ciertas para cualquier función P que cumpla con dichas reglas.
Complemento: si A es un evento, la probabilidad de su complemento es
P (Ac ) = 1 − P (A) .
3-1
Esto se sigue de que A ∪ Ac = Ω y de que esta unión es disjunta. Si aplicamos
las reglas 1 y 2, en ese orden, obtenemos
1 = P (Ω) = P (A) + P (Ac ) ,
y de aquí despejamos la probabilidad de Ac .
División en casos: Si podemos dividir el espacio muestral Ω en subconjuntos
C1 , . . . ,Cn que son disjuntos dos a dos, entonces la probabilidad de cualquier
evento A se descompone como
n
P (A) = ∑ P (A ∩Ci ) .
i=1
3-2
La prueba es muy simple. Primero observar que la Regla 2 vale, razonando
por inducción, para cualquier cantidad finita de eventos incompatibles. Defi-
nimos
n
Bn = Ak ,
[
k=1
que es una sucesión creciente de eventos cuya unión es n Bn = k Ak . Por la
S S
ahora es que los eventos {Bn } son dos a dos disjuntos. Así que aplicando
(3.1) deducimos
! !
∞
Ak Bn
[ [
P =P = ∑ P (Bn)
k n n=1
∞
= P (A1 ) + ∑ P (An ) − P (An−1 ) = lı́m P (An ) .
n→∞
n=1
Es decir que (3.1) es equivalente a Regla 2 + Regla 3. La llamaremos Regla
2(∞) pues es como la Regla 2 pero para infinitos eventos.
P : Eventos → [0, 1]
que a cada evento A asigna un número real 0 ≤ P (A) ≤ 1, y que para ser digna
de ese nombre debe cumplir:
Regla 1: P (Ω) = 1
Regla 2(∞): Si {Ak } es una sucesión de eventos incompatibles dos a dos,
k=1 Ak ) = ∑k=1 P (Ak ).
entonces P ( ∞
S ∞
3-3
Ejemplo 1
Un caso particular muy importante es el modelo general de probabilidades discretas.
Esto quiere decir que Ω puede ser finito o infinito, pero en caso de ser infinito debe
ser numerable. Así, podemos enumerar los elementos de Ω en una lista
Ω = {ω1 , ω2 , . . . , ωi , . . .}.
Para definir las probabilidades de los eventos de Ω, primero definimos las probabi-
lidades pi ∈ [0, 1] de los eventos simples ωi .
No cualquier elección de números pi hará que la probabilidad del espacio muestral
sea 1. Para que esto suceda, debemos imponer la condición de normalización
∞
∑ pi = 1.
i=1
En caso de que Ω sea finito, digamos con n elementos, los pi serán nulos para i > n.
¿Cómo definimos la probabilidad de un evento? Sea A un evento en Ω, definimos
la probabilidad de A como el agregado de las probabilidades de sus elementos, de
modo que
P (A) := ∑ pi .
ωi ∈A
3-4
que no es otra cosa que la fórmula de casos favorable sobre casos posibles. Lo
interesante del modelo general es que los {pi } pueden ser arbitrarios, con la sola
condición de sumar 1.
Ejemplo 2
Consideremos el siguiente experimento: tiramos una moneda justa hasta que se re-
pita una cara o una cruz. ¿Cómo son el espacio muestral y las probabilidades? El
espacio muestral es sencillo, consiste en
3-5
de todos las secuencias de Ω que empiezan con C, obtenemos
1 1 1 1
P (1er lanzamiento cara) = + + = ,
4 8 8 2
que concuerda con nuestra intuición.
Ejemplo 3
El ejemplo anterior se puede extender a situaciones más generales, como por ejem-
plo, ¿qué pasa cuando lanzamos un dado hasta que se repita un resultado?
Disponemos de n celdas distintas y comenzamos a distribuir bolas en
ellas. Las bolas se distribuyen una a la vez, eligiendo una celda al azar
para cada bola. El proceso termina cuando una bola cae en una cel-
da que ya está ocupada por otra. ¿Cuántas bolas hemos distribuido al
terminar el proceso?
En el caso de la moneda del ejemplo anterior, tenemos n = 2 celdas una que repre-
senta cara y otra que representa cruz. En el caso del dado, tenemos n = 6 celdas,
una por cada dígito posible que tiene el dado. En ambos casos, los lanzamientos
corresponden a las bolas.
Claramente, podemos distribuir a lo sumo n bolas sin ocupar dos veces la misma
celda, pero el número de bolas distribuidas al terminar puede ser cualquier número
entre 2 y n + 1.
Como hicimos en el ejemplo anterior, olvidémonos por un momento de que el pro-
ceso termina cuando una bola cae en una celda ya ocupada. Fijemos así una cierta
cantidad k de bolas distinguibles a distribuir en las n celdas distintas. Para este nuevo
experimento el espacio muestral es
3-6
De acuerdo a lo dicho más arriba, es natural suponer que la probabilidad de cada
secuencia de largo k es 1/nk , es decir
1
P (c1 , . . . , ck ) = .
nk
Debemos asegurarnos, sin embargo, que la probabilidad de Ω sea igual a uno. Esto
es, que la suma de las probabilidades de todas las secuencias posibles es 1.
Para hacer esto, consideremos para cada k entre 2 y n + 1, el evento Ak de que el
proceso termine en el k-ésimo paso. Obviamente estos eventos son disjuntos dos
a dos, ya que el proceso no puede terminar en dos cantidades diferentes de pasos.
¿Cuántos elementos tiene cada Ak ?
Por la regla del producto, podemos elegir las celdas c1 , . . . , ck−1 de (n)k−1 formas
distintas. Para ck tenemos que elegir entre las k − 1 celdas c1 , . . . , ck−1 . Por lo tanto
|Ak | = (k − 1)(n)k , de donde se sigue que
1 (k − 1)(n)k−1
∑ P (c1 , . . . , ck ) = |Ak | k
= .
(c1 ,...,ck )∈Ak
n nk
r−1
1 (n)r
1 − (α2 + · · · + αr ) = 1 − ··· 1− = r . (3.2)
n n n
Esto muestra que
α2 + · · · + αn+1 = 1
porque en la fórmula anterior con r = n + 1 el último factor es cero. Observar que
(3.2) representa la probabilidad de que el proceso termine en más de r pasos. El
lado derecho de (3.2) no es otra cosa que la probabilidad de que r bolas caigan en
celdas distintas.
3-7
Ejemplo 4
Supongamos que en una clase, suficientemente grande, el profesor empieza a pre-
guntarle a sus estudiantes el día del cumpleaños. Lo hace uno a la vez, hasta encon-
trar una coincidencia. ¿A cuántos estudiantes le preguntará?
Podemos pensar entonces que disponemos de n = 365 celdas, que representan los
diferentes días del año, y que empezamos a distribuir bolas hasta que una de ellas
caiga en una celda ya ocupada.
Por lo que vimos en la parte anterior, la probabilidad de preguntarle a k estudiantes
(es el evento que llamamos Ak ) es
(k − 1)(365)k−1
P (preguntar a k estudiantes) = .
365k
Lamentablemente estas probabilidades son difíciles de calcular a mano. Se puede
hacer una aproximación muy buena con herramientas elementales de cálculo, pero
nos contentaremos con ver una gráfica.
0.030
0.025
0.020
0.015
0.010
0.005
0.000
2 5 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76 80
Notar que el valor más probable para k es k = 20, con una probabilidad de 0,032.
Este valor no es difícil de calcular. Si llamamos pk a la probabilidad de preguntarle
a k estudiantes, vemos que
pk 365(k − 1)
= .
pk+1 k(365 − k + 1)
De aquí resulta que pk < pk+1 si, y solo si k2 − k < 365. Resolviendo
√
la ecuación
1+ 1+4·365
cuadrática, esta última desigualdad es equivalente a k < 2 = 19,61. Esto
quiere decir que pk crece hasta k = 20, y luego comienza a decrecer. El caso general
de n celdas es completamente
√ análogo, y se obtiene que la probabilidad máxima se
alcanza en k ≈ n.
3-8
Ejemplo 5
Tiramos una moneda justa hasta que salga cara. ¿Cuál es la probabilidad de que
tengamos que tirar un número par de veces?
Un espacio muestral razonable es
Usaremos el mismo truco que en los ejemplos anteriores para definir la probabi-
lidad de cada secuencia. Olvidémonos por un momento de las reglas del juego y
que aunque hayamos obtenido una cara en un determinado lanzamiento, seguimos
tirando la moneda.
Al tirar una sola vez la moneda, cada uno de los resultados C o X tiene la misma
probabilidad de ocurrir. Sin importar lo que hagamos después, es razonable definir
la probabilidad de C como igual a 1/2.
Esto además es coherente con lo que ocurre al tirar dos veces la moneda. Los resul-
tados posibles son
CC,CX, XC, XX.
Estos son todos igualmente probables, con probabilidad 1/4. Si sale C en la primer
tirada habríamos ganado, pero tiramos la moneda una vez más. Puede salir C de
nuevo o X. Estos son dos casos ficticios en los cuales hubiéramos parado el juego
en la primer tirada. La suma de sus probabilidades es 1/4 + 1/4 = 1/2 lo cual
concuerda con nuestra definición anterior.
De hecho, este argumento funciona para cualquier cantidad de lanzamientos. Si lan-
zamos n veces una moneda, todas las secuencias que comienzan por C son ficticias.
Como son exactamente la mitad de todas las secuencias posibles, la probabilidad de
empezar con C siempre es 1/2 sin importar cuántas veces tiremos la moneda.
En la siguiente tabla mostramos cuáles son las probabilidades asignadas a las se-
cuencias de nuestro experimento si seguimos un razonamiento similar al anterior
para cada una de ellas.
Tiradas Resultados posibles Probabilidad
1 C, X 1/2
2 CC,CX, XC, XX 1/4
CCC,CCX,CXC,CXX
3 1/8
XCC, XCX, XXC, XXX
CCCC,CCCN,CCXC,CCXX,CXCC,CXCX
4 CXXC,CXXX, XCCC, XCCX, XCXC, XCXX 1/16
XXCC, XXCX, XXXC, XXXX
.. .. ..
. . .
3-9
En resumen, hemos definido
1
P X · · X} C =
| ·{z , k = 1, 2, . . .
2k
k−1 veces
Podemos verificar que la suma de las probabilidades de todas las secuencias posi-
bles es igual a 1. Para esto debemos recordar que la suma de una serie geométrica
es ∞
1
∑ xj = 1−x
j=0
Como estas probabilidades forman una una sucesión geométrica, en este caso de
razón 1/2, se las conoce bajo el nombre de distribución geométrica.
1/2
Probabilidad
1/4
1/8
1 2 3 4 5 6 7 8 9 10
k
+∞ +∞
1
P (E) = ∑ P (Ei ) = ∑ 2i
i=1 i=1 2
+∞
1 1 1 1
=∑ i
= = .
i=1 4 4 (1 − 1/4) 3
Es dos veces más probable tirar la moneda un número impar que un número par de
veces.
3-10
Clase 4
Probabilidad condicional
Ω = {(r, r, 1), (r, b, 1), (b, b, 1), (r, r, 2), (r, b, 2), (b, b, 2)},
en donde las dos primeras coordenadas indican los colores del lado 1 y 2 de la carta
y la tercera sobre qué lado la carta es apoyada sobre la mesa.
Claramente las seis ternas son igualmente probables, por lo que la probabilidad de
elegir una de ellas es 1/6.
4-1
El evento que nos interesa es
pues consiste de aquellas realizaciones para las cuáles el lado sobre la mesa es rojo.
De modo que la probabilidad de que el lado sobre la mesa sea rojo es
1 1
P (A) = 3 · = .
6 2
Consideremos el mismo problema pero con información adicional. Supongamos
ahora que quitamos la cobertura del lado visible de la carta elegida. De esta forma
podemos ver el color del lado hacia arriba. Si vemos que el lado hacia arriba es rojo,
¿cuál es la probabilidad de que el lado sobre la mesa sea rojo?
El espacio muestral y las probabilidades siguen siendo los mismos
Ω = {(r, r, 1), (r, b, 1), (b, b, 1), (r, r, 2), (r, b, 2), (b, b, 2)}.
Sin embargo, ahora sabemos que una de las ternas indicadas en rojo ha ocurrido.
Dicho de otro modo, el nuevo espacio muestral es
Ejemplo 2
Se lanza una moneda justa tres veces. ¿Cuál es la probabilidad de que salgan tres
caras?
El espacio muestral muestral es
Todas las posibilidades son igualmente probables así que P (3 caras) = 1/8.
Supongamos ahora que sabemos el primer lanzamiento salió cara. Dada esta infor-
mación, ¿cuál es la probabilidad de que salgan tres caras? El nuevo espacio muestral
es
Ω0 = {CCC,CCX,CXC,CXX}
4-2
ha ocurrido, y las posibilidades siguen siendo equiprobables. Así que
P (A ∩ B)
P (A|B) = .
P (B)
Esto tiene como consecuencia importante que P (·|B) cumple con las propiedades
básicas que probamos en el capítulo anterior, pues éstas son válidas para cualquier
4-3
probabilidad. Por ejemplo, vale que
Esto no es cierto para la función que obtenemos cuando fijamos la primer variable
B 7→ P (A|B) .
Esta función se llama función de verosimilitud y será muy importante para nosotros
más adelante, pero no es una probabilidad.
Ejemplo 3
En el lanzamiento de un dado consideremos los eventos
Entonces
P (A|Bc ) = 0, y 1 − P (A|B) = 1 − 1/3 = 2/3,
por lo que P (A|Bc ) 6= 1 − P (A|B).
Ejemplo 4
Dos cartas se extraen de un mazo de poker. Sean los eventos
13 12 3
P (S2 ∩ S1 ) = · = .
52 51 51
Observar que el mismo resultado se obtendría contando directamente los pares de
cartas posibles.
4-4
4-2. Eventos independientes
A A A
B B B
Area(A ∩ B) (1/4)Area(A) 1
P (A|B) = = = · P (A) .
Area(B) (1/2)Area(Ω) 2
Area(A ∩ B) (1/2)Area(A)
P (A|B) = = = P (A) .
Area(B) (1/2)Area(Ω)
Area(A ∩ B) (3/4)Area(A) 3
P (A|B) = = = · P (A) .
Area(B) (1/2)Area(Ω) 2
4-5
no favorecer la ocurrencia de A:
< P (A) por lo que B desfavorece la ocurrencia de A
P (A|B) = P (A) por lo que B no influye en la ocurrencia de A
> P (A) por lo que B favorece la ocurrencia de A
Ejemplo 6
Dos profesores de una lejana universidad toman un examen oral. Para calificar al
estudiante luego de su examen cada profesor debe elegir una nota, estas pueden ser
+1 o −1. La nota final del estudiante es la suma de las dos notas. Denotamos por
N1 la nota del primer profesor y N2 la del segundo.
Lamentablemente, los profesores de dicha universidad eligen la nota del estudiante
al azar, de acuerdo a las siguientes probabilidades:
eβ nm
P (N1 = n, N2 = m) = para n, m ∈ {−1, +1},
C
en donde β ≥ 0 es un parámetro que llamaremos interacción entre los profesores, y
C es una constante de normalización que hace la suma de las probabilidades igual
a uno. La coma que separa {N1 = n} de {N2 = m} indica la probabilidad de que
ambos eventos ocurran simultáneamente (i.e. la intersección).
n\m −1 +1
−1 eβ /C e−β /C
+1 e−β /C eβ /C
La tabla de arriba nos permite visualizar mejor estas probabilidades. Podemos cal-
cular C en función de β , ya que las probabilidades deben sumar uno:
eβ + e−β
2 = 1,
C
de donde C = 2 eβ + e−β .
4-6
Probabilidad
1/2
−1 +1
N1 = n
¿Cuáles son las probabilidades para N1 ? La nota N1 puede tomar solamente dos
valores, +1 o −1, y de la tabla vemos que
P (N1 = n, N2 = m) 2eβ nm
P (N1 = n|N2 = m) = = .
P (N2 = m) C
2eβ nm 1
= .
C 2
Sustituyendo C por el valor que calculamos antes, esta ecuación se transforma en
eβ nm 1
= .
e +e
β −β 2
4-7
Es fácil ver que esta ecuación se cumple solo para β = 0. Este caso es muy distinto
a los demás (cuando β > 0). De la ecuación anterior vemos que, cuando β = 0, para
todo par n, m ∈ {−1, +1} se cumple que
En los otros casos las notas de los profesores son cada vez más dependientes entre sí
a medida que β crece. Esto lo podemos ver calculando por ejemplo la probabilidad
de que ambas sean iguales:
eβ
P (N1 = N2 ) = P (N1 = +1, N2 = +1) + P (N1 = −1, N2 = −1) = .
eβ + e−β
1
P (N1 = N2 )
1/2
4-8
4-3. El juego de Monty Hall
1 2
Para dar una respuesta, es importante ser claros en el protocolo que sigue el presen-
tador. Hay tres suposiciones básicas:
el presentador siempre abre una puerta,
la elige entre las restantes después de que el concursante elige la suya,
atrás de esta siempre hay un chancho.
Aunque se puede razonar de forma más simple, haremos algo bastante complicado
para que no queden dudas sobre la mejor estrategia para el problema.
Representaremos las puertas por los números 1, 2 y 3. Consideremos como espacio
muestral las 4-úplas de números
en donde x representa la puerta en la que está el auto, y la puerta que elige el con-
cursante inicialmente, z la puerta que abre el presentador, y t es 1 si el concursante
decide cambiar de puerta y 0 si no cambia. Las condiciones z 6= x y z 6= y represen-
tan que el presentador abre una puerta diferente a la que eligió el concursante y que
ésta tiene un chancho.
1 Esta es la versión de El Show del Mediodía, en la versión original hay cabras en lugar de chan-
chos.
4-9
Todo es bastante claro hasta el momento en el que el presentador nos pregunta si
queremos cambiar de puerta. Si nos olvidamos por un instante de esto, las ternas
posibles para el juego son
1, 1, 2 2, 2, 1 3, 3, 1
1, 1, 3 2, 2, 3 3, 3, 2
1, 2, 3 2, 1, 3 3, 1, 2
1, 3, 2 2, 3, 1 3, 2, 1
En esta tabla, las primeras dos filas muestran los casos en los que el presentador
tiene dos opciones para abrir una puerta. Una vez que elegimos cambiar o no de
puerta, el espacio muestral se completa y queda
No cambiamos Cambiamos
1, 1, 2, 0 2, 2, 1, 0 3, 3, 1, 0 1, 1, 2, 1 2, 2, 1, 1 3, 3, 1, 1
1, 1, 3, 0 2, 2, 3, 0 3, 3, 2, 0 1, 1, 3, 1 2, 2, 3, 1 3, 3, 2, 1
1, 2, 3, 0 2, 1, 3, 0 3, 1, 2, 0 1, 2, 3, 1 2, 1, 3, 1 3, 1, 2, 1
1, 3, 2, 0 2, 3, 1, 0 3, 2, 1, 0 1, 3, 2, 1 2, 3, 1, 1 3, 2, 1, 1
De cierta forma, la pregunta consiste en elegir si poner un 0 o un 1 al final de las
ternas. Podemos elegir hacer siempre lo mismo, por ejemplo si ponemos siempre
un 0 estamos diciendo que no cambiaríamos nunca de puerta, y recíprocamente si
ponemos siempre un 1 estamos diciendo que cambiaríamos siempre. Pero también
puede ser interesante considerar estrategias en las cuales a veces ponemos un 0 y a
veces un 1.
Naturalmente lo ideal sería poner un 0 cuando hemos elegido la puerta con el auto y
1 cuando no. Sin embargo esa información no la disponemos cuando jugamos. Así
que supondremos que una vez que el presentador abre la puerta y nos pregunta si
queremos cambiar, elegimos cambiar con probabilidad p ∈ [0, 1]. Si p = 0 nuestra
estrategia es no cambiar nunca, y si p = 1 nuestra estrategia es cambiar siempre.
Para los p intermedios, a veces cambiaremos y a veces no.
Para asignar probabilidades a las 4-úplas de la tabla procedemos de la siguiente
manera. Es claro que el auto puede estar en cualquiera de las tres puertas, y las
tres son equiprobables. Luego, la primer coordenada de la 4-úpla toma los valores
1, 2 y 3 con probabilidad 1/3. Lo mismo podemos decir de la puerta que elige el
concursante.
El punto delicado está cuando asignamos probabilidades para la puerta que abre el
presentador. En la tercera y cuarta fila no hay ambigüedad ya que el presentador solo
tiene una opción posible, y por lo tanto la elige con probabilidad 1. Sin embargo, en
las primeras dos filas el presentador tiene dos opciones. Supondremos que elige la
puerta que va a abrir al azar con probabilidad 1/22 .
En resumen, si asumimos que todas las desiciones hechas por el presentador y el
participante son independientes, las 4-úplas tienen las probabilidades
2 Se podría cambiar el protocolo del presentador para que esto no sea más así.
4-10
3 × 3 × 2 × (1 − p) 3×3×2×p
1 1 1 1 1 1
3 × 3 × 1 × (1 − p) 3 × 3 ×1× p
1 1 1 1
3 × 3 × 2 × (1 − p) 3×3×2×p
1 1 1 1 1 1
3 × 3 × 1 × (1 − p) 3 × 3 ×1× p
1 1 1 1
1/3
p
0 1
La función G(p) es una función lineal cuyo gráfico se muestra en la figura arriba.
Notar que la probabilidad de ganar se maximiza si nuestra estrategia es cambiar
siempre (p = 1).
4-11
Clase 5
El teorema de Bayes
C1 ∩ A C2 ∩ A
C1 C2
5-1
Ejemplo 1
Una urna contiene 5 bolas rojas y 2 bolas verdes. Dos bolas se extraen de la urna,
una a la vez. ¿Cuál es la probabilidad de que la segunda bola sea roja?
Vamos a resolver el problema de dos formas distintas. Si bien las bolas son idénticas
entre sí, excepto por el color, podemos numerarlas para distinguirlas sin afectar las
probabilidades de extracción. La urna consiste entonces de las bolas
Urna = r1 r2 r3 r4 r5 v1 v2
El espacio muestral es entonces
Ω = {(x, y) : x 6= y ∈ U}.
5-2
la probabilidad como disciplina. Es un modelo de juguete con muchísimas aplica-
ciones a situaciones reales. Citamos de Wikipedia: http://en.wikipedia.
org/wiki/Urn_problem
En probabilidad y estadística, un problema de urna es un ejercicio men-
tal idealizado en el que algunos objetos de interés real (como átomos,
personas, automóviles, etc.) se representan como bolas de colores en
una urna u otro recipiente. Uno extrae una o más bolas de la urna y
el objetivo es determinar la probabilidad de extraer un color u otro, o
algunas otras propiedades.
No se necesita mucho para hacer un ejemplo donde (5.1) sea realmente la mejor
manera de calcular la probabilidad. He aquí un juego con reglas un poco más com-
plicadas.
Ejemplo 2
Una urna contiene 5 bolas rojas y 2 bolas verdes. Se extrae una bola. Si es verde,
se agrega una bola roja a la urna y si es roja se agrega una bola verde a la urna. (La
bola original no se vuelve a poner en la urna). Luego, se extrae una segunda bola.
¿Cuál es la probabilidad de que la segunda bola sea roja?
La fórmula de probabilidad total dice que P (R2 ) se puede calcular utilizando la ex-
presión en la ecuación (5.2). Solo los valores para las probabilidades condicionales
cambiarán. Tenemos
Por lo tanto
4 5 6 2 32
P (R2 ) = P (R2 |R1 ) P (R1 ) + P (R2 |V1 ) P (V1 ) = · + · = .
7 7 7 7 49
Es en este tipo de ejemplo en donde se ve claramente el potencial de (5.1).
Los experimentos secuenciales son aquellos que constan de varias etapas, en donde
el resultado de la i-ésima etapa depende de las etapas anteriores. En los experimen-
tos secuenciales resulta útil dibujar árboles para llevar un registro de las probabi-
lidades en cada etapa. Veamos algunos ejemplos sencillos para ver cómo funciona
esta idea.
Ejemplo 3
Dos cajas tienen productos de una cierta industria. Una caja contienen un producto
bueno y uno defectuoso. La otra caja contiene 4 productos buenos y 2 defectuosos.
Se elige al azar una caja, de la cual también al azar se extrae un producto. Calcular
5-3
la probabilidad de que el producto extraído resulte bueno.
Para empezar, construimos un árbol en el cual los nodos del primer nivel representan
las cajas y los del segundo la calidad del producto.
1
Caja 2
2 D probabilidad 12 · 26
1
2 4B, 2D B probabilidad 12 · 46
4
∗ 6 1
1 Caja 1
2 D probabilidad 12 · 12
2
1B, 1D B probabilidad 12 · 12
1
2
Las aristas contienen etiquetas que representan la probabilidad del evento determi-
nado por el nodo del árbol. Cuando seguimos un camino desde la raíz del árbol
(∗) hasta un nodo terminal, obtenemos una realización particular de un determina-
do evento. Si multiplicamos las probabilidades que aparecen como etiquetas de las
aristas del camino obtenemos la probabilidad de dicho evento.
Así, es fácil calcular la probabilidad del evento A = {el producto es bueno}. Basta
sumar las probabilidades de todos los caminos que terminan en nodos con una B:
1 1 4 7
+ = .
2 2 6 12
Éstos forman una partición del espacio muestral. Notar que no hemos tenido nece-
sidad de definir el espacio muestral, esta es la gran ventaja de (5.1). Las probabili-
dades condicionales son
1 4 1
P (A|C1 ) = , P (A|C2 ) = , y P (Ci ) = ,
2 6 2
y por la fórmula de la probabilidad total resulta
1 1 4 7
P (A) = P (A|C1 ) P (C1 ) + P (A|C2 ) P (C2 ) = + = .
2 2 6 12
Ejemplo 4
Una moneda sesgada (con probabilidad de obtener cara igual a p > 0) se lanza
repetidamente hasta que salga cara. Calcular la probabilidad de que la primer cara
aparezca en un número par de intentos.
5-4
Este ejemplo ya lo hemos visto, pero ahora lo resolveremos usando árboles. Sean
A = “se lanza la moneda un número par de veces”
B = “sale cara en el primer lanzamiento”.
Construyamos un árbol como en los ejemplos anteriores:
c c
P (A |B ) Ac (1 − p) · P (Ac |Bc )
Bc
1− p P (A|B c) A (1 − p) · P (A|Bc )
∗
p 1 Ac p · 1
B
0 A p·0
El dato que nos falta es P (A|Bc ). Sin embargo, notar que el experimento continua
si el primer lanzamiento resulta en cruz. Como lo que ocurre después del primer
lanzamiento es independiente del mismo, es como si el experimento comenzara
nuevamente. Lo que cambia es que para que A ocurra debe salir cara en una cantidad
impar de lanzamientos (contando a partir del segundo). Luego P (A|Bc ) = P (Ac ) =
1 − P (A). Entonces
1− p
P (A) = .
2− p
Notar que si p = 1/2 entonces P (A) = 1/3 como habíamos calculado antes.
Aunque el experimento no sea secuencial, podemos usar árboles para organizar los
cálculos y que éstos resulten más sencillos.
Ejemplo 5
En cierta población hay un 30 % de fumadores. Se sabe que la probabilidad de
enfermarse de cáncer de pulmón es igual a 0,1 para los fumadores y 0,01 para los
no fumadores. Calcular la probabilidad de que una persona elegida al azar en la
población se enferme de cáncer de pulmón.
Denotemos por F el evento ser fumador, por NF el de no ser fumador, y por C el de
enfermarse de cáncer. Lo mejor es hacer un árbol:
5-5
0,99 NC proba = 0,7 · 0,99
NF
0,7 C proba = 0,7 · 0,01
0,01
∗
0,9 NC proba = 0,3 · 0,9
0,3
F
0,1 C proba = 0,3 · 0,1
Entonces
P (C) = P (C|F) P (F) + P (C|NF) P (NF) = 0,1 · 0,3 + 0,01 · 0,7 = 0,037.
Demostración. La prueba sigue el mismo razonamiento que usamos para (5.1). No-
i=1 Ci . Luego, podemos descomponer el evento A como
tar primero que Ω = ∞
S
∞
A = A∩Ω =
[
(A ∩Ci ).
i=1
Al aplicar probabilidades, como los eventos Ci ’s son disjuntos dos a dos, obtenemos
!
∞
[ ∞ ∞
P (A) = P (A ∩Ci ) = ∑ P (A ∩Ci ) = ∑ P (A|Ci ) P (Ci ) .
i=1 i=1 i=1
En la última igualdad hemos usado la regla del producto P (A ∩Ci ) = P (A|Ci ) P (Ci ).
5-6
Como los miembros de la izquierda son iguales en ambos casos, obtenemos la igual-
dad siguiente:
P (A|B) P (B) = P (B|A) P (A) . (5.4)
Esta relación permite escribir una probabilidad condicional en función de la otra.
Podemos visualizarla de la siguiente manera:
× = = ×
Esta relación junto con la fórmula de la probabilidad total (5.3) dan como resultado
lo que se conoce como la fórmula de Bayes.
Fórmula de Bayes
Sean C1 ,C2 , . . . , una partición numerable de Ω cuyos eventos tienen probabili-
dades positivas. Sea A un evento con probabilidad positiva. Entonces
P (Ck ) P (A|Ck )
P (Ck |A) = ∞ . (5.5)
∑i=1 P (Ci ) P (A|Ci )
Ejemplo 6
En una primera urna se tienen 2 bolas blancas y 1 negra, y en una segunda, 2 negras
y 1 blanca. Se elige al azar una urna, y de ella también al azar se extrae una bola.
¿Cuál es la probabilidad de que la urna elegida haya sido la segunda, dado que la
bola extraída es blanca?
Denotemos por Ui el evento “se elige la urna i” para i = 1 y 2. Entonces
P (blanca|U2 ) P (U2 )
P (U2 |blanca) =
P (blanca|U1 ) P (U1 ) + P (blanca|U2 ) P (U2 )
1/3 · 1/2
= = 1/3.
2/3 · 1/2 + 1/3 · 1/2
En este caso, en dónde las urnas y las bolas son equiprobales, podemos entender
mejor el cálculo usando un árbol de posibilidades.
5-7
N proba 1/6
1/3
1/3
U2 N proba 1/6
1/3
1/2
B proba 1/6
∗
N proba 1/6
1/2 1/3
1/3
U1 B proba 1/6
1/3
B proba 1/6
Notar que de las 3 blancas, solo hay una que proviene de la urna 2, por eso la
probabilidad condicional es 1/3. En general, el método del árbol de posibilidades
funciona igual, pero debemos ponderar con las respectivas probabilidades condicio-
nales.
5-8
poca población que es consumidora de la droga.
Una buena forma de visualizar esto es usando árboles como habíamos hecho antes.
Imaginemos una población de 100 000 personas. En ésta, 0,5 % serán consumidores
de la droga:
99 % − total 98505
9,5 % NC
9 99 500 + total 995
1%
100 000
1% − total 5
0,5 %
C 500
99 % + total 495
Completando el árbol vemos que el total de personas que esperamos sean positivas
en el test es 495 + 995 = 1490. De estos, solamente
495
≈ 0,33
1490
son consumidores de la droga.
1
P (C|+)
1/2
p
0 1/4
Para pensar: ¿Cuanto debe ser la proporción de consumidores de la droga para que
la probabilidad P (C|+) = 0,99?
5-9
Para resumir la falacia de la frecuencia base con números específicos:
el 99 % de todas las pruebas son correctas, no implica que el 99 % de
las pruebas positivas sean correctas.
Nos referiremos a este ejemplo bastante seguido. Este y otros ejemplos similares
están en el corazón de muchos malentendidos estadísticos.
Ejemplo 8
Otro truco que es útil para calcular probabilidades es hacer una tabla. Vamos a
rehacer el ejemplo anterior utilizando una tabla construida con 100000 personas
totales dividida de acuerdo con las probabilidades del ejemplo.
Construimos la tabla de la siguiente manera. Las 10000 personas forman el total
general en la esquina inferior derecha. Utilizando P (C) = 0,05, calculamos que
500 de las 100000 personas son consumidoras. Asimismo, 99950 personas no lo
son. En este punto la tabla se ve como:
C NC total
+
-
total 500 99500 100000
Usando P (+|C) = 0,99 podemos calcular que el número de consumidores con re-
sultado positivo es el 99 % de 500 o 495. Las otras entradas son similares. En este
punto, la tabla se ve como
C NC total
+ 495 995
- 5 98505
total 500 99500 100000
C NC total
+ 495 995 1490
- 5 98505 98510
total 500 99500 100000
|C ∩ +| 495
P (C|+) = = = 33 %
|+| 1490
La siguiente figura ilustra la falacia de la frecuencia base. La gran zona azul re-
presenta a todas las personas no consumidoras. El área roja mucho más pequeña
representa a los consumidores. El rectángulo sombreado representa a las personas
5-10
que dan positivo. El área sombreada cubre la mayor parte del área roja y solo una
pequeña parte del área azul. Aun así, la mayor parte del área sombreada es sobre el
azul. Es decir, la mayoría de las pruebas positivas son de personas no consumidoras.
Positivo/Negativo
Consumen/No consumen
Carla y Walter están jugando a un juego en el que la primera persona que consigue
6 puntos gana. La forma en que cada punto se decide es un poco extraña.
El Casino tiene 17 urnas que Carla y Walter no pueden ver pues se encuentran es-
condidas en un depósito. Las urnas contienen bolas blancas y negras, en diferentes
proporciones. Si imaginamos que las urnas están numeradas del 0 al 16, la i-ésima
urna tiene i bolas blancas y 16 − i bolas negras. Así, la urna 0 tiene todas las bo-
las negras, mientras que la urna 16 tiene todas las bolas blancas, y el resto de las
urnas tiene cantidades intermedias de bolas blancas y negras. A excepción de la
proporción de bolas blancas y negras, las urnas son idénticas entre sí.
Antes de que empiece el juego el Casino elige una de las urnas al azar. Luego, cada
punto es decidido al azar de la siguiente manera: se extrae una bola de la urna, si la
bola es blanca, Carla gana el punto; si es negra, Walter gana el punto. Luego la bola
se vuelve a poner en la urna y se extrae otra bola, y así sucesivamente.
Claramente, la probabilidad de que Carla gane un punto es igual a la proporción de
bolas blancas en la urna. Llamemos a esta probabilidad p, por lo que la probabilidad
de que Walter gane un punto es 1 − p. Debido a que el Casino eligió al azar la urna
5-11
con la cual jugar, cada valor de p es igualmente probable. La urna solo se elige al
principio del juego, por lo que p es el mismo para cada punto.
Supongamos que Carla ya está ganando 5 puntos a 3. ¿Cuál es la probabilidad de
que Carla gane?
punto para Walter
Ui
1 − (1 − p)3 .
Sin embargo, el verdadero valor de p no lo sabremos nunca con certeza. Uno está
tentado a usar la información dada para adivinar un valor de p. Sin embargo, esto
sería erróneo, y podemos calcular la probabilidad de que Carla (o Walter que es más
fácil) gane el juego, sin adivinar directamente el valor de p.
Sabemos que se han jugado 8 turnos, y que Carla tiene 5 puntos y Walter 3. En otras
palabras, sabemos que el evento
ha ocurrido.
Comencemos por calcular la probabilidad de D. Usando la fórmula de la probabili-
dad total, tenemos que
16
P (D) = ∑ P D p = pi P (p = pi ) .
i=0
5-12
Esta fórmula la podemos obtener razonando de la siguiente manera: el juego puede
transcurrir de varias formas, pero en total sabemos que debe darse una serie de
resultados del tipo (W,C,C,W,C,W,C,C), en donde la letra C significa que el punto
fue para Carla y la letra W que fue para Walter. Como la probabilidad de que el
punto sea para Carla es pi y la probabilidad de que el punto sea para Walter es
1 − pi (estamos asumiendo que p = pi ), vemos que cada una de estas secuencias
tiene probabilidad p5i (1 − pi )3 . Resta entonces contar cuántas secuencias distintas
hay. Sabemos que tiene largo 8, 5 letras C y 3 letras W . Sin embargo, eligiendo
los lugares de las letras C quedan determinados los lugares de las letras W . Esto se
puede hacer de 85 formas distintas.
Además sabemos que el Casino elige la urna al azar, por lo que P (p = pi ) = 1/17.
Juntando ambas cosas obtenemos
1 8 16 5 1 1 8 16 5
P (D) =
17 5 i=0∑ pi (1 − pi) = 17 168 5 ∑ i (16 − i)3.
3
i=0
Esta fórmula es un poco asustadora pero una computadora la puede calcular sin
problemas.
Ahora podemos usar el teorema de Bayes para calcular la probabilidad de que p
sea igual a p j , dados los puntos de Carla y Walter (esto es dado D). Aplicando la
fórmula obtenemos:
P D p = p j P p = p j
P p = p j D =
P (D)
Sustituyendo los valores que hemos calculado más arriba, la probabilidad de que p
sea igual a p j queda
j5 (16 − j)3
P p = p j D =
.
i=0 i (16 − i)
∑16 5 3
Podemos graficar el lado derecho en función de j para ver cuál es el valor más
probable de p.
P (p = p j |D)
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
j
p10 = 5/8. Este sería el valor más probable para p dado los datos D del juego que
tenemos hasta el momento, y si la pregunta hubiera sido “adivinar con qué urna
5-13
están jugando” la mejor respuesta sería “con la urna 10”. Podríamos estimar así la
probabilidad de que Carla gane el juego como
1 − (1 − 5/8)3 ≈ 0,947.
Pero esta estimación está un poco por arriba del verdadero valor. Para calcularla
correctamente usaremos de nuevo la fórmula de la probabilidad total:
16
gane C|p = p j , D P p = p j |D
P (gane C|D) = ∑P
j=0
16
1 − (1 − p j )3 P p = p j |D .
= ∑
j=0
De nuevo, aunque las cuentas son asustadoras, una computadora las hace en menos
de un segundo. El resultado es P (gane C|D) = 0,909.
Para aquellos que no confían mucho en las cuentas que hicimos, este es un buen
ejemplo en el cual la simulación por computadora nos puede ayudar. Para forzar
la ocurrencia del evento D simplemente debemos olvidarnos de aquellas veces en
las cuales D no ocurre. Para cada simulación en la cual D sí ocurre, vemos si Carla
efectivamente gana el juego. Así, contamos el total de veces que Carla gana el juego
entre aquellas veces en que D ha ocurrido, y la frecuencia relativa aproximará, si
repetimos muchas veces el juego, la probabilidad de que Carla gane (dado D).
0.95
0.90
Frec. Rel. gana Carla
0.85
0.80
0.75
Ensayo
En la figura de arriba hicimos la simulación del juego 200 000 veces. Entre estas,
23 792 veces el evento D ocurrió. La frecuencia relativa de veces, entre estas 23 792,
5-14
en las cuales Carla ganó el juego fue de 0,908. El gráfico muestra cómo fue cam-
biando la frecuencia relativa a medida que la computadora iba jugando. La linea
horizontal roja es el valor más probable de p que calculamos anteriormente (0,947).
La linea punteada a la cual convergen las frecuencias relativas es 0,909.
5-15
Clase 6
El teorema de Bernoulli
6-1
un 1, y cada vez que A no ocurre ponemos un 0. Así obtenemos un nuevo espacio
muestral
Ωn = {(X1 , . . . , Xn ) : Xi ∈ {0, 1}} ,
en donde la coordenada Xi indica si el evento A ha ocurrido en el i-ésimo ensayo.
Para dramatizar un poco la historia, llamaremos “éxito” a la ocurrencia de A y “fra-
caso” a lo contrario. Resulta así que podemos olvidarnos del evento A, e imaginar
que lanzamos una moneda sesgada, que en lugar de cara y cruz tiene escrito es sus
lados las palabras “éxito” y “fracaso”. La probabilidad del lado “éxito” es p.
¿Qué probabilidad debemos asignar a cada secuencia? La probabilidad de que la
coordenada Xi sea igual a 1 es p, y la probabilidad de que Xi sea 0 es 1 − p. Como
los ensayos son independientes, las probabilidades se multiplican, de modo que la
probabilidad de una secuencia de Ωn es igual a pk (1 − p)n−k , en donde k es la
cantidad de coordenadas Xi que son iguales a 1, y por lo tanto n − k es igual a la
cantidad de coordenadas Xi que son iguales a 0.
La cantidad de éxitos es igual a la suma de las coordenadas Xi , que llamaremos
Sn = X1 + · · · + Xn . (6.1)
n k
P (Sn = k) = pk = p (1 − p)n−k . (6.2)
k
Este modelo se llama distribución binomial. El número pk es la probabilidad de que
ocurran k éxitos en n ensayos independientes.
Cuando p = 1/2 se trata de la moneda justa que hemos estado usando en algunos
de los ejemplos. La LGN predice en este caso que el número de éxitos será parecido
al de fracasos, al menos cuando n es grande. Pero ¿cuál es la probabilidad de que
ambos sean iguales? Primero que nada, esta probabilidad es cero a no ser que n sea
par. Pongamos entonces n = 2m y llamemos a esta probabilidad qm .
Responder intuitivamente: ¿qué ocurre con qm a medida que m crece? ¿Es cada vez
más grande?
6-2
Comencemos con m = 1. Si lanzamos dos veces la moneda, misma cantidad de
éxitos que fracasos quiere decir uno de cada: EF o FE. Como cada una tiene pro-
babilidad 1/4 tenemos q1 = 1/2. Para m = 2 sirven 6 secuencias de 16, por lo que
q2 = 3/8. En general, deben haber m éxitos en 2m ensayos, por lo que de la ecuación
(6.2) resulta
2m 1
qm = P (S2m = m) = . (6.3)
m 22m
Este número parece un poco intratable. La siguiente tabla muestra los primeros 5
valores. Para facilitar las comparaciones, en la última fila se especifican las proba-
bilidades en forma de fracciones con el mismo denominador. Se puede observar que
las probabilidades disminuyen a medida que aumenta el número de lanzamientos,
por lo menos en la parte de la serie que aparece en la tabla.
2m 2 4 6 8 10
qm 1/2 3/8 5/16 35/128 63/256
Denominador 128/256 96/256 80/256 70/256 63/256
común
¡Qué maravilla! 3,4,5,6,7,8: es algo más que una simple coincidencia. Con un poco
de fe, podemos predecir, que al pasar de ocho a diez lanzamientos, la probabilidad
de obtener números iguales de éxitos y fracasos queda reducida en un factor 9/10.
Y así es, como puede verse en la tabla.
El patrón se mantiene para números más elevados, la probabilidad disminuye pro-
gresivamente. El siguiente valor se obtiene siempre multiplicando por una fracción
menor que uno:
1 3 5 2m − 1
qm = P (S2m = m) = · · · · · . (6.4)
2 4 6 2m
Los matemáticos de fines del renacimiento se fascinaban con este tipo de productos.
En 1655 el matemático John Wallis publicó la siguiente fórmula para π:
2 2 4 4 6 6 8 8 π
· · · · · · · ··· = . (6.5)
1 3 3 5 5 7 7 9 2
6-3
Para ser más precisos, consideremos los números de Wallis
2 2
W1 = ·
1 3
2 2 4 4
W2 = · · ·
1 3 3 5
..
.
2 2 2m 2m
Wm = · ··· ·
1 3 2m − 1 2m + 1
El producto de Wallis dice que lı́mm→∞ Wm = π/2. En cada número de Wallis los
enteros aparecen dos veces, excepto el último denominador. Si tomamos la raíz
cuadrada resulta entonces
√ 2 4 2m 1 1 1
Wm = · · · · ·√ = ·√ .
1 3 2m − 1 2m + 1 qm 2m + 1
De aquí, usando (6.5), concluimos otra maravilla escondida en el lanzamiento de
una moneda:
la probabilidad qm de que en m éxitos y m fracasos ocurran en √
2m lan-
zamientos de una moneda justa es aproximadamente igual a 1/ πm.
En particular qm → 0 cuando m tiende a infinito.
¿Contradice esto la LGN? Que en un millón de lanzamientos se produzcan 500.000
éxitos y 500.000 fracasos parece poco esperable. Todo cambia cuando hablamos de
un porcentaje alrededor del valor central. Por ejemplo, si queremos que el número
de éxitos esté entre el 49 % y el 51 % del total. En un experimento de 100 lanza-
mientos, se trata por tanto de que salgan 49, 50 o 51 éxitos. Si se repite este un
gran número de veces, alrededor del 24 % de ellas se obtendrá que la proporción de
éxitos cae en ese pequeño intervalo.
Con 1.000, se trata de que salgan entre 490 y 510 éxitos, lo cual sucede en un 50 %
de los casos. Con 10.000 lanzamientos, el intervalo se sitúa entre 4.900 y 5.100, y el
éxito nos acompaña en más del 95 % de los casos. Con un millón de lanzamientos,
el intervalo es entre 490.000 y 510.000, lo cual ocurre casi siempre.
Nro. de lanzamientos 100 1.000 10.000 1 millón
Precisión 49-51 490-510 4.900-5.100 490 mil - 510 mil
Confianza 24 % 50 % 95 % ≈ 100 %
El mismo razonamiento es válido cuando se endurecen las condiciones. Tal vez sea
excesivo pedir que la proporción de éxitos se sitúe entre 49,9 % y 50,1 % cuando se
hacen 1.000 lanzamientos (los únicos resultados posibles son 499, 500, y 501), pero
no lo es para 10 millones.
La proporción de éxitos puede llegar a ser tan próxima a 1/2 como se quiera. Esto
es la precisión. Pero también está la confianza que tenemos en esa precisión, el
porcentaje de veces que de hecho esa precisión ocurre.
6-4
Lo que no cabe esperar es que el número de éxitos sea igual al de fracasos, o que el
número de éxitos se encuentre siempre dentro de un tango definido por un número
fijo, por ejemplo 20, alrededor del centro, cuando se lanza una moneda al aire un
millón de veces. De hecho se cumple lo contrario: si se lanza al aire una moneda un
gran número de veces, la diferencia absoluta entre los números de éxitos y fracasos
será tan grande como se quiera. Lo que se estabiliza es la proporción de éxitos.
Al ver por primera vez una expresión como la del producto de Wallis, uno se pre-
gunta ¿qué tiene que ver π en todo esto? El número π aparece siempre que haya un
círculo en la vuelta, y aunque parezca increíble, detrás del producto de Wallis hay
un círculo escondido.
No vamos a hacer una prueba de la igualdad (6.5), pero les sugerimos a aquellos
interesados entrar a
https://www.youtube.com/watch?v=8GPy_UMV-08
en donde pueden ver un el excelente video explicativo. El video está en inglés, pero
se pueden activar los subtítulos en español. Para entenderlo solo se requiere andar
fresco con conceptos básicos de números complejos.
Volvamos al caso general en el que p es cualquier valor en (0, 1). Primero, observar
que la suma de las probabilidades pk = P (Sn = k) es igual a 1, ya que por el binomio
de Newton tenemos
n n
n
∑ pk = ∑ k pk (1 − p)n−k = (p + 1 − p)n = 1.
k=0 k=0
Sin embargo, en general las probabilidades pk son difíciles de calcular. Sobre todo
cuando n es grande ya que las combinaciones son de por sí complicadas.
Pero hay un truco que consiste en ver cómo se relacionan dos términos consecutivos.
Para simplificar la notación, llamemos q = 1 − p:
n k+1 n−k−1 n
pk+1 k+1 p q k+1 p (n − k)p
= n k n−k = n = .
pk k p q k q (k + 1)q
Con esta fórmula y la condición de que la suma sea uno, podemos calcular todos
los pk . Por ejemplo, supongamos que p = 1/4 y que n = 10. Entonces
p1 /p0 = 10/3 p2 /p1 = 9/6
p3 /p2 = 8/9 p4 /p3 = 7/12
p5 /p4 = 6/15 p6 /p5 = 5/18
p7 /p6 = 4/21 p8 /p7 = 3/24
p9 /p8 = 2/27 p10 /p9 = 1/30
6-5
pk
0 1 2 3 4 5 6 7 8 9 10
k
6-6
pk
0 1 2 3 4 5 6 7 8 9 10
k
6-7
pk
0 1 2 3 4 5 6 7 8 9 10
k
Ir Dr
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k
6-8
último α, de modo que
pk+1
≤ α para todo k ≥ r.
pk
Como vimos antes, si r > M, el cociente α < 1. En tal caso, poniendo k = r + j se
deduce que
pr+ j
≤ α j para todo j ≥ 0.
pr
Podemos acotar entonces Dr por una serie geométrica
∞
pr
Dr = ∑ pk = ∑ pr+ j ≤ pr ∑ α j = 1−α .
k≥r j≥0 j=0
1≥ ∑ pk ≥ pr (r − M),
M≤k≤r
de donde
1
pr ≤ .
r−M
Juntando todo, obtenemos la siguiente cota superior para Dr :
(r + 1)q
Dr ≤ .
(r − M)2
6-9
El teorema de Bernoulli afirma que cuando n es suficientemente grande, con alta
probabilidad (confianza) Fn está cerca (precisión) de la probabilidad de éxito p.
Para cuantificar cuán cerca está, podemos usar la diferencia |Fn − p|.
Dado un número pequeño ε > 0 (la precisión), ¿cuál es la probabilidad (la confian-
za) de que |Fn − p| < ε? Aunque es muy difícil calcular esta probabilidad exacta-
mente, probaremos que tiende a cero cuando n tiende a infinito.
Teorema de Bernoulli
Para todo ε > 0, se cumple que
P (|Fn − p| < ε) → 1
6-10
Esto nos sirve para saber cuál es el orden de n para que Fn esté a menos de ε de
p. Para que la probabilidad de que Fn esté a menos de ε de p sea al menos 1 − α,
debemos realizar n ensayos, con
2pq
n≈
αε 2
Como veremos más adelante, si bien este valor de n garantiza lo que buscamos,
es una cota un poco grosear. Existen mejoras para las cotas de las probabilidades
de cola que permiten mejorar el cálculo de n. Pero como primera aproximación es
suficiente.
6-11
Clase 7
Variables aleatorias discretas I
21 21 23 22 23 29 24 21 18 23 19 18
20 24 20 20 19 19 22 21 18 20 23 17
20 25 23 21 14 18 29 28 28 14 28 26
22 22 22 29 19 26 16 17 23 18 25 22
20 22 18 32 26 21 20 27 20 19 19 18
Estos números parecen elegidos al azar, pero ¿de dónde viene ese azar? ¿Qué de-
termina finalmente la altura de cada planta? Seguramente, aspectos genéticos, con-
diciones del suelo, el clima, la biodiversidad del lugar en donde se realizó la plan-
tación, y un sin número de otros factores. Es prácticamente imposible determinar
un espacio muestral cuyos elementos correspondan a las diferentes “historias” que
cada planta pueda tener. Peor aún, si por un milagro de astucia logramos descri-
bir el espacio muestral, ¿cómo determinamos las probabilidades? Seguramente los
diferentes factores influyen de forma particular en la altura final de la planta.
¿Es imposible hacer un modelo para este tipo de experimentos? Increíblemente no,
y la gran invención que lo permite es el concepto de variable aleatoria.
1 Los datos son reales, ver V. Rousson Statistique appliqué aux sciences de la vie, Capítulo 1.
7-1
Tabla 7.1: Frecuencias relativas de las alturas de las plantas. La segunda columna
es la frecuencia absoluta.
Valor Frec. Frec. relativa
14 2 0,0333
16 1 0,0167
17 2 0,0333
18 7 0,1167
19 6 0,1000
20 8 0,1333
21 6 0,1000
22 7 0,1167
23 6 0,1000
24 2 0,0333
25 2 0,0333
26 3 0,0500
27 1 0,0167
28 3 0,0500
29 3 0,0500
32 1 0,0167
7-2
Frec. relativa
14 16 17 18 19 20 21 22 23 24 25 26 27 28 29 32
X = altura en cm
Sin un modelo mejor, toda la información queda resumida en la tabla anterior. Po-
demos visualizar mejor la distribución de X si graficamos las frecuencias relativas,
como hicimos en la Figura 7.1.
Estos son los datos observados. Un modelo teórico del experimento sería una fór-
mula o algoritmo que nos permita calcular la distribución de X (la probabilidad de
cada valor posible) a partir de ciertos principios. Esas fórmulas teóricas pueden de-
pender de varios parámetros, y contrastando los datos con el modelo, podemos ver
cuáles son los parámetros que mejor lo ajustan a la realidad.
De este modo, un estadístico al ver los datos de la tabla y la gráfica de frecuencias
relativas, propondría una (a veces complicada) fórmula para la distribución de X:
P (X = k) = p(k; θ ) (7.1)
7-3
Definición de variable aleatoria
Una variable aleatoria es una función
X :Ω→R
que a cada elemento del espacio muestral ω asigna un número real X(ω).
La distribución de X queda determinada por los valores posibles que puede
tomar y las probabilidades con que efectivamente lo hace.
Los modelos de variables aleatorias no requieren conocer el espacio muestral,
ni todas las probabilidades en él definidas. Solamente necesitan especificar la
distribución de X. En esto radica su utilidad.
Como dijimos antes, hay dos grandes tipos de variables aleatorias: las discretas y las
continuas. Esencialmente, cuando estamos interesados en contar casos tratamos con
variables discretas, y cuando medimos cantidades tratamos con variables continuas.
También obtenemos variables discretas si redondeamos una continua, o si tenemos
en cuenta la precisión de los aparatos de medición.
Vamos a comenzar estudiando variables discretas pues son más sencillas desde el
punto de vista matemático. Más adelante volveremos sobre las variables continuas.
Si X es una variable aleatoria, su recorrido (o imagen) es el conjunto de valores que
puede tomar. Lo notaremos por RX .
Definición de variable aleatoria discreta
Una variable aleatoria X es discreta si su recorrido es numerable. Es decir, si
podemos ordenar en una sucesión
RX = {x1 , x2 , . . .}
los valores posibles que puede tomar. El recorrido de X puede ser tanto finito
como infinito.
Ejemplo 1
Al lanzar un dado dos veces, podemos registrar los resultados mediante el par (i, j),
en donde i es el resultado del primer lanzamiento, y j el del segundo. Podemos
tomar como espacio muestral
Ω = (i, j) : i, j ∈ {1, 2, 3, 4, 5, 6} .
7-4
En un juego de apuestas con estos dos dados, se gana $500 si la suma es 7 y se
pierde $100 en caso contrario. Llamando a las ganancias X, podemos describirla
formalmente como (
500 si i + j = 7;
X(i, j) =
−100 si i + j 6= 7.
X es un ejemplo de variable aleatoria discreta.
Podemos cambiar la apuesta. Por ejemplo
Y (i, j) = i j − 10.
En este caso, si sacas (6, 2) entonces ganas $2. Si sacas (2, 3) perdes $4.
Responder intuitivamente: ¿Qué apuesta preferís jugar? Volveremos más tarde sobre
este asunto.
La distribución de una variable discreta queda determinada entonces por las proba-
7-5
bilidades con las que toma cada uno de los valores de su recorrido. Esto se puede
resumir mediante una función que a cada valor x en R asigna su probabilidad de
ocurrir, o lo que es lo mismo P (X = x). Obviamente cuando x ∈ / RX esta función
valdrá cero. Como esta función es muy útil, tiene nombre propio y se llama función
de probabilidad puntual de X.
Función de probabilidad puntual
La función de probabilidad puntual (f.p.p.) de una variable aleatoria discreta X
es la función p : R → [0, 1] definida por
p(x) = P (X = x) .
La función p(x) está definida para todo x ∈ R, pero si x no es un valor que X pueda
tomar, entonces p(x) = 0. Es claro que 0 ≤ p(x) ≤ 1, y que
∑ p(x) = 1,
x∈RX
1 2 3 4 5 6
Valor x
7-6
Rigurosamente deberíamos dibujar puntos en lugar de barras, pero colocamos una
barra entera para visualizar mejor. Notar que en aquellos x fuera del recorrido de M
no hemos graficado nada.
Ejemplo 4
Siguiendo con el ejemplo anterior, tenemos
Valor x 1 2 3 4 5 6
f.p.p. p(x) 1/36 3/36 5/36 7/36 9/36 11/36
f.d.a. F(x) 1/36 4/36 9/36 16/36 25/36 36/36
Se llama función de distribución acumulada porque F(x) da la probabilidad acumu-
lada al sumar las probabilidades p(y) con y ≤ x. Por ejemplo, en la tabla de arriba,
la entrada 16/36 para la f.d.a. de la columna 4 es la suma de los valores de la f.p.p.
desde la columna 1 hasta la 4. Formalmente:
1 3 5 7 16
F(4) = P (M ≤ 4) = + + + = .
36 36 36 36 36
Igual que la f.p.p. la f.d.a. está definida para todo x. Pero a diferencia de aquella,
F(x) no es cero fuera de RM , sino que es constante. Por ejemplo, F(4,5) = 16/36.
f.d.a. F(x)
1 2 3 4 5 6
Valor x
El gráfico de F(x) para una variable discreta siempre se parece a una escalera como
es el caso en este ejemplo.
7-7
Ejemplo 5
Sea X el número de caras en 3 lanzamientos de una moneda justa. Entonces
Valor x 0 1 2 3
f.p.p. p(x) 1/8 3/8 3/8 1/8
f.d.a. F(x) 1/8 4/8 7/8 8/8
y los gráficos son
F(x) p(x)
1
1/8
7/8
3/8
4/8
3/8
3/8
1/8 1/8
1/8
x x
0 1 2 3 0 1 2 3
Los colores muestran la relación entre ambas, y como la f.d.a. se obtiene acumulan-
do las probabilidades a medida que x crece.
Esto es, a medida que x crece sin límite, se hace más y más cierto que {X ≤ x},
y del mismo modo, se hace menos probable a media que x decrece sin límite.
La prueba se basa en la propiedad de continuidad de la probabilidad. Los
eventos {X ≤ n} son crecientes, y su unión es todo Ω, por lo que
lı́m P (X ≤ n) = P (Ω) = 1.
n→+∞
El límite en −∞ es análogo.
Continuidad por derecha:
lı́m F(y) = F(x).
y→x+
7-8
{abc, −, −} {a, bc, −} {−, a, bc}
{−, abc, −} {b, ac, −} {−, b, ac}
{−, −, abc} {c, ab, −} {−, c, ab}
{ab, c, −} {a, −, bc} {a, b, c}
{ac, b, −} {b, −, ac} {a, c, b}
{bc, a, −} {c, −, ab} {b, a, c}
{ab, −, c} {−, ab, c} {b, c, a}
{ac, −, b} {−, ac, b} {c, a, b}
{bc, −, a} {−, bc, a} {c, b, a}
Tabla 7.2: Distribución aleatoria de tres bolas distinguibles en tres celdas distingui-
bles. Las bolas están representadas por las letras a, b, c y las celdas por los lugares
entre las comas.
7-9
N\X 0 1 2 3 Distribución de N
1 2/27 0 0 1/27 1/9
2 6/27 6/27 6/27 0 2/3
3 0 6/27 0 0 2/9
Distri-
bución 8/27 12/27 6/27 1/27 1
de X
Y \X 0 1 2 3 Distribución de Y
0 1/27 3/27 3/27 1/27 8/27
1 3/27 6/27 3/27 0 12/27
2 3/27 3/27 0 0 6/27
3 1/27 0 0 0 1/27
Distri-
bución 8/27 12/27 6/27 1/27 1
de X
Valor 0 1 2 3
pN 0 1/9 2/3 2/9
pX 8/27 12/27 6/27 1/27
pY 8/27 12/27 6/27 1/27
Notar que X e Y tienen la misma distribución, hecho que es claro por simetría. Sin
embargo, este cuadro no nos proporciona la información suficiente para calcular,
por ejemplo, la probabilidad de que {X = 1} e {Y = 2}. Para esto debemos hacer
una tabla más completa, que representa la distribución conjunta de las variables. Es
decir, debemos especificar la probabilidad de eventos del tipo {X = i} e {Y = j},
lo cual hacemos mediante una tabla de contingencia. Esta información se muestra
en la Tabla 7.3.
Por ejemplo, la tabla contiene la información adicional de que X e Y no pueden ser
igual a 3 simultáneamente.
Notar que la distribución de X (en cualquiera de las dos tablas) se obtiene sumando
las filas de la tabla de contingencia. Lo mismo vale pata N e Y , pero sumando las
columnas. Las entradas de la tabla son las probabilidades conjuntas
P (N = i, X = j) (arriba) y P (Y = i, X = j) (abajo).
7-10
Función de probabilidad conjunta
La función de probabilidad conjunta de X e Y es la función p : R2 → [0, 1]
definida por
p(x, y) = P (X = x,Y = y) .
Para indicar las variables X e Y a veces escribiremos pX,Y .
Notar que ∑x∈RX ,y∈RY p(x, y) = 1.
7-11
X1
0 1 pY1
0 1/3 1/6 1/2
Y1
1 1/6 1/3 1/2
pX1 1/2 1/2 1
X2
0 1 pY2
0 1/4 1/4 1/2
Y2
1 1/4 1/4 1/2
pX2 1/2 1/2 1
X3
0 1 pY3
0 1/6 1/3 1/2
Y3
1 1/3 1/6 1/2
pX3 1/2 1/2 1
Tabla 7.4: Las monedas mágicas. Arriba: distribución conjunta de X1 e Y1 . Centro:
distribución conjunta de X2 e Y2 . Abajo: distribución conjunta de X3 e Y3
Sin embargo, cuando miramos los resultados en conjunto vemos la magia entre las
monedas. En el primer caso, si Ana obtiene una cara, la probabilidad de que Beto
obtenga una cara es 2/3 y no 1/2. Lo opuesto ocurre en el tercer caso, en el cual la
probabilidad es de 1/3.
Es decir, en el primer caso las variables están positivamente relacionadas, y en el
tercero lo están negativamente. El par de monedas normales es el segundo, para el
cuál el resultado del lanzamiento de Ana no influye sobre el resultado de Beto. En
este caso decimos que X2 e Y2 son variables independientes.
Notar que en el segundo caso, la distribución conjunta de X2 e Y2 se obtiene mul-
tiplicando las marginales. Este es esencialmente el único caso en el cuál podemos
recuperar la distribución conjunta a partir de las marginales.
Variables discretas independientes
Decimos que dos variables aleatorias discretas X e Y son independientes, si la
distribución conjunta es igual al producto de las marginales:
para todo xi ∈ RX e y j ∈ RY .
7-12
7-6. Aritmética con variables aleatorias
Podemos hacer aritmética con las variables aleatorias. Por ejemplo, podemos su-
mar, restar, multiplicar, o elevar al cuadrado. Una operación muy importante para
nosotros será la suma de variables independientes.
Ejemplo 6
Sean X e Y variables aleatorias independientes con las siguientes f.p.p.
Valores de X 1 2 3 4
f.p.p. p(x) 1/10 2/10 3/10 4/10
Valores de Y 1 2 3 4 5
f.p.p. p(y) 1/15 2/15 3/15 4/15 5/15
Calculemos la f.p.p. de la suma X + Y . La primera cosa a hacer es una tabla de
contingencia con la distribución conjunta de X e Y . Como X e Y son independientes,
la f.p.p. conjunta es simplemente el producto de las marginales p(x, y) = p(x)p(y).
Valores de Y
1 2 3 4 5
Las entradas en las diagonales corresponden a los casos con igual X + Y . Todo lo
tenemos que hacer para calcular la f.p.p. de X + Y es sumar las probabilidades de
cada diagonal.
Valores de X +Y 2 3 4 5 6 7 8 9
f.p.p. 1/150 4/150 10/150 20/150 30/150 34/150 31/150 20/150
Cuando las tablas sean demasiado grandes para poder escribirlas, vamos a tener
que usar métodos puramente “algebraicos” para calcular las probabilidades de una
suma. Aprenderemos cómo hacer esto en su debido tiempo.
7-13
Clase 8
Variables aleatorias discretas II
G(n) n+ n−
g(n) = = 30000 − 15000 .
n n n
¿Qué ocurre a la larga con las ganancias por semana? Por el Teorema de Bernoulli
sabemos que las frecuencias relativas n+ /n y n− /n convergen, cuando n tiende a
8-1
infinito, a las respectivas probabilidades de que la inversión sea exitosa o fracase.
Entonces
n+ n−
lı́m g(n) = 30000 lı́m − 15000 lı́m
n→∞ n→∞ n n→∞ n
= 30000 · (probabilidad de éxito) − 15000 · (probabilidad de fracaso)
= 30000 · 0,75 − 15000 · 0,25 = 18750.
Es decir, a medida que n crece, las ganancias por semana se aproximan más y más
al valor $18.750.
Si hubiéramos optado por la opción segura, las ganancias por semana serían iguales
a g(n) = 15000. Como las ganancias por semana son mayores para la opción 2 que
para la opción 1, es mejor arriesgar invirtiendo el dinero, siempre y cuando seamos
capaces de invertir durante una cantidad grande de semanas.
Si pensamos a las ganancias semanales como una variable aleatoria G, que toma los
valores 30000 y −15000, con probabilidades 0,75 y 0,25 respectivamente, entonces
la cantidad 18750 se llama el valor esperado de G. Esto lo escribimos E (G).
La definición general
La misma idea nos sirve como motivación para definir el valor esperado de una
variable discreta en general. Supongamos que X es una variable discreta cuyo re-
corrido es RX = {x1 , x2 , . . .}. Imaginemos que realizamos el experimento n veces
y para cada una de estas registramos el valor de X. Llamemos a estos valores por
y1 , y2 , . . . , yn . Cada uno de los yi puede ser igual a cualquiera de los valores posibles
de X (los valores del recorrido de X).
El promedio de las n realizaciones de X es
y1 + · · · + yn
Promedio(y1 , . . . , yn ) = .
n
Podemos reordenar los valores y1 , . . . , yn y agruparlos de acuerdo a su valor, de
modo que la suma
y1 + · · · + yn = n1 x1 + n2 x2 + · · · ,
n1 n2
Promedio(y1 , . . . , yn ) = x1 + x2 + · · · .
n n
Al realizar más veces el experimento, y hacer n tender a infinito, las frecuencias
relativas convergen a
nj
→ P X = xj .
n
El valor “por ensayo” de X, para n tendiendo a infinito, es E (X) = ∑∞j=1 x j P X = x j .
8-2
Definición de valor esperado (discretas)
Sea X una variable aleatoria discreta cuyo recorrido es RX . Definimos el valor
esperado de X (o la esperanza de X) como
E (X) = ∑ x · P (X = x) .
x∈RX
Ejemplo 1
Los primeros en pensar en valor esperado fueron los matemáticos franceses Pascal
y Fermat en una vasta correspondencia que iniciaron en 1654. Un noble llamado
Chevalier de Méré le propuso a Pascal el siguiente problema:
Un jugador ha apostado en sacar un 6 en 8 lanzamientos de un dado.
El monto ha sido establecido, y se han realizado 3 lanzamientos sin la
aparición de un 6. ¿Qué proporción del monto apostado sería justo darle
al jugador para que renuncie al cuarto lanzamiento (solo el cuarto)?
Digamos que la apuesta es a. Llamemos X a la ganancia del jugador en la apuesta
original, e Y la ganancia si renuncia al cuarto lanzamiento.
Como quedan 5 lanzamientos, la f.p.p. de X es
Valor x a 0
5 5 5 5
f.p.p. p(x)
1− 6 6
5 5
Entonces, el valor esperado de X es E (X) = 1 − a.
6
4 !
5
E (Y ) = f a + 1 − (1 − f )a.
6
Para Pascal y Fermat, la proporción justa f es aquella que mantiene las expectativas
de ganancia del jugador. Esto se traduce en E (Y ) = E (X).
Esta igualdad se traduce en
4 5
5 5
(1 − f ) = ,
6 6
8-3
1 kg
0,5 kg 0,5 kg
Todos saben que el estudio del centro de masa de un objeto fue la devoción de
Arquímedes, el matemático de la Grecia antigua. Seguramente conozcan su famosa
frase “Dadme un punto de apoyo, y moveré al mudo”. En su descubrimiento de la
“ley de la palanca”, Arquímedes demuestra cómo encontrar el punto de equilibrio
para configuraciones de objetos similares a los subibaja que tanto disfrutamos en
nuestra niñez.
Comencemos por el caso más simple de todos: dos bloques de 0,5 kg cada uno
apoyados sobre un tablón, que se balancea sobre un pie de apoyo como un subiba-
ja. ¿En dónde deberíamos colocar el pie para que el tablón quede en equilibrio?
Obviamente, por la simetría del problema, en el punto medio entre los dos bloques.
Otra forma de llegar a esta conclusión es la siguiente: si tenemos un solo bloque de
1 kg, es obvio que el punto de apoyo debe situarse justo debajo del bloque. Si ahora
partimos el bloque en dos mitades iguales, y las desplazamos igual distancia hacia
derecha y izquierda, podemos dejar el pie siempre en el mismo lugar y el conjunto
quedará en equilibrio todo el tiempo. Ver la Figura 8.1. Esto es porque no hemos
cambiado el centro de masa del conjunto de bloques.
Usaremos este principio, de que dos configuraciones de bloques con el mismo cen-
tro de masa producen el mismo efecto sobre el tablón, para calcular el centro de
masa de una configuración cualquiera.
¿Qué pasa si en lugar de dividir el bloque original de 1 kg en dos mitades iguales,
lo dividimos en un bloque de p kg y otro de q kg, con p + q = 1?
Por ejemplo, p = 1/3 y q = 2/3. Intuitivamente, el pie lo debemos colocar dos
veces más cerca del bloque más pesado que del bloque más liviano. Demostremos
que ésto es así.
Supongamos que los bloques están a distancia 1. Dividimos la distancia entre los
dos bloques en tres partes iguales, de forma que el pie está situado a distancia 1/3
del bloque pesado, como se muestra en la Figura 8.2.
Marquemos dos segmentos de longitud 1/3 hacia la izquierda del bloque pesado
8-4
2/3 kg 1/3 kg
Figura 8.2: Dos bloques, uno de 1/3 kg y el otro de 2/3 kg, se mantienen en
equilibrio colocando el pie a una distancia 1/3 del bloque más pesado.
q kg p kg
p
0 1
y uno hacia la derecha del bloque liviano. Si cambiamos los dos bloques por seis
bloques que pesan 1/6 kg, colocados sobre los puntos medios de los segmentos
marcados, obtenemos una configuración equivalente, pues no hemos cambiado los
centros de masa.
Como la nueva configuración de bloques es simétrica, es claro que el pie de apoyo
debe ir en el centro, lo cual implica que la configuración original estaba en equili-
brio.
El mismo argumento se puede hacer para cualquier par de bloques cuyos pesos seas
racionales. Luego, usando un pasaje al límite se puede extender el resultado al caso
de pesos irracionales.
La conclusión es que si colocamos dos bloques que pesan p y q kilogramos, con el
bloque que pesa p en la posición 1 y el bloque que pesa q en la posición 0, entonces
el pie de apoyo debe colocarse en la posición p. Ver la Figura 8.3.
Podemos representar la distribución de cualquier variable discreta X usando blo-
ques y un tablón. Primero, marcamos un origen cualquiera en el tablón desde el
cual medir distancias. Si X toma los valores x1 , x2 , . . . con probabilidades p1 , p2 , . . .,
colocamos un bloque que pesa pi kg en la posición xi . Notar que el peso total de los
bloques es 1 kg pues las probabilidades suman 1. Entonces:
El valor esperado E (X) indica en dónde debe colocarse el pie de apoyo
para que el conjunto de bloques se mantenga en equilibrio.
Dicho de otro modo, el valor esperado es el centro de masa de la distribución.
8-5
8-3. Una fórmula para variables positivas
Existe un truco para variables enteras positivas que simplifica a veces las cuentas.
Esperanza de variables enteras positivas
Sea X una variable discreta que toma valores enteros mayores o iguales a cero.
Entonces ∞
E (X) = ∑ P (X > k) . (8.1)
k=0
E (X) = P (X = 1)
+ P (X = 2) + P (X = 2)
+ P (X = 3) + P (X = 3) + P (X = 3) + · · ·
Ejemplo 2
Sea X el número de lanzamientos necesarios para que una moneda salga cara. Su-
pondremos que la probabilidad de cara es p.
La probabilidad de {X > k} es (1 − p)k , pues una forma equivalente de describir
este evento es que los primeros k lanzamientos sean cruz.
Usando la fórmula (8.1) obtenemos
∞
1 1
E (X) = ∑ (1 − p)k = 1 − (1 − p) = p .
k=0
Esta fórmula se puede generalizar a variables discretas positivas que no son nece-
sariamente enteras. La clave está en observar que P (X > k) = 1 − F(k) en donde F
es la f.d.a. de X.
8-6
F(x)
1
x5 · p(x5 )
x4 · p(x4 )
x3 · p(x3 )
x2 · p(x2 )
x1 · p(x1 )
0 x
x1 x2 x3 x4 x5
Hay algunas variables aleatorias discretas que por su importancia tienen nombre
propio. En este curso destacaremos especialmente las siguientes tres.
Variables de Bernoulli
Son los bloques fundamentales a partir de cuales podemos construir una gran varie-
dad de variables discretas. Las variables Bernoulli modelan el éxito o fracaso en un
ensayo de Bernoulli.
Una variable X tiene distribución de Bernoulli si
(
1 si éxito;
X=
0 si fracaso.
Para conocer la distribución de la variable X, basta determinar el parámetro p, que
representa la probabilidad de éxito, esto es P (X = 1) = p. Cuando queremos escri-
8-7
bir de forma compacta que X tiene distribución Bernoulli de parámetro p ponemos
X ∼ Ber(p).
La esperanza de una variable Bernoulli es
E (X) = 1 · P (X = 1) + 0 · P (X = 0) = p.
Esta simple fórmula es de mucha ayuda, ya que en una gran variedad de situaciones
podemos descomponer una variable como suma de Bernoulli. El siguiente es un
típico ejemplo de este uso.
Ejemplo 3
En un grupo de n personas distintas. ¿Cuántas coincidencias de cumpleaños espe-
ramos ver?
Imaginemos a las personas numeradas del 1 al n. Para cada par de personas {i, j},
consideremos la variable Xi j que vale 1 si i y j cumplen el mismo día, y 0 si no.
Claramente Xi j es una variable de Bernoulli, pues toma solamente los valores 0 y 1.
Aquí éxito corresponde a que i y j cumplan el mismo día.
El parámetro de Xi j corresponde a la probabilidad de que valga 1:
p = P Xi j = 1
1
= P (i y j cumplen en el mismo día) =
365
Es decir, Xi j ∼ Ber(1/365).
Llamemos X a la suma de las Xi j sobre todos los pares posibles. Esto es
X= ∑ Xi j .
{i, j}
n 1 n(n − 1)
1
E (X) = ∑ E Xi j = ∑
= = .
{i, j} {i, j}
365 2 365 730
Notar que E (X) ≥ 1 si n = 28. Esto sugiere que con 28 personas es altamente
probable que haya al menos una coincidencia.
8-8
La distribución geométrica
0 1 2 3 4 5 6 7
X =k
Figura 8.4: Distribución geométrica para tres valores de p: en azul p = 0,8, en rojo
p = 0,5, y en negro p = 0,2.
Ejemplo 4
Los habitantes de una isla remota planean sus familias teniendo hijos hasta que
nazca la primera niña. Vamos a asumir que la probabilidad de tener una niña es 0.5,
1 El nombre se debe a que la función de probabilidad puntual está representada por una serie
geométrica. No tiene nada que ver con las probabilidades geométricas que vimos hace un par de
capítulos.
8-9
que los nacimientos son independientes, y que no hay nacimientos múltiples.
¿Cuál es el ratio de niños y niñas en la isla?
Para una familia dada, el número de hijos X tiene distribución geométrica de pará-
metro 0.5. Esta familia tiene entonces X − 1 niños y 1 niña. Así que el ratio de niños
sobre niñas, para esta familia, es X − 1.
El ratio en la isla corresponde a E (X − 1) = 1. Así que por más raro que parezca, la
cantidad de niñas es aproximadamente igual a la de niños.
P (X ≤ m) = 1 − P (X > m) = 1 − (1 − p)m
El número (1 − p)m no tiene porque ser exactamente igual a 1/2, pero podemos
buscar el menor valor de m que cumple P (X ≤ m) ≥ 1/2.
Por un lado
ln(2)
1 − (1 − p)m−1 < 1/2 ⇔ m < + 1.
ln(1/(1 − p)
Es decir, que
ln(2)
m= .
ln(1/(1 − p)
Notar que cuando p es chico m ≈ ln(2)/p, valor similar a la esperanza que calcula-
mos antes.
El número m se llama mediana de la distribución de X, o simplemente mediana de
X. Es el valor que aproximadamente divide en dos partes iguales la distribución:
la probabilidad de que X sea menor o igual que m es casi 1/2, y lo mismo para
la probabilidad de que sea mayor. Es una forma conveniente de definir un “valor
representativo” para X, diferente al valor esperado.
Definición de mediana
Sea X una variable aleatoria cualquiera. La mediana de X es el menor valor de
m que cumple P (X ≤ m) ≥ 1/2.
8-10
Ejemplo 5
Consideremos un juego similar al 5 de Oro, en el cual hay que embocar 5 números
del 1 al 44. La probabilidad de ganar es
1
p= 44
≈ 9,23 × 10−7 .
5
Supongamos que jugamos hasta ganar. Sea X el número de veces que jugamos.
Entonces X tiene distribución geométrica de parámetro p.
De la discusión anterior, la mediana y la esperanza de X son
La distribución binomial
8-11
a calcular la esperanza del Ejemplo 3. Como E (Xi ) = p y la esperanza de la suma
es la suma de las esperanzas, vemos que E (X) = np.
E (Xi ) = 1 · (1 − q) + (k + 1) · q = 1 + kq.
N
1
E (X) = (1 + kq) = N +q .
k k
8-12
Supongamos ahora que se trata de una prueba para una enfermedad rara, para la
cual p es muy chico. Entonces, podemos aproximar (1 − p)k por 1 − kp ya que los
otros términos contienen potencias mayores de p. Con esta aproximación el valor
esperado nos queda
1
E (X) ≈ N + kp .
k
¿Cuál es el valor de k que minimiza el valor esperado? Si obviamos el hecho de que
k debe ser entero y consideramos la función
1
f (x) = + xp,
x
√
usando las herramientas de cálculo vemos que el mínimo se da en x = 1/ p.
Es decir, si p es chico, el método de mezclar las muestras de grupos de tamaño
√ √
k ≈ 1/ p hace que el valor esperado de pruebas se reduzca a E (X) ≈ 2 pN.
8-13
Clase 9
Variables aleatorias discretas III
6 −4 2 8 14 20 26
5 −5 0 5 10 15 20
Valores de Y
4 −6 −2 2 6 10 14
3 −7 −4 −1 2 5 8
2 −8 −6 −4 −2 0 2
1 −9 −8 −7 −6 −5 −4
1 2 3 4 5 6
Valores de X
9-1
Como cada resultado tiene probabilidad 1/36, la f.p.p. de Z es
−9 −8 −7 −6 −5 −4 −2 −1 0 2 5 6 8 10 14 15 20 26
1/36 2/36 2/36 3/36 2/36 4/36 2/36 1/36 2/36 4/36 2/36 1/36 2/36 2/36 2/36 1/36 2/36 1/36
Debemos calcular primero la f.p.p de Z. Para esto, lo mejor es hacer una tabla de
contingencia como la de arriba. De aquí resulta entonces E (Z) = 81/36 = 2,25.
RZ = {g(x, y) : x ∈ RX , y ∈ RY },
g(x,y)=z
La unión es en todas las formas distintas de escribir z como g(x, y) para algún x y
algún y.
Al tomar probabilidades, obtenemos
P (g(X,Y ) = z) = ∑ P (X = x,Y = y) .
g(x,y)=z
E (g(X,Y )) = ∑ zP (g(X,Y ) = z)
z∈RZ
= ∑z ∑ P (X = x,Y = y)
z∈RZ g(x,y)=z
= ∑ ∑ zP (X = x,Y = y)
z∈RZ g(x,y)=z
9-2
Aquí viene un punto ligeramente sutil de la demostración. Este consiste en notar
que sumar en aquellos x e y con g(x, y) = z, y luego sumar en todos los valores
posibles de z, es lo mismo que sumar en todos los valores posibles de x e y.
Esto se puede ver mejor con un dibujo, como el que se muestra en la figura siguiente
para el caso especial en que g(x, y) = x + y. En el mismo vemos la diagonal roja que
corresponde a todos los valores de x e y que suman un cierto valor de z. Claramente,
al variar z, las diagonales cubren todo el cuadrante. El cuadrante corresponde a
todos los pares posibles de x e y.
RY
x+y = z
RX
Notar que para cada x fijo, ∑y∈RY P (X = x,Y = y) = P (X = x). De aquí resulta que
el primer término en la suma anterior es igual a
∑ ∑ xP (X = x,Y = y) = ∑ xP (X = x) = E (X) .
x∈RX y∈RY x∈RX
9-3
Un razonamiento análogo muestra que el segundo término es igual a E (Y ). Esto
termina la demostración.
Esperanza del producto: Si X e Y son independientes =⇒ E (XY ) = E (X) E (Y ).
Tomemos g(x, y) = xy en la fórmula (9.1). Entonces
como queríamos. Ver la Figura 9.1 para una ilustración de ésta fórmula con bloques
en un tablón.
Las constantes salen para afuera: E (cX) = cE (X).
Poniendo h(x) = cx en la fórmula anterior,
9-4
Distribución de X
p2
p5
p1 p3 p4 p7
p6
x1 x2 x3 x4 x5 x6 x7
p3 + p4 + p6
p2
p5
p1 p7
Distribución de h(X)
Ejemplo 3
X 1 2 3 4 5 6
Y 1 4 9 16 25 36
prob 1/6 1/6 1/6 1/6 1/6 1/6
Notar que en este caso la probabilidad para cada valor de Y es la misma que la del
correspondiente valor de X. Esto es porque h(x) = x2 es inyectiva en {1, 2, 3, 4, 5, 6}.
La esperanza es entonces
1 1 1
E (Y ) = E X 2 = 12 · + 22 · + . . . + 62 · = 15,167
6 6 6
Es el mismo valor que obtendríamos aplicando la fórmula (9.1).
Ejemplo 4
9-5
Los valores posibles que puede tomar g(X) son los cuadrados
RX 2 = {0, 1, 4, . . . , n2 }.
¿Y con qué probabilidad los toma? La variable toma el valor k2 cuando X toma
uno de los valores −k y k. Como X toma cada uno de sus valores con probabilidad
1/(2n + 1), vemos que
pX 2 (k2 ) = P X 2 = k2 = P (X = −k) + P (X = k)
2
= pX (−k) + pX (k) = .
2n + 1
Si miramos con detalle la cuenta anterior, vemos que hemos probado que
n
E X2 = k2 pX (k),
∑
k=−n
Ejemplo 5
Se lanzan dos dados y X representa la suma de los resultados. Supongamos que
las ganancias de una determinada apuesta están representadas por la variable Y =
X 2 − 6X + 1. ¿Es una buena apuesta?
Debemos calcular la ganancia esperada E (Y ). Usando la fórmula
12
j2 − 6 j + 1 p( j)
E (Y ) = ∑
j=2
9-6
Fácil de girar
Difícil de girar
Figura 9.2: Cuanto más dispersión, más difícil es girar en torno al eje que pasa por
el centro de masa el conjunto de bloques.
9-2. La varianza
Nuestro objetivo ahora es definir una media de la dispersión de una variable aleato-
ria. Para esto usaremos una analogía con mecánica.
Imaginemos una distribución de bloques cualquiera, en la cual hemos ubicado el
centro de masa, y supongamos que deseamos girar el tablón respecto del eje vertical
que pasa por el centro masa. ¿Cuándo es más difícil girarlo?
Intuitivamente es claro que si los bloques están muy concentrados sobre su centro
de masa, entonces el girarlos resulta sencillo, y éste se hace cada vez más difícil a
medida que dispersamos los bloques, ver la Figura 9.2. Podemos medir la disper-
sión de un conjunto de bloques alrededor de su centro de masa por la dificultad de
girarlos.
En física existe una cantidad que mide justamente la dificultad que un objeto tiene
a ser girado en torno a un eje. Se llama el momento de inercia, y es como la masa
para movimientos rotatorios. Sin entrar en detalles sobre la definición, recordar que
el momento de una partícula de masa m y velocidad v es p = mv. El momento
angular es la fórmula análoga para movimientos alrededor de un eje: si la partícula
gira entorno a un eje a distancia r, entonces
I = ∑ mi ri2 .
i
9-7
Apliquemos esta fórmula a los nuestros bloques en el tablón. Supongamos que X es
una variable discreta, con recorrido {x1 , x2 , . . .} y función de probabilidad puntual
pi = pX (xi ). Disponemos como antes, para cada i ≥ 1 un bloque de peso pi en la
posición xi .
El centro de masa está en la posición E (X), por lo que la distancia de cada bloque
al centro de masa es
ri = xi − E (X) .
Como la masa es mi = pi , el momento de inercia de X es
I = ∑ (xi − E (X))2 pi .
i≥1
Más allá del significado físico de la varianza, es importante recordar que la varianza
mide cuán dispersos son los valores de X respecto de su valor esperado. Dicho de
forma sencilla, la varianza mide el “ancho” de la gráfica de la función de probabili-
dad puntual.
9-8
valor w 1 2 3 4 5
4.
f.p.p. p(w) 0 0 1 0 0
p(z) p(x)
1
0 z x
1 2 3 4 5 1 2 3 4 5
p(y) p(w)
1
0 y w
1 2 3 4 5 1 2 3 4 5
Cada una de las variables tiene el mismo valor esperado, igual a 3, pero la probabi-
lidad está distribuida de modo diferente. En los gráficos arriba, hemos ordenado las
f.p.p. de mayor a menor varianza: Z, X, Y , W .
Ahora vamos a verificar nuestra intuición visual calculando la varianza de cada una
de las variables. Lo haremos usando tablas.
valor x 1 2 3 4 5
1. f.p.p. p(x) 1/5 1/5 1/5 1/5 1/5
(X − 3)2 4 1 0 1 4
Var(X) = 45 + 15 + 50 + 15 + 45 = 2
valor y 1 2 3 4 5
2. f.p.p. p(y) 1/10 2/10 4/10 2/10 1/10
(Y − 3)2 4 1 0 1 4
4 2 0 2 4
Var(Y ) = 10 + 10 + 10 + 10 + 10 = 1,2
9-9
valor z 1 2 3 4 5
3. f.p.p. p(z) 1/2 0 0 0 1/2
(Z − 3)2 4 1 0 1 4
20
Var(Z) = 10 + 20
10 = 4
valor w 1 2 3 4 5
4. f.p.p. p(w) 0 0 1 0 0
(W − 3)2 4 1 0 1 4
Var(W ) = 0. Observar que W no varía, es constante igual a 3, por lo que su
varianza es cero.
Usando la fórmula del valor esperado de una función de una variable aleatoria po-
demos escribir de forma más compacta la definición de varianza. De hecho, notar
que si tomamos la función g(x) = (x − E (X))2 , entonces
E (g(X)) = ∑ (x − E (X))2P (X = x) = var (X) .
x∈RX
Una fórmula útil para la varianza: La varianza de una variable X se puede calcular
mediante la siguiente igualdad
var (X) = E X 2 − E (X)2 .
9-10
Para probarla, basta desarrollar el cuadrado (X − E (X))2 = X 2 + E (X)2 − 2E (X) X,
de donde al tomar esperanza
Pero este es a su vez igual a var (X) + var (Y ) + 2E ((X − E (X))(Y − E (Y ))). Lue-
go, basta probar que
Esto se deduce de
Bernoulli
9-11
1/4
var (X)
p
0 1/2 1
Binomial
Geométrica
9-12
Resumen
n k n−k
Binomial(n, p) 0, 1, . . . , n p(k) = k p (1 − p) np np(1 − p)
n+1 n2 −1
Uniforme(n) 1, 2, . . . , n p(k) = 1
n 2 12
9-13
Clase 10
Variables aleatorias continuas I
De las variables que no son discretas, las más importantes para nosotros serán aque-
llas cuya distribución se puede describir mediante densidades de probabilidad. Es-
tas variables se llaman absolutamente continuas, aunque nosotros las llamaremos
simplemente continuas.1 Entre ellas destaca la distribución normal, o campana de
Gauss, que estudiaremos más adelante.
El concepto de densidad de probabilidad es similar al concepto de densidad de masa,
o de densidad de carga (en caso de cargas positivas), que conocemos de los cursos
de física y química. Por ejemplo, la densidad de masa es la cantidad de masa por
unidad de volumen de una sustancia. Ver la Figura 10.1.
La densidad media de un volumen V es por definión
m Masa del cuerpo
pmasa = = .
V Volumen que ocupa
En general, un cuerpo está formado por una enormidad de partículas (del orden de
1024 ), y cada una de ellas tiene una masa muy pequeña. Si no deseamos estudiar
las propiedades moleculares de la materia, muchas veces usamos modelos en los
cuales suponemos que las partículas “se aglomeran” para formar un continuo. De
este modo, cada punto x del sólido tiene masa cero, pero la masa de un volumen
finito, por más chico que sea, es positiva.
1 Existen variables que no son ni discretas, ni absolutamente continuas.
10-1
masa
densidad = volumen
igual masa
igual volumen
10-2
Uniforme
%( x)
No uniforme
%( x)
∆m(x) ≈ %(x)∆x
%( x)
10-3
Gas
pantalla
x=0
∆x
Ik = [k∆x, (k + 1)∆x] ,
10-4
θk
Ik
no salen con una dirección preferida, sino que la distribución de los ángulos de
salida de las moléculas es uniforme en un intervalo de longitud π.
Debemos calcular entonces el ángulo que sustenta el intervalo Ik visto desde el
centro del agujero. Llamemos a este ángulo θk (ver la Figura 10.5).
Un poco de trigonometría permite concluir que
L∆x
θk ≈ ,
L2 + (k∆x)2
siendo la aproximación cada vez mejor a medida que ∆x se hace más pequeño.
Entonces
θk L∆x
Pk (∆x) = ≈ .
π π (L + (k∆x)2 )
2
Por tanto, las probabilidades se leerán del gráfico midiendo áreas en lugar de alturas.
En la Figura 10.6 se muestra la aproximación de Pk (∆x) con ∆x = 0,1 para el valor
de L = 1. Más adelante veremos como el parámetro L influye sobre la forma de la
distribución.
En este gráfico las áreas de las barras representan las probabilidades Pk (∆x). Notar
que el máximo se da en k = 0 y vale 1/π. Las alturas de las barras representan pk la
densidad de probabilidad media de cada intervalo Ik .
10-5
%k
x
−3 −2 −1 0 1 2 3
x
−3 −2 −1 0 1 2 3
Veamos a qué converge este gráfico cuando ∆x tiende a cero. Fijemos x un real
cualquiera y tomemos k un entero tal que x pertenezca al intervalo Ik . No es difícil
ver que para este valor de k, se tiene que k∆x ≈ x. Esta aproximación es cada vez
mejor a medida que decrece ∆x. Entonces
Pk (∆x) L
pk = → ,
∆x π (L + x2 )
2
cuando ∆x tiende a cero. Llamando a este límite p(x), concluimos que el gráfico de
barras converge a medida que ∆x tiende a cero al gráfico de la función p(x). Ver la
Figura 10.7.
Para resumir, si en lugar de graficar directamente las probabilidades Pk (∆x), gra-
ficamos las densidades medias de probabilidad pk , entonces el gráfico converge al
gráfico de la densidad de probabilidad p que está definida por
Pk (∆x) L
p(x) = lı́m = .
∆x→0 ∆x π (L + x2 )
2
10-6
%k
P k2
k=k 1
Pk (∆x)
x
k1 k2
R b
a
%(x)dx
x
a b
Figura 10.9: La probabilidad de que X caiga en el intervalo [a, b] está dada por el
área bajo el gráfico de la densidad p(x).
10-7
%
L = 1/4
L=2
x
−3 −2 −1 0 1 2 3
Podemos verificar directamente que la integral es uno en este caso. Notar primero
que la primitiva de p es
Z b
L
1 x b
dx = arctan .
a π (L2 + x2 ) π L a
Para k = 1 el resultado es P (|X| ≤ L) = 1/2, por lo que esperamos ver que la mitad
de las moléculas caen a una distancia menor que L del origen. Para k = 2 vemos que
P (|X| ≤ 2L) ≈ 0,70 y para k = 3 es aproximadamente 0,80.
10-8
%
1
Long(I )
x
I
10-9
Ahora que disponemos de la noción de densidad de probabilidad, podemos definir
las variables aleatorias absolutamente continuas.
Variable aleatoria absolutamente continua
Una variable aleatoria X es absolutamente continua si existe una densidad de
probabilidad p tal que Z
P (X ∈ I) = p(x)dx,
I
para todo intervalo I de R. Para indicar que p es la densidad de X a veces
escribiremos pX .
Ejemplo 1
Sea X una variable aleatoria con densidad p(x) = Cx2 en [0, 1]. Hallar el valor de la
constante C.
Como la probabilidad total debe ser igual a 1, tenemos
Z 1 Z 1
p(x)dx = 1 ⇔ Cx2 dx = 1.
0 0
Ejemplo 2
Sean X e Y las coordenadas de un punto elegido al azar en el interior del siguiente
polígono
(0,1)
(-1,0) (1,0)
(0,-1)
10-10
z + dz} consiste de aquellos puntos que están dentro de la banda
z + dz
z
√
lado exterior de la banda es igual a 2(z + dz), y análogamente el lado interior
El √
es 2z. Como el área del polígono es 2,
2(z + dz)2 − z2
P (z ≤ Z ≤ z + dz) = = 2z dz + dz2 .
2
Dividiendo por dz y tomando límite cuando dz tiende a cero, obtenemos
2z dz + dz2
p(z) = lı́m = lı́m 2z + dz = 2z.
dz→0 dz dz→0
Igual que antes, escribimos FX cuando queremos resaltar la variable X. Notar que la
única diferencia es que remplazamos la suma por una integral. Visualmente la f.d.a.
es el área debajo del gráfico de la densidad de X a la izquierda de x.
La f.d.a. cumple las misma propiedades, que si recuerdan bien fueron probadas en
total generalidad usando los axiomas de Kolmogorov. Recordemos las principales:
0 ≤ F(x) ≤ 1
F(x) es no-decreciente, i.e. si x ≤ y entonces F(x) ≤ F(y).
lı́mx→−∞ F(x) = 0 y lı́mx→+∞ F(x) = 1
P (a < X ≤ b) = F(b) − F(a)
10-11
Además, la f.d.a. de una variable continua verifica
F(x) es continua, pues P (X = x) = 0 para todo x ∈ R;
F 0 (x) = p(x) en todo punto x en donde F es derivable.
Esta segundo propiedad es muy útil para calcular la densidad de una variable.
Ejemplo 3
Sea X la variable definida en el Ejemplo 1. Hallar su f.d.a..
La densidad de X es p(x) = 3x2 en [0, 1]. Luego, para x ∈ [0, 1], tenemos
Z x Z x
F(x) = p(u)du = 3u2 du = x3 .
0 0
Ejemplo 4
Hagamos de nuevo el Ejemplo 2, pero usando ahora la última propiedad menciona-
da anteriormente. Para z ∈ [0, 1], el evento {Z ≤ z} consiste de aquellos puntos en
el interior del polígono de vértice z:
10-12
Si z > 1 entonces F(z) = 1, y si z < 0 entonces F(z) = 0. Resulta entonces
0 si z < 0;
F(z) = z2 si 0 ≤ z ≤ 1;
1 si z > 1.
Si los intervalos ∆xk son todos pequeños, esta suma es aproximadamente igual a la
integral de xp(x).
Esperanza de una variable continua
La esperanza de una variable continua X con densidad p(x) se define como
Z +∞
E (X) = xp(x)dx.
−∞
10-13
P (X > x), por lo que
Z ∞ Z ∞ Z ∞Z ∞
(1 − F(x))dx = P(X > x)dx = p(u)dudx
0 0 0 x
Z ∞Z u Z ∞ Z u
= p(u)dxdu = p(u) dxdu
Z0 ∞
0 0 0
= up(u)du = E (X) .
0
Ejemplo 5
Sea X la variable del Ejemplo 4. Calcular E (X).
La densidad de Z es p(z) = 2z en [0, 1]. Por definición
Z 1 Z 1
E (Z) = z · (2z)dz = 2z2 dz = 2/3.
0 0
10-14
general de la esperanza, que sí es cierta, debemos dar una definción diferente de la
esperanza. Esto lo haremos más adelante. Por ahora asumiremos sin demostración
que todas las propiedades de la esperanza y la varianza que valen para variables
discretas, también valen para variables continuas.
Ejemplo 6
Sea X con distribución uniforme en (a, b). Calcular E (X) y var (X).
Un simple cambio de escala transforma el intervalo (a, b) en (0, 1). La distribución
uniforme en (a, b) se transforma en la distribución uniforme en (0, 1), cuya densidad
es simplemente 1 en (0, 1) y 0 en cualquier otro lugar.
En términos de variables aleatorias, cualquier problema que involucre una varia-
ble aleatoria X, uniforme en (a, b), se reduce fácilmente a uno que involucre una
variable aleatoria U uniforme en (0, 1), definida por
X −a
U= , o X = a + (b − a)U.
b−a
Este tipo de cambio de escala, o cambio lineal de variable, es una técnica básica
para reducir los problemas al caso más simple y evitar cálculos innecesarios.
Para ilustrarlo, el valor esperado de X es
La esperanza de U 2 es la integral
Z 2 h i1
u2 du = u3/3 = 1/3,
0 0
de donde
h i (b − a)2
var (X) = (b − a)2 1/3 − 1/4 = .
12
10-15
Clase 11
Variables aleatorias continuas II
Para ver que la densidad exponencial está bien definida, basta tomar a = 0 y b = +∞
en la ecuación anterior y observar que la integral es 1. Si tomamos a = t > 0 y
hacemos b = +∞, deducimos una expresión para la función de supervivencia
P (X > t) = e−λt .
11-1
Figura 11.1: Densidad de una variable aleatoria con distribución Exponencial de
parámetro λ .
e−λ (t+s)
P (X > t + s|X > t) = = e−λ s = P (X > s) .
e−λt
Si X representa el tiempo de vida útil de un objeto, la propiedad de pérdida de me-
moria dice que dado que ha sobrevivido hasta tiempo t, las chances de que sobreviva
un tiempo adicional s son las mismas que las de sobrevivir un tiempo s contando
desde el comienzo.
Algunos “objetos”, como los átomos o los componentes eléctricos, tienen esta pro-
piedad, y por lo tanto, su tiempo de vida se ajusta bien a una distribución exponen-
cial. Pero la mayoría de las formas de vida biológicas no se ajustan a una distribu-
ción exponencial del tiempo de vida, porque experimentan un proceso de envejeci-
miento.
Para algo con una vida útil distribuida exponencialmente, λ es el valor constante
de la tasa de mortalidad instantánea o de riesgo instantáneo. Es decir, λ mide la
probabilidad de muerte por unidad de tiempo justo después del tiempo t, dada la
supervivencia hasta el tiempo t. Para ver por qué, si consideramos un tiempo t y
otro período de tiempo ∆, calculamos
11-2
Como el lado izquierdo es la densidad de X en el tiempo t, esto explica por qué la
densidad exponencial en t es la tasa de riesgo λ multiplicada por la probabilidad
e−λt de supervivencia hasta el tiempo t: p(t) = λ P (X > t). La característica de los
tiempos de vida distribuidos exponencialmente es que la tasa de riesgo es constante,
no dependiente de t. Otras distribuciones continuas en [0, +∞) corresponden a tasas
de riesgo dependientes del tiempo λ (t).
Ejemplo 1
Calculemos la esperanza y la varianza de una variable exponencial de parámetro λ .
La esperanza es
1
Z ∞ Z ∞ Z ∞
E (X) = (1 − F(t))dt = P (X > t) dt = e−λt dt = .
0 0 0 λ
Notar la analogía con la distribución exponencial de parámetro p, para la cual la
esperanza es 1/p.
Para la varianza usaremos la fórmula var (X) = E X 2 − E (X)2 . El primer término
Ejemplo 2
Bajo condiciones de uso constantes, algunos tipos de componentes eléctricos, por
ejemplo, fusibles y transistores, tienen una distribución de tiempo de vida que se
ajusta bien por una distribución exponencial.
Tal componente no se desgasta gradualmente. Por el contrario, deja de funcionar
de forma repentina e impredecible. No importa cuánto tiempo haya estado en uso
el componente, la probabilidad de que sobreviva un intervalo de tiempo adicional
de longitud ∆ es siempre la misma. Esta probabilidad debe ser e−λ ∆ para alguna
tasa λ , llamada tasa de falla en este contexto. La distribución de vida es entonces
exponencial con la tasa λ . En general, mientras siga funcionando, tal componente
es tan bueno como uno nuevo.
Supongamos que la tasa es λ = 0,01 por hora. Estimemos la probabilidad de que el
transistor funcione por 50 horas. Basta calcular
11-3
que se ha sobrevivido 50 horas, la probabilidad es aproximadamente 0,01 × 1/60 ≈
0,00017.
Ejemplo 3
Los átomos de isótopos radiactivos como carbono 14, uranio 235 o estroncio 90
permanecen intactos hasta un instante aleatorio cuando se descomponen repentina-
mente, lo que significa que se dividen o se convierten en otro tipo de átomo y emiten
un pulso de radiación o partículas de algún tipo.
Este decaimiento radioactivo puede detectarse mediante un contador Geiger. Sea X
el tiempo de vida, o el tiempo hasta la descomposición, de tal átomo, comenzando
en algún momento arbitrario cuando el átomo está intacto. Es razonable suponer
que la distribución de X debe tener la propiedad de pérdida de memoria. En con-
secuencia, hay una tasa λ , la tasa de desintegración para el isótopo en cuestión, tal
que X tiene una distribución exponencial de parámetro λ .
Las probabilidades aquí tienen una interpretación clara debido a la gran cantidad de
átomos típicamente involucrados (por ejemplo, unos pocos gramos de una sustancia
contien del orden de 1024 átomos). Supongamos que un gran número N de tales
átomos se descomponen independientemente el uno del otro. Entonces, según el
teorema de Bernoulli, la proporción de estos N átomos que sobrevive hasta el tiempo
t está cerca de e−λt , la probabilidad de supervivencia para cada átomo individual.
Este decaimiento exponencial de la masa de la sustancia radiactiva se ha verifica-
do experimentalmente, lo que confirma la hipótesis de que las vidas de los átomos
individuales se distribuyen exponencialmente. Las tasas de decaimiento λ para isó-
topos individuales se pueden medir con gran precisión, utilizando este decaimiento
exponencial de la masa. Estas tasas no muestran una dependencia aparente de las
condiciones físicas, como la temperatura y la presión.
Una forma común de indicar la tasa de decaimiento de un isótopo radiactivo es la
vida media τ. Este es el tiempo que demora la desintegración de la mitad de la
cantidad inicial del isótopo. Por lo que
11-4
1. La tasa de decaimiento λ : por lo anterior, esta es
ln(2)
λ= = 0,0248 por año.
τ
Ejemplo 4
Vamos a hacer un modelo de la atmósfera basado en la distribución exponencial.
Supondremos que la atmósfera es un gas ideal y que se encuentra en equilibrio
térmico a temperatura constante T .
Denotemos por n(h) la densidad de moléculas de gas a la altura h:
# de moléculas a la altura h
n(h) = .
unidad de volumen
De la ecuación de estado de los gases idealesa sabemos que
P(h) = n(h)kT.
11-5
Observar que mgh es la energía potencial Eh de una molécula de aire a la altura h.
El cálculo que hemos hecho nos dice que la probabilidad de encontrar una molécula
de aire con energía (cercana a) Eh es proporcional a e−Eh /kT .
Es decir, la distribución de energías de las moléculas de aire es exponencial de
parámetro 1/kT . En física esta distribución se llama distribución de Boltzmann.
a Usualmente se la escribe PV = nRT en donde n es el número de moles. Como estamos usando
número de partículas hemos escrito la constante como k.
Para ver por qué entra la derivada, observemos primero qué sucede si realizamos
un cambio lineal de variable. Para una función lineal y = ax + b, la derivada es la
constante dy/dx = a. La función expande o contrae la longitud de cada intervalo
por el mismo factor de |a|.
Ejemplo 5
Supongamos que X tiene distribución uniforme en (0, 1), con densidad
(
1 si 0 < x < 1;
pX (x) =
0 si no.
Entonces, para a > 0 vemos que Y = aX +b tiene distribución uniforme en (b, b+a)
con densidad (
1/a si b < x < b + a;
pY (x) =
0 si no.
De forma similar, si a < 0, entonces Y = aX + b tiene distribución uniforme en
(b + a, b) con densidad
(
1/|a| si b + a < x < b;
pY (x) =
0 si no.
11-6
Densidad de X Densidad de 2X
2 2
1 1
0 0
-1 0 1 2 -1 0 1 2
2 2
1 1
0 0
-1 0 1 2 -1 0 1 2
2 2
1 1
0 0
-1 0 1 2 -1 0 1 2
Figura 11.2: Cambio lineal de variable para densidades uniformes. Los gráficos
muestran las densidades de Y = aX + b para varios a y b, donde X tiene distribución
uniforme en (0, 1). Observese cómo si a > 1 el rango se expande y la densidad
disminuye. Y si 0 < a < 1, el rango se contrae y la densidad aumenta. Al sumar
b > 0 se traslada hacia la derecha, y al sumar b < 0 se traslada hacia la izquierda.
Sea X una variable aleatoria con densidad pX (x) en el intervalo (a, b). Sea Y =
g(X), donde g es estrictamente creciente o estrictamente decreciente en (a, b). √
Por
ejemplo, X podría tener distribución exponencial en (0, +∞) e Y podría ser X , X
2
11-7
representa la probabilidad del mismo evento
pY (y)dy = pX (x)dx,
y por lo tanto
dx 1
pY (y) = pX (x) = pX (x) con y = g(x).
dy dy/dx
El caso de una función decreciente g es similar, excepto que la derivada dy/dx ahora
tiene signo negativo. Este signo debe ser ignorado porque es solo la magnitud de la
relación de longitudes de intervalos pequeños lo que es relevante.
Cambio de variable inyectivo
Sea X una variable aleatoria con densidad pX (x) en el intervalo (a, b), e Y =
g(X) con g es creciente o decreciente. Entonces Y toma valores entre g(a) y
g(b), con densidad
1
pY (y) = pX (x) con y = g(x).
|dy/dx|
Supongamos que la función y = g(x) tiene una derivada que es cero solo en un
número finito de puntos. Ahora algunos valores de y pueden provenir de más de un
valor de x. Consideremos Y = g(X) para una variable aleatoria X. Como se muestra
11-8
2
y + dy = g(x + dx)
pY (y) y = g(x)
x x + dx
0 0 pX (x) 4
y = g(x)
y + dy
x1 x2
11-9
en la Figura 11.4, Y estará en un intervalo infinitesimal dy cerca de y cuando X está
en uno de los posibles intervalos infinitesimales dx cerca de x tal que g(x) = y.
Entonces
P (Y ∈ dy) = ∑ P (X ∈ dx) ,
x:g(x)=y
de donde deducimos:
Fórmula general
1
pY (y) = ∑ pX (x).
x:g(x)=y
|dy/dx|
Ejemplo 7
Supongamos que X tiene densidad pX (x), y sea Y = X 2 . Aquí, para y > 0 hay dos
√ √
valores de x tales que y = x2 , a saber x = y y x = − y. Si y < 0 no hay tales
valores de x. Además, la derivada es dy/dx = 2x. Entonces
√ √
pX ( y) + pX (− y)
pY (y) = √ con y > 0.
2 y
11-10
Figura 11.5: Aquí se muestra una función de densidad conjunta particular cuya
fórmula es p(x, y) = 5!x(y − x)(1 − y) para 0 < x < y < 1, y cero en otro caso.
Este es el análogo de la familiar interpretación del área bajo la curva para probabi-
lidades obtenidas a partir de densidades en la recta real.
Los ejemplos que vienen muestran cómo tales integrales se pueden calcular me-
diante integración repetida, cambio de variable o argumentos de simetría.
La distribución uniforme en una región es ahora solo el caso especial en el cual
p(x, y) es constante en la región y cero en otro lugar. Como regla general, las fór-
mulas que involucran densidades conjuntas son análogas a las fórmulas correspon-
dientes para distribuciones conjuntas discretas que vimos anteriormente.
Informalmente, si (X,Y ) tienen densidad conjunta p(x, y), entonces la probabilidad
infinitesimal es
P (X ∈ dx,Y ∈ dy) = p(x, y)dxdy.
Esto significa que la probabilidad de que el par (X,Y ) caiga en un rectángulo infini-
tesimal de ancho dx y altura dy cerca del punto (x, y) es la densidad de probabilidad
en (x, y) multiplicada por el área dxdy del rectángulo.
Una densidad de probabilidad bi-variada debe cumplir las siguientes dos condicio-
nes Z +∞ Z +∞
p(x, y) ≥ 0, y p(x, y)dxdy = 1.
−∞ −∞
Si (X,Y ) tiene densidad conjunta p(x, y) en el plano, cada una de las variables alea-
torias X e Y tiene densidad en la recta. Estas se llaman densidades marginales.
Las densidades marginales se pueden calcular a partir de la densidad conjunta me-
diante integrales análogas a las fórmulas discretas para probabilidades marginales
11-11
p(x, y)
P (X ∈ dx,Y ∈ dy)
= p(x, y)dxdy
= volumen de la caja
y
Y ∈ dy
x
X ∈ dx
11-12
De aquí se deducen dos propiedades importantes:
Esperanza del producto: si X e Y son independientes ⇒ E (XY ) = E (X) E (Y )
Suma de independientes:
si X e Y son independientes ⇒ var (X +Y ) = var (X) + var (Y ).
Las pruebas son análogas al caso discreto, cambiando sumas por integrales.
Ejemplo 8
Supongamos que (X,Y ) se distribuye uniformemente en el triángulo T = {(x, y) :
0 < x < y < 1}. La densidad conjunta de (X,Y ) es simplemente
(
2 si (x, y) ∈ T ;
p(x, y) =
0 si no.
y=x
x
0 1
Z +∞
pY (y) = p(x, y)dxdy
Z−∞
x=y
= 2dx (pues p(x, y) = 2 si 0 < x < y < 1 y 0 si no)
x=0
= 2y (si 0 < y < 1 y cero si no)
Con esto podemos ver que X e Y no son independientes ya que p(x, y) 6= p(x)p(y).
11-13
Podemos calcular además las esperanza de X eY :
Z +∞ Z 1
1
E (X) = xpX (x) =
2x(1 − x)dx = ;
−∞ 0 3
Z +∞ Z 1
2
E (Y ) = ypY (y) = 2ydy = .
−∞ 0 3
Por otro lado, la esperanza del producto E (XY ) está dada por
Z y=1 Z x=y Z y=1 3
y
Z +∞ Z +∞
1
E (XY ) = xyp(x, y)dxdy = 2 dy xydx = 2 dy =
−∞ −∞ y=0 x=0 y=0 2 4
Ejemplo 9
Sean X e Y independientes con distribución exponencial de parámetros λ y µ res-
pectivamente. Calculemos P (X < Y ).
La densidad conjunta de (X,Y ) es
p(x, y) = λ e−λ x µe−µy = λ µe−λ x−λ y
11-14
Clase 12
Ley de los Grandes Números
P (X +Y = z) = ∑ P (X = x,Y = z − x) .
x
12-1
vertical los de X2 . Los puntos rojos en el interior de las celdas representan casos
equiprobables del par (X1 , X2 ). Como las variables son independientes, la cantidad
de puntos rojos en la celda (i, j) se obtiene multiplicando la cantidad de verdes en
i por la de verde en j. En este caso esto es siempre 1 × 1 = 1, por eso ponemos un
solo punto rojo en cada celda.
1 2 3 4 5 6
12
11
10
9
8
7
6
5
4
3
2
Para obtener la distribución de la suma S2 , debemos agrupar las celdas que suman un
mismo valor. Estas son las diagonales que cruzan el cuadro desde la punta superior
izquierda a la inferior derecha. Si deslizamos los puntos rojos a lo largo de estas
diagonales, para que la fila de puntos comience en una base paralela a la diagonal
opuesta, obtenemos una hermosa imagen de la distribución. Cada punto rojo es un
caso equiprobable de S2 . Observar la forma triangular que se obtiene.
Ejemplo 2
Supongamos ahora que lanzamos una vez más el dado del ejemplo anterior. Llame-
mos X3 al resultado y S3 = X1 + X2 + X3 la suma de los tres resultados. ¿Cuál es la
distribución de S3 ?
12-2
12
11
10
1 2 3 4 5 6
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
Dos cosas interesantes se observan de los ejemplos con los dados. La primera es que
la forma de la distribuciones de S1 = X1 , S2 , y S3 son cada vez más acampanadas.
Lo segundo es que las distribuciones se van concentrando al rededor de un valor
central. En este segundo punto nos centraremos hoy.
Llamemos X 1 = S1 , X 2 = S2 /2 y X 3 = S3 /3 los promedios de los lanzamientos del
dado de los ejemplos anteriores. El valor esperado de cada uno de ellos es igual 3.5,
el valor esperado de un solo lanzamiento:
E X 1 = E (S1 ) = E (X1 ) = 3,5
12-3
contar los puntos rojos correspondientes. Obtenemos así la siguiente tabla:
i Rango X i Rango Si Probabilidad
1 3-4 3-4 2/6 ≈ 33 %
2 3-4 6-8 16/36 ≈ 44 %
3 3-4 9-12 104/216 ≈ 48 %
La probabilidad va aumentando. ¿Será que al promediar más y más dados, la pro-
babilidad aumente más y más?
He aquí las probabilidades para el promedio de 4 y 5 dados:
i Rango X i Rango Si Probabilidad
4 3-4 12-16 676/1296 ≈ 52 %
5 3-4 15-20 4332/7776 ≈ 56 %
De hecho, Abraham De Moivre (1667-1754), un matemático francés que vivió exi-
liado casi toda su vida en Inglaterra por cuestiones religiosas, calculó la formula
exacta para la distribución de la suma de n dados. Su fórmula calcula la probabili-
dad de obtener una suma igual a s en n lanzamientos, y es
1 M n s − 6k − 1 s−n
pn (s) = n ∑ (−1)k , M :=
6 k=0 k n−1 6
Esta maravillosa fórmula no sirve de mucho sin una computadora. Pero teniendo
una, podemos graficar y calcular probabilidades en segundos. Las página siguien-
tes contienen las gráficas para algunos valores de n. En cada gráfico, arriba a la
izquierda se muestra la probabilidad de que el promedio caiga entre 3 y 4.
Podemos completar la tabla con los cálculos hechos en computadora:
i Rango X i Rango Si Probabilidad
6 3-4 18-24 ≈ 59 %
7 3-4 21-28 ≈ 62 %
8 3-4 24-32 ≈ 64 %
9 3-4 27-36 ≈ 67 %
10 3-4 30-40 ≈ 69 %
12 3-4 36-48 ≈ 73 %
15 3-4 45-60 ≈ 77 %
20 3-4 60-80 ≈ 83 %
25 3-4 75-100 ≈ 87 %
Estas probabilidades parecen crecer a 100 % a medida que lanzamos más y más
dados. También la forma de la distribución de X n se hace más y más acampanada.
Lo mismo ocurre si cambiamos el rango, por ejemplo si queremos que el promedio
caiga entre 3.25 y 3.75. A medida que lanzamos más dados es más probable que el
promedio caiga en ese rango. Cuando el rango es más chico, debemos lanzar más
dados para alcanzar un mismo nivel de probabilidad. Este fenómeno es exactamente
lo que establece la Ley de los grandes números.
12-4
F.P.P. del promedio con n=1 F.P.P. del promedio con n=2
0.16
33.3% 44.4%
0.22
0.12
Probabilidad
Probabilidad
0.18
0.08
0.14
0.04
0.10
1 2 3 4 5 6 1 2 3 4 5 6
F.P.P. del promedio con n=3 F.P.P. del promedio con n=4
0.12
48.1% 52.2%
0.08
Probabilidad
Probabilidad
0.08
0.04
0.04
0.00
0.00
1 2 3 4 5 6 1 2 3 4 5 6
F.P.P. del promedio con n=5 F.P.P. del promedio con n=6
55.7% 58.8%
0.08
0.08
Probabilidad
Probabilidad
0.04
0.04
0.00
0.00
1 2 3 4 5 6 1 2 3 4 5 6
12-5
F.P.P. del promedio con n=7 F.P.P. del promedio con n=8
0.08
61.7% 64.2%
0.00 0.02 0.04 0.06 0.08
0.06
Probabilidad
Probabilidad
0.04
0.02
0.00
1 2 3 4 5 6 1 2 3 4 5 6
F.P.P. del promedio con n=9 F.P.P. del promedio con n=10
66.6% 68.7%
0.06
0.06
Probabilidad
Probabilidad
0.04
0.04
0.02
0.02
0.00
0.00
1 2 3 4 5 6 1 2 3 4 5 6
F.P.P. del promedio con n=12 F.P.P. del promedio con n=15
0.06
72.5% 77.1%
0.06
0.04
Probabilidad
Probabilidad
0.04
0.02
0.02
0.00
0.00
1 2 3 4 5 6 1 2 3 4 5 6
12-6
F.P.P. del promedio con n=20 F.P.P. del promedio con n=25
83% 87.2%
0.04
0.04
Probabilidad
Probabilidad
0.02
0.02
0.00
0.00
1 2 3 4 5 6 1 2 3 4 5 6
Caso continuo
z + dz
{X ∈ dx}
z
{X ∈ dx,Y ∈ dy}
y = z−x
{Z ∈ dz}
x x + dx z z + dz
12-7
Para obtener la densidad marginal de Z basta integrar en todos los valores de x, y
luego dividir por dz, es decir
P (Z ∈ dz)
Z +∞
p(z) = = p(x, z − x)dx.
dz −∞
z 2-z
dz
2-z
0
0 z z+dz 1 z 2
Aquí (X,Y ) tiene distribución uniforme en el cuadrado de lado 1. Para 0 < z < 1, el
evento {X +Y ∈ dz} está representado en el diagrama por un conjunto de área zdz +
1 2
2 (dz) . Para calcular esta área hemos dividido al conjunto en un paralelogramo de
altura z perpendicular a los lados de ancho dz, y la mitad de un cuadrado de lado dz.
Ignorando el término (dz)2 por despreciable en comparación con dz, resulta
P (Z ∈ dz) = zdz,
p(z)
0 1 2 z
P (Z ∈ dz) = (2 − z)dz.
12-8
Entonces, la densidad de Z viene dada por
z
si 0 < z < 1;
2 − z si 1 ≤ z < 2;
0 en otro caso.
Ejemplo 4
Consideremos ahora T = X + Y + W en donde X, Y , y W son independientes con
distribución uniforme en [0, 1]. Para calcular la densidad de T , escribimos T = Z +
W en donde Z = X +Y tiene la distribución triangular que calculamos en el ejemplo
anterior.
Aplicando la fórmula de convolución (12.2) vemos que
Z +∞ Z t
pT (t) = pz (z)pW (t − z)dz = pZ (z)dz = P (t − 1 ≤ Z ≤ t) ,
−∞ t−1
p(z)
t-1 0 t 1 2
(2 − t)2 (t − 1)2
pT (t) = P (t − 1 ≤ Z ≤ t) = 1 − − = −t 2 + 3t − 3/2.
2 2
p(z)
0 t-1 1 t 2
12-9
Caso 3: 2 < t < 3. Entonces 1 < t − 1 < 2. El área relevante es ahora un triángulo
(3 − t)2
pT (t) = P (t − 1 ≤ Z ≤ t) = .
2
p(z)
0 1 t-1 2 t
p(t)
t
0 1 3/2 2 3
2.0
● ● ● ● ● ● ● ● ● ● ● 0.2
0.8
1.5
0.6
Densidad
1.0
f(x)
0.4
0.5
0.2
0.5
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
Densidad del promedio para n=3 Densidad del promedio para n=4
0.17 0.14
2.5
2.0
2.0
1.5
1.5
Densidad
Densidad
1.0
1.0
0.5
0.5
0.5 0.5
0.0
0.0
● ●
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
12-10
Densidad del promedio para n=5 Densidad del promedio para n=6
3.0
0.13 0.12
3.0
2.5
2.5
2.0
2.0
Densidad
Densidad
1.5
1.5
1.0
1.0
0.5
0.5
0.5 0.5
0.0
0.0
● ●
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
E (X)
P (X ≥ t) ≤ .
t
p = P (Y = 1) = P (X ≥ t) .
Para aquellos más afines a las demostraciones visuales he aquí una alternativa. Re-
cordar que la esperanza de X se puede calcular con la función de distribución me-
diante la fórmula Z ∞
E (X) = (1 − F(x))dx,
0
que no es otra cosa que el área gris por encima del gráfico de F(x) en el diagrama.
En el gráfico hemos indicado un rectángulo A cuyos lados son t y P = P (X ≥ t). La
clave es que P (X ≥ t) es el límite por izquierda de F(x) cuando x tiende a t, y por
lo tanto está contenido en la zona gris. Esto sin importante la eventualidad de una
discontinuidad de F en t.
12-11
F(x)
P rectángulo A
t x
Claramente
E (X) = Area gris ≥ Area de A = tP (X ≥ t) ,
de donde deducimos igual que antes la desigualdad de Markov.
Desigualdad de Chebyshev
Sea X una variable de esperanza µ = E (X) y varianza σ 2 = var (X). Entonces,
para todo ε > 0 vale que
σ2
P (|X − µ| ≥ ε) ≤ .
ε2
E (Y ) σ 2
P Y ≥ ε2 ≤ 2 = 2 .
ε ε
√
El evento {Y ≥ ε 2 } es el mismo que {|X − µ| ≥ ε}, pues por definición Y =
|X − µ|. Entonces la probabilidad a la izquierda en la desigualdad anterior es igual
a P (|X − µ| ≥ ε).
12-12
en donde Xi es la variable Bernoulli que indica la ocurrencia de éxito en el i-ésimo
ensayo. Es usual también escribir la suma Sn = X1 + · · · + Xn .
Cada Xi es Bernoulli de parámetro p, en donde p es la probabilidad de éxito. En
particular, todas tienen la misma distribución. Más aún, las Xi son independientes.
En la jerga probabilística se dice que X1 , . . . , Xn son independientes e idénticamente
distribuidas, y esto se abrevia con la sigla i.i.d.. Denotemos por µ la esperanza de
cada Xi (que no es otra cosa que p).
Usando esta notación el Teorema de Bernoulli se enuncia de la siguiente manera:
Para todo ε > 0 : P X n − µ < ε → 1 cuando n → ∞.
12-13
Ejemplo 5
En Inglaterra, en el siglo XII no existía una autoridad central fuerte, lo que repre-
sentaba un problema para la política monetaria. Había un rey, pero su autoridad era
contrarrestada por la de varios poderosos barones.
Al mismo tiempo, existía la necesidad comercial de una moneda confiable. La prin-
cipal fuente de acuñación británica era la Casa de la Moneda de Londres, que fun-
cionaba de forma independiente de la corona. El rey y los barones llevaban oro y
plata a la Casa y recibían monedas a cambio.
El rey estipulaba el peso y la finura de las monedas, y monitoreaba regularmente el
cumplimiento de los estándares estipulados a través de pomposos juicios.
Los juicios de la Casa de Moneda datan de finales del 1200 y se siguen haciendo
hoy en día. Cada día de producción, una selección (razonablemente aleatoria) de
monedas era separada y puesta en una caja llamada Pyx para pruebas posteriores.
Cada tres meses, la Pyx se abría en presencia de jueces que representaban a partes
interesadas en la precisión de las monedas. Las mismas eran analizadas para deter-
minar la finura y el peso. Nos concentraremos en lo que sucedía con el peso que es
más interesante desde el punto de vista estadístico.
Todos sabían que inevitablemente habría alguna variación en el peso de monedas
diferentes. Por ende, el contrato con el rey y los barones especificaba tanto un peso
objetivo (llamémoslo M0 ) y una tolerancia permitida que se llamaba el “remedio”
(denotada por R). Si el peso estaba por debajo de M0 − R, la Casa debía devolver el
dinero faltante al rey. Incluso, al maestro de la Casa se le podía cortar la mano, o
algo peor. No estaba bien visto robarle al rey.
Las monedas demasiado pesadas también eran un problema, ya que podían ser eli-
minadas de circulación y convertidas en lingotes por los empresarios alertas. Pero
en estos casos no había ganancia para la Casa de la Moneda, y el enfoque principal
de la prueba era entonces en las monedas livianas.
Las monedas se pesaban en lotes, pues la precisión de aquellos tiempos no permitía
pesar una sola moneda con exactitud.
Si, por ejemplo, se pesan 100 monedas de oro en un lote, claramente el
objetivo debe ser 100M0 . Pero, ¿cuál sería el remedio? Es decir, ¿cuánto
se debe tolerar?
Es una pregunta muy simple, y por su respuesta casi que se puede reconocer a una
persona bien instruida en estadística.
La elección que hicieron (hasta empezado el siglo XIX) fue que el remedio en ese
caso es simplemente 100R; solo si el lote pesaba menos de 100M0 − 100R, la Casa
no pasaría la prueba.
Durante mucho tiempo se pensó que los errores crecen linealmente con el núme-
ro de mediciones. Pero el cálculo que hicimos más arriba nos dice que esto está
12-14
equivocado; esto es demasiado generoso para la casa de la moneda.
Es un estándar tan bajo que un maestro alerta podría apuntar casi tan bajo, como por
ejemplo acuñando a un objetivo de M0 − 0,5R, o incluso M0 − 0,8R, y prácticamente
no correr riesgo de fallar en la prueba.
A modo de ejemplo concreto, pensemos en una moneda como la de $10 que pesa
cerca de M0 = 10g. Supongamos que nuestra tolerancia para el peso de una moneda
es del 5 % del peso de la moneda. En este caso R = 0,5g.
Si hiciéramos como hacían en el siglo XII, la tolerancia para los lotes sería de
100R = 50g. Notar que el peso promedio es de 100M0 = 1000g, pero si los pesos de
las monedas varían de forma independiente, (es decir que las monedas individuales
no están estadísticamente relacionadas entre sí) un remedio apropiado para un lo-
te de 100 sería 10R (5g), no 100R. Con pesos estadísticamente independientes, la
variación aumenta como la raíz cuadrada del número de monedas.
Por supuesto, en los primeros años del juicio del Pyx, incluso los mejores
√ matemá-
ticos no estaban al tanto de lo que ahora se conoce como la regla de la n.
Sin embargo, hubo un maestro de la Casa de la Moneda que fue un matemático
mejor que el promedio: Isaac Newton. De 1696 a 1727 fue maestro de la Casa de
la Moneda. Y a su muerte en 1727, Newton tenía una considerable fortuna. ¿Ha-
brá visto Newton el error en los procedimientos en el juicio del Pyx, y lo habrá
explotado de forma astuta para su beneficio?
√
La regla de la n es la clave detrás de la demostración de la LGN.
Ley de los grande números
Sean X1 , X2 , . . . variables i.i.d. con esperanza µ = E (Xi ) y varianza σ 2 =
var (Xi ). Entonces, para todo ε > 0
P X n − µ < ε → 1
σ2
P X n − µ ≥ ε ≤ 2 .
nε
El lado de la derecha de esta ecuación claramente tiende a cero cuando n tiende a
infinito.
12-15
Clase 13
Teorema central del límite
Sn = X1 + · · · + Xn (la suma)
X1 + · · · + Xn
Xn = (el promedio)
n
Entonces Sn tiene distribución binomial de parámetros n y 1/2, por lo que
1 n
P (Sn = k) = n .
2 k
P
Además, X n → 1/2 cuando n tiende a infinito por la LGN (o el Teorema de Bernoulli
en este caso).
Recordar que cuando comenzamos la discusión del Teorema de Bernoulli vimos
que el término central de la distribución binomial (el máximo de la f.p.p.) se da en
m = b(n + 1)pc. ¿Se acuerdan cuánto vale?
13-1
Tomemos n = 2m par. Entonces el máximo es
2m 1
P (Sn = m) = .
m 22m
La fórmula mágica del producto de Wallis nos ayudó a calcular esta probabilidad.
Por ejemplo, si tiramos n = 1000, ¿la probabilidad
√ de que salgan 500 caras es alta
o baja? Según Wallis P (Sn = m) ≈ 1/ πm. Entonces, si n = 1000 y m = 500 la
probabilidad es aproximadamente 2.5 %, que es bastante baja.1
De Moivre se preguntó: ¿qué pasa con los otros términos? Aunque él respondió a
esta pregunta para cualquier n y cualquier p, por simplicidad sigamos suponiendo
que n = 2m es par y que p = 1/2.
Para cada k ∈ {−m, . . . , 0, . . . , m} queremos aproximar
P (Sn = m + k)
P (Sn = m))
i.e. queremos ver cuán chicos son los otros términos con respecto al término central.
Calculamos:
P (Sn = m + k) m(m − 1) · · · (m − (k − 1))
=
P (Sn = m) (m + 1)(m + 1) · · · (m + k)
k−1 1 −1 k −1
1
= 1− ··· 1− 1+ ··· 1+
m m m m
P (Sn = m + k) k−1 j k
j
ln = ∑ ln 1 − − ∑ ln 1 +
P (Sn = m) j=1 m j=1 m
¿Y con eso qué? Es ahora en que nos acordamos de aquellas igualdades tediosas
que probamos en cálculo por inducción completa:
r r
r(r + 1) r(r + 1)(2r + 1)
∑ j= ∑ j2 = ≤ r3
j=1 2 j=1 6
1 ¿Recuerdan la discusión que tuvimos sobre si esto contradice la LGN?
13-2
0
-2
-4
-6
-8
Cocientes y log de cocientes
30 40 50 60 70
No hay que olvidarse que una de las sumas va hasta k, por lo que el k/m se cancela
con este. En definitiva el aporte de las dos sumas de j/m es finalmente k2 /m. La
suma de j2 /m2 es menor que k3 /m2 .
Por lo tanto, sumando y tomando exponencial resulta
k2 P (Sn = m + k) k2
e− m −δ ≤ ≤ e− m +δ
P (Sn = m)
13-3
ϕ
x
−3 −2 −1 0 1 2 3
1 (s−µ)2
−
P (Sn = s) = P (Sn − µ = s − µ) ≈ √ e 2σ 2
2πσ 2
13-4
r dθ
dr
(0, 0)
Para verificar que ϕ es una densidad de probabilidad, debemos probar que integra
uno. La forma natural de integrar una función es calcular una primitiva, pero un
teorema de Risch afirma que ϕ no tiene una primitiva elemental. Esto quiere decir
que la primitiva de ϕ no tiene una fórmula que se pueda escribir, mediante el uso de
composiciones, sumas, restas, multiplicaciones y divisiones, a partir de un número
finito de exponenciales, logaritmos, funciones trigonométricas y raíces n-ésimas.
Sin embargo, un truco astuto nos permite calcular la integral de ϕ. El método se
debe a los matemáticos Euler y Poisson, por lo que esta integral lleva sus nombres.
La integral de Euler-Poisson
La integral de ϕ en toda la recta real vale 1:
Z +∞
1 x2
√ e− 2 dx = 1
2π −∞
2 +y2 )
Consideremos la función f (x, y) = e−(x . Entonces
Z 2π Z ∞
(x2 +y2 ) 2
Z ∞
r2
ZZ
− − r2
e 2 dx dy = e r dr dθ = 2π re− 2 dr = 2π
R2 0 0 0
13-5
Figura 13.4: Tabla de la distribución normal estándar.
13-6
ϕ
Φ(x)
−3 −2 −1 0 x 1 2 3
Φ(−x) 1 − Φ(x)
−3 −2 −x −1 0 1 x 2 3
La lectura directa de la tabla consiste en, dado x, hallar Φ(x). Así, por ejemplo
Φ(2,31) = 0,9896. Notar que la tabla no provee los valores Φ(x) para valores nega-
tivos de x. Sin embargo, podemos usar la simetría de la densidad normal (igualdad
de áreas rojas en la figura) para deducir que
Φ(−x) = 1 − Φ(x).
La densidad normal puede estar centrada en otro lugar y tener un “ancho” de campa-
na distinto al de la normal estándar. La definición general de la distribución normal
es la siguiente.
Densidad normal general
X tiene distribución normal de parámetros µ y σ 2 si su densidad es igual a
1 (x−µ)2
−
ϕµ,σ 2 (x) = √ e 2σ 2
σ 2π
13-7
ϕ µ,1
µ = −1/2 µ = 1/2
x
−3 −2 −1 0 1 2 3
σ = 1/4
√
σ= 2
x
−3 −2 −1 0 1 2 3
var (X) = σ 2
Ambas se pueden probar de forma sencilla observando que, de la fórmula de cambio
de variable lineal. vemos que X = µ + σ Z con Z ∼ N(0, 1).
Recordamos que la definición anterior quiere decir que para todo a < b vale
Z b
P (a ≤ X ≤ b) = ϕµ,σ 2 (x)dx.
a
En las figuras que siguen vemos como cambia el gráfico de ϕµ,σ 2 al variar los pará-
metros µ y σ .
El parámetro µ es el valor “más probable”, es el centro de simetría de la gráfica
de ϕµ,σ 2 , y los valores de X se concentran entorno a µ. El parámetro σ representa
el ancho de la campana, y por lo tanto, cuán lejos de µ están los valores X. Por
ejemplo, la probabilidad
P (|X − µ| ≤ kσ )
está representada en la gráfica de abajo, para k = 1, 2, 3.
13-8
Figura 13.9: Regla del desvío
Estandarización
¿Cómo se calcula una probabilidad para una normal? El método consiste en dos
pasos:
Estandarización: reducción al caso N(0, 1).
Uso de una tabla de la normal estándar.
Si X tiene distribución normal de parámetros µ y σ y a < b, entonces
a−µ X −µ b−µ
P (a ≤ X ≤ b) = P < ≤ .
σ σ σ
X−µ
Como σ tiene distribución normal estándar, vemos que
b−µ a−µ
P (a ≤ X ≤ b) = Φ −Φ
σ σ
Veamos un ejemplo de cálculo. Supongamos que X ∼ N(1,5, 4), notar que σ = 2.
Queremos calcular P (0,16 < X < 6,12). Como vimos
6,12 − 1,5 0,16 − 1,5
P (0,16 < X < 6,12) = Φ −Φ
2 2
= Φ(2,31) − Φ(−0,67) = 0,9896 − 0,2514 = 0,7382.
Por lo tanto P (0,16 < X < 6,12) = 0,7382.
Por último, observamos que la tabla de la normal estándar se puede leer al revés. La
lectura inversa de la tabla consiste en, dado un valor p ∈ (0, 1) para una probabili-
dad, queremos hallar el valor x p tal que Φ(x p ) = p. Para valores que no aparecen en
la tabla se usa interpolación lineal.
Por ejemplo, si p = 0,95, como Φ(1,64) = 0,945, Φ(1,65) = 0,955, y
0,95 = (0,945 + 0,955)/2
entonces x0,95 ≈ (1,64 + 1,65)/2 = 1,645.
13-9
0.3
0.2
0.1
0.0
19 20 21 22 23 24 25 26
Longitud de la mano (cm)
13-10
Como antes, escribimos
Sn = X1 + · · · + Xn
X1 + · · · + Xn
Xn =
n
pero ahora vamos a introducir un miembro más a la lista. Como Sn y X n son múlti-
plos una de la otra, ambas tienen la misma estandarización
Sn − nµ X −µ
Zn = √ = n√ .
σ n σ/ n
El teorema central del límite nos permite aproximar una suma o promedio de varia-
bles aleatorias i.i.d. por una variable aleatoria normal. Esto es extremadamente útil
porque generalmente es fácil hacer cálculos con la distribución normal.
Enunciado informal del TCL
Para n grande,
d d d
X n ≈ N(µ, σ 2 /n), Sn ≈ N(nµ, nσ 2 ), Zn ≈ N(0, 1)
d
La notación X ≈ Y quiere decir que la distribución de X es aproximadamente igual a
la de Y . Pero a no engañarse, esto no quiere decir que X se parezca a Y , simplemente
que la función de distribución FX se parece a FY .
Enunciado preciso del TCL
Sea X1 , X2 , . . . una sucesión i.i.d. de variables aleatorias con esperanza µ y va-
rianza σ 2 . Sea
Sn − nµ X −µ
Zn = √ = n√
σ n σ/ n
la estandarización de la suma o promedio. Entonces para todo z ∈ R,
La prueba del TCL no es muy difícil, y las herramientas utilizadas están al alcance
de este curso, pero sí un poco larga y técnica. Por eso la dejamos como lectura
opcional en unas notas que pueden encontrar en la página del curso.
13-11
si sale cruz. La cantidad total de caras es
S100 = X1 + · · · + X100 .
Sabemos que E (Xi ) = 1/2 y var (Xi ) = 1/4, por lo que para n = 100, tenemos
S100 − 50 55 − 50
P (S100 > 55) = P > = P (Z100 > 1) ≈ 1 − Φ(1).
5 5
Ejemplo 2
Estimar la probabilidad de más de 220 caras en 400 lanzamientos de una moneda
justa.
Este ejemplo es casi el calco del anterior. Usando ahora µ = 200 y σ = 10, obtene-
mos
220 − 200
P (S400 > 220) = P Z400 > = P (Z400 > 2) ≈ 1 − Φ(2).
10
Ejemplo 3
Estimar la probabilidad de obtener entre 40 y 60 caras en 100 lanzamientos de una
moneda justa.
Como en el primer ejemplo, µ = 50 y σ = 5, por lo que
13-12
Ejemplo 4
Al realizar una encuesta política, los resultados a menudo se informan como un
número con un margen de error. Por ejemplo, 52 % ± 3 % favorecen al candidato
A. La√ regla de oro es que si sondea a n personas, entonces el margen de error es
±1/ n. Ahora veremos exactamente qué significa esto aplicando el teorema central
del límite.
Supongamos que hay 2 candidatos A y B. Supongamos además que la fracción de
la población que prefiere A es p0 . Es decir, si le pregunta a una persona al azar a
quién prefiere, entonces la probabilidad de que contesten A es p0 .
Para ejecutar la encuesta, un encuestador selecciona n personas al azar y pregunta
“¿Apoya usted al candidato A o al candidato B?”. Por lo tanto, podemos ver la
encuesta como una secuencia de n ensayos de Bernoulli X1 , X2 , . . . , Xn, donde Xi es
1 si la persona i prefiere A y 0 si prefiere B. La fracción de personas encuestadas
que prefiere A es el promedio X n .
Sabemos que cada Xi ∼ Ber(p0 ) entonces,
donde σ 2 = p0 (1 − p0 ).
En una distribución normal, el 95 % de la probabilidad está dentro de 2 desviaciones
√ % de las encuestas de n personas, la
estándar de la media. Esto significa que en el 95
media de la muestra X n estará dentro de 2σ / n de la verdadera media p0 . El paso
final es notar que para cualquier valor de p0 tenemos σ ≤ 1/2. (Es un ejercicio sen-
cillo de cálculo ver que 1/4 es el valor máximo de σ 2 = p0 (1 − p0 ).) Esto significa
que podemos decir de manera conservadora que en el 95 √ % de las encuestas de n
personas, la media de la muestra X n está a menos de 1/√ n de la media verdadera.
El estadístico frecuentista llama el intervalo X n ± 1/ n intervalo de confianza al
nivel 95 % para p0 .
Dado que las probabilidades en los ejemplos anteriores se pueden calcular exacta-
mente usando la distribución binomial, es posible que se pregunten cuál es el punto
de encontrar una respuesta aproximada utilizando la TCL.
De hecho, solo pudimos calcular estas probabilidades exactamente porque los Xi
eran Bernoulli y, por lo tanto, la suma Sn era binomial. En general, la distribución
de Sn no será conocida, por lo que no podrá calcularse las probabilidades exac-
tamente. También puede suceder que el cálculo exacto sea posible en teoría pero
13-13
demasiado costoso computacionalmente, incluso para una computadora. El poder
de la TCL es que se aplica cuando Xi tiene casi cualquier distribución, aunque algu-
nas distribuciones pueden requerir un n más grande para que la aproximación sea
buena. Veamos algunos ejemplos.
Ejemplo 5
Un dado desparejo tiene dos caras opuestas que son menos probables que las otras
cuatro. Así el 1 y el 6 tienen probabilidad 1/10 y los otros cuatro resultados tienen
probabilidad 1/5.
Estimar la probabilidad de que en 100 lanzamientos la suma esté entre 335 y 365.
Llamemos Xi al resultado del i-ésimo lanzamiento. La f.p.p de cada Xi es
Valor de Xi 1 2 3 4 5 6
f.p.p. 1/10 2/10 2/10 2/10 2/10 1/10
por lo que
1 2 2 2 2 1 35
E (Xi ) = 1 · +2· +3· +4· +5· +6· = = 3,5
10 10 10 10 10 10 10
La varianza la podemos calcular a partir de la siguiente tabla
Valor de Xi 1 2 3 4 5 6
f.p.p. 1/10 2/10 2/10 2/10 2/10 1/10
(Xi − 3,5)2 6.25 2.25 0.25 0.25 2.25 6.25
de donde resulta var (Xi ) = 2,25.
Entonces, para S100 = X1 + · · · + X100 tenemos
Notar que para este dado no uniforme, es casi imposible calcular la distribución de
S100 . Solamente con una computadora ese cálculo es razonable.
¿Cuál sería la probabilidad si el dado fuera justo?
13-14
En este caso cambia la varianza de S100 , ya que el promedio sigue siendo el mismo,
y vale var (S100 ) = 100 · 35/12 = 291,666 · · · . Así que el cálculo da
Notar que es una probabilidad menor la anterior, lo cual es coherente pues la va-
rianza ahora es mayor.
En un país muy corrupto y mafioso la lotería se juega de manera muy extraña. Los
tickets son tiras de 0’s y 1’s de longitud n = 1000, y se sortea una de las tiras. Los
posibles tickets de lotería son:
0 0 0 0 0 ··· 0 0 0 0 0
1 0 0 0 0 ··· 0 0 0 0 0
0 1 0 0 0 ··· 0 0 0 0 0
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
0 0 0 0 0 ··· 0 0 0 1 0
0 0 0 0 0 ··· 0 0 0 0 1
1 1 0 0 0 ··· 0 0 0 0 0
1 0 1 0 0 ··· 0 0 0 0 0
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
0 0 0 0 0 ··· 0 0 1 0 1
0 0 0 0 0 ··· 0 0 0 1 1
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
0 1 1 1 1 ··· 1 1 1 1 1
1 1 1 1 1 ··· 1 1 1 1 1
Para jugar los habitantes deben comprar tickets, todos los que quieran, y todos los
tickets salen lo mismo.
Los tickets no son equiprobables, si no que se sortea cada dígito de la tira de forma
tal que la probabilidad de que un dígito sea 1 es p = 0,1 y de que sea un 0 es
q = 1 − p = 0,9.
Si fueras a comprar un solo ticket, ¿cuál comprarías? La probabilidad de cada tickets
depende solamente de la cantidad de 0’s y 1’s que contenga. Así, si el ticket tiene k
1’s y 1000 − k 0’s, su probabilidad es
pk qn−k .
13-15
0.04
0.03
0.02
0.01
0.00
Como p < q, es claro que conviene cambiar cada p por un q si queremos que la
probabilidad sea máxima. Entonces, el ticket más probable es
00000 · · · 00000
P (S ≤ rmax ) ≥ 0,99.
Obviamente queremos que rmax sea lo más chico posible para que el jefe no tenga
que gastar demasiado dinero.
Por el TCL, la estandarización Z de S es aproximadamente normal estándar, por lo
que
r−µ r−µ
P (X ≤ r) = P Z ≤ ≈Φ ,
σ σ
13-16
en donde µ = E (S) y σ 2 = var (S). Así que buscamos el menor valor de r tal que
r−µ
Φ ≥ 0,99,
σ
Mi = µ + Ei ,
13-17
ϕ()
Figura 13.12: Curva de error triangular de Simpson. En este caso ϕ(ε) = −k2 ε + k,
con k una constante positiva.
ϕ()
Figura 13.13: Curva de error exponencial de Laplace. En este caso ϕ(ε) = 2k e−k|ε| ,
con k una constante positiva.
ϕ()
13-18
3. Las variables E1 , . . . , En son independientes.
Existen muchas curvas de error ϕ posibles que cumplan estos supuestos. Algunas de
ellas se muestran en las Figuras 13.12, 13.13, y 13.14. Sin embargo, Gauss supuso
un cuarto ingrediente fundamental:
En presencia de varias mediciones de la misma magnitud, el valor más
probable de la cantidad que se mide es su promedio.
Con este último ingrediente Gauss fue capaz de derivar una fórmula para ϕ.
Gauss asumió que la densidad φ era derivable, cosa que por supuesto también hare-
mos nosotros. Consideremos la cantidad
ϕ 0 (ε)
f (ε) = ,
ϕ(ε)
ϕ 0 (ε) −ϕ 0 (−ε)
f (ε) = = = − f (−ε).
ϕ(ε) ϕ(−ε)
13-19
1
∆ 2
2
∆ 1
Figura 13.16: Extracto del artículo original de Gauss en donde aparece la fórmula
de la campana.
es el promedio
M1 + · · · + Mn
M=
n
de las n mediciones. Esta condición implica que si derivamos F y la evaluamos en
µ = M el resultado debe ser cero.
Calcular la derivada de F no es difícil pero sí un poco largo, así que lo dejamos
como ejercicio. Al derivar, obtenemos
dF
(µ) = f (M1 − µ) + · · · + f (Mn − µ) F(µ).
dµ
f M1 − M + · · · + f Mn − M = 0.
13-20
Esta ecuación debe ser satisfecha cualesquiera sean las mediciones, y estas pueden
ser cualquier valor real. En particular, si
M1 = α, y M2 = · · · = Mn = β ,
f (mx) = m f (x),
para todo real x y todo entero positivo m. Se puede ver que las únicas funciones que
cumplen con esta condición son las lineales: es decir f (x) = −kx.
Observemos a lo que hemos llegado: hemos probado que existe una constante k > 0
tal que
ϕ 0 (ε)
= −kε.
ϕ(ε)
Si integramos en ambos lados de esta igualdad, luego de algunos cálculos, concluí-
mos que
2
ϕ(ε) = Ce−kε ,
en donde C es una constante de integración. Esta es la fórmula mágica a la cual
Gauss llegó y que conocemos hoy como densidad de la distribución normal. Ver la
Figura 13.16.
13-21