Metodos de Analisis de Datos
Metodos de Analisis de Datos
Metodos de Analisis de Datos
(APUNTES)
MATERIAL DIDCTICO
Matemticas
n 6
Zenaida Hernndez Martn
UNIVERSIDAD DE LA RIOJA
SERVICIO DE PUBLICACIONES
2012
Hernndez Martn, Zenaida
Mtodos de anlisis de datos : apuntes / Zenaida Hernndez Martn. -
Logroo : Universidad de La Rioja, Servicio de Publicaciones, 2012.
172 p. ; 29 cm. (Material Didctico. Matemticas ; 6)
ISBN 978-84-615-7579-4
1. Mtodos estadsticos. I. Universidad de La Rioja. Servicio de Publicaciones, ed.
519.2
Este libro no pretende ser nada mas que lo que es: unos apuntes completos de lo que
se imparte en las clases de Metodos de Analisis de Datos. Un documento de ayuda a
los estudiantes, para que puedan dedicarse a escuchar atentamente las explicaciones del
profesor y a resolver los ejemplos y ejercicios planteados en clase y, a la vez, que sus
apuntes esten completos, las definiciones correctas, las explicaciones esten recogidas y que
las formulas esten correctamente escritas.
Aunque se incluyen algunos ejemplos, en estos apuntes no se incluye, como suele ser
habitual, una lista de problemas, al menos en esta primera version.
Por otra parte, los contenidos teoricos impartidos en clase se deben completar con
unas practicas en aula informatica, en las que se aprendera a hacer un analisis estadstico
utilizando un software adecuado. Estas practicas abarcan desde la obtencion de datos a
partir de las fuentes mas habituales de informacion estadstica, al analisis de los mismos,
tanto de forma descriptiva como mediante la realizacion e interpretacion correcta de los
contrastes de hipotesis mas habituales (los apuntes de estas practicas tampoco estan
contenidos en este libro).
La mayora de los graficos y tablas que aparecen en estos apuntes se han realizado
con el software de StatSoft, Inc. (2007). STATISTICA (Sistema informatico de analisis
de datos), version 8.0. www.statsoft.com, que es el que se esta utilizando actualmente en
las clases practicas.
Hablemos del contexto. La asignatura de Metodos de Analisis de Datos es una asig-
natura de Estadstica Basica, que se imparte en varias titulaciones, sobre todo de las
llamadas de letras y cuyos contenidos estan pensados para familiarizar a los estudiantes
con las tecnicas mas elementales de la Estadstica, con su manejo y su interpretacion.
El objetivo de la asignatura es que los estudiantes conozcan distintas medidas y tecni-
cas estadsticas, sepan cuando aplicarlas y sobre todo, como interpretarlas. No se pre-
tenden grandes sesiones de calculo y tampoco se hace mucho hincapie en el fundamento
matematico, sino que se busca la comprension de los estadsticos, cuando, para que y por
que aplicarlos.
Seg
un los objetivos descritos para esta asignatura en los distintos Grados en los que
se imparte, el estudiante debe adquirir una serie de competencias y habilidades, entre las
que se encuentran las siguientes:
3
4
estadstico. Por otra parte, a la vista de una serie de resultados estadsticos, debe
ser capaz de interpretarlos, resumiendo la informacion y/o describiendo la situacion
de una forma coherente.
Debera conocer y aplicar las tecnicas mas utilizadas para la presentacion y resumen
de datos unidimensionales y bidimensionales, tanto cuantitativos como cualitativos.
Para conseguirlo, se ha pensado en un temario que incluye 10 temas y que son los que
constituyen este curso.
Este documento esta basado en el desarrollo del temario de la asignatura durante
los cursos 2009-2010 y 2010-2011, de modo que se ajusta en tiempo y contenidos a los
objetivos que se pretenden, por lo que es valido no solo para los estudiantes, sino tambien,
como marco de referencia, para cualquier profesor que tenga que abordar por primera vez
esta asignatura o alguna similar.
Como deca al principio, este libro no pretende ir mas alla de los apuntes, completos,
de clase. Tras el Indice, se comentan cuatro libros que se ajustan bastante al temario y
al nivel de esta asignatura. Para acceder a otras explicaciones y/o ampliar conocimientos
tienen en la Biblioteca de la Universidad bibliografa actualizada mas que suficiente.
Por ultimo, no sera justo terminar esta peque
na introduccion sin agradecer a mis
companeros Montse San Martn, Juan Carlos Fillat y David Ortigosa, sus aportaciones y
correcciones y sobre todo por su apoyo para que estos apuntes pudieran salir a la luz.
Logro
no, julio de 2011
Indice
1. Estadsticas econ
omicas y sociales 11
1.1. La utilidad de la Estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2. Definiciones iniciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3. Fuentes de informacion estadstica . . . . . . . . . . . . . . . . . . . . . . . 17
5
6 INDICE
3. N
umeros ndices 57
3.1. N
umeros ndices simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2. N
umeros ndices compuestos no ponderados . . . . . . . . . . . . . . . . . 58
3.3. N
umeros ndices compuestos ponderados . . . . . . . . . . . . . . . . . . . 59
3.4. Indices de precios, de cantidad y de valor . . . . . . . . . . . . . . . . . . . 60
3.4.1. Indices de precios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4.2. Indices de cantidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.4.3. Indices de valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.5. Propiedades de los n
umeros ndices . . . . . . . . . . . . . . . . . . . . . . 63
3.6. Pasos para el calculo de los n
umeros ndices . . . . . . . . . . . . . . . . . 64
3.7. La deflacion de valores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.8. Indice de precios de consumo . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.9. Ejemplos resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4. La curva Normal 73
4.1. Propiedades de la curva Normal . . . . . . . . . . . . . . . . . . . . . . . . 74
4.2. Valores tipificados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3. Proporciones de la curva Normal . . . . . . . . . . . . . . . . . . . . . . . 77
4.3.1. Como se utiliza la tabla? . . . . . . . . . . . . . . . . . . . . . . . 78
4.3.2. Calculos en distintas situaciones . . . . . . . . . . . . . . . . . . . . 79
4.3.3. Obtencion de valores crticos . . . . . . . . . . . . . . . . . . . . . . 81
4.4. La distribucion t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.2. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.3. Probabilidades condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.4. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.5. Esperanza matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.6. La probabilidad y la curva Normal . . . . . . . . . . . . . . . . . . . . . . 99
6. Introducci
on a la Inferencia Estadstica 101
6.1. Distribucion de la media muestral . . . . . . . . . . . . . . . . . . . . . . . 101
6.2. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . . . . . 103
6.3. Contraste de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.4. Contraste de hipotesis para la media . . . . . . . . . . . . . . . . . . . . . 109
6.5. Distribucion de la proporcion muestral . . . . . . . . . . . . . . . . . . . . 111
6.5.1. Intervalo de confianza para una proporcion . . . . . . . . . . . . . . 112
6.5.2. Contraste de hipotesis para una proporcion . . . . . . . . . . . . . . 114
6.6. Contraste de igualdad (o diferencia) de medias . . . . . . . . . . . . . . . . 115
6.7. Contraste de igualdad (o diferencia) de proporciones . . . . . . . . . . . . . 117
6.8. Ejemplos resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
7. Muestreo 127
7.1. Tecnicas de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.2. Tama
no de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.2.1. Para la estimacion de una media . . . . . . . . . . . . . . . . . . . 129
7.2.2. Para la estimacion de una proporcion . . . . . . . . . . . . . . . . . 131
7.2.3. Para la estimacion de una diferencia de medias . . . . . . . . . . . . 133
7.2.4. Para la estimacion de una diferencia de proporciones . . . . . . . . 133
9. Correlaci
on y regresi
on lineal 145
9.1. Correlacion lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
9.2. Regresion lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
9.3. Analisis de la bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . 151
9.4. Aplicaciones de la regresion . . . . . . . . . . . . . . . . . . . . . . . . . . 153
9.5. Ejemplo resuelto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
10.An
alisis estadstico de datos cualitativos 159
10.1. Correlacion por rangos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
10.2. Asociacion entre caracteres nominales . . . . . . . . . . . . . . . . . . . . . 161
10.2.1. Tablas de contingencia 2 2 . . . . . . . . . . . . . . . . . . . . . . 161
10.2.2. Tablas de contingencia h k . . . . . . . . . . . . . . . . . . . . . . 163
10.3. La distribucion Ji cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . 165
A. Tablas 167
Bibliografa comentada
Estadstica para las ciencias del comportamiento. Pagano, R.; Ed. Thomson. Mejico.
1999 (5a edicion).
Incluye los temas: 2, 4, 5, 6, 7, 8 y 9.
9
Tema 1
Estadsticas econ
omicas y sociales
El ni
no pide la paga y sus padres le preguntan: y cuanto les dan a tus amigos sus
padres?
Nos cuestionamos las noticias ya que leemos o escuchamos que ((seis de cada diez
trabajadores en Espa
na son mileuristas)) (en el comentario se especifica que del
11
12 TEMA 1. ESTADISTICAS ECONOMICAS
Y SOCIALES
total de los 27.94 millones de personas que perciben alg un ingreso (asalariados,
pensionistas, parados y autonomos), el 63 % tiene unos ingresos brutos mensuales
inferiores a los 1100 euros). Mientras que por otro lado nos dicen que el sueldo medio
mensual en Espa na es de mas de 1500 euros.
Tenemos que renovar el alquiler con la subida del IPC.
Nos dicen que los precios suben un 2 % (y no nos suben mas el sueldo), pero a
nosotros no nos llega para comprar lo mismo que el a
no pasado.
Estamos viendo un partido de baloncesto y tenemos la informacion de la diferencia
de puntos en cada minuto.
Son muchas las situaciones en las que vamos a tener que tomar decisiones importantes.
Para ello tendremos que conocer, de alguna forma, la situacion concreta que estamos
analizando por lo que debemos manejar informacion sobre la misma.
Desgraciadamente no siempre podremos basar nuestras decisiones en la experiencia,
pero cuando esto es posible, entra en juego la Estadstica. Por lo tanto, las situaciones
que nos interesan aqu son aquellas en las que vamos a manejar datos para ayudarnos a
tomar nuestras decisiones.
Una vez que tenemos los datos, la investigacion social se puede utilizar con dos enfo-
ques: para describir el fenomeno o para tomar decisiones.
A partir de una masa de datos, la Estadstica Descriptiva nos permite describir la
situacion analizada. Para ello se utilizan metodos de reduccion de la masa de datos,
calculo de promedios, dispersion o tendencias, que nos permiten sacar conclusiones de
estos datos.
Supongamos, por ejemplo, que conocemos las notas de selectividad de los 225 estu-
diantes que se matricularon en septiembre en una universidad peque
na. Esto constituira
una masa de datos.
Vamos a manejar una tabla ficticia para este ejemplo, pero mas adelante veremos
que en muchas ocasiones (no en todas) se pueden conseguir los datos reales sin mucha
dificultad.
7.3 4.2 6.5 4.0 4.7 7.7 8.0 2.2 6.6 3.4 5.6 8.9 7.0 9.9 7.7
7.9 4.4 4.1 3.5 4.0 5.3 3.0 7.8 6.2 6.5 4.3 7.1 7.5 3.0 3.4
5.0 7.4 6.0 6.9 8.8 5.7 6.8 5.1 4.0 6.1 3.3 8.4 9.3 7.2 3.4
5.0 9.8 5.8 9.1 8.3 4.4 8.4 5.4 7.0 5.6 6.3 7.7 6.4 5.8 3.4
0.9 8.1 8.1 6.3 5.7 3.0 4.5 8.5 9.6 7.6 1.8 7.0 2.6 3.2 4.9
3.7 4.3 6.7 3.9 8.5 8.3 3.3 6.4 4.2 8.5 5.9 7.2 7.2 5.8 2.7
5.1 1.2 4.0 5.4 5.2 6.6 1.0 2.7 6.2 9.3 8.1 2.0 9.6 4.5 4.0
6.0 9.2 9.0 8.8 7.3 5.4 6.5 5.1 6.0 8.2 4.7 5.1 4.9 5.6 8.9
8.0 5.4 6.5 3.2 8.1 4.2 2.3 4.0 4.6 7.8 6.7 5.9 6.8 6.2 8.3
6.2 4.8 6.8 7.5 7.4 6.7 4.7 4.5 1.4 3.3 2.1 6.8 6.1 7.6 4.1
1.3 6.7 7.2 8.2 6.2 2.6 5.4 5.0 8.5 6.1 8.7 6.1 0.3 3.9 6.7
4.1 1.7 7.0 6.1 4.8 9.0 5.7 6.2 7.3 8.7 8.5 4.6 8.7 7.3 9.5
5.1 9.1 8.0 1.2 6.3 3.4 3.6 8.7 9.2 3.1 5.4 6.5 3.8 8.2 9.7
3.9 7.7 9.4 5.9 7.7 8.8 6.2 2.3 6.4 7.8 3.6 7.1 4.8 3.6 6.2
7.1 7.8 4.6 6.0 8.9 4.7 8.7 4.3 5.3 6.8 1.8 2.3 6.3 9.1 8.2
1.1. LA UTILIDAD DE LA ESTADISTICA 13
La simple observacion directa de esta masa de datos (son n umeros) no nos permite
sacar conclusiones respecto a los mismos. Sin embargo, utilizando las tecnicas de Estadsti-
ca Descriptiva, incluso las mas elementales, podemos describir el comportamiento de las
calificaciones de los estudiantes con bastante precision.
En los proximos temas veremos con detenimiento estas tecnicas, pero ahora, como
ejemplo, vamos a ver su utilidad:
Un primer paso para sacar alguna conclusion de esta masa de datos consiste en redu-
cirla. Para ello se procede a ordenarlos y agruparlos en categoras (este proceso se conoce
como tabulacion):
Podemos afirmar (porque es una creencia o porque nos da la impresion) que fuman mas
los hombres que las mujeres o que una determinada enfermedad tiene mayor incidencia
en una provincia o en otra. Sin embargo, si tenemos que tomar una decision basada en
estos hechos, deberamos saber cual es el nivel de confianza de estas afirmaciones, hasta
que punto podemos apoyarnos en ellas. Esto lo haremos con los contrastes de hipotesis.
Esta claro que si tenemos informacion completa de un fenomeno, no hay nada que
contrastar. Si en la Universidad de La Rioja se han matriculado 3000 hombres y 3600
mujeres, podemos afirmar con certeza absoluta que hay mas mujeres que hombres.
Sin embargo, hay informaciones que nos interesa contrastar ya que depender del sentido
comun o de las experiencias cotidianas tiene sus limitaciones y son muchas las ocasiones
en las que las ((creencias populares)) no coinciden con la realidad.
Por ejemplo: ((En la Universidad de La Rioja es mas probable que tengan el carne de
conducir los hombres que las mujeres)); esta afirmacion se puede deber a una impresion
por lo que se ve, pero no se sabe a ciencia cierta. Si queremos utilizarla con propiedad
habra que contrastarla.
Por otra parte, en la Universidad de La Rioja hay unos 6600 alumnos, por lo que quizas
no nos sea posible entrevistarlos a todos para saber si tienen carne o no y distinguir por
sexo a los conductores. En este caso habra que tomar una porcion o muestra del grupo
grande que queremos analizar (poblacion), probaremos la hipotesis para la muestra y
decidiremos si es posible y correcto extender el resultado a la poblacion de la que se
obtuvo la muestra.
El problema de generalizar, o hacer inferencia, es que al tomar una muestra estamos
asumiendo que existe un error inevitable, por muy bueno y correcto que haya sido el
muestreo. No podemos garantizar nuestra respuesta con una seguridad del 100 %. Si en
la tabla de las notas tomamos varias muestras de 5 calificaciones, veremos que las me-
dias para cada una de las muestras son distintas a la media global: 5.92. Esto es lo que
llamaremos error de muestreo.
Supongamos para simplificar que la mitad de los alumnos son hombres y la otra mitad
mujeres, y que a partir de las listas de alumnos tomamos una muestra de 100 hombres
(1 de cada 33) y otra de 100 mujeres (1 de cada 33), ahora les preguntamos si tienen el
carne o no.
Consideramos las siguientes tres respuestas:
Las 3 respuestas estan de acuerdo con nuestra hipotesis, pero lo que a nosotros nos
interesa es saber si estas diferencias son lo suficientemente importantes como para gene-
ralizarlas a todos los estudiantes. Es decir, nos preguntamos si las diferencias encontradas
16 TEMA 1. ESTADISTICAS ECONOMICAS
Y SOCIALES
En los comentarios anteriores hemos estado utilizando algunos terminos estadsticos sin
conocer cual es su definicion correcta. Para poder trabajar en Estadstica es conveniente
tener claros los conceptos y utilizar un lenguaje com un, que no de lugar a confusion, por
lo que vamos a proceder a dar algunas definiciones basicas.
Para poder realizar cualquier analisis estadstico debemos disponer de unos datos. Y
estos datos corresponden a los valores obtenidos al estudiar determinadas caractersticas
en los elementos de un conjunto de entes.
Para fijar el lenguaje que utilizaremos, estableceremos los siguientes terminos:
Poblaci
on es el conjunto de entes (personas, animales o cosas) sobre los que se va a
llevar a cabo la investigacion estadstica.
Elemento es cada uno de los componentes de la poblacion (pueden ser simples o com-
puestos).
Tama
no de la poblaci
on es el n
umero de elementos que la componen.
Caracteres son las cualidades o rasgos comunes a toda la poblacion que vamos a estudiar.
Pueden ser cuantitativos (variables) o cualitativos (atributos).
Aunque existe el analisis estadstico de los caracteres cualitativos (se vera al final del
temario), cuando se habla de analisis estadstico, generalmente nos referimos al analisis
de las caractersticas cuantitativas observadas en los elementos de una poblacion.
Por lo tanto, generalmente trabajaremos con variables estadsticas que, atendiendo a
los valores que pueden tomar, pueden ser discretas o continuas; y esta diferencia hace
que en muchas ocasiones tengan un tratamiento diferente.
Diremos que una variable estadstica es discreta si dados dos valores distintos de
la variable, entre ellos no puede haber mas que un n umero finito de valores de la
variable, por muy alejados que esten entre s. Por ejemplo: n
umero de hijos.
Diremos que una variable estadstica es continua si, dados dos valores distintos de
la variable, entre ellos hay infinitos posibles valores de la variable, por muy proximos
que esten entre s. Por ejemplo: peso, tiempo...
ESTADISTICA
1.3. FUENTES DE INFORMACION 17
Por otra parte, dentro de los atributos (tambien llamados variables cualitativas), cabe
distinguir dos categoras: los atributos que son simples nombres y/o categoras (atributos
categoricos) y los atributos ordinales que ademas permiten alg un tipo de ordenacion.
Por ejemplo, el estado civil es un atributo categorico, mientras que el grado de satis-
faccion o el nivel de estudios son atributos ordinales.
Es muy importante, en el caso de los atributos, no confundir los n umeros que se pueden
utilizar para codificar las distintas categoras con valores resultantes de una medicion. NO
podremos realizar operaciones aritmeticas con estos n umeros.
Otra cuestion muy importante, que se debe tener en cuenta antes de realizar un analisis
estadstico es que es lo que queremos o podemos hacer, en funcion del tama no de la
poblaci on objeto de estudio.
Si la poblacion es peque
na y podemos obtener datos de todos los elementos de la
misma, lo que haremos sera un analisis descriptivo (Estadstica Descriptiva).
Pero, si la poblacion es muy grande (infinita o tan grande que no podemos abordarla en
su totalidad), no nos queda mas remedio que tomar una ((muestra representativa)), analizar
dicha muestra y luego estudiar bajo que condiciones podemos extender los resultados
obtenidos con la muestra a toda la poblacion o si podemos inferir alg un resultado para la
poblacion. En esto consiste la Inferencia Estadstica.
Una vez que tenemos claros estos conceptos, para realizar un analisis estadstico, ge-
neralmente seguiremos los siguientes pasos:
Paso 1: Establecemos la poblacion que queremos estudiar.
Paso 2: Determinamos las caractersticas que nos interesa analizar de dicha poblacion.
Paso 3: Recogemos los datos.
Paso 4: Realizamos el analisis de datos.
Paso 5: Exponemos nuestras conclusiones.
Como ya hemos dicho, para realizar un analisis estadstico necesitamos manejar una
masa de datos.
Estos datos los podemos haber recogido nosotros personalmente mediante estudios
directos de la poblacion o de una muestra representativa de la misma, pero en muchas
ocasiones tendremos que recurrir a datos ya elaborados.
Los organismos oficiales tienen departamentos de Estadstica dedicados a la recoleccion
de datos que utilizan para elaborar sus informes correspondientes.
En la mayora de las ocasiones estos datos nos los presentan semi-tratados y solo en
algunos casos (afortunadamente cada vez mas) tenemos acceso a los microdatos, es decir
18 TEMA 1. ESTADISTICAS ECONOMICAS
Y SOCIALES
Si lo que necesitamos son los microdatos, la pagina del INE tambien nos permite
acceder a muchos de ellos. En la pesta
na de Productos y Servicios /Informacion podemos
seleccionar ficheros de microdatos.
Por otra parte, si lo que necesitamos son los microdatos de las estadsticas que ofrecen
otras fuentes, debemos acceder mediante su pagina web (si es que los datos son accesibles
al publico en general) o solicitarlos al organismo correspondiente, que valorara nuestra
solicitud y puede que nos los ceda o no.
Por ejemplo, para obtener unos datos que son p
ublicos en el CIS, nos piden que nos
identifiquemos:
http://www.cis.es/cis/opencms/ES/formulario.jsp?dwld=/Microdatos/MD2811.zip
Evidentemente estas no son todas las fuentes estadsticas ya que nos hemos dirigido
solo a organismos oficiales. Hay otras muchas organizaciones que tambien elaboran sus
propias estadsticas y que nos pueden facilitar sus datos, aunque es recomendable utilizar
los datos oficiales siempre que sea posible.
Tambien se puede obtener informacion estadstica en los Anuarios Estadsticos y otras
publicaciones en papel, ya sean de organismos oficiales u otras organizaciones, que se
encuentran en la Biblioteca o en las sedes de los mismos.
Tema 2
Estadstica Descriptiva
unidimensional
En este tema veremos como realizar el analisis descriptivo completo de una variable
unidimensional.
Primero nos haremos una idea de su comportamiento con el resumen de los datos
y algunos graficos elementales y, a continuacion, veremos como calcular las principales
medidas que nos permitiran describir con precision el comportamiento de dicha variable.
Esta descripcion la haremos interpretando correctamente todos los resultados obtenidos.
Los epgrafes del tema son los siguientes:
Escalas de medicion.
Graficos unidimensionales.
Medidas de concentracion.
19
20 TEMA 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL
Escala nominal: las observaciones de un caracter vienen dadas en escala nominal cuan-
do se pueden clasificar en varias categoras, excluyentes entre s, entre las que no es
posible establecer ninguna relacion de orden y tampoco es posible operar matemati-
camente.
En este tipo de escala vienen dados los atributos categ oricos: sexo, estado civil,
tipo de contrato laboral, lugar de nacimiento, sector de actividad economica,...
Escala ordinal: las observaciones de un caracter vienen dadas en escala ordinal cuando
se pueden clasificar en varias categoras, excluyentes entre s, entre las que es posible
establecer alguna relacion de orden, aunque no es posible operar matematicamente.
Las categoras se pueden ordenar pero no se puede cuantificar la diferencia entre
ellas.
En este tipo de escala vienen dados los atributos ordinales: nivel de ingresos, nivel
de estudios, grado de satisfaccion,...
Escala de intervalo: las observaciones de un caracter vienen dadas en escala de inter-
valo cuando existe una unidad de medida que nos permite cuantificar la distancia
existente entre dos observaciones, pero el cero es arbitrario.
En este tipo de escala vienen dadas algunas variables (caracteres cuantitativos):
la temperatura en grados Celsius o en grados Fahrenheit, fechas,...
Si observamos dos temperaturas: 30o C y 15o C (equivalentemente: 86 o F y 59 o F
respectivamente o F=32+1.8 o C ), podemos establecer distancias (15 grados de
diferencia en la escala Celsius, o 27 grados en la escala Fahrenheit), pero no podemos
afirmar que 30 o C es una temperatura doble que 15 o C, la temperatura es la misma
sea cual sea la escala de medida y aunque 30 es el doble de 15, sin embargo 86 no
es el doble de 59.
Escala de raz on (proporci on o cociente): las observaciones de un caracter vienen
dadas en escala de razon cuando existe una unidad de medida que nos permite
cuantificar la distancia existente entre dos observaciones y ademas existe un cero
absoluto.
En este tipo de escala vienen dadas la mayora de las variables (caracteres
cuantitativos): edad, peso, salario, nivel de inventario,...
En los dos ultimos casos (escala de intervalo y escala de razon), al existir una unidad de
medida, se puede operar matematicamente con los datos y obtener una serie de medidas o
indicadores que nos van a permitir describir el comportamiento, para nuestra poblacion,
de la caracterstica que estamos analizando.
En algunos libros, solo se consideran 3 tipos de escala, ya que las escalas de intervalo
y de razon se unen en una u
nica categora llamada escala cuantitativa.
Una vez que hemos determinado cual es la poblacion que queremos estudiar y que ca-
ractersticas queremos analizar, el siguiente paso es la recogida de datos.
2.2. RESUMEN DE LOS DATOS: TABLAS DE FRECUENCIAS 21
Para cada individuo, obtendremos tantos valores como caractersticas estemos anali-
zando. As, si en una poblacion solo nos interesa la edad, para cada individuo tendremos
un unico valor: su edad; pero si nos interesa la edad, antig uedad en la empresa, estado
civil y salario, para cada individuo tendremos 4 valores.
En el primer caso diremos que obtenemos una variable unidimensional (E=edad) y en
el segundo caso, tenemos una variable de dimension 4 (E, A, C, S).
En realidad, la variable de dimension 4, esta formada por 4 variables unidimensionales,
con la particularidad de que los valores de cada 4-tupla, corresponden al mismo individuo
o elemento de la poblacion. En este curso, solo nos vamos a ocupar de los analisis de
variables unidimensionales y bidimensionales.
Para comenzar nos vamos a referir al estudio de un u
nico caracter poblacional y por
lo tanto a una variable unidimensional (por ahora no vamos a distinguir entre variables
cualitativas y cuantitativas).
Las variables, en general, se suelen nombrar con una letra mayuscula (E, A, X, Y, . . . ).
Cuando observamos una variable en una poblacion, obtenemos una serie de valores dis-
tintos para esa variable: 18, 19, 20,..., o soltero, casado, viudo,... Los distintos valores
observados de la variable se suelen nombrar con la misma letra que la variable pero en
minuscula.
Al observar una caracterstica, X, de la poblacion podemos obtener unos valores (dis-
tintos entre s): x1 , x2 , ..., xk . Ademas, cada uno de los valores distintos observados de la
variable, puede aparecer una o mas veces.
Definimos:
xi ni Ni fi Fi
18 5 5 5/20 5/20
19 3 8 3/20 8/20
20 7 15 7/20 15/20
21 4 19 4/20 19/20
22 1 20 1/20 1
20 1
Ejemplo: Para las notas de 100 alumnos, vamos a construir la tabla de frecuencias:
4 1 5 6 3 5 2 4 4 6
3 4 0 4 7 7 3 4 8 6
8 3 4 5 3 6 9 6 1 5
1 0 1 2 1 3 2 7 5 6
5 4 3 5 5 4 7 5 2 1
2 1 2 3 1 3 5 2 5 5
7 5 3 5 4 6 6 4 7 7
6 0 2 4 2 4 7 3 3 2
8 4 6 6 4 5 10 6 4 7
8 2 4 6 4 4 4 2 6 7
2.2. RESUMEN DE LOS DATOS: TABLAS DE FRECUENCIAS 23
xi ni Ni fi Fi
0 3 3 0.03 0.03
1 8 11 0.08 0.11
2 12 23 0.12 0.23
3 12 35 0.12 0.35
4 20 55 0.20 0.55
5 15 70 0.15 0.70
6 14 84 0.14 0.84
7 10 94 0.10 0.94
8 4 98 0.04 0.98
9 1 99 0.01 0.99
10 1 100 0.01 1.00
100 1
En este ultimo caso, lo primero que se hace es agrupar los valores de la variable en
intervalos, que pueden ser de amplitud constante o no, y calcular las frecuencias en cada
intervalo.
Para agrupar los datos en intervalos o clases, debemos comenzar determinando el
recorrido o rango de la variable, que se define como la diferencia entre el mayor y el
menor valor de la variable:
Re = max xi mn xi
Este recorrido se divide entonces en intervalos. Lo mas comodo para el tratamiento pos-
terior de la distribucion es que los intervalos sean de amplitud constante, pues entonces:
Re= n umero de intervalos amplitud, lo cual permite deducir:
- el n
umero de intervalos, si fijamos la amplitud
- la amplitud, si fijamos el n
umero de intervalos.
No existen reglas fijas para determinar el n
umero idoneo de intervalos, hasta el punto
de que a veces se hacen varias pruebas hasta conseguir resaltar las caractersticas del
fenomeno. Cuando no existen otras indicaciones, un valor com unmente aceptado es un
numero proximo a raz cuadrada de N (siendo N el numero total de observaciones).
Cada intervalo queda especificado por sus lmites. En general para el intervalo i-esimo,
estos lmites se representan por li1 y li , donde li1 es el lmite inferior y li el lmite
superior.
Un problema que puede surgir es que el valor de la variable coincida exactamente con
el lmite del intervalo. Para evitar que aparezcan situaciones conflictivas, es conveniente
especificar el tipo de intervalo. Generalmente se utiliza abierto por la izquierda y cerrado
por la derecha: (a, b] o ]a, b]. Lo cual significa que dentro del intervalo se incluyen los
valores comprendidos entre a y b, incluido b y excluido a.
Para facilitar el manejo matematico de los intervalos, es preciso considerar un valor
concreto de la variable como representante de cada intervalo. Generalmente se toma como
tal el valor central del intervalo, y se le denomina marca de clase.
Ejemplo: en una escuela, las notas de Fsica de 100 estudiantes fueron:
4.4 1.1 4.6 5.8 2.5 4.8 1.8 4.1 3.5 5.9
2.9 3.5 0.2 3.7 6.8 7.0 3.1 4.4 8.4 6.4
8.2 2.6 4.2 5.1 2.9 5.9 9.2 5.6 0.5 5.2
0.8 0.1 1.2 4.7 2.1 0.6 3.2 1.5 6.7 6.1
4.7 4.3 3.3 4.8 4.7 4.3 6.9 4.9 2.1 0.9
1.5 1.1 2.2 2.9 1.4 3.1 4.6 1.9 4.9 5.1
7.1 5.2 3.2 5.1 4.4 5.7 6.0 4.3 6.5 7.3
6.2 0.3 1.7 3.9 2.2 4.0 6.5 3.0 3.1 1.6
8.0 4.1 5.9 6.0 4.1 5.1 1.0 6.3 4.1 7.4
8.1 2.0 3.6 5.9 3.8 4.0 4.3 1.8 6.0 7.1
longitud constante igual a 1 punto. Los intervalos, las marcas de clase y los distintos tipos
de frecuencias son los siguientes:
(li1 , li ] xi ni Ni fi Fi
[0, 1] 0.5 8 8 0.08 0.08
(1, 2] 1.5 12 20 0.12 0.20
(2, 3] 2.5 10 30 0.10 0.30
(3, 4] 3.5 14 44 0.14 0.44
(4, 5] 4.5 21 65 0.21 0.65
(5, 6] 5.5 16 81 0.16 0.81
(6, 7] 6.5 10 91 0.10 0.91
(7, 8] 7.5 5 96 0.05 0.96
(8, 9] 8.5 3 99 0.03 0.99
(9, 10] 9.5 1 100 0.01 1
Como ya se ha indicado, se suele tomar como marca de clase el valor central del
intervalo, ya que en principio se considera como el valor mas representativo del mismo.
Pero en algunas ocasiones se observa que este criterio es totalmente inaceptable. As,
en el ejemplo anterior, no parece razonable que la marca de clase 500 euros, sea un
buen representante de las 100 familias con ingresos comprendidos entre 0 y 1000 euros.
Logicamente, cabe suponer que la mayor parte de estas familias se acercaran mas a los
1000 euros que a los 0 euros. Para conseguir que la marca de clase sea representativa,
debe adoptarse una solucion similar a la adoptada en los intervalos abiertos.
Puesto que, como hemos comentado, la reduccion de datos se realiza para hacer mas
manejable y comprensible la masa de datos, vamos a ver ahora como extraer informacion
de una tabla de frecuencias, y como expresar dicha informacion, dependiendo de la forma
de la tabla y de nuestras necesidades.
Supongamos que tenemos la siguiente tabla con la informacion sobre los estudiantes
de cierta universidad, por sexo:
Sexo Frecuencia
si ni
Hombre 25704
Mujer 24696
Total 50400
Una simple mirada a la tabla nos permite decir que en esa universidad hay mas hombres
que mujeres, y que en total hay 50400 estudiantes.
Podramos ampliar esta informacion si completamos la tabla con las frecuencias
relativas y porcentajes:
Para ello deberamos tener informacion del sexo y tipo de facultad de cada uno de
los estudiantes (variable bidimensional), y esta informacion la podramos recoger en una
tabla del tipo:
Entonces, podemos decir que aunque en las facultades de Letras s que es cierto que el
n
umero de hombres es mayor que el n
umero de mujeres, esto no es cierto en las facultades
de Ciencias, donde es mayor el n
umero de mujeres que el de hombres.
Tambien de esta tabla podemos obtener otra informacion y es que en esta universidad
hay mas estudiantes de Ciencias que de Letras.
Cuando los grupos tienen distinto tama no, para hacer las comparaciones entre los
grupos y hacernos una idea clara de las diferencias, es conveniente ((estandarizar)) las dis-
tribuciones por tama
no, para ello se suelen utilizar las proporciones o los porcentajes.
Recordemos que las proporciones comparan el tama no de una categora dada con el
valor de toda la distribucion (son las frecuencias relativas). Sin embargo hay mucha gente
que prefiere indicar el tama no relativo en forma de porcentaje, o lo que es lo mismo, la
frecuencia de una determinada categora por cada 100 casos.
Veamoslo sobre el ejemplo anterior. Comparamos las distribuciones por columnas.
Ahora podemos saber que en las facultades de Ciencias, de cada 100 alumnos matri-
culados, 45 son hombres y 55 son mujeres, mientras que en las facultades de Letras, hay
un 60 % de estudiantes hombres y solo un 40 % de mujeres.
Como podemos ver, se pueden apreciar mejor las diferencias.
Nota: esta tabla tambien admite otra interpretacion, en la que en lugar de estudiar el
sexo de los estudiantes en cada tipo de facultad, se estudie el tipo de estudios por sexo
(es decir, podemos hacer la interpretacion por filas).
De este modo podramos decir que en esta universidad, el 60 % de los alumnos estudian
en facultades de Ciencias y el 40 % lo hace en facultades de Letras. Y por sexos, mientras
los hombres se reparten en un 52.94 % en facultades de Ciencias y el 47.06 % restante en
facultades de Letras, entre las mujeres las diferencias son mucho mas acusadas ya que
un 67.35 % estudian en facultades de Ciencias y solo un 32.65 % lo hace en facultades de
Letras.
Tanto entre los hombres como entre las mujeres se mantiene la tendencia global y es
mayor la proporcion de los que estudian en las facultades de Ciencias que en las de Letras.
Otra forma, aunque menos comun, de estandarizar por tama no es la razon, que con-
siste en comparar, mediante un cociente, los casos que hay en una categora con los que
hay en otra categora.
Si estamos interesados en conocer, en las facultades de Letras, la razon de hombres
(12096) a mujeres (8064), construimos el cociente y simplificamos:
12096 3
razon = =
8064 2
es decir que, en las facultades de Letras, hay 3 hombres por cada 2 mujeres.
Para unificar la terminologa, las razones se suelen dar en unidades ((por cada
100)) unidades. De este modo:
12096 3
razon 100 = 100 = 100 = 150
8064 2
es decir, que en las facultades de Letras, hay 150 hombres por cada 100 mujeres.
Si comparamos tipos de estudios de las mujeres de esta universidad, tendramos:
16632 33 825
razon 100 = 100 = 100 = = 206.25
8064 16 4
es decir, que en el grupo de las mujeres universitarias, hay 33 realizando estudios de
Ciencias por cada 16 que realizan estudios de Letras. O bien, hay aproximadamente 206
mujeres en las facultades de Ciencias por cada 100 que estan en las facultades de Letras.
Otro tipo de razones, que se usan mas que las anteriores, son las tasas.
Todos hemos odo hablar de tasas de nacimiento, de mortalidad, de divorcios, etc...
As como en las razones se comparan el numero de casos de un subgrupo o categora con
los de otro subgrupo, las tasas indican comparaciones entre el numero de casos reales
y el numero de casos potenciales. Por ejemplo, para determinar la tasa de fecundidad
en una determinada poblacion se puede calcular el numero de nacimientos vivos reales
dividido por el numero de mujeres en edad de quedarse embarazadas (que representan
casos potenciales); o del mismo modo, la tasa de divorcios se calcula como el n umero
de divorcios reales dividido por el n
umero de matrimonios que ocurren en un perodo de
tiempo (en un a no, por ejemplo).
2.4. GRAFICOS UNIDIMENSIONALES 29
Las tasas suelen darse en terminos de 1000 casos potenciales (es decir, se multiplica
por mil el resultado del cociente). Por ejemplo, la tasa de natalidad en Espa
na en el a
no
2008 fue de 9.87 nacimientos por cada 1000 habitantes.
Otro tipo de tasa muy utilizado es la tasa de cambio o tasa de variaci on (por-
centual) que suele utilizarse para comparar un valor de una poblacion en dos instantes
diferentes de tiempo. Se suele expresar en porcentaje. Si un producto, en un a no, ha
pasado de costar 80 euros a costar 100 euros, la tasa de cambio sera:
2.4. Gr
aficos unidimensionales
2.4.1. Gr
aficos para distribuciones no agrupadas en intervalos
Retomemos el ejemplo que vimos al construir las tablas de frecuencias, en el que los
valores observados de una variable, X, fueron los siguientes:
18 20 22 19 18
20 18 19 21 20
20 21 18 20 21
19 20 21 18 20
Para representar estos datos graficamente, podemos utilizar:
Gr
afico de barras:
Este tipo de grafico, se utiliza para representar valores o frecuencias. Podemos repre-
sentar:
Se suele utilizar para representar valores de una variable cuando podemos identificar
los casos.
Por ejemplo:
2.4. GRAFICOS UNIDIMENSIONALES 31
Este grafico nos informa sobre los valores de la variable para cada caso, por lo que es
interesante para mostrar la informacion, pero no sirve para resumir la informacion.
El gr
afico de barras es uno de los mas usados para representar las frecuencias:
Sobre un sistema de ejes dibujaremos en el eje horizontal los distintos valores de la
variable y en el eje vertical la frecuencia de cada uno de ellos. Para cada valor de la
variable, en el eje horizontal se levanta una barra cuya altura sera igual a su frecuencia
absoluta, o a la frecuencia absoluta acumulada.
Estos graficos tambien se pueden hacer con los porcentajes frecuencias relativas mul-
tiplicadas por 100. En ese caso solo cambia la escala ya que la forma del grafico queda
exactamente igual.
xi n i Ni fi Fi
18 5 5 5/20 5/20
19 3 8 3/20 8/20
20 7 15 7/20 15/20
21 4 19 4/20 19/20
22 1 20 1/20 1
32 TEMA 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL
Gr
afico de sectores
2.4.2. Gr
aficos para distribuciones agrupadas
Histograma
Cuando tenemos distribuciones agrupadas, sobre el eje horizontal se dibujan los inter-
valos y sobre cada uno de ellos se levanta un rectangulo cuya area sea proporcional a la
frecuencia absoluta dentro del intervalo.
Como ya hemos comentado, el n
umero de intervalos y su amplitud, quedan a criterio
del investigador.
IMPORTANTE: si todos los intervalos tienen la misma amplitud, las alturas de los
rectangulos pueden ser iguales a la frecuencia absoluta, pero si hay intervalos de distinta
amplitud (ai ), entonces las alturas (hi ) se calculan dividiendo la frecuencia absoluta por
la amplitud:
ni
hi = , que es lo que se llama densidad de frecuencia.
ai
Por ejemplo, en el caso de las notas en Selectividad de 225 estudiantes (pagina 10):
2. Medidas de dispersion.
3. Medidas de asimetra.
4. Medidas de apuntamiento.
Las medidas de posicion, son unos valores alrededor de los cuales se agrupan los valores
de la variable, y que nos resumen la posicion de la distribucion sobre el eje horizontal.
Existen dos tipos de medidas de posicion: las centrales y las no centrales.
De las medidas de posicion central o promedios, las mas utilizadas son: la media
aritmetica, la mediana y la moda.
Las medidas de posicion no central son los cuantiles.
La media aritm etica: se define como la suma de todos los valores observados de la
distribucion, dividida por el n
umero total de observaciones.
Si agrupamos los valores que se repiten, la expresion de la media es:
Pk
i=1 xi ni x1 n1 + + xk nk
x = =
N N
Este es el promedio mas utilizado en la practica y esto es as por las ventajas que tiene
y que son fundamentalmente:
Por otra parte tiene el inconveniente de la influencia que ejercen los valores extremos
de la distribucion sobre ella.
Propiedades
k k k k
1 X 1 X 1 X 1 X
u = ui ni = (a + bxi )ni = a ni + b xi ni =
N i=1 N i=1 N i=1 N i=1
k
N 1 X
=a +b xi ni = a + b
x
N N i=1
Esta propiedad, eligiendo convenientemente los valores a y b, es de gran utilidad en
muchos casos, para simplificar el calculo de la media aritmetica.
x1 N1 + x2 N2
x =
N
donde:
x1 N1 + x2 N2 + + xp Np
x =
N
En donde se cumple que: N = N1 + N2 + + Np
2.6.2. La moda
En una distribucion, la moda (Mo) se define como ((aquel valor de la variable cuya
frecuencia no es superada por la frecuencia de ning
un otro valor)). Esta definicion corres-
ponde a la denominada moda absoluta. La moda relativa se define como ((el valor de la
variable cuya frecuencia no es superada por la de sus valores contiguos)).
Puede darse el caso de que la maxima frecuencia corresponda a dos o mas valores de
la variable, en ese caso las distribuciones reciben el nombre de bimodales o multimodales.
2.6. MEDIDAS DE POSICION 37
2.6.3. La mediana
Ejemplos:
xi ni Ni
1 10 10
39+1
2 12 22 2
= 20 luego, Me=2
3 7 29
4 7 36
5 3 39
xi ni Ni
1 10 10
40 40
2 12 22 2
= 20 y 2
+ 1 = 21
3 7 29
4 8 37 luego, Me=2
5 3 40
xi ni Ni
1 10 10
40 40
2 10 20 2
= 20 y 2
+ 1 = 21
3 7 27
4 8 35 luego, Me= 2+3
2
= 2.5
5 5 40
(li1 , li ] ni Ni
10-11 10 10
51
11-12 12 22 2
= 25.5 Intervalo mediano 12-13
12-13 12 34
13-14 10 44 Me=marca de clase del intervalo mediano = 12+13
2
= 12.5
14-15 7 51
Relaci
on entre la media aritm
etica, la mediana y la moda
En realidad estos tres promedios no deben emplearse de forma excluyente. Cada uno
tiene su significado y se relacionan con aspectos diferentes de la distribucion. No obstante
existe cierta relacion entre ellos que es conveniente saber.
En las distribuciones de frecuencias Normales (se estudiara mas adelante), coinciden
exactamente los tres promedios. Si la distribuci
on es acampanada pero no presenta
simetra, la mediana est a situada entre la moda y la media aritm etica.
2.6. MEDIDAS DE POSICION 39
Ademas de las medidas de posicion centrales vistas hasta ahora, existen otros valores,
no centrales, que pueden considerarse como indicadores de una determinada posicion en
la distribucion.
Estos valores, llamados generalmente cuantiles, constituyen una generalizacion del
concepto de la mediana.
As como la mediana divide a la distribucion en dos partes, cada una con el mismo
n
umero de observaciones que la otra, si dividimos la distribucion en cuatro partes, cada
una de ellas con el mismo numero de observaciones, obtendremos tres valores, que se
denominan cuartiles.
Analogamente, si dividimos la distribucion en diez partes con el mismo n
umero de
observaciones, obtendremos nueve valores, que se denominan deciles. Y si la dividimos
en cien partes, los correspondientes noventa y nueve valores se denominan percentiles.
En general, los q 1 valores que dividen a la distribucion en q partes con el mismo
n
umero de observaciones se denominan cuantiles de orden q.
La determinacion de los cuantiles en una distribucion no agrupada en intervalos, es
analoga a la de la mediana.
Por ello, el cuantil r-esimo de orden q sera el valor de la variable que ocupa el lugar
r
(N 1) + 1.
q
Las medidas de posicion que acabamos de estudiar tienen como mision, no solo situar
la distribucion en el eje real, sino ademas sintetizar la informacion que proporciona la
distribucion.
El promedio con el que representamos una distribucion llevara a cabo esta mision con
mayor o menor fidelidad dependiendo de la relacion que exista entre los valores de la
variable y el promedio.
As, si todos los valores fueran iguales, la media, por ejemplo, coincidira con todos
ellos por lo que representara fielmente a la distribucion.
A medida que los valores individuales de la variable difieran del promedio, la repre-
sentatividad de este sera cada vez menor.
Por ello, para evaluar la representatividad de un promedio, necesitamos un indicador
que, de alguna forma, nos cuantifique el grado de separacion de los valores de la variable
respecto al promedio en cuestion.
En este apartado estudiaremos las medidas de dispersion. Hay que tener en cuenta
que existen dos tipos de medidas de dispersion: las absolutas y las relativas.
Con las medidas de dispersion absoluta se trata de medir la separacion que, por termino
medio, existe entre los distintos valores de la variable, por lo que seran medidas que
vendran expresadas en la misma clase de unidades que la variable.
Las principales medidas de dispersion absoluta son:
El recorrido o rango
La varianza
Hasta ahora, al hablar de dispersion absoluta, no nos hemos referido a la solucion que
parece mas simple: promediar las desviaciones respecto
Pk a la media aritmetica, con el signo
i=1 (xi x)
correspondiente. Es decir, considerar la suma , pero como ya vimos en las
Pk N !
(x
i=1 i x )
propiedades de la media, esta suma es nula = 0 y es por esto por lo que
N
no podemos utilizarla como medida de dispersion.
Ahora bien, si esta suma es igual a cero es porque las desviaciones positivas compen-
san exactamente las negativas, por lo que, podemos eliminar el problema utilizando una
potencia par de las desviaciones.
De todas las potencias pares, elegimos la mas sencilla, y surge as la nueva medida de
dispersion denominada varianza, que definimos como la media aritmetica de los cuadrados
de las desviaciones de los valores observados de la variable respecto a la media aritmetica
de la distribucion. Se representa por S02 y es:
Pk
02 x)2 ni
i=1 (xi
S =
N
La desviaci
on tpica
La cuasivarianza
Es una medida muy similar a la varianza (la u nica diferencia para el calculo esta en
el denominador):
Pk
(xi x)2 ni
S2 = i=1
N 1
y es muy utilizada en Inferencia Estadstica.
La cuasidesviaci
on tpica
Con las medidas de dispersion relativa, se trata de medir la dispersion, con indepen-
dencia de la clase de unidades en que venga expresada la variable. Estas medidas, permiten
comparar la dispersion existente en dos distribuciones, cuyas variables vengan expresadas
en distinta clase de unidades.
De entre las medidas de dispersion relativa, llamadas tambien ndices de dispersion,
las mas importantes son:
El recorrido relativo
Nos indica el n
umero de veces que el recorrido contiene a la media aritmetica.
El coeficiente de variaci
on o ndice de dispersi
on de Pearson
S0
CV =
|
x|
Este n
umero nos indica el n
umero de veces que la desviacion tpica contiene a la media,
o lo que es lo mismo, el tanto que representa S0 por cada unidad de x (es un tanto por
44 TEMA 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL
Ahora vamos a completar un poco mas el analisis de una distribucion, ya que con
el estudio hecho hasta ahora, lo que hacemos es globalizar el comportamiento de una
variable en un promedio y en la dispersion respecto a ese promedio, dejando de lado toda
la disparidad, es decir, toda la variedad del comportamiento de la variable, fuera de la
media.
Esta variedad se pone de manifiesto cuando representamos graficamente la distribu-
cion.
Pues bien, en este apartado nos vamos a referir a ciertas medidas que nos van a dar una
idea de la forma de la distribucion, sin necesidad de realizar su representacion grafica.
La forma de una distribucion de frecuencias puede ser muy variada.
En una distribucion campaniforme simetrica coinciden la media, la mediana y la moda
y estas condiciones sugieren distribuciones cuyas frecuencias absolutas o relativas den
lugar a representaciones del tipo:
Una curva continua, que puede servir como modelo matematico de ambos casos, es la
2.8. MEDIDAS DE FORMA 45
1. Es simetrica.
2. Me = Mo = x
Las medidas de simetra nos permiten establecer un indicador del grado de simetra
o asimetra que presenta la distribucion, sin necesidad de llevar a cabo su representacion
grafica.
Diremos que una distribucion es simetrica cuando lo es su representacion grafica en
coordenadas cartesianas. Es decir, que al trazar una recta paralela al eje de ordenadas
por el punto x, existen el mismo n umero de valores xi a ambos lados de dicha recta,
equidistantes y a los que corresponde igual frecuencia.
Si la distribucion es simetrica, el eje de simetra de su representacion grafica sera una
recta paralela al eje de ordenadas que pasa por el punto cuya abscisa es la media aritmetica
46 TEMA 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL
(como puede comprobarse al recordar la primera propiedad de la media). Por ello, cuando
la distribucion es asimetrica, se suelen comparar los valores de la distribucion con este
promedio.
Existen varios coeficientes, A, que nos permiten determinar la simetra o el grado de
asimetra de una distribucion, pero para cualquiera de ellos la interpretacion es la misma:
qi , masa de salario que se reparte entre los miembros de la clase i-esima, relativa a
la masa salarial total.
Qi , masa de salario acumulado hasta la clase i-esima, comenzando por los que menos
ganan, relativa a la masa salarial total.
Area = 0.
2) Si un solo trabajador percibiese el 100 % de la masa salarial, estaramos en el caso
de maxima concentracion o mnima igualdad. Area = 11 = 0.5
2
Por lo tanto, cuanto mas se acerque a cero el area, tanto menor sera la concentracion
y el grado de desigualdad existente en el reparto del total de la variable considerada.
Para evaluar el area indicadora del grado de concentracion, basta con calcular el area de
los distintos triangulos y rectangulos que se forman utilizando cualquier metodo conocido.
50 TEMA 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL
k
X pi
IG = 2 qi Pi 1, donde Pi = Pi
i=1
2
Como el area esta comprendida entre 0 y 0.5 esto significa que el ndice de Gini
esta comprendido entre 0 y 1, lo que nos permite realizar la siguiente interpretacion:
Entonces:
k
X 23335000
IG = 2 qi Pi 1 = 2 1 = 2 0.58375 1 = 0.1675
i=1
50 80000
Lo que significa que hay poca concentraci on. El area encerrada entre la curva de
Lorenz y la diagonal, representa un 16.75 % del area del triangulo inferior. El reparto es
equitativo.
Ejemplo 2 :
Vamos a determinar si existe concentracion en el reparto de los salarios que se dan en
la siguiente tabla:
si ni si ni pi qi Pi Pi qi Pi
600 35 21000 35/90 21/102 35/90 17.5/90 367.5/(90 102)
1200 40 48000 40/90 48/102 75/90 55/90 2640/(90 102)
1800 10 18000 10/90 18/102 85/90 80/90 1440/(90 102)
3000 5 15000 5/90 15/102 90/90 87.5/90 1312.5/(90 102)
Sumas 90 102000 5760/(90 102)=0.629676
2.9. MEDIDAS DE CONCENTRACION 51
Entonces:
IG = 2 0.629676 1 = 0.259352
El valor obtenido indica que existe concentraci on, aunque no muy grande, ya
que el area encerrada por la curva de Lorenz, representa un 25.94 % del area del triangulo
inferior. El reparto de los salarios es bastante equitativo.
52 TEMA 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL
Salarios No de trabajadores
[1100, 1500] 108
(1500, 1700] 377
(1700, 1900] 575
(1900, 2100] 351
(2100, 2500] 89
2. Que porcentaje de los trabajadores de la empresa cobran entre 1900 y 2100 euros?
4. Que proporcion representan los trabajadores que cobran hasta 1900 euros?
11. Si queremos utilizar el salario medio como representante de los salarios en esta
empresa, este salario medio es representativo?
12. Si nos dicen que, para los datos de esta empresa, el coeficiente de asimetra es 0.023
y que el coeficiente de curtosis es -0.120, que podemos decir respecto a la forma de
la distribucion?
14. Que porcentaje de la masa salarial se reparten el 32.33 % de los trabajadores que
menos ganan?
2.10. EJEMPLO RESUELTO 53
15. Que porcentaje de los trabajadores que menos ganan se reparten el 66.23 % de la
masa salarial?
Soluci
on.
Incluimos aqu una tabla cuyas columnas iremos construyendo a medida que las nece-
sitamos para responder a las distintas preguntas.
Salarios si ni Ni fi Fi ai hi = naii si ni s2i ni
[1100, 1500] 1300 108 108 0.072 0.072 400 0.27 140400 182520000
(1500, 1700] 1600 377 485 0.2513 0.323 200 1.885 603200 965120000
(1700, 1900] 1800 575 1060 0.3833 0.706 200 2.875 1035000 1863000000
(1900, 2100] 2000 351 1411 0.234 0.9406 200 1.755 702000 1404000000
(2100, 2500] 2300 89 1500 0.0593 1 400 0.2225 204700 470810000
1500 2685300 4885450000
2. Que porcentaje de los trabajadores de la empresa cobran entre 1900 y 2100 euros?
Un porcentaje es una frecuencia relativa (proporcion) multiplicada por 100, por lo
tanto, seran
351
100 = 0.234 100 = 23.4 %
1500
3. Cuantos trabajadores cobran mas de 1700 euros?
Para responder a esta pregunta podemos utilizar las frecuencias absolutas acumula-
das. Los trabajadores que cobran mas de 1700 euros son todos menos los que cobran
un salario menor o igual a dicha cantidad.
4. Que proporcion representan los trabajadores que cobran hasta 1900 euros?
Nos piden la proporcion (frecuencia relativa) acumulada de trabajadores cuyos sa-
larios no superan los 1900 euros.
F3 = 0.706
k
1 X 1
s = s i ni = 2685300 = 1790.2 euros
N i=1 1500
S0 228.3651
CV = = = 0.12756
s 1790.2
El coeficiente de variacion es muy peque no (esta muy proximo a cero), por lo que
existe muy poca dispersion relativa. Eso indica que la distribucion de los salarios es
muy homogenea.
11. Si queremos utilizar el salario medio como representante de los salarios en esta
empresa, este salario medio es representativo?
S, porque al haber poca dispersion relativa esto significa que los salarios tienen poca
dispersion respecto a la media. Es decir que son muy parecidos entre s y parecidos
a la media. Por lo tanto, podemos usar la media como representante de los salarios
de la empresa.
12. Si nos dicen que, para los datos de esta empresa, el coeficiente de asimetra es 0.023
y que el coeficiente de curtosis es -0.120, que podemos decir respecto a la forma de
la distribucion?
Hemos visto, al hacer el histograma que la distribucion es campaniforme, por lo
tanto, con estos coeficientes podemos a
nadir que tambien es ligeramente asimetrica
a la derecha (muy poco) y ligeramente platicurtica.
k
X
IG = 2 qi Pi 1
i=1
si ni s i ni pi qi Pi Pi qi Pi
1300 108 140400 108/N 140400/S 108/N 54/N 7581600/(N S)
1600 377 603200 377/N 603200/S 485/N 296.5/N 178848800/(N S)
1800 575 1035000 575/N 1035000/S 1060/N 772.5/N 799537500/(N S)
2000 351 702000 351/N 702000/S 1411/N 1235.5/N 867321000/(N S)
2300 89 204700 89/N 204700/S 1500/N 1455.5/N 297940850/(N S)
Sumas 1500=N 2685300=S 2151229750/(N S)
Entonces:
2151229750
IG = 2 1 = 0.06815
1500 2685300
Hay muy poca concentracion. El reparto es muy equitativo.
56 TEMA 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL
Vamos a resolverlo dibujando la curva de Lorenz. Construimos una tabla con los
valores de Pi y de Qi y dibujamos el grafico correspondiente.
Pi Qi
0.072 0.0523
0.323 0.2246
0.706 0.6623
0.941 0.9238
1 1
Como vemos, el area que queda entre la curva y la diagonal es muy peque na (el
ndice de Gini nos indica que es menos de un 7 % del area del triangulo inferior),
por lo tanto hay muy poca concentracion. El reparto es muy equitativo.
14. Que porcentaje de la masa salarial se reparten el 32.33 % de los trabajadores que
menos ganan?
Esta pregunta se puede responder con la tabla que hemos construido en el apartado
anterior ya que nos piden relacionar proporciones acumuladas de trabajadores (Pi )
y proporciones acumuladas de masa salarial (Qi )
y a ellos
El 32.33 % de los trabajadores que menos ganan corresponden a Pi = 0.323,
les corresponde una masa salarial acumulada de Qi = 0.2246, es decir, un 22.46 %
de la masa salarial total.
15. Que porcentaje de los trabajadores que menos ganan se reparten el 66.23 % de la
masa salarial?
Esta pregunta se responde de forma analoga a la anterior.
El 66.23 % de la masa salarial (Qi = 0.6623) corresponde a una proporcion acumu-
lada de trabajadores Pi = 0.706, es decir, al 70.6 % de los trabajadores que menos
ganan.
Tema 3
N
umeros ndices
N
umeros ndices simples.
57
58
TEMA 3. NUMEROS INDICES
N
umeros ndices compuestos.
No ponderados.
Ponderados.
3.1. N
umeros ndices simples
Estos ndices se refieren a un solo artculo o concepto. Son simples relaciones o por-
centajes entre dos valores del mismo.
Para la magnitud Y , el ndice simple correspondiente al perodo t, tomando como base
el perodo 0, sera:
Yt
It/0 = It0 = 100
Y0
Conviene subrayar que el ndice simple no es mas que el porcentaje que representa Yt
respecto a Y0 . Por lo tanto, carece de dimension.
Por ejemplo: It0 = 210
200
100 = 105 , significa que el valor de la magnitud en el perodo
actual es un 5 % mayor que el valor de la misma magnitud en el perodo base.
En ocasiones se utilizan los llamados, INDICES EN CADENA, en los que se toma
como base el perodo anterior a aquel en el que se calcula el ndice. Su formulacion es:
Yt
It/t1 = Itt1 = 100
Yt1
Ejemplos:
Las siguientes series corresponden al precio de un artculo en distintos perodos, y
vamos a calcular las series de ndices simples y de ndices encadenados:
t Yt It/0 It/t1 t Yt It/0 It/t1
0 125 100 0 140 100
1 140 112 112 1 156.8 112 112
2 154 123.2 110 2 180.32 128.8 115
3 177.1 141.68 115 3 216.384 154.56 120
3.2. N
umeros ndices compuestos no ponderados
Los ndices compuestos son aquellos que hacen referencia a varios artculos o mag-
nitudes. Se trata por tanto de establecer un indicador de la variacion experimentada
por la caracterstica en estudio, correspondiente al ((grupo de artculos o conceptos)) con-
templandolo como un solo ente.
Supongamos que queremos analizar, por ejemplo, la variacion de los precios de un
conjunto de magnitudes. En general, para N artculos, la informacion se puede representar
en una tabla de doble entrada, de la siguiente forma:
3.3. NUMEROS INDICES COMPUESTOS PONDERADOS 59
Magnitudes 1 2 ... N
Perodo base Y01 Y02 ... Y0N
Perodo actual Yt1 Yt2 ... YtN
Indices simples I1 I2 ... IN
El problema consiste en sintetizar la informacion de la tabla para obtener un indicador
que nos ponga de relieve la variacion existente entre los precios de los N artculos en el
perodo actual respecto al perodo base de forma conjunta.
Un criterio para resolver dicho problema es el de utilizar promedios de los n
umeros
ndices simples.
Indice de la media aritm
etica:
P
Ii
It/0 =
N
Otro criterio para resolver el problema, consiste en calcular un ndice simple entre las
sumas de los valores de las magnitudes, es decir:
Indice de la media agregativa:
P
Yti
It/0 =P 100
Y0i
Se debe hacer notar que este ndice solo tiene sentido cuando las magnitudes estan
medidas en las mismas unidades (no se pueden sumar kg y hl, por ejemplo).
3.3. N
umeros ndices compuestos ponderados
Los ndices compuestos sin ponderar tienen varios inconvenientes, entre los que desta-
can los siguientes:
Los artculos pueden medirse en unidades heterogeneas, por lo que no son compa-
rables.
Todo ello ha dado como resultado que los ndices sin ponderar tengan un empleo muy
limitado, a la vez que da pie a la creacion de los ndices ponderados.
60
TEMA 3. NUMEROS INDICES
Por todo esto, en muchas ocasiones, es necesario asignar a cada magnitud simple, y
por lo tanto a sus ndices, unas ponderaciones que reflejen su peso relativo dentro del
conjunto en el que se consideran.
Supongamos que las diferentes ponderaciones asignadas son: w1 , .., wi , .., wN , de esta
forma obtendremos los siguientes ndices:
Indice de la media aritm
etica ponderada:
P
Ii w i
It/0 = P
wi
En Economa, los ndices mas utilizados son los que se refieren a precios, cantidades y
valor.
Indice de Sauerbeck:
Pti
P
P0i
St/0 = 100
N
Indice de Bradstreet y D
utot:
P
Pti
BDt/0 =P 100
P0i
Compuestos ponderados:
En los ndices de precios que se elaboran mas frecuentemente, se utilizan como
ponderaciones las alternativas siguientes:
1. p0i q0i : representa el valor de las transacciones (precio por cantidad) realizadas
para dicho artculo en el periodo base.
2. p0i qti : (valor ficticio), representa el valor de las transacciones realizadas para
dicho artculo en el periodo actual con precios del perodo base.
3.4. INDICES DE PRECIOS, DE CANTIDAD Y DE VALOR 61
Este ndice tambien se puede ver como una media agregativa de los precios, siendo las
ponderaciones las cantidades en el momento actual.
En este ndice las ponderaciones (p0i qti ) son variables. Concretamente, para su elabora-
cion se requiere informacion de los precios y cantidades en cada perodo, a diferencia del de
Laspeyres, para cuya elaboracion u nicamente se precisa informacion sobre las cantidades
del perodo base, aparte, claro esta, de los datos sobre precios de cada periodo.
El ndice de Paasche tambien pierde representatividad, aunque en menor medida que
el ndice de Laspeyres, a medida que el a
no con el que se efect
ua la comparacion, esta mas
alejado del a no base.
Otro ndice ponderado, aunque menos utilizado es el:
INDICE DE FISHER: es la media geometrica de los ndices de Laspeyres y Paasche,
con lo cual, su valor estara acotado por el valor que tienen ambos ndices.
sP P
p
q
p p pti q0i pti qti
Ft/0 = Lt/0 Pt/0 = P P 100
p0i q0i p0i qti
Son los que tratan de medir la evolucion relativa de una magnitud economica (pro-
duccion, consumo, etc...) en terminos reales, es decir, sin recoger el efecto que sobre ella
pueda haber tenido la variacion de precios.
Solo nos vamos a fijar en las formulaciones de n
umeros ndices compuestos ponderados,
ya que u
nicamente se suelen utilizar estos.
62
TEMA 3. NUMEROS INDICES
Indice de Laspeyres:
P qti
p q
P
q0i 0i 0i qti p0i
Lqt/0 = P 100 = P 100
p0i q0i q0i p0i
Indice de Paasche:
P qti
q p
P
q0i 0i ti qti pti
Pqt/0 = P 100 = P 100
q0i pti q0i pti
X X
Vt = Vti = pti qti
X X
V0 = V0i = p0i q0i
P P
Vt Vti pti qti
IVt/0 = 100 = P 100 = P 100
V0 V0i p0i q0i
1. Lp Lq 6= IV
2. Pp Pq 6= IV
3. Fp Fq = IV
( P P
P pti qti P p0i qti = Ppt/0 Lqt/0
P P
Vt Vti pti qti
IVt/0 = =P =P = P p0i qti P p0i q0i
V0 V0i p0i q0i P pti qti P pti q0i = Pqt/0 Lpt/0
pti q0i p0i q0i
It/t = 1
La cumplen todos.
It/t0 It0 /t = 1
Al elaborar un ndice compuesto, hay que realizar una serie de pasos, entre los que
destacan los siguientes (nos referiremos al calculo del ndice de precios al consumo):
Por ello, conviene ((renovar)) el ndice. Esto lleva consigo comenzar todo el proceso
desde el principio: elegir las variables, nueva base, ponderaciones, ...
6. Empalme o enlace de ndices nuevos con los antiguos: Una vez que se ha
llevado a cabo la renovacion del ndice, nos encontraremos series de ndices, cada una
de las cuales abarcara perodos distintos. La serie nueva comenzara naturalmente
por 100, y habra entonces una ((rotura)) de datos.
En muchas ocasiones necesitaremos una sola serie de ndices que nos permita ver la
evolucion temporal del fenomeno, para ello debemos enlazar las dos series de ndices.
El proceso es muy sencillo, veamoslo sobre un ejemplo:
Supongamos que tenemos los ndices de precios al consumo en dos series. La primera,
con base en 2001, abarca los a
nos 2003 al 2006, y la segunda, con base en 2006, abarca
los a
nos 2006 a 2009, es decir que se dispone de los siguientes datos:
IPC base 2001 IPC base 2006
2003 106.68
2004 109.93
2005 113.63
2006 117.62 100
2007 102.80
2008 107.00
2009 106.70
Luego, para pasar de base 2001 a base 2006, tenemos que dividir los ndices con
base en 2001 por la constante: 1.1762
De forma similar se obtiene la serie con base en 2001, sin mas que multiplicar los
ndices con base en 2006 por la constante: 1.1762
66
TEMA 3. NUMEROS INDICES
3.7. La deflaci
on de valores
P P
V0 = V0i = p0i q0i , valor agregado a precios corrientes del perodo base.
Al dividir Vt por el ndice de precios de Laspeyres, resulta la siguiente expresion:
P
Vt pti qti
= = V0 Pq
Lp
P
P pti q0i
p0i q0i
P
Vt pti qti X
= = p0i qti
Pp
P
P ti qti
p
p0i qti
Para saber mas sobre la metodologa general del IPC calculado en Espa
na, se recomien-
da leer el documento Metodologa que se encuentra en la pagina del INE (www.ine.es):
http://www.ine.es/daco/daco43/metoipc06.pdf
Soluci
on.
70
TEMA 3. NUMEROS INDICES
Soluci
on.
IPC08/06 107
IPC08/07 = 100 = 100 = 104.0856
IPC07/06 102.8
Los precios subieron un 4.0856 %, por lo que los ingresos deberan haber subido
en la misma proporcion. Es decir que para no perder poder adquisitivo el ingreso
debera haber sido de:
Ingreso07
Ingreso07 (en terminos ctes de 2004) =
IPC07/04
33502
Ingreso07 (en terminos ctes de 2004) = = 30471.18 euros de 2004
1.099465
Tema 4
La curva Normal
Se dice que algo es normal, cuando se encuentra en su estado natural, cuando sirve de
norma o regla, o cuando por su naturaleza, forma o magnitud se ajusta a ciertas normas
fijadas de antemano.
Y que tiene que ver esto con la Estadstica?, pues mucho mas de lo que parece.
Cuando estudiamos una caracterstica de una poblacion, nos interesa saber si los va-
lores observados son normales, es decir, si el comportamiento de nuestra variable, en la
poblacion analizada, es normal, es el esperado o el que cabra esperar, o si, por el contrario,
la variable presenta un comportamiento anomalo.
Si pensamos en la altura o el peso de los hombres adultos de una determinada po-
blacion, podemos observar que hay unos determinados valores que nos pueden parecer
normales (175 cm, 80 kg), y que nos lo parecen as porque son los mas habituales, los
que aparecen con mayor frecuencia, mientras que los valores alejados de estos, tanto por
exceso como por defecto ya no se consideran normales (225 cm, 40 kg) y si aparecen lo
hacen con una frecuencia muy peque na. En general, lo normal, se encuentra cerca del
valor medio y es lo mas frecuente.
Esta idea la plasmo Gauss en una curva llamada curva Normal, cuya formulacion
matematica es la siguiente:
1 (x)2
f (x) = e 22
2
donde:
f (x) es la frecuencia de un determinado valor
x es un valor cualquiera de la variable
es la media de la distribucion
es la desviacion tpica de la distribucion
es la constante: 3.14159...
e es la constante: 2.71828...
73
74 TEMA 4. LA CURVA NORMAL
6. Existe una relacion muy interesante entre la media y la desviacion tpica: ((la pro-
porcion de datos que se encuentran entre la media y la media mas una desviaci on
tpica es de 0.3413 )) (aproximadamente un tercio).
4.2. VALORES TIPIFICADOS 75
la desviacion tpica (=1.5) de las notas del grupo, podemos comparar ambas calificaciones
y determinar cual es su posicion en el grupo en ambos casos.
Por un lado, podemos calcular su desviacion respecto a la media del grupo:
En el primer trabajo: 7.5-6.5=1, su calificacion esta 1 punto por encima de la media
del grupo, mientras que en el segundo trabajo: 7.5-8=-0.5, lo que significa que su nota
esta medio punto por debajo de la nota media del grupo.
Sin embargo, como ya sabemos, es importante conocer lo proximos o alejados que
se encuentran los valores de la media, por lo que, si dividimos estas desviaciones por la
desviacion tpica (es decir, utilizamos la desviacion tpica como unidad de medida de la
dispersion), obtendremos unos valores, llamados valores tipificados, que corresponden a
distribuciones del mismo tipo (estos valores corresponden a una escala que tiene el 99.73 %
de sus valores entre -3 y 3).
Ahora, ambos valores corresponden a la misma escala y son comparables. Como vemos,
las dos notas, aunque numericamente son iguales, no representan lo mismo.
La nota del primer trabajo esta 0.59 veces la desviacion tpica, por encima de la nota
media del grupo, mientras que la nota del segundo trabajo esta 0.33 veces la desviacion
tpica por debajo de la nota media del grupo.
Como ambos valores estan en la misma escala, podemos afirmar que es mucho mejor
nota la del primer trabajo, que la nota del segundo trabajo, con relacion a las notas del
grupo.
Los valores tipificados nos permiten comparar tanto los valores de un mismo sujeto
para distintas variables (que pueden estar medidas en distintas escalas), como los valores
de distintos sujetos para la misma variable.
1. Los valores tipificados son una mera transformacion lineal de los valores observados
y por lo tanto son equivalentes.
Esto significa que la forma de la distribucion de los valores tipificados es la misma
que la de los valores originales.
2. La media de los valores tipificados es siempre cero.
Esto es consecuencia directa de la propiedad de la media que dice que la suma de
las desviaciones respecto a la media es cero.
k k k
X x 1 X 1 X xi x 1 1X 1 1
Z= 0
z = zi ni = 0
ni = 0
(xi
x)ni = 0=0
s N i=1 N i=1 s N s i=1 N s0
4.3. PROPORCIONES DE LA CURVA NORMAL 77
xi x
Como zi z =
, entonces:
s0
k k 2 k 0
02 1 X 2 1 X xi x 1 1 X 2 s2
SZ = (zi z) ni = ni = 0 2 (xi x) ni = 0 2 = 1
N i=1 N i=1 s0 s N i=1 s
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
3 3 3 3 3 3 3 4 4
3 0.00135 0.0 968 0.0 687 0.0 483 0.0 337 0.0 233 0.0 159 0.0 108 0.0 723 0.0 481
4 4 4 5 5 5 5 5 6 6
4 0.0 317 0.0 207 0.0 133 0.0 854 0.0 541 0.0 340 0.0 211 0.0 130 0.0 793 0.0 479
6 6 7 7 7 7 7 8 8 8
5 0.0 287 0.0 170 0.0 996 0.0 579 0.0 333 0.0 190 0.0 107 0.0 599 0.0 332 0.0 182
9 9 9 9 10 10 10 10 11 11
6 0.0 987 0.0 530 0.0 282 0.0 149 0.0 777 0.0 402 0.0 206 0.0 104 0.0 523 0.0 260
11 12 12 12 13 13 13 14 14 14
2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
78 2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 TEMA
0.0029 4. LA
0.0028 CURVA NORMAL
0.0027 0.0026
2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
Para valores mayores:
z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
3 3 3 3 3 3 3 4 4
3 0.00135 0.0 968 0.0 687 0.0 483 0.0 337 0.0 233 0.0 159 0.0 108 0.0 723 0.0 481
4 4 4 5 5 5 5 5 6 6
4 0.0 317 0.0 207 0.0 133 0.0 854 0.0 541 0.0 340 0.0 211 0.0 130 0.0 793 0.0 479
6 6 7 7 7 7 7 8 8 8
5 0.0 287 0.0 170 0.0 996 0.0 579 0.0 333 0.0 190 0.0 107 0.0 599 0.0 332 0.0 182
9 9 9 9 10 10 10 10 11 11
6 0.0 987 0.0 530 0.0 282 0.0 149 0.0 777 0.0 402 0.0 206 0.0 104 0.0 523 0.0 260
11 12 12 12 13 13 13 14 14 14
7 0.0 128 0.0 624 0.0 301 0.0 144 0.0 682 0.0 320 0.0 149 0.0 688 0.0 311 0.0 133
4.3.1. C
omo se utiliza la tabla?
En primer lugar, sabemos que la curva es simetrica, por lo que la mitad de las obser-
vaciones (0.5 o el 50 %), se encuentran en cada una de las dos mitades. Por eso solo se
utiliza la parte de la derecha, ya que haciendo un calculo muy sencillo se pueden obtener
las proporciones correspondientes para los valores negativos.
CoTabla
mo se de
leenlalos valorestipificada
Normal de la tabla?
Z ~ N(0,1)
En general se trabaja con valores tpicos con dos decimales. La parte entera
y el primer decimal estan en la columna de la izquierda de la tabla, y el segundo decimal
en la primera fila.
x2
PZ modo,
z para
1
De este buscar
2 z
e dx la proporci2
on de observaciones con un valor tpico mayor
que 0.59, tenemos que buscar la interseccion entre la fila del 0.5 y la columna del 0.09:
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
Es decir
1.0 que dicha0.1562
0.1587 proporci on es0.1515
0.1539 de 0.2776,
0.1492 o0.1469
dicho 0.1446
de otra0.1423
forma,0.1401
un 27.76 % de las
0.1379
observaciones
1.1 tienen
0.1357 una
0.1335puntuaci
0.1314 o0.1292
n tpica0.1271
mayor0.1251
que 0.59.
0.1230 0.1210 0.1190 0.1170
1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
4.3. PROPORCIONES DE LA CURVA NORMAL 79
4.3.2. C
alculos en distintas situaciones
a) Proporci
on de datos por debajo de un determinado valor positivo (+1.00):
b) Proporci
on de observaciones por encima de un determinado valor nega-
tivo (-1.00):
c) Proporci
on de observaciones por debajo de un determinado valor nega-
tivo (-1.00):
e) Proporci
on de datos entre dos valores positivos: (+1.00 y +2.00):
menos . Entonces:
La proporcion de datos entre +1.00 y +2.00 es 0.1587-0.0228=0.1359.
f ) Proporci
on de datos entre dos valores negativos: (-2.00 y -1.00):
4.3. PROPORCIONES DE LA CURVA NORMAL 81
g) Proporci
on de datos entre dos valores de distinto signo: (-1.00 y +2.00):
Usando los argumentos anteriores, esta proporcion es la diferencia entre los que estan
por encima de -1.00 y los que estan por encima de +2.00:
= menos =
= (1 ) menos
La proporcion de datos entre -1.00 y +2.00, es (1-0.1587) - 0.0228=0.8413-0.0228=0.8185.
Recuerda que estamos usando todo el tiempo dos propiedades basicas de la curva
Normal:
4.3.3. Obtenci
on de valores crticos
Del mismo modo que nos preguntamos por la proporcion de observaciones que se
encuentran en un determinado intervalo de valores tipificados, nos podramos hacer la
pregunta inversa: cu
al es el valor tipificado a partir del cual se encuentra una
determinada proporci on de observaciones?
Podemos responder a esta cuestion utilizando la tabla de forma parecida al caso an-
terior.
T DE STUDENT
4.4. LA DISTRIBUCION 83
X x
Como Z = , entonces X = s0 Z + x
s0
Puntuaci
on que no es superada por el 30 % de los estudiantes.
Estamos diciendo que el 30 % de los estudiantes tienen una nota inferior a esa.
Sabemos que buscamos un valor tpico negativo pero, aprovechando la simetra, po-
demos buscar: .
A una proporcion por encima de 0.3, le corresponde un valor tpico de 0.52, entonces,
el valor tpico que buscamos es z =-0.52 y la puntuacion sera:
4.4. La distribuci
on t de Student
Esta curva es muy parecida a la curva Normal, N (0, 1), pero depende de un parametro
llamado ((grados de libertad)). Tiene, como la Normal, forma de campana, su media es
cero y es simetrica, pero su varianza es mayor que uno.
Tiene la particularidad de que cuanto mayor es el parametro grados de libertad, mas
se acerca la varianza a 1 y por lo tanto mas se parece esta distribucion a la distribucion
N (0, 1).
De hecho, cuando el n umero de grados de libertad es mayor que 30, la diferencia entre
la t de Student y la N (0, 1) se puede considerar despreciable. Graficamente:
http://www.matematicasvisuales.com/html/probabilidad/varaleat/tstudent.html
p
n 0.005 0.01 0.025 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45
1 63.6567 31.8205 12.7062 6.3138 3.0777 1.9626 1.3764 1.0000 0.7265 0.5095 0.3249 0.1584
2 9.9248 6.9646 4.3027 2.9200 1.8856 1.3862 1.0607 0.8165 0.6172 0.4447 0.2887 0.1421
3 5.8409 4.5407 3.1824 2.3534 1.6377 1.2498 0.9785 0.7649 0.5844 0.4242 0.2767 0.1366
4 4.6041 3.7469 2.7764 2.1318 1.5332 1.1896 0.9410 0.7407 0.5686 0.4142 0.2707 0.1338
5 4.0321 3.3649 2.5706 2.0150 1.4759 1.1558 0.9195 0.7267 0.5594 0.4082 0.2672 0.1322
6 3.7074 3.1427 2.4469 1.9432 1.4398 1.1342 0.9057 0.7176 0.5534 0.4043 0.2648 0.1311
7 3.4995 2.9980 2.3646 1.8946 1.4149 1.1192 0.8960 0.7111 0.5491 0.4015 0.2632 0.1303
8 3.3554 2.8965 2.3060 1.8595 1.3968 1.1081 0.8889 0.7064 0.5459 0.3995 0.2619 0.1297
9 3.2498 2.8214 2.2622 1.8331 1.3830 1.0997 0.8834 0.7027 0.5435 0.3979 0.2610 0.1293
10 3.1693 2.7638 2.2281 1.8125 1.3722 1.0931 0.8791 0.6998 0.5415 0.3966 0.2602 0.1289
11 3.1058 2.7181 2.2010 1.7959 1.3634 1.0877 0.8755 0.6974 0.5399 0.3956 0.2596 0.1286
12 3.0545 2.6810 2.1788 1.7823 1.3562 1.0832 0.8726 0.6955 0.5386 0.3947 0.2590 0.1283
13 3.0123 2.6503 2.1604 1.7709 1.3502 1.0795 0.8702 0.6938 0.5375 0.3940 0.2586 0.1281
14 2.9768 2.6245 2.1448 1.7613 1.3450 1.0763 0.8681 0.6924 0.5366 0.3933 0.2582 0.1280
15 2.9467 2.6025 2.1314 1.7531 1.3406 1.0735 0.8662 0.6912 0.5357 0.3928 0.2579 0.1278
16 2.9208 2.5835 2.1199 1.7459 1.3368 1.0711 0.8647 0.6901 0.5350 0.3923 0.2576 0.1277
17 2.8982 2.5669 2.1098 1.7396 1.3334 1.0690 0.8633 0.6892 0.5344 0.3919 0.2573 0.1276
18 2.8784 2.5524 2.1009 1.7341 1.3304 1.0672 0.8620 0.6884 0.5338 0.3915 0.2571 0.1274
19 2.8609 2.5395 2.0930 1.7291 1.3277 1.0655 0.8610 0.6876 0.5333 0.3912 0.2569 0.1274
20 2.8453 2.5280 2.0860 1.7247 1.3253 1.0640 0.8600 0.6870 0.5329 0.3909 0.2567 0.1273
21 2.8314 2.5176 2.0796 1.7207 1.3232 1.0627 0.8591 0.6864 0.5325 0.3906 0.2566 0.1272
22 2.8188 2.5083 2.0739 1.7171 1.3212 1.0614 0.8583 0.6858 0.5321 0.3904 0.2564 0.1271
23 2.8073 2.4999 2.0687 1.7139 1.3195 1.0603 0.8575 0.6853 0.5317 0.3902 0.2563 0.1271
24 2.7969 2.4922 2.0639 1.7109 1.3178 1.0593 0.8569 0.6848 0.5314 0.3900 0.2562 0.1270
25 2.7874 2.4851 2.0595 1.7081 1.3163 1.0584 0.8562 0.6844 0.5312 0.3898 0.2561 0.1269
26 2.7787 2.4786 2.0555 1.7056 1.3150 1.0575 0.8557 0.6840 0.5309 0.3896 0.2560 0.1269
27 2.7707 2.4727 2.0518 1.7033 1.3137 1.0567 0.8551 0.6837 0.5306 0.3894 0.2559 0.1268
28 2.7633 2.4671 2.0484 1.7011 1.3125 1.0560 0.8546 0.6834 0.5304 0.3893 0.2558 0.1268
29 2.7564 2.4620 2.0452 1.6991 1.3114 1.0553 0.8542 0.6830 0.5302 0.3892 0.2557 0.1268
30 2.7500 2.4573 2.0423 1.6973 1.3104 1.0547 0.8538 0.6828 0.5300 0.3890 0.2556 0.1267
31 2.7440 2.4528 2.0395 1.6955 1.3095 1.0541 0.8534 0.6825 0.5298 0.3889 0.2555 0.1267
32 2.7385 2.4487 2.0369 1.6939 1.3086 1.0535 0.8530 0.6822 0.5297 0.3888 0.2555 0.1267
33 2.7333 2.4448 2.0345 1.6924 1.3077 1.0530 0.8526 0.6820 0.5295 0.3887 0.2554 0.1266
34 2.7284 2.4411 2.0322 1.6909 1.3070 1.0525 0.8523 0.6818 0.5294 0.3886 0.2553 0.1266
35 2.7238 2.4377 2.0301 1.6896 1.3062 1.0520 0.8520 0.6816 0.5292 0.3885 0.2553 0.1266
36 2.7195 2.4345 2.0281 1.6883 1.3055 1.0516 0.8517 0.6814 0.5291 0.3884 0.2552 0.1266
37 2.7154 2.4314 2.0262 1.6871 1.3049 1.0512 0.8514 0.6812 0.5289 0.3883 0.2552 0.1265
38 2.7116 2.4286 2.0244 1.6860 1.3042 1.0508 0.8512 0.6810 0.5288 0.3882 0.2551 0.1265
39 2.7079 2.4258 2.0227 1.6849 1.3036 1.0504 0.8509 0.6808 0.5287 0.3882 0.2551 0.1265
40 2.7045 2.4233 2.0211 1.6839 1.3031 1.0500 0.8507 0.6807 0.5286 0.3881 0.2550 0.1265
45 2.6896 2.4121 2.0141 1.6794 1.3006 1.0485 0.8497 0.6800 0.5281 0.3878 0.2549 0.1264
50 2.6778 2.4033 2.0086 1.6759 1.2987 1.0473 0.8489 0.6794 0.5278 0.3875 0.2547 0.1263
55 2.6682 2.3961 2.0040 1.6730 1.2971 1.0463 0.8482 0.6790 0.5275 0.3873 0.2546 0.1262
60 2.6603 2.3901 2.0003 1.6706 1.2958 1.0455 0.8477 0.6786 0.5272 0.3872 0.2545 0.1262
65 2.6536 2.3851 1.9971 1.6686 1.2947 1.0448 0.8472 0.6783 0.5270 0.3870 0.2544 0.1262
70 2.6479 2.3808 1.9944 1.6669 1.2938 1.0442 0.8468 0.6780 0.5268 0.3869 0.2543 0.1261
75 2.6430 2.3771 1.9921 1.6654 1.2929 1.0436 0.8464 0.6778 0.5266 0.3868 0.2542 0.1261
80 2.6387 2.3739 1.9901 1.6641 1.2922 1.0432 0.8461 0.6776 0.5265 0.3867 0.2542 0.1261
85 2.6349 2.3710 1.9883 1.6630 1.2916 1.0428 0.8459 0.6774 0.5264 0.3866 0.2541 0.1260
90 2.6316 2.3685 1.9867 1.6620 1.2910 1.0424 0.8456 0.6772 0.5263 0.3866 0.2541 0.1260
95 2.6286 2.3662 1.9853 1.6611 1.2905 1.0421 0.8454 0.6771 0.5262 0.3865 0.2541 0.1260
100 2.6259 2.3642 1.9840 1.6602 1.2901 1.0418 0.8452 0.6770 0.5261 0.3864 0.2540 0.1260
125 2.6157 2.3565 1.9791 1.6571 1.2884 1.0408 0.8445 0.6765 0.5257 0.3862 0.2539 0.1259
150 2.6090 2.3515 1.9759 1.6551 1.2872 1.0400 0.8440 0.6761 0.5255 0.3861 0.2538 0.1259
200 2.6006 2.3451 1.9719 1.6525 1.2858 1.0391 0.8434 0.6757 0.5252 0.3859 0.2537 0.1258
300 2.5923 2.3388 1.9679 1.6499 1.2844 1.0382 0.8428 0.6753 0.5250 0.3857 0.2536 0.1258
2.5758 2.3263 1.9600 1.6449 1.2816 1.0364 0.8416 0.6745 0.5244 0.3853 0.2533 0.1257
86 TEMA 4. LA CURVA NORMAL
1. Determina la proporcion de observaciones que estan por encima del valor 1 para
una t de Student con 16 grados de libertad.
Buscamos en la fila correspondiente a n=16 el valor mas proximo a 1 (1.0711),
que nos da una p=0.15. Entonces: la proporcion buscada es 0.15 , el 15 % de las
observaciones.
2. Determina la proporcion de observaciones que estan por debajo del valor 2.53 para
una t de Student con 20 grados de libertad.
Buscamos en la fila correspondiente a n=20 el valor mas proximo a 2.53 (2.5280),
que nos da una p=0.01. Esto significa que 0.01 es la proporcion de observaciones por
encima de dicho valor. Entonces: la proporcion buscada es 1-0.01=0.99, es decir el
99 % de las observaciones.
3. Determina la proporcion de observaciones que estan por encima del valor -0.7 para
una t de Student con 7 grados de libertad.
Para los valores negativos aprovecharemos la simetra de la grafica: el area por
encima de -0.7 es igual al area por debajo de 0.7, entonces:
Buscamos en la fila correspondiente a n=7 el valor mas proximo a 0.7 (0.7111), que
nos da una p=0.25. Esto significa que 0.25 es la proporcion de observaciones por
encima de dicho valor. Entonces: la proporcion buscada es 1-0.25=0.75, es decir el
75 % de las observaciones.
4. Determina que valor de una t de Student con 50 grados de libertad deja a su derecha
un area de 0.25.
Buscamos en la fila de n=50 la interseccion con la columna p=0.25 y obtenemos el
valor buscado: 0.6794.
5. Determina que valor de una t de Student con 22 grados de libertad verifica que el
area encerrada entre este valor y 0.2564 es exactamente 0.1.
Si hacemos el dibujo (siempre ayuda mucho), podemos observar que el area por
encima del valor buscado es igual a 0.1 mas el area por encima de 0.2564.
El area por encima de 0.2564 en una t de Student con 22 grados de libertad es 0.4,
y por lo tanto, el area por encima del valor buscado es 0.4+0.1=0.5. Esto significa
que el valor que estamos buscando es cero.
6. Determina que valor de una t de Student con 40 grados de libertad verifica que el
area encerrada entre -1.05 y este valor es exactamente 0.7.
Volvemos al dibujo. Podemos observar que el area por debajo del valor buscado es
igual a 0.7 mas el area por debajo de -1.05.
T DE STUDENT
4.4. LA DISTRIBUCION 87
Aprovechando la simetra, sabemos que el area por debajo de -1.05 es igual al area
por encima de 1.05. Buscamos en la tabla dicha area para una t de Student con 40
grados de libertad y obtenemos p=0.15. Entonces:
El area por debajo del valor buscado es igual a 0.7+0.15=0.85, lo que significa que
el area por encima es 0.15. Por lo tanto el valor buscado es: 1.05.
Notas:
1. Siempre que hagamos calculos con las tablas (tanto de la Normal como de la t de
Student), es muy recomendable hacer el dibujo correspondiente para entender lo
que calculamos y no equivocarnos.
2. Los programas estadsticos s que nos permiten obtener las probabilidades o los
valores crticos en cualquier situacion.
Tema 5
Cada subconjunto del espacio muestral es un suceso, y puede ser elemental o com-
puesto.
Ejemplo: si lanzamos un dado, A=sacar un 3 ={3} es un suceso elemental y B=sacar
un n
umero mayor que 3 ={4, 5, 6} es un suceso compuesto.
89
90 TEMA 5. PROBABILIDAD Y VARIABLES ALEATORIAS
Al suceso que ocurre siempre se le llama suceso seguro y coincide con el espacio
muestral.
Ejemplo: A =sacar un n
umero del 1 al 6 al lanzar un dado=.
Es decir: Ac = A
Uni
on de sucesos
S
Es el suceso que ocurre cuando ocurre A o B o los dos y se denota como A B.
Ejemplo: si al lanzar un dado, A = {3, 4} y B = sacar un n
umero par = {2, 4, 6},
S
entonces A B = {2, 3, 4, 6}
5.1. OPERACIONES CON SUCESOS 91
Intersecci
on de sucesos
T
Es el suceso que ocurre cuando ocurren A y B a la vez y se denota como A B.
Ejemplo: si al lanzar un dado, A = {3, 4} y B = sacar un n
umero par = {2, 4, 6},
T
entonces A B = {4}.
Los sucesos que no pueden ocurrir a la vez se llaman sucesos incompatibles y su
interseccion es el suceso imposible.
Ejemplo:T si al lanzar un dado, A = {3} y B = sacar un n
umero par = {2, 4, 6},
entonces A B = .
Diferencia de sucesos
Bc
T
Es el suceso que ocurre cuando ocurre A pero no ocurre B: A B = A
Ejemplo: si al lanzar un dado, A={3,4} y B=sacar un n
umero par ={2,4,6}, entonces
A B = {3} y B A = {2, 6}
92 TEMA 5. PROBABILIDAD Y VARIABLES ALEATORIAS
T
Es interesante observar que: A B = A (A B)
5.2. Probabilidad
n
umero de casos favorables a A
P (A) =
n
umero de casos posibles
n
umero de casos favorables a 5 1
P (5) = = = 0.16
n
umero de casos posibles 6
n
umero de casos favorables a par 3
P (par) = = = 0.5
n
umero de casos posibles 6
n
umero de veces que ha ocurrido A
P (A) =
n
umero de repeticiones
(es la frecuencia relativa de A).
Cuando el numero de repeticiones es bajo, esta probabilidad ((emprica)) puede ser
bastante incorrecta, mientras que, a medida que aumentamos el n umero de repeticiones, el
valor de la probabilidad se estabiliza y se va aproximando, cada vez mas a la probabilidad
((teorica)).
Ejemplo: si lanzamos un dado y contamos las veces que ha salido un 2:
5.3. PROBABILIDADES CONDICIONADAS 93
S S S
4. Podemos generalizar el axioma 3: Si A = A1 A2 ... An , siendo estos sucesos
incompatibles 2 a 2, entonces:
S S S
P (A) = P (A1 A2 ... An ) = P (A1 ) + P (A2 ) + ... + P (An )
Nos podemos plantear cual sera la probabilidad de cierto suceso B, sabiendo que ha
sucedido otro suceso A. Por ejemplo, se lanza un dado y nos dicen que el resultado es
impar cual es la probabilidad de que sea un 3?
Esta probabilidad se conoce como probabilidad condicionada, y se calcula de la
siguiente manera:
94 TEMA 5. PROBABILIDAD Y VARIABLES ALEATORIAS
La probabilidad del segundo suceso, B, dado que conocemos que ha ocurrido el primer
suceso, A, o bien, la probabilidad del suceso B condicionado a que ha ocurrido el suceso
A es: T
P (A B)
P (B|A) = , siendo P (A) > 0
P (A)
Ejemplo:
1
P (3 e impar) P (3) 6 1
P (3|impar) = = = 3 =
P (impar) P (impar) 6
3
Diremos que dos sucesos son independientes cuando la ocurrencia del primero no
cambia la probabilidad de que ocurra el segundo.
T
Como consecuencia, si dos sucesos son independientes: P (A B) = P (A)P (B)
Cuando realizamos un experimento, tenemos un espacio muestral (con todos los resul-
tados, sucesos elementales, posibles).
Una variable aleatoria, es una funcion que asocia a cada suceso elemental un n
umero
perfectamente definido.
: R
Para seguir con el analisis, debemos distinguir dos tipos de variables aleatorias: las
discretas y las continuas.
Llamaremos variable aleatoria discreta, a una variable aleatoria cuyo soporte (con-
junto de valores posibles) es un conjunto discreto (finito o numerable).
Ejemplo: la variable aleatoria anterior es discreta. Su soporte es el conjunto {0, 1, 2},
que es un conjunto finito.
Llamaremos variable aleatoria continua, a una variable aleatoria cuyo soporte
(conjunto de valores posibles) NO es un conjunto discreto (intuitivamente, este conjunto
sera entonces un intervalo de n
umeros reales).
Ejemplo: la variable aleatoria que asigna a cada persona extrada de una poblacion su
peso, es una variable aleatoria continua ya que podemos considerar como posibles todos
los valores del intervalo (0, 300).
En el caso de las variables aleatorias discretas, vamos a construir una funcion asociando
a cada uno de los valores de la variable aleatoria, su probabilidad:
Si tenemos una variable aleatoria discreta , que toma los valores x1 , . . . , xn , entonces:
f (xi ) = P ( = xi ) = pi .
Ademas se cumple que: f (x1 ) + f (x2 ) + + f (xn ) = 1
A esta funcion f que acabamos de construir, se le llama funcion de probabilidad
o funci
on de cuanta de una variable aleatoria de tipo discreto.
Ejemplo: en el caso anterior, f (0) = 1/4 ; f (1) = 2/4 = 1/2 ; f (2) = 1/4
Ejemplo: Si lanzamos un dado al aire, la variable aleatoria asociada a este experimento
tomara los valores: 1, 2, 3, 4, 5, 6 y la probabilidad de cada uno de estos resultados es 1/6.
La funcion de probabilidad f , es tal que:
f (1) = P ( = 1) = 1/6 f (2) = P ( = 2) = 1/6 f (3) = P ( = 3) = 1/6
f (4) = P ( = 4) = 1/6 f (5) = P ( = 5) = 1/6 f (6) = P ( = 6) = 1/6
f (2.5) = P ( = 2.5) = 0
Sabemos que F (x) = P ( x). Graficamente, F (x) es el xarea encerrada bajo la curva
La funcin de distribucin es: F ( x) = P( x) =
f (x), desde hasta x:
f (t )dt
x2
Como P ( x1 P (x1<x 2)
= xF2()x=2 )F(x 1) =
F2()x
consecuencia,
Entonces: F (x1 ) f (t )dt
x1
x2
5.5. ESPERANZA x 2 ) = F ( x 2 ) F ( x1 ) =
P ( x1 ATICA
Entonces:MATEM
x1
f (t )dt 97
n
X
E[] = = xi p i
i=1
Var() = 2 = E[( )2 ]
n
X
2
Var() = = x2i pi 2 = E[ 2 ] E[]2
i=1
Llamaremos desviaci
on tpica de a la raz cuadrada positiva de la varianza.
= DT() = + 2
5.6. LA PROBABILIDAD Y LA CURVA NORMAL 99
1 (x)2
f (x) = e 22
2
donde:
f (x) es la densidad de un determinado valor
x es un valor cualquiera de la variable
es la media de la distribucion
es la desviacion tpica de la distribucion
es la constante: 3.14159...
e es la constante: 2.71828...
Recordemos que esta funcion esta definida y es continua en (, +), es simetrica
respecto a la media (), tiene un maximo en x = y el eje de abscisas es una asntota
horizontal (por mucho que se acerque en los extremos, la curva nunca llega a tocar el eje).
Para obtener la P ( a), utilizaremos la funcion de distribucion:
P ( a) = F (a) = area bajo la curva hasta a:
100 TEMA 5. PROBABILIDAD Y VARIABLES ALEATORIAS
Entonces, para calcular las probabilidades de una variable aleatoria que siga
cualquier distribuci on N (, ), en primer lugar, tipificaremos (haciendo un cambio
de variable para obtener otra variable aleatoria tambien Normal, pero con media 0 y
desviacion tpica 1), y a continuacion usaremos las tablas de la N (0, 1) que ya conocemos.
Tema 6
Introduccion a la Inferencia
Estadstica
6.1. Distribuci
on de la media muestral
101
102 A LA INFERENCIA ESTADISTICA
TEMA 6. INTRODUCCION
Como podemos observar, para cada muestra obtenemos unos valores diferentes, pero
estos valores, que podemos considerar como observaciones de la variable aleatoria media
muestral, siguen tambien una distribucion.
Se puede demostrar que la variable aleatoria media muestral (esa variable cuyos valores
son las medias obtenidas de cada una de las posibles muestras de tama no n), tiene la
siguiente distribucion:
Si tenemos una poblacion en la que la variable considerada sigue una distribucion
Normal, N (, ), y extraemos muestras de tama
no n, entonces, la variable aleatoria media
muestral, sigue una distribucion:
N (, )
n
Notad que estamos diciendo que la variable aleatoria media muestral tiene como media
(esperanza) la media poblacional (). El valor esperado de la media muestral es la
media poblacional.
La desviacion tpica de la media muestral se conoce como error estandar o error tpico
de la media (standard error of the mean: SE).
El resultado anterior tambien es cierto (aproximadamente) cuando la distribucion en
la poblacion no es Normal, siempre que el tama no de las muestras sea suficientemente
grande:
Teorema central del lmite: Si se toman muestras de tama no n (n>30) de una
poblacion con una distribucion cualquiera, de media y desviacion tpica , entonces, la
distribucion de la variable aleatoria media muestral sigue, aproximadamente, una distri-
bucion Normal:
N (, )
n
Si tipificamos esta variable, obtendremos otra variable con distribucion N (0, 1), que
nos permitira realizar inferencias sobre , cuando la desviacion tpica poblacional, , es
conocida.
Es decir:
Si la poblacion sigue una distribucion Normal en la variable considerada o el
tama no de las muestras es suficientemente grande (n>30) entonces, para realizar
inferencias sobre , cuando la desviacion tpica poblacional, , es conocida,
usaremos el siguiente estadstico:
N (0, 1)
/ n
tn1
s/ n
Hemos visto como se distribuye la media muestral, pero no olvidemos que a nosotros
lo que nos interesa es poder hacer una estimacion de la media poblacional a partir
de los resultados de una muestra.
Lo que vamos a hacer es, partiendo de los resultados obtenidos para la muestra, cons-
truir un intervalo en el que ((confiamos)) que se encuentre la media poblacional.
Llamaremos nivel de confianza al porcentaje de confianza que tenemos al hacer
la estimacion (tambien se puede expresar en terminos de probabilidad como 1 ), o
bien, podemos hablar tambien del nivel de significacion, , que no es otra cosa que la
probabilidad de error que estamos dispuestos a asumir en la estimacion.
Estos dos conceptos son complementarios: Si estamos dispuestos a asumir una proba-
bilidad de error de = 0.05 (5 % de error), entonces, nuestro nivel de confianza sera del
95 % (o 0.95 en terminos de probabilidad).
Por otra parte, queda claro que cuanto mayor sea el error admitido, menor sera el
nivel de confianza.
La distribucion de la media muestral para poblaciones normales o muestras grandes,
con varianza conocida es:
N (, )
n
6.2. INTERVALO DE CONFIANZA PARA LA MEDIA 105
Entonces, si para la Z = / , el intervalo de confianza, con un nivel de confianza
n
1-, es (z/2 , z/2 ), esto significa que:
x
1=P z/2 < < z/2 = P x z/2 < < x + z/2
/ n n n
Por lo tanto:
Cuando trabajamos con poblaciones en las que la variable sigue una distribucion
Normal, o con muestras grandes, y ademas la varianza poblacional es
conocida, el intervalo de confianza para la media, , con un nivel de confianza
1 es:
IC() = x z/2 , x + z/2
n n
donde, z/2 es el valor de la N (0, 1), que deja a su derecha una probabilidad igual
a /2.
donde, tn1,/2 es el valor de la t de Student con n-1 grados de libertad, que deja
a su derecha una probabilidad igual a /2.
Una vez que hemos establecido el error maximo que estamos dispuestos a admitir
en nuestra estimacion, podemos establecer que la media poblacional se encuentra en el
intervalo: IC = x EM , donde EM es el error muestral.
(el error muestral es la desviaci
on respecto al par
ametro)
En el ejemplo de las medias: para la u
ltima muestra de tama no 30, tenamos que la
media observada (media de la muestra) era x = 177.18 , con una cuasidesviacion tpica
muestral de s = 11.01.
Entonces, el intervalo de confianza para la media poblacional con un nivel de confianza
del 90 % sera:
=0.1: IC() = 177.18 1.699127 11.01
30
= 177.18 3.415486
Es decir que, estimamos que la media poblacional se encuentra dentro del intervalo
(173.7645, 180.5955), con un nivel de confianza del 90 %.
Los intervalos de confianza para la media con los otros niveles de significacion mas
habituales son:
=0.01: IC() = 177.18 2.756386 11.01
30
= 177.18 5.540727
Es decir que, estimamos que la media poblacional se encuentra dentro del intervalo
(171.6393, 182.7207), con un nivel de confianza del 99 %.
=0.05: IC() = 177.18 2.04523 11.01
30
= 177.18 4.111202
Es decir que, estimamos que la media poblacional se encuentra dentro del intervalo
(173.0688, 181.2912), con un nivel de confianza del 95 %.
1. Las especificaciones del fabricante indican que la vida media de una batera es
de 4 a nos. Una organizacion de consumidores mantiene que la vida media de la
batera es sensiblemente menor, y para comprobarlo experimentalmente, realizara un
seguimiento sobre 40 usuarios de este tipo de bateras.
2. El Ministerio de Cultura de un pas sostiene que el 60 % de los votantes apoyara un
incremento en el presupuesto de este ministerio, pero el gobierno no esta dispuesto a
modificar dicho presupuesto salvo que esa afirmacion pueda ser corroborada cientfi-
camente. Con tal objetivo, el ministerio de cultura opta por hacer una encuesta a
2000 personas.
3. Un centro de investigacion afirma que dispone de una vacuna contra la malaria mas
eficiente que la desarrollada por el Dr. Patarroyo. Esta vacuna fue probada sobre
6.3. CONTRASTE DE HIPOTESIS 107
38 voluntarios del Cuerpo de Paz que fueron a un pas tropical en el que estaban
especialmente expuestos a la enfermedad. A la mitad se les inoculo la vacuna del
Dr. Patarroyo y a la otra mitad la nueva vacuna. De los que recibieron la nueva
vacuna 15 se libraron de contraer la malaria, mientras que de los que recibieron la
vacuna del Dr. Patarroyo, solamente 11.
Podemos observar que en todos los casos, hay una afirmacion sobre los parametros
poblacionales y se toma una muestra para, con los resultados obtenidos para la misma,
avalar o rechazar dicha afirmacion.
En esencia este es el planteamiento general de lo que en Inferencia Estadstica se
conoce como pruebas o contrastes de hip otesis.
Dado que nos movemos en condiciones de incertidumbre, esta u ltima decision se de-
bera tomar en terminos probabilsticos, es decir, si los resultados obtenidos para la muestra
tienen una alta probabilidad cuando la suposicion de partida es cierta, entonces no te-
nemos evidencia en contra de dicha suposicion (aceptamos la hipotesis de partida). Pero
si los resultados obtenidos para la muestra son poco probables cuando suponemos que la
hipotesis de partida es cierta, entonces, esto nos lleva a rechazar dicha hipotesis.
Veamos como desarrollar todo esto. En primer lugar vamos a definir una serie de
terminos:
Hip
otesis nula (H0 ) es la hipotesis que queremos contrastar. Es la hipotesis que el
experimentador asume como correcta.
Hip
otesis alternativa (H1 ) es la negacion de la hipotesis nula (es lo que aceptamos
cuando rechazamos la hipotesis nula)
Esta metodologa, en la que la toma de decisiones esta basada en los resultados obte-
nidos con una muestra, puede conducir a dos tipos de errores:
Decision
Aceptar H0 Rechazar H0
H0 verdadera Correcto (1 ) Error de tipo I ()
Realidad H0 falsa Error de tipo II () Correcto (1 )
108 A LA INFERENCIA ESTADISTICA
TEMA 6. INTRODUCCION
1. Enunciar la hip
otesis nula (H0 ) y la hip
otesis alternativa (H1 ).
Ambas hipotesis deben ser excluyentes. La hipotesis nula es la que se considera
como cierta. La hipotesis alternativa es la que aceptaremos solo si la muestra nos
proporciona ((suficiente evidencia en contra)) de la hipotesis nula.
Dependiendo de la formulacion de la hipotesis alternativa, el contraste puede ser
unilateral o bilateral.
4. Calcular el estadstico.
Con los datos observados de la muestra y suponiendo que la hipotesis nula, H0 , es
cierta, calculamos el estadstico y la probabilidad de encontrar un valor mas alejado
del parametro que el que hemos calculado (p-valor).
DE LA PROPORCION
6.5. DISTRIBUCION MUESTRAL 111
Relaci
on entre el contraste de hip
otesis y el intervalo de confianza
Los contrastes de hipotesis y los intervalos de confianza tienen una estrecha relacion.
Para un determinado nivel de confianza, esta relacion podramos expresarla diciendo
que ((El intervalo de confianza esta formado por todos los valores del parametro que se
aceptaran en un contraste de hipotesis bilateral)).
Dicho de otra forma, cualquier valor del parametro que se encuentre dentro del in-
tervalo de confianza dara lugar a un valor del estadstico que se encuentra dentro de la
region de aceptacion en el contraste de hipotesis bilateral correspondiente.
Por lo tanto, en el caso de la media poblacional tenemos que:
Si con los datos de la muestra, 0 IC1 () entonces, si planteamos el contraste de
hipotesis:
H0 : = 0
H1 : 6= 0
con nivel de significacion
y lo queremos resolver apoyandonos en los datos de la misma muestra, el resultado sera que
debemos aceptar la hipotesis nula. Es decir, que el valor 0 es un valor aceptable para la
media poblacional, para el nivel de significacion dado, .
Si por el contrario 0
/ IC1 (), entonces, deberemos rechazar la hipotesis nula. Es
decir que el valor 0 no es un valor aceptable para la media poblacional, para el nivel de
significacion dado, .
6.5. Distribuci
on de la proporci
on muestral
r !
p(1 p)
p N p,
n
112 A LA INFERENCIA ESTADISTICA
TEMA 6. INTRODUCCION
o lo que es equivalente:
p p
q N (0, 1)
p(1p)
n
Este intervalo no lo podemos calcular ya que depende del parametro p que queremos
estimar.
Lo que hacemos es utilizar para el calculo, la proporcion muestral en lugar de la
proporcion poblacional. Entonces:
r r r !
p(1 p) p(1 p) p(1 p)
IC(p) = p z/2 = p z/2 , p + z/2
n n n
NOTACION: z/2 es el valor de una N (0, 1) que deja a la derecha una probabi-
lidad /2
NOTACION: z/2 es el valor de una N (0, 1) que deja a la derecha una probabi-
lidad /2
Para los niveles de significacion mas habituales, los valores de z/2 , son:
DE LA PROPORCION
6.5. DISTRIBUCION MUESTRAL 113
Veamos un ejemplo:
Si basandonos en una muestra (altura de 30 estudiantes) queremos determinar la
proporcion de estudiantes universitarios con una altura superior a 180 cm, deberamos
hacer lo siguiente:
Si = 0.1: s
5 25
5
IC(p) = 1.644854 30 30
30 30
3. Interpretamos el resultado:
Basandonos en los resultados de la muestra, estimamos con un nivel de confianza
del 90 %, que la proporcion poblacional de estudiantes con una altura mayor que
180 cm se encuentra dentro del intervalo: (0.05475, 0.27858) (o lo que es lo mismo,
entre el 5.475 % y el 27.858 %).
1 2 (1 2 )
q N (0, 1)
12 22
n
+ m
1 2 (1 2 )
q tn+m2
Sp n1 + m1
s
(n 1)s21 + (m 1)s22
donde: Sp = , (s21 y s22 son las cuasivarianzas muestrales).
n+m2
6.7. CONTRASTE DE IGUALDAD (O DIFERENCIA) DE PROPORCIONES 117
p p2 (p1 p2 )
q1 N (0, 1)
p1 (1p1 ) p2 (1p2 )
n
+ m
p1 p2 n
p1 + m
p2
z=q donde p =
p(1 p) n1 + 1 n+m
m
Soluci
on:
Nos dan una muestra de la superficie en m2 , X, de 31 viviendas (n=31). Para esta
muestra podemos calcular la media y la cuasidesviacion tpica:
x = 70.871 y S = 14.86032
Analogamente:
IC0.99 () = 70.33871 t30,0.005 2.66899 = 70.33871 2.75 2.66899
IC0.99 () = 70.33871 7.33972 = (62.99899, 77.67843)
La superficie media de los pisos se encuentra entre 63 m2 y 77.68 m2 , con un
nivel de confianza del 99 %.
6.8. EJEMPLOS RESUELTOS 119
Si usamos las tablas, teniendo en cuenta que T t30 , las mejores aproximacio-
nes que podemos hacer son :
p-valor= 2 P {T > 1.74646} > 2 0.025 = 0.05
p-valor= 2 P {T > 1.74646} < 2 0.05 = 0.1
p p
q N (0, 1)
p(1p
n
aunque las tablas no nos dan un valor exacto, para una t9 sabemos que
Muestreo
7.1. T
ecnicas de muestreo
127
128 TEMA 7. MUESTREO
El muestreo aleatorio es el que mas nos interesa y sera el que utilicemos siempre que
podamos. Existen tres tipos de muestreo aleatorio:
Muestreo aleatorio simple Para elegir una muestra se parte de una lista con todos los
elementos de la poblacion y del mismo se seleccionan los n elementos que forman la
muestra.
Este muestreo aleatorio es el mas sencillo de todos y sirve de base para los otros dos.
Muestreo aleatorio sistem atico es una variedad del muestreo aleatorio simple. Con-
siste en, conocido el tamano de la poblacion, N, y de la muestra, n, dividir N entre
n, y el resultado del cociente, k, nos indica que debemos seleccionar los elementos
de la muestra de k en k.
Este tipo de muestreo tiene la ventaja de que solo hay que elegir aleatoriamente el
primer elemento de la muestra, pero tiene el problema de que si hay periodicidad en los
datos, la muestra resultante puede que no sea representativa.
DE LA MUESTRA
7.2. TAMANO 129
7.2. Tama
no de la muestra
Es decir que: IC() = x z/2 = x EM
n
EM es el error muestral.
Luego, el error muestral, que es el error maximo que se puede cometer, para un nivel
de confianza 1 , es:
EM = z/2
n
Entonces:
Para calcular el intervalo de confianza para la media, o para realizar un contraste
de hipotesis para la media, cuando:
entonces, el tama
no de la muestra debe ser:
2
z/2 2
n=
EM 2
entonces, el tama
no de la muestra debe ser:
2
z/2 s2
n=
EM 2
En cualquier otro caso, el analisis es mucho mas complicado y no lo vamos a ver.
En el caso de la proporci
on poblacional, el razonamiento es analogo:
Sabemos que cuando n es suficientemente grande (n > 30), el intervalo de confianza
para la proporcion poblacional, con un nivel de significacion , es:
r
p(1 p)
IC(p) = p z/2
n
2 p(1 p)
n = z/2
EM 2
Es decir:
132 TEMA 7. MUESTREO
p(1 p)
2
n = z/2
EM 2
Este resultado es cierto siempre que obtengamos n > 30.
2 1
n = z/2
4EM 2
Es decir que:
Si no queremos o no podemos utilizar la aproximacion de la proporcion, para
calcular el intervalo de confianza para la proporcion poblacional, o para realizar
un contraste de hipotesis para la proporcion poblacional, si estamos dispuestos a
asumir una probabilidad de error , y determinamos que el error m aximo
que estamos dispuestos a aceptar es EM, entonces, el tama no de la muestra debe
ser:
1
2
n = z/2
4EM 2
Este resultado es cierto siempre que obtengamos n > 30.
DE LA MUESTRA
7.2. TAMANO 133
Si tomamos muestras del mismo tama no en las dos poblaciones: n=m, entonces:
r 2
12 + 22 1 + 22
2
EM = z/2 y en este caso: n = z/2
n EM 2
Es decir
Si trabajamos en Poblaciones Normales con varianzas conocidas y si tomamos
muestras del mismo tama no en ambas poblaciones, entonces, el tama no mues-
tral necesario en cada poblacion, para que el error muestral de la diferencia de
medias, con un nivel de confianza prefijado 1 , sea igual a una cantidad pre-
fijada, EM, es: 2
1 + 22
2
n = z/2
EM 2
Igual que en el caso de una proporcion, para poder aplicar esta formula, tendremos
que utilizar alguna estimacion ((fiable)) de las proporciones poblacionales ya que estas son
desconocidas.
Estadstica Descriptiva
bidimensional
Hasta ahora, practicamente todo lo que hemos visto se refera al estudio de una u nica
variable estadstica o aleatoria. Vamos a ver aqu como abordar el estudio de una variable
bidimensional como una extension de lo ya visto en el caso unidimensional.
La mayora de las veces, al estudiar una poblacion, se estudian dos o mas caractersticas
simultaneamente. Cada observacion dara lugar por tanto a dos o mas n umeros (suponien-
do que las caractersticas son cuantitativas). La variable estadstica correspondiente se
denomina: variable bidimensional o multidimensional.
Nosotros nos vamos a limitar al estudio de dos caractersticas, por lo que nos centra-
remos en las variables bidimensionales.
El analisis de las distribuciones de dos o mas dimensiones tiene por objetivo general el
estudio de la existencia o no de alg un tipo de asociacion, dependencia o covariacion entre
las distintas variables.
Igual que hacamos en el caso unidimensional, una vez que hemos recogido nuestra
masa de datos, el primer paso sera intentar resumir esta informacion, para lo cual cons-
truiremos una tabla de frecuencias.
Si tenemos una variable X, con valores: x1 , x2 , .., xk , y otra variable Y con valores
y1 , y2 , .., ym , para cada elemento de la poblacion tendremos una observacion bidimensional
(xi , yj ).
Llamaremos:
135
136 TEMA 8. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL
Ejemplo: Sea una poblacion de 96 familias, para la que se han medido las siguientes
variables:
X= n
umero de personas activas en la familia.
Y = tama
no de la familia (n
umero de miembros).
Y 1 2 3 4 5 6 7 8
X
1 7 10 11 16 8 1 1 0 (54)
2 0 2 5 6 6 2 0 0 (21)
3 0 0 1 6 4 3 1 1 (16)
4 0 0 0 0 2 1 1 1 (5)
(7) (12) (17) (28) (20) (7) (3) (2) 96
n43 = 0 ; El n
umero de familias de 3 miembros con 4 personas activas es 0.
6
f25 = = 0.0625 ; de las 96 familias, hay 6 familias de 5 miembros con 2 en activo.
96
O bien, 0.0625 es la proporcion de familias de 5 miembros con 2 en activo, en el
total de las 96 familias. Multiplicando por 100 se obtiene el porcentaje (6.25 %).
8.2. Gr
aficos
El Diagrama de dispersion es mas practico cuando todos los pares de valores tienen
frecuencia 1:
k
X m
X XX XX
ni = nj = nij = nij = N
i=1 j=1 i j j i
Y y1 y2 y3 ni
X
x1 n11 n12 n13 n1
x2 n21 n22 n23 n2
x3 n31 n32 n33 n3
x4 n41 n42 n43 n4
nj n1 n2 n3 N
Analogamente
Nuestro universo son los valores que cumplen la condicion, por lo que la suma de todas
las frecuencias condicionadas de X para un valor dado de Y es igual a 1.
k Pk
X
i=1 fij fj
f (xi |yj ) = = =1
i=1
fj fj
8.3. DISTRIBUCIONES MARGINALES Y CONDICIONADAS 141
m
X
y|xi = yj f (yj |xi )
j=1
m
02
X
Sy|xi = (yj y|xi )2 f (yj |xi )
j=1
Y 1 2 3 4 5 6 7 8
X
1 7 10 11 16 8 1 1 0
2 0 2 5 6 6 2 0 0
3 0 0 1 6 4 3 1 1
4 0 0 0 0 2 1 1 1
40
xi ni |y=5 xi ni |y=5 x2i ni |y=5 x|y=5 = =2
20
1 8 8 8
100
2 6 12 24 a2 (x|y=5 ) = =5
20
3 4 12 36
0
4 2 8 32 Sx|2y=5 = 5 22 = 1
suma 20 40 100
33 11
xi ni |y6 xi ni |y6 x2i ni |y6 x|y6 = = = 2.75
12 4
1 2 2 2
103
2 2 4 8 a2 (x|y6 ) =
12
3 5 15 45
2
0 103 11 49
4 3 12 48 Sx|2y6 = =
12 4 48
suma 12 33 103
Ejemplo:
Sea la siguiente distribucion:
60 80 100
Y 50-70 70-90 90-110
X ni
160 150-170 35 30 5 70
180 170-190 3 48 29 80
nj 38 78 34 150
2. Frecuencias relativas:
En tanto por uno En tanto por ciento
35
f11 = 150 = 0.23 f11 = 23.3 %
f22 = 150 = 0.323
48
f22 = 32.3 %
3. Frecuencias marginales: n2 = 78 ; n2 = 80
8.4. La covarianza
Pk Pm
i=1 j=1 xi yj nij
S0XY = xy
N
Pk Pm
i=1 j=1 (xi x)(yj y)nij
SXY =
N 1
Pk Pm
i=1 xi yj nij
j=1 N
SXY = xy
N 1 N 1
144 TEMA 8. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL
8.5. Independencia
Intuitivamente, se puede afirmar que dos variables son independientes entre s cuando
los valores que toma una cualquiera de ellas no estan afectados por los valores que toma
la otra.
Definicion: Dos variables son independientes si y solo si, la frecuencia relativa con-
junta es igual al producto de las frecuencias relativas marginales. Es decir:
Definicion: Dada una distribucion bidimensional (X, Y ), diremos que las variables son
dependientes si y solo si, no son independientes. Es decir:
Correlaci
on y regresi
on lineal
Precisamente para dar respuesta a estas dos cuestiones se han desarrollado las tecnicas
estadsticas de correlacion y regresion.
145
146 Y REGRESION
TEMA 9. CORRELACION LINEAL
Al azar.
Podemos tomar dos variables para las que en principio no tiene ning un sentido
estudiar su relacion y descubrir que, casualmente, guardan una estrecha relacion.
Es famoso el ejemplo propuesto por G. M. Jenkins: el paralelo crecimiento del n
ume-
ro de nacidos y el de cig
ue
nas en Baviera.
Otro ejemplo: podemos encontrar que en los u ltimos 20 a
nos, han crecido de forma
paralela el n
umero de divorcios en Suecia y los automoviles fabricados en Espana.
Es evidente que carece de sentido llevar a cabo un estudio que relacione dichas
variables.
Como parece logico, las relaciones que nos interesara analizar son las de caracter causal,
donde una variable llamada explicativa (o exogena), determina el comportamiento de
otra variable llamada explicada (o endogena).
9.1. Correlaci
on lineal
El grado de asociacion existente entre dos variables, puede medirse mediante las tecni-
cas de correlacion. Estas tecnicas nos proporcionan unos coeficientes que nos cuantifican
ese grado de asociacion.
El coeficiente de correlacion mas importante, es el
Coeficiente de correlaci
on lineal de Pearson:
S0XY
rXY =
S0X S0Y
LINEAL
9.1. CORRELACION 147
9.2. Regresi
on lineal
Una vez que hemos especificado que la relacion entre dos variables es de tipo lineal,
su formulacion sera la siguiente: yi = a + bxi
El objeto de la regresion es la determinacion del valor de los parametros del modelo
(en este caso a y b) a partir de un conjunto de observaciones sobre las variables.
La determinacion de los parametros se puede hacer por varios metodos; nosotros vamos
a utilizar el m
etodo de regresi on minimocuadr atica.
La idea del metodo es la siguiente:
Supongamos que se ha determinado que existe una relacion lineal entre las variables
X=renta familiar e Y =gasto en ropa, entonces, el modelo teorico que define esta relacion
sera:
yi = a + bxi
El gasto de una familia en ropa, puede estar influenciado especialmente por la renta,
pero en ning un caso se puede esperar que esta variable explique completamente el gasto
en el vestir. Existen otros factores: composicion de la familia, clima, ideologa, influencia
de la moda,... que tambien ejercen una influencia en mayor o menor grado.
El n
umero de estos factores puede ser infinito. Ademas, como la sencillez de los modelos
es otra ventaja o propiedad a destacar, conviene incluir el mnimo n umero de variables
posibles en los mismos. Para corregir esta anomala expresaremos el modelo de la siguiente
forma:
yi = a + bxi + ei
donde ei representa el error que cometemos al explicar el gasto en ropa en funcion u
nica-
mente de la renta, y que viene causado por multiples efectos de procedencia muy dispar.
Por lo tanto, lo que tenemos es un conjunto de pares (xi , yi ) a los que se quiere ajustar
una recta:
Para cada valor de la variable X (renta), tenemos dos valores del gasto: un valor del
gasto real (Y ) y un valor del gasto teorico (Y ). Por lo tanto, el error es la diferencia entre
ambos:
ei = yi yi
LINEAL
9.2. REGRESION 149
Este error es el residuo o diferencia que queremos que sea lo menor posible.
Por lo tanto, el problema consiste en encontrar los valores de los par
ametros
a y b del modelo, que minimicen el error.
Pero que es lo que ocurre?, pues que como algunos errores son positivos y otros nega-
tivos se pueden compensar. Para evitar compensaciones, lo que haremos sera: Minimizar
la suma de los cuadrados de los errores (dePah la denominacion minimocuadratica):
minimizar e2i
Para simplificar la notacion, supondremos el caso de una distribucion bidimensional
de frecuencias unitarias, caso al que se pueden reducir los demas, sin mas que repetir la
pareja de valores tantas veces como nos indica su frecuencia.
Vamos a calcular los coeficientes de la recta que nos da los valores de la variable
Y (variable explicada) en funcion de los valores de la variable X (variable explicativa),
utilizando el metodo de regresion minimocuadratica.
Se trata de obtener los parametros a y b de la recta (modelo teorico) yi = a + bxi ,
que mejor se ajusta a la nube de puntos, utilizando el metodo de ajuste de los mnimos
cuadrados.
Es decir, que queremos encontrar los valores de los par
ametros a y b del mo-
delo, de modo que minimizan la suma de los cuadrados de los errores
N
X N
X N
X
mn e2i = mn (yi yi )2 = mn (yi a bxi )2 = mn S(a, b)
i=1 i=1 i=1
S0XY
yi y = 0 (xi x)
SX2
denominada forma punto-pendiente.
150 Y REGRESION
TEMA 9. CORRELACION LINEAL
S0XY
X|Y : X = a + bY , donde: b = 0 2 , y a = x b
y
SY
Ejemplo:
xi y i x2i yi2 xi yi
10 2 100 4 20
15 4 225 16 60
20 8 400 64 160
25 12 625 144 30
30 9 900 81 270
100 35 2250 309 810
Realizamos los calculos:
100 35 0 2250
x = = 20 ; y = = 7 ; SX2 = 202 = 50
5 5 5
0 309 810
SY2 = ltimo S0XY =
72 = 12.8 y por u 20 7 = 22
5 5
22 22
Y |X : yi = 7 20 + xi = 1.8 + 0.44xi
50 50
22 22
X|Y : xi = 20 7 + yi = 7.96875 + 1.71875yi
12.8 12.8
Nota: como el signo de la pendiente de las rectas de regresion depende del signo de la
covarianza, ambas rectas tiene la pendiente del mismo signo.
Es por esto que o bien ambas rectas son crecientes (pendientes positivas) o ambas rectas
son decrecientes (pendientes negativas).
9.3. An
alisis de la bondad del ajuste
Una vez realizado un ajuste, interesa constatar en que medida queda explicada la
variable endogena mediante el modelo estimado.
Un criterio bastante razonable para medir la bondad de cualquier ajuste es medir la
proporcion de varianza total explicada por el modelo.
Por ello, se toma como indicador de la bondad del ajuste, el cociente:
0
S 2
R = Y0 2 = Coeficiente de determinaci
2
on
SY
0
S2
R = 1 0e2
2
SY
152 Y REGRESION
TEMA 9. CORRELACION LINEAL
0 0
S2 S 2
R = 1 0e2 = Y0 2
2
SY SY
Cuando la lnea ajustada pasa por los puntos observados, todos los residuos seran
0
nulos, y por lo tanto: Se2 = 0 y R2 = 1 .
Este sera el maximo valor del coeficiente, y en consecuencia, la variacion de Y viene
totalmente explicada por X. Se trata de un ajuste perfecto.
C
alculo de la varianza residual
Si tenemos el modelo lineal yi = a + bxi , como esto no es mas que un cambio de origen
y escala, sabemos que:
0 0
02 S 2 02
02
2
SXY
S Y = b SX = XY
2
04 SX = 02 = bS0XY
SX SX
0 0 0
Como en el caso lineal sabemos que se cumple que: SY2 = SY2 + Se2
Entonces:
0
02 02 02 02S2
Se = SY S Y = SY XY
0
SX2
Esta formula nos permite calcular la varianza residual en funcion de las varianzas de
las distribuciones marginales y de la covarianza de la distribucion bidimensional.
9.4. APLICACIONES DE LA REGRESION 153
1. LA PREDICCION. Esta es la aplicacion mas importante de la regresion.
La prediccion consiste en determinar, a partir del modelo estimado, el valor que
toma la variable explicada, para un valor dado de la variable explicativa.
Por ejemplo: Supongamos que en el caso de Y = gasto en ropa y X = renta dispo-
nible, tenemos que: yi = 20 + 0.044xi
Entonces: si conocemos un valor concreto de la renta x0 = 3500 , podemos hacer
una prediccion teorica del gasto y0 = 20 + 0.044 3500 = 134
S0XY
marginal = b = 0
SX2
3. CALCULO DE ELASTICIDADES.
El coeficiente de elasticidad de Y con respecto a X sera: la variacion porcentual que
experimenta Y al variar X en un 1 %.
En Economa, se utiliza mucho el concepto de elasticidad de la demanda o de la
oferta.
Es un concepto ideado con objeto de indicar el grado en que la demanda (Q) o
la oferta (O) responden a variaciones del precio del mercado (P ). Depende esen-
cialmente de las variaciones porcentuales, y es independiente de las unidades que
utilicemos para medir Q (u O) y P .
Ejemplo: La elasticidad-precio de la demanda, la definiramos como la relacion por-
centual, o cambio porcentual en la cantidad demandada de un bien, que resulta del
cambio en un 1 % en el precio.
Analticamente:
dY
Y X dY
Y /X = dX
=
X
Y dX
1. Se puede aceptar o no que existe una relacion lineal entre el consumo y la velocidad?
4. Para una velocidad de 110 km/h cual sera el consumo estimado?, es fiable esta
estimacion?
Soluci
on:
1. Se puede aceptar o no que existe una relacion lineal entre el consumo y la velocidad?
Para determinar si existe o no relacion lineal entre las variables, calculamos el coe-
ficiente de correlacion lineal.
SCV
rCV =
SC SV
Para obtenerlo debemos calcular las varianzas y la covarianza. Hacemos los calculos
previos:
V C V2 C2 CV
80 4.5 6400 20.25 360
80 5.8 6400 33.64 464
80 5.0 6400 25.00 400
80 5.5 6400 30.25 440
120 6.0 14400 36.00 720
120 6.6 14400 43.56 792
120 7.2 14400 51.84 864
120 6.5 14400 42.25 780
140 7.0 19600 49.00 980
140 8.5 19600 72.25 1190
1080 62.6 122400 404.04 6990
Entonces:
156 Y REGRESION
TEMA 9. CORRELACION LINEAL
SCV 22.92
rCV = = = 0.86589
SC SV 576 1.2164
Esto significa que hay bastante relacion lineal (el coeficiente esta proximo a 1)
y ademas la relacion es directa (el coeficiente es positivo porque la covarianza es
positiva), lo que indica que a medida que aumenta la velocidad aumenta tambien el
consumo.
4. Para una velocidad de 110 km/h cual sera el consumo estimado?, Es fiable esta
estimacion?
Para hacer la estimacion, basta utilizar la recta que acabamos de calcular:
Si V = 110, entonces: C = 1.96268 + 0.03979 110 = 6.33958
Es decir, que a 110 km/h el consumo estimado es de unos 6.34 litros.
9.5. EJEMPLO RESUELTO 157
Para ver si esta estimacion es fiable se deben comprobar dos cosas, por un lado la
bondad del modelo y por otro la proximidad a los datos utilizados para la construc-
cion del modelo. En nuestro caso:
on SI es fiable
Entonces: La predicci
10.1. Correlaci
on por rangos
159
160
TEMA 10. ANALISIS ESTADISTICO DE DATOS CUALITATIVOS
donde di es la diferencia entre los rangos en las dos variables para cada caso.
Este coeficiente es muy facil de calcular, aunque se emplea, sobre todo, cuando tenemos
menos de 20 observaciones.
A este coeficiente tambien se le llama coeficiente de correlacion ordinal.
Interpretaci
on del valor :
El valor de este coeficiente vara entre -1 y +1.
Cuando la concordancia entre los rangos es perfecta, entonces las diferencias son
todas nulas y por lo tanto el coeficiente es igual a 1.
Cuando existe discordancia total, los pares de rangos vienen dados por:
N
X N3 N
(N ; 1), (N 1; 2), . . . , (1; N ). En ese caso, d2i = , por lo que el coeficiente
i=1
3
valdra -1.
Cuando el coeficiente tiene valor cero, indica que no existe relacion entre los rangos
de ambas variables.
Ejemplo:
Los ranking de 5 hoteles, seg un su ocupacion y su precio son los que se dan en la
siguiente tabla. Calcula el coeficiente de correlacion por rangos de Spearman, para medir
el grado de asociacion de ambas variables:
6 N d2
P
6 18 108
= 1 3 i=1 i = 1 3 =1 = 0.1
N N 5 5 120
ENTRE CARACTERES NOMINALES
10.2. ASOCIACION 161
El coeficiente esta proximo a cero, lo que nos indica que el ranking en ocupacion tiene
muy poco que ver con el ranking en precio.
10.2. Asociaci
on entre caracteres nominales
n11 n21 n1
= =
n1 n2 N
162
TEMA 10. ANALISIS ESTADISTICO DE DATOS CUALITATIVOS
n1 n1
n11 = N
Haciendo operaciones se puede ver que esto es equivalente a decir que: n2 n1
n21 = N
ni nj
y lo mismo ocurre con las demas modalidades: nij = N
, (i, j = 1, 2)
fij = fi fj , (i, j = 1, 2)
Ademas, como este coeficiente vara entre -1 y 1, y alcanza estos valores extremos
cuando hay una asociacion perfecta, este coeficiente nos permite medir la intensidad y la
direccion de la asociacion.
En el ejemplo anterior:
Para analizar la independencia de los dos atributos, se utiliza el mismo criterio que
en el caso anterior, de modo que los dos atributos son independientes si:
ni nj
i, j : nij =
N
Coeficiente de contingencia 2
(Al final del tema, se indica como manejar las tablas para esta distribucion)
Por lo tanto, aceptaremos la independencia de las variables si el p-valor es mayor que
el nivel de significacion ().
En este caso, el p-valor es: p = P {X > 2 , siendo X 2(h1)(k1) }
p
n 0.01 0.025 0.05 0.10 0.15 0.25 0.5 0.75 0.85 0.9 0.95 0.975 0.99
1 6.635 5.024 3.841 2.706 2.072 1.323 0.455 0.102 0.036 0.016 0.003932 0.000982 0.000157
2 9.210 7.378 5.991 4.605 3.794 2.773 1.386 0.575 0.325 0.211 0.103 0.051 0.020
3 11.345 9.348 7.815 6.251 5.317 4.108 2.366 1.213 0.798 0.584 0.352 0.216 0.115
4 13.277 11.143 9.488 7.779 6.745 5.385 3.357 1.923 1.366 1.064 0.711 0.484 0.297
5 15.086 12.833 11.070 9.236 8.115 6.626 4.351 2.675 1.994 1.610 1.145 0.831 0.554
6 16.812 14.449 12.592 10.645 9.446 7.841 5.348 3.455 2.661 2.204 1.635 1.237 0.872
7 18.475 16.013 14.067 12.017 10.748 9.037 6.346 4.255 3.358 2.833 2.167 1.690 1.239
8 20.090 17.535 15.507 13.362 12.027 10.219 7.344 5.071 4.078 3.490 2.733 2.180 1.646
9 21.666 19.023 16.919 14.684 13.288 11.389 8.343 5.899 4.817 4.168 3.325 2.700 2.088
10 23.209 20.483 18.307 15.987 14.534 12.549 9.342 6.737 5.570 4.865 3.940 3.247 2.558
11 24.725 21.920 19.675 17.275 15.767 13.701 10.341 7.584 6.336 5.578 4.575 3.816 3.053
12 26.217 23.337 21.026 18.549 16.989 14.845 11.340 8.438 7.114 6.304 5.226 4.404 3.571
13 27.688 24.736 22.362 19.812 18.202 15.984 12.340 9.299 7.901 7.042 5.892 5.009 4.107
14 29.141 26.119 23.685 21.064 19.406 17.117 13.339 10.165 8.696 7.790 6.571 5.629 4.660
15 30.578 27.488 24.996 22.307 20.603 18.245 14.339 11.037 9.499 8.547 7.261 6.262 5.229
16 32.000 28.845 26.296 23.542 21.793 19.369 15.338 11.912 10.309 9.312 7.962 6.908 5.812
17 33.409 30.191 27.587 24.769 22.977 20.489 16.338 12.792 11.125 10.085 8.672 7.564 6.408
18 34.805 31.526 28.869 25.989 24.155 21.605 17.338 13.675 11.946 10.865 9.390 8.231 7.015
19 36.191 32.852 30.144 27.204 25.329 22.718 18.338 14.562 12.773 11.651 10.117 8.907 7.633
20 37.566 34.170 31.410 28.412 26.498 23.828 19.337 15.452 13.604 12.443 10.851 9.591 8.260
21 38.932 35.479 32.671 29.615 27.662 24.935 20.337 16.344 14.439 13.240 11.591 10.283 8.897
22 40.289 36.781 33.924 30.813 28.822 26.039 21.337 17.240 15.279 14.041 12.338 10.982 9.542
23 41.638 38.076 35.172 32.007 29.979 27.141 22.337 18.137 16.122 14.848 13.091 11.689 10.196
24 42.980 39.364 36.415 33.196 31.132 28.241 23.337 19.037 16.969 15.659 13.848 12.401 10.856
25 44.314 40.646 37.652 34.382 32.282 29.339 24.337 19.939 17.818 16.473 14.611 13.120 11.524
26 45.642 41.923 38.885 35.563 33.429 30.435 25.336 20.843 18.671 17.292 15.379 13.844 12.198
27 46.963 43.195 40.113 36.741 34.574 31.528 26.336 21.749 19.527 18.114 16.151 14.573 12.879
28 48.278 44.461 41.337 37.916 35.715 32.620 27.336 22.657 20.386 18.939 16.928 15.308 13.565
29 49.588 45.722 42.557 39.087 36.854 33.711 28.336 23.567 21.247 19.768 17.708 16.047 14.256
30 50.892 46.979 43.773 40.256 37.990 34.800 29.336 24.478 22.110 20.599 18.493 16.791 14.953
31 52.191 48.232 44.985 41.422 39.124 35.887 30.336 25.390 22.976 21.434 19.281 17.539 15.655
32 53.486 49.480 46.194 42.585 40.256 36.973 31.336 26.304 23.844 22.271 20.072 18.291 16.362
33 54.776 50.725 47.400 43.745 41.386 38.058 32.336 27.219 24.714 23.110 20.867 19.047 17.074
34 56.061 51.966 48.602 44.903 42.514 39.141 33.336 28.136 25.586 23.952 21.664 19.806 17.789
35 57.342 53.203 49.802 46.059 43.640 40.223 34.336 29.054 26.460 24.797 22.465 20.569 18.509
36 58.619 54.437 50.998 47.212 44.764 41.304 35.336 29.973 27.336 25.643 23.269 21.336 19.233
37 59.893 55.668 52.192 48.363 45.886 42.383 36.336 30.893 28.214 26.492 24.075 22.106 19.960
38 61.162 56.896 53.384 49.513 47.007 43.462 37.335 31.815 29.093 27.343 24.884 22.878 20.691
39 62.428 58.120 54.572 50.660 48.126 44.539 38.335 32.737 29.974 28.196 25.695 23.654 21.426
40 63.691 59.342 55.758 51.805 49.244 45.616 39.335 33.660 30.856 29.051 26.509 24.433 22.164
41 64.950 60.561 56.942 52.949 50.360 46.692 40.335 34.585 31.740 29.907 27.326 25.215 22.906
42 66.206 61.777 58.124 54.090 51.475 47.766 41.335 35.510 32.626 30.765 28.144 25.999 23.650
43 67.459 62.990 59.304 55.230 52.588 48.840 42.335 36.436 33.512 31.625 28.965 26.785 24.398
44 68.710 64.201 60.481 56.369 53.700 49.913 43.335 37.363 34.400 32.487 29.787 27.575 25.148
45 69.957 65.410 61.656 57.505 54.810 50.985 44.335 38.291 35.290 33.350 30.612 28.366 25.901
50 76.154 71.420 67.505 63.167 60.346 56.334 49.335 42.942 39.754 37.689 34.764 32.357 29.707
55 82.292 77.380 73.311 68.796 65.855 61.665 54.335 47.610 44.245 42.060 38.958 36.398 33.570
60 88.379 83.298 79.082 74.397 71.341 66.981 59.335 52.294 48.759 46.459 43.188 40.482 37.485
65 94.422 89.177 84.821 79.973 76.807 72.285 64.335 56.990 53.293 50.883 47.450 44.603 41.444
70 100.425 95.023 90.531 85.527 82.255 77.577 69.334 61.698 57.844 55.329 51.739 48.758 45.442
75 106.393 100.839 96.217 91.061 87.688 82.858 74.334 66.417 62.412 59.795 56.054 52.942 49.475
80 112.329 106.629 101.879 96.578 93.106 88.130 79.334 71.145 66.994 64.278 60.391 57.153 53.540
85 118.236 112.393 107.522 102.079 98.511 93.394 84.334 75.881 71.589 68.777 64.749 61.389 57.634
90 124.116 118.136 113.145 107.565 103.904 98.650 89.334 80.625 76.195 73.291 69.126 65.647 61.754
95 129.973 123.858 118.752 113.038 109.286 103.899 94.334 85.376 80.813 77.818 73.520 69.925 65.898
100 135.807 129.561 124.342 118.498 114.659 109.141 99.334 90.133 85.441 82.358 77.929 74.222 70.065
Ap
endice A
Tablas
167
169
p
n 0.005 0.01 0.025 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45
1 63.6567 31.8205 12.7062 6.3138 3.0777 1.9626 1.3764 1.0000 0.7265 0.5095 0.3249 0.1584
2 9.9248 6.9646 4.3027 2.9200 1.8856 1.3862 1.0607 0.8165 0.6172 0.4447 0.2887 0.1421
3 5.8409 4.5407 3.1824 2.3534 1.6377 1.2498 0.9785 0.7649 0.5844 0.4242 0.2767 0.1366
4 4.6041 3.7469 2.7764 2.1318 1.5332 1.1896 0.9410 0.7407 0.5686 0.4142 0.2707 0.1338
5 4.0321 3.3649 2.5706 2.0150 1.4759 1.1558 0.9195 0.7267 0.5594 0.4082 0.2672 0.1322
6 3.7074 3.1427 2.4469 1.9432 1.4398 1.1342 0.9057 0.7176 0.5534 0.4043 0.2648 0.1311
7 3.4995 2.9980 2.3646 1.8946 1.4149 1.1192 0.8960 0.7111 0.5491 0.4015 0.2632 0.1303
8 3.3554 2.8965 2.3060 1.8595 1.3968 1.1081 0.8889 0.7064 0.5459 0.3995 0.2619 0.1297
9 3.2498 2.8214 2.2622 1.8331 1.3830 1.0997 0.8834 0.7027 0.5435 0.3979 0.2610 0.1293
10 3.1693 2.7638 2.2281 1.8125 1.3722 1.0931 0.8791 0.6998 0.5415 0.3966 0.2602 0.1289
11 3.1058 2.7181 2.2010 1.7959 1.3634 1.0877 0.8755 0.6974 0.5399 0.3956 0.2596 0.1286
12 3.0545 2.6810 2.1788 1.7823 1.3562 1.0832 0.8726 0.6955 0.5386 0.3947 0.2590 0.1283
13 3.0123 2.6503 2.1604 1.7709 1.3502 1.0795 0.8702 0.6938 0.5375 0.3940 0.2586 0.1281
14 2.9768 2.6245 2.1448 1.7613 1.3450 1.0763 0.8681 0.6924 0.5366 0.3933 0.2582 0.1280
15 2.9467 2.6025 2.1314 1.7531 1.3406 1.0735 0.8662 0.6912 0.5357 0.3928 0.2579 0.1278
16 2.9208 2.5835 2.1199 1.7459 1.3368 1.0711 0.8647 0.6901 0.5350 0.3923 0.2576 0.1277
17 2.8982 2.5669 2.1098 1.7396 1.3334 1.0690 0.8633 0.6892 0.5344 0.3919 0.2573 0.1276
18 2.8784 2.5524 2.1009 1.7341 1.3304 1.0672 0.8620 0.6884 0.5338 0.3915 0.2571 0.1274
19 2.8609 2.5395 2.0930 1.7291 1.3277 1.0655 0.8610 0.6876 0.5333 0.3912 0.2569 0.1274
20 2.8453 2.5280 2.0860 1.7247 1.3253 1.0640 0.8600 0.6870 0.5329 0.3909 0.2567 0.1273
21 2.8314 2.5176 2.0796 1.7207 1.3232 1.0627 0.8591 0.6864 0.5325 0.3906 0.2566 0.1272
22 2.8188 2.5083 2.0739 1.7171 1.3212 1.0614 0.8583 0.6858 0.5321 0.3904 0.2564 0.1271
23 2.8073 2.4999 2.0687 1.7139 1.3195 1.0603 0.8575 0.6853 0.5317 0.3902 0.2563 0.1271
24 2.7969 2.4922 2.0639 1.7109 1.3178 1.0593 0.8569 0.6848 0.5314 0.3900 0.2562 0.1270
25 2.7874 2.4851 2.0595 1.7081 1.3163 1.0584 0.8562 0.6844 0.5312 0.3898 0.2561 0.1269
26 2.7787 2.4786 2.0555 1.7056 1.3150 1.0575 0.8557 0.6840 0.5309 0.3896 0.2560 0.1269
27 2.7707 2.4727 2.0518 1.7033 1.3137 1.0567 0.8551 0.6837 0.5306 0.3894 0.2559 0.1268
28 2.7633 2.4671 2.0484 1.7011 1.3125 1.0560 0.8546 0.6834 0.5304 0.3893 0.2558 0.1268
29 2.7564 2.4620 2.0452 1.6991 1.3114 1.0553 0.8542 0.6830 0.5302 0.3892 0.2557 0.1268
30 2.7500 2.4573 2.0423 1.6973 1.3104 1.0547 0.8538 0.6828 0.5300 0.3890 0.2556 0.1267
31 2.7440 2.4528 2.0395 1.6955 1.3095 1.0541 0.8534 0.6825 0.5298 0.3889 0.2555 0.1267
32 2.7385 2.4487 2.0369 1.6939 1.3086 1.0535 0.8530 0.6822 0.5297 0.3888 0.2555 0.1267
33 2.7333 2.4448 2.0345 1.6924 1.3077 1.0530 0.8526 0.6820 0.5295 0.3887 0.2554 0.1266
34 2.7284 2.4411 2.0322 1.6909 1.3070 1.0525 0.8523 0.6818 0.5294 0.3886 0.2553 0.1266
35 2.7238 2.4377 2.0301 1.6896 1.3062 1.0520 0.8520 0.6816 0.5292 0.3885 0.2553 0.1266
36 2.7195 2.4345 2.0281 1.6883 1.3055 1.0516 0.8517 0.6814 0.5291 0.3884 0.2552 0.1266
37 2.7154 2.4314 2.0262 1.6871 1.3049 1.0512 0.8514 0.6812 0.5289 0.3883 0.2552 0.1265
38 2.7116 2.4286 2.0244 1.6860 1.3042 1.0508 0.8512 0.6810 0.5288 0.3882 0.2551 0.1265
39 2.7079 2.4258 2.0227 1.6849 1.3036 1.0504 0.8509 0.6808 0.5287 0.3882 0.2551 0.1265
40 2.7045 2.4233 2.0211 1.6839 1.3031 1.0500 0.8507 0.6807 0.5286 0.3881 0.2550 0.1265
45 2.6896 2.4121 2.0141 1.6794 1.3006 1.0485 0.8497 0.6800 0.5281 0.3878 0.2549 0.1264
50 2.6778 2.4033 2.0086 1.6759 1.2987 1.0473 0.8489 0.6794 0.5278 0.3875 0.2547 0.1263
55 2.6682 2.3961 2.0040 1.6730 1.2971 1.0463 0.8482 0.6790 0.5275 0.3873 0.2546 0.1262
60 2.6603 2.3901 2.0003 1.6706 1.2958 1.0455 0.8477 0.6786 0.5272 0.3872 0.2545 0.1262
65 2.6536 2.3851 1.9971 1.6686 1.2947 1.0448 0.8472 0.6783 0.5270 0.3870 0.2544 0.1262
70 2.6479 2.3808 1.9944 1.6669 1.2938 1.0442 0.8468 0.6780 0.5268 0.3869 0.2543 0.1261
75 2.6430 2.3771 1.9921 1.6654 1.2929 1.0436 0.8464 0.6778 0.5266 0.3868 0.2542 0.1261
80 2.6387 2.3739 1.9901 1.6641 1.2922 1.0432 0.8461 0.6776 0.5265 0.3867 0.2542 0.1261
85 2.6349 2.3710 1.9883 1.6630 1.2916 1.0428 0.8459 0.6774 0.5264 0.3866 0.2541 0.1260
90 2.6316 2.3685 1.9867 1.6620 1.2910 1.0424 0.8456 0.6772 0.5263 0.3866 0.2541 0.1260
95 2.6286 2.3662 1.9853 1.6611 1.2905 1.0421 0.8454 0.6771 0.5262 0.3865 0.2541 0.1260
100 2.6259 2.3642 1.9840 1.6602 1.2901 1.0418 0.8452 0.6770 0.5261 0.3864 0.2540 0.1260
125 2.6157 2.3565 1.9791 1.6571 1.2884 1.0408 0.8445 0.6765 0.5257 0.3862 0.2539 0.1259
150 2.6090 2.3515 1.9759 1.6551 1.2872 1.0400 0.8440 0.6761 0.5255 0.3861 0.2538 0.1259
200 2.6006 2.3451 1.9719 1.6525 1.2858 1.0391 0.8434 0.6757 0.5252 0.3859 0.2537 0.1258
300 2.5923 2.3388 1.9679 1.6499 1.2844 1.0382 0.8428 0.6753 0.5250 0.3857 0.2536 0.1258
2.5758 2.3263 1.9600 1.6449 1.2816 1.0364 0.8416 0.6745 0.5244 0.3853 0.2533 0.1257
170
APENDICE A. TABLAS
P {X > x | X 2n }
p
n 0.01 0.025 0.05 0.10 0.15 0.25 0.5 0.75 0.85 0.9 0.95 0.975 0.99
1 6.635 5.024 3.841 2.706 2.072 1.323 0.455 0.102 0.036 0.016 0.003932 0.000982 0.000157
2 9.210 7.378 5.991 4.605 3.794 2.773 1.386 0.575 0.325 0.211 0.103 0.051 0.020
3 11.345 9.348 7.815 6.251 5.317 4.108 2.366 1.213 0.798 0.584 0.352 0.216 0.115
4 13.277 11.143 9.488 7.779 6.745 5.385 3.357 1.923 1.366 1.064 0.711 0.484 0.297
5 15.086 12.833 11.070 9.236 8.115 6.626 4.351 2.675 1.994 1.610 1.145 0.831 0.554
6 16.812 14.449 12.592 10.645 9.446 7.841 5.348 3.455 2.661 2.204 1.635 1.237 0.872
7 18.475 16.013 14.067 12.017 10.748 9.037 6.346 4.255 3.358 2.833 2.167 1.690 1.239
8 20.090 17.535 15.507 13.362 12.027 10.219 7.344 5.071 4.078 3.490 2.733 2.180 1.646
9 21.666 19.023 16.919 14.684 13.288 11.389 8.343 5.899 4.817 4.168 3.325 2.700 2.088
10 23.209 20.483 18.307 15.987 14.534 12.549 9.342 6.737 5.570 4.865 3.940 3.247 2.558
11 24.725 21.920 19.675 17.275 15.767 13.701 10.341 7.584 6.336 5.578 4.575 3.816 3.053
12 26.217 23.337 21.026 18.549 16.989 14.845 11.340 8.438 7.114 6.304 5.226 4.404 3.571
13 27.688 24.736 22.362 19.812 18.202 15.984 12.340 9.299 7.901 7.042 5.892 5.009 4.107
14 29.141 26.119 23.685 21.064 19.406 17.117 13.339 10.165 8.696 7.790 6.571 5.629 4.660
15 30.578 27.488 24.996 22.307 20.603 18.245 14.339 11.037 9.499 8.547 7.261 6.262 5.229
16 32.000 28.845 26.296 23.542 21.793 19.369 15.338 11.912 10.309 9.312 7.962 6.908 5.812
17 33.409 30.191 27.587 24.769 22.977 20.489 16.338 12.792 11.125 10.085 8.672 7.564 6.408
18 34.805 31.526 28.869 25.989 24.155 21.605 17.338 13.675 11.946 10.865 9.390 8.231 7.015
19 36.191 32.852 30.144 27.204 25.329 22.718 18.338 14.562 12.773 11.651 10.117 8.907 7.633
20 37.566 34.170 31.410 28.412 26.498 23.828 19.337 15.452 13.604 12.443 10.851 9.591 8.260
21 38.932 35.479 32.671 29.615 27.662 24.935 20.337 16.344 14.439 13.240 11.591 10.283 8.897
22 40.289 36.781 33.924 30.813 28.822 26.039 21.337 17.240 15.279 14.041 12.338 10.982 9.542
23 41.638 38.076 35.172 32.007 29.979 27.141 22.337 18.137 16.122 14.848 13.091 11.689 10.196
24 42.980 39.364 36.415 33.196 31.132 28.241 23.337 19.037 16.969 15.659 13.848 12.401 10.856
25 44.314 40.646 37.652 34.382 32.282 29.339 24.337 19.939 17.818 16.473 14.611 13.120 11.524
26 45.642 41.923 38.885 35.563 33.429 30.435 25.336 20.843 18.671 17.292 15.379 13.844 12.198
27 46.963 43.195 40.113 36.741 34.574 31.528 26.336 21.749 19.527 18.114 16.151 14.573 12.879
28 48.278 44.461 41.337 37.916 35.715 32.620 27.336 22.657 20.386 18.939 16.928 15.308 13.565
29 49.588 45.722 42.557 39.087 36.854 33.711 28.336 23.567 21.247 19.768 17.708 16.047 14.256
30 50.892 46.979 43.773 40.256 37.990 34.800 29.336 24.478 22.110 20.599 18.493 16.791 14.953
31 52.191 48.232 44.985 41.422 39.124 35.887 30.336 25.390 22.976 21.434 19.281 17.539 15.655
32 53.486 49.480 46.194 42.585 40.256 36.973 31.336 26.304 23.844 22.271 20.072 18.291 16.362
33 54.776 50.725 47.400 43.745 41.386 38.058 32.336 27.219 24.714 23.110 20.867 19.047 17.074
34 56.061 51.966 48.602 44.903 42.514 39.141 33.336 28.136 25.586 23.952 21.664 19.806 17.789
35 57.342 53.203 49.802 46.059 43.640 40.223 34.336 29.054 26.460 24.797 22.465 20.569 18.509
36 58.619 54.437 50.998 47.212 44.764 41.304 35.336 29.973 27.336 25.643 23.269 21.336 19.233
37 59.893 55.668 52.192 48.363 45.886 42.383 36.336 30.893 28.214 26.492 24.075 22.106 19.960
38 61.162 56.896 53.384 49.513 47.007 43.462 37.335 31.815 29.093 27.343 24.884 22.878 20.691
39 62.428 58.120 54.572 50.660 48.126 44.539 38.335 32.737 29.974 28.196 25.695 23.654 21.426
40 63.691 59.342 55.758 51.805 49.244 45.616 39.335 33.660 30.856 29.051 26.509 24.433 22.164
41 64.950 60.561 56.942 52.949 50.360 46.692 40.335 34.585 31.740 29.907 27.326 25.215 22.906
42 66.206 61.777 58.124 54.090 51.475 47.766 41.335 35.510 32.626 30.765 28.144 25.999 23.650
43 67.459 62.990 59.304 55.230 52.588 48.840 42.335 36.436 33.512 31.625 28.965 26.785 24.398
44 68.710 64.201 60.481 56.369 53.700 49.913 43.335 37.363 34.400 32.487 29.787 27.575 25.148
45 69.957 65.410 61.656 57.505 54.810 50.985 44.335 38.291 35.290 33.350 30.612 28.366 25.901
50 76.154 71.420 67.505 63.167 60.346 56.334 49.335 42.942 39.754 37.689 34.764 32.357 29.707
55 82.292 77.380 73.311 68.796 65.855 61.665 54.335 47.610 44.245 42.060 38.958 36.398 33.570
60 88.379 83.298 79.082 74.397 71.341 66.981 59.335 52.294 48.759 46.459 43.188 40.482 37.485
65 94.422 89.177 84.821 79.973 76.807 72.285 64.335 56.990 53.293 50.883 47.450 44.603 41.444
70 100.425 95.023 90.531 85.527 82.255 77.577 69.334 61.698 57.844 55.329 51.739 48.758 45.442
75 106.393 100.839 96.217 91.061 87.688 82.858 74.334 66.417 62.412 59.795 56.054 52.942 49.475
80 112.329 106.629 101.879 96.578 93.106 88.130 79.334 71.145 66.994 64.278 60.391 57.153 53.540
85 118.236 112.393 107.522 102.079 98.511 93.394 84.334 75.881 71.589 68.777 64.749 61.389 57.634
90 124.116 118.136 113.145 107.565 103.904 98.650 89.334 80.625 76.195 73.291 69.126 65.647 61.754
95 129.973 123.858 118.752 113.038 109.286 103.899 94.334 85.376 80.813 77.818 73.520 69.925 65.898
100 135.807 129.561 124.342 118.498 114.659 109.141 99.334 90.133 85.441 82.358 77.929 74.222 70.065