Foro 2 Estadistica Inferencial Aplicada
Foro 2 Estadistica Inferencial Aplicada
Foro 2 Estadistica Inferencial Aplicada
Semana 4
Marco teórico y ejemplos
1
Series de Tiempo
Series de tiempo Componentes de la serie de tiempo
Por serie de tiempo nos referimos a Supondremos que en una serie
datos estadísticos que se recopilan, . cuatro tipos básicos de
existen
observan o registran en intervalos de variación, los cuales sobrepuestos o
tiempo regulares (diario, semanal, actuando en concierto, contribuyen a
semestral, anual, entre otros). El los cambios observados en un
término serie de tiempo se aplica por período de tiempo y dan a la serie su
ejemplo a datos registrados en forma aspecto errático.
periódica que muestran, por ejemplo, Estas cuatro componentes son:
las ventas anuales totales de Tendencia secular
almacenes, el valor trimestral total de Variación estacional
contratos de construcción otorgados, Variación cíclica
el valor trimestral del PIB. Variación irregular.
2
Series de Tiempo
Series de tiempo
Supondremos, además, que existe una relación . multiplicativa entre estas
cuatro componentes; es decir, cualquier valor de una serie es el producto
de factores que se pueden atribuir a las cuatro componentes.
1. Tendencia secular: La tendencia secular o tendencia a largo plazo de
una serie es por lo común el resultado de factores a largo plazo. En
términos intuitivos, la tendencia de una serie de tiempo caracteriza el
patrón gradual y consistente de las variaciones de la propia serie, que se
consideran consecuencias de fuerzas persistentes que afectan el
crecimiento o la reducción de la misma, tales como: cambios en la
población, en las características demográficas de la misma, cambios en los
ingresos, en la salud, en el nivel de educación y tecnología. Las tendencias
a largo plazo se ajustan a diversos esquemas. Algunas se mueven
continuamente hacía arriba, otras declinan, y otras más permanecen igual
en un cierto período o intervalo de tiempo.
3
Series de Tiempo
Series de tiempo
2. Variación estacional: El componente de la serie de tiempo que
representa la variabilidad en los datos .debida a influencias de las
estaciones, se llama componente estacional. Esta variación corresponde a
los movimientos de la serie que recurren año tras año en los mismos
meses (o en los mismos trimestres) del año poco más o menos con la
misma intensidad. Por ejemplo: Un fabricante de albercas inflables espera
poca actividad de ventas durante los meses de otoño e invierno y tiene
ventas máximas en los de primavera y verano, mientras que los
fabricantes de equipo para la nieve y ropa de abrigo esperan un
comportamiento anual opuesto al del fabricante de albercas.
4
Series de Tiempo
3. Variación cíclica: Con frecuencia las series de tiempo presentan secuencias
alternas de puntos abajo y arriba de la línea de tendencia que duran más de un
año, esta variación se mantiene después de que .se han eliminado las variaciones o
tendencias estacional e irregular. Un ejemplo de este tipo de variación son los
ciclos comerciales cuyos períodos recurrentes dependen de la prosperidad,
recesión, depresión y recuperación, las cuales no dependen de factores como el
clima o las costumbres sociales.
4. Variación Irregular: Esta se debe a factores a corto plazo, imprevisibles y no
recurrentes que afectan a la serie de tiempo. Como este componente explica la
variabilidad aleatoria de la serie, es impredecible, es decir, no se puede esperar
predecir su impacto sobre la serie de tiempo. Existen dos tipos de variación
irregular:
a) Las variaciones que son provocadas por acontecimientos especiales, fácilmente
identificables, como las elecciones, inundaciones, huelgas, terremotos.
b) Variaciones aleatorias o por casualidad, cuyas causas no se pueden señalar en
forma exacta, pero que tienden a equilibrarse a la larga.
5
Series de Tiempo
Series de tiempo
Tendencia de una serie
1. Tendencia lineal de una serie viene dada .por el movimiento general a
largo plazo de la serie. La tendencia a largo plazo de muchas series de
negocios (industriales y comerciales), como ventas, exportaciones y
producción, con frecuencia se aproxima a una línea recta. Esta línea de
tendencia muestra que algo aumenta o disminuye a un ritmo constante. El
método que se utiliza para obtener la línea recta de mejor ajuste es el
Método de Mínimos Cuadrados.
2. Tendencia no lineal Cuando la serie de tiempo presenta un
comportamiento curvilíneo se dice que este comportamiento es no lineal.
Dentro de las tendencias no lineales que pueden presentarse en una serie
se encuentran, la polinomial, logarítmica, exponencial y potencial, entre
otras.
6
Series de Tiempo
Series de tiempo
Ejemplo.
Aplicar el método de
promedios móviles para el
pronóstico de ventas de
gasolina a partir de la
siguiente información: Se
considerará el promedio móvil
a partir de las tres
observaciones más recientes.
En este caso se utilizará la
siguiente ecuación:
Métodos no paramétricos.
Las pruebas de hipótesis de variables se miden en la escala
nominal. Recuerde, que un nivel de medición nominal implica
que los datos solo se clasifican en categorías, y estas no
reconocen un orden particular. El propósito de estas pruebas es
determinar si un conjunto de frecuencias observadas, f0, tiene
una diferencia significativa con un conjunto correspondiente de
frecuencias esperadas, fe. De igual forma, si le interesa la
relación entre dos características como la edad de un individuo
con su preferencia musical, deberá ordenar los datos de una
tabla de contingencia y un estadístico de pruebas. En estos tipos
de problemas no es necesario hacer suposiciones acerca de la
forma de la población.
10
Modelos
11
Modelos
12
Prueba de los signos
13
Prueba de los signos
Para ilustrar este punto, suponga la evaluación de un programa
nueva de afinación de automóviles. Se registra el número de millas
de recorridas por galón de gasolina antes de la afinación y de una
después de esta. Si la afinación no es eficaz, es decir, si no tuvo
efecto en el desempeño casi la mitad de los automóviles probados
presentarían una disminución de las millas por galón, la otra mitad,
un aumento. Se asigna “+” a un aumento y “-“a una disminución.
En ciertos sentido los datos están en un nivel ordinar debido a que los
bebedores de café dan a su bebida preferida a un rango más alto,
mientras que el otro tipo de café queda en el rango más bajo. Aquí una
vez más si la población de consumidores de café no tiene una
preferencia, se debe esperar que la muestra de los consumidores
prefiera café descafeinado y la otra mitad, normal.
Un ejemplo ayudara a mostrar mejor la aplicación de la prueba de los
signos. A continuación se presenta un experimento de “antes/después”.
Ejemplo
El director de sistema de información de Samuelson Chemicals
recomendó implementar un programa de capacitación para gerentes
en la planta. El objetivo es aumentar los conocimientos de
computación en los departamentos de nómina contabilidad y
producción.
15
Prueba de los signos
16
Prueba de los signos
17
Prueba de los signos
Lo que interesa saber es que si el programa de capacitación de la planta
aumento eficacia de los gerentes en el uso de la base de datos de
compañía. Es decir, ¿los gerentes son más competentes después del
programa de capacitación que antes?
Utiliza el procedimiento de prueba de hipótesis de 5 pasos.
Paso 1: formule de hipótesis nula y alternativa
Ho: π ≤ 0.50 No hay aumento del conocimiento en el uso de la base de
datos como resultado del programa de capacitación en la planta.
Ho: π ˃ 0.50 Existe un aumento del conocimiento en el uso de la bases
de datos de los gerentes después del programa de capacitación.
18
Prueba de los signos
• El símbolo π es la proporción de la población con una característica
particular. Si no se rechaza la hipótesis nula, se indica que el
programa de capacitación no produjo ningún cambio en el nivel de
competencia en realidad disminuyo. Si se rechaza la hipótesis nula se
indica que la competencia de los gerentes aumento como resultado
de programa de capacitación.
• El estadístico de pruebas sigue la distribución de probabilidad
binominal. Es apropiado debido a que la prueba de los signos cumple
con todas las suposiciones binominales, que son las siguientes:
• Solo hay dos resultados: “éxito” o “fracaso”. Un gerente aumento sus
conocimientos (éxito) o no.
• Por cada intento, se supone que la probabilidad de éxito es 0.50. así,
la probabilidad de un éxito es la misma en todos los intentos (en este
caso, los gerentes).
• El número total de intentos es fijo (15 en este experimento).
• Cada intento es independiente. Este significa, por ejemplo que el
desempeño de Arthur Seiple en el curco de tres meses no se relaciona
con el desempeño de Sandy Gumpp.
19
Prueba de los signos
• Paso 2: seleccione un nivel de significancia. Elija un nivel de 0.10
• Paso 3: decida sobre el estadístico de pruebas. Es el número de los
signos más que resulten del experimento.
• Paso 4: formule una regla de decisión. En el curso de capacitación se
inscribieron 15 gerentes, pero el nivel de conocimientos de Andy no
mostró aumento ni reducción. (Consulte la tabla 6). Por lo tanto, se
eliminó el estudio debido a que no pudo incluir en ningún grupo,
entonces n=14. A partir de la tabla de distribución de probabilidad
binominal proporcionada en los contenidos de esta semana, para
una n de 14 y una probabilidad de 0.50, se presenta la distribución de
probabilidad binominal en la tabla. El número de éxitos aparece en la
columna 1, las probabilidades de éxito columna 2, y las probabilidades
acumuladas en la 3. Para llegar a las probabilidades acumuladas,
sume las probabilidades de éxito de la columna 2 desde la parte
inferior. Con fines de ilustración para obtener la probabilidad
acumulada de 11 o más éxitos, sume
0.000+0.001+0.006+0.022=0.029.
20
Prueba de los signos
21
Prueba de los signos
Para repasar: se suman las probabilidades de abajo así arriba por que la
dirección de desigualdad (>) es hacia la derecha, lo que indica que la región
de rechazo está en la cola superior. Si el número de signos más y la muestra
es 10 o mayor, se rechaza la hipótesis nula; de lo contrario no se rechaza H0.
La representación de la región de rechazo aparece en la gráfica 1.
¿Qué procedimiento se sigue en el caso de una prueba de dos colas? Se
combina (suman) las probabilidades de éxito y las dos colas hasta estar lo
más cerca posible de nivel de significancia deseado (α) sin sobrepasarlo. En
este ejemplo, α es 0.10. La probabilidad de tres o menos éxitos es 0.029,
determinada mediante 0.000 + 0.001+0.006+0.022. La probabilidad de 11 o
más éxitos también es 0.029. Se suma las dos probabilidades, 0.029 +0.029,
se obtienes 0.058. Esto es lo más cercano que se puede estar de 0.10 sin
sobre pasarlo. Si hubiera incluido las probabilidades de 4 y 10 éxitos,
0.090+0.090, en total sería 0.180, que excede 0.10. Por lo tanto, la regla de
decisión en el caso de una prueba de dos colas sería rechazada la hipótesis
nula si hay 3 o menos signos más, u 11 o más signos más.
22
Prueba de los signos
23
Prueba de los signos
24
Prueba de los signos
25
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
Prueba de rangos con signo de
Wilcoxon para muestras
dependientes.
La prueba t por pares (o apareada) tiene dos requisitos. Primero, las
muestras deben ser independientes. Recuerden que las muestras
dependientes se caracteriza por una medición, algún tipo de
intervención y luego otra medición por ejemplo, una compañía inicio
un programa de “bienestar” al inicio del año. Se inscribieron 20
personas en la parte de reducción del peso del programa. Para
comenzar, se pesaron todos los participantes. Luego se pusieron a
dieta, hicieron ejercicio, etc., para reducir de peso. Al final del
programa, que duró 6 meses, todos los participantes se pasaron de
nuevo. La diferencia entre sus pesos al inicio y al final del programa
es la variable de interés. Observe que hay una medición, un
intervención y luego otra medición.
26
Prueba de rangos con signo de
Wilcoxon para muestras dependientes.
27
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
En 1945, Frank Wilcoxon desarrollo una prueba no paramétrica, con
base en las diferencias entre nuestras dependientes, que no requiere
las suposiciones de normalidad. Esta prueba de denomina pruebas de
rangos con signo Wilcoxon. En el siguiente ejemplo se dan los
detalles de su aplicación.
• Ejemplo.
Fricker´s es una cadena de restaurantes familiares ubicada sobre todo
el sureste de Estados Unidos, que ofrece un menú muy completo,
pero su especialidad es de pollo. Hace poco, Bernie Frick, propietario
y fundador elabora un nuevo sabor con especies para la salsa en la
que se cocina el pollo. Antes de reemplazar el sabor actual quiere
realizar alguna pruebas para estar seguro de que los comensales les
guste más este nuevo sabor.
28
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
Para iniciar Bernie seleccione una muestra aleatoria de 15 clientes. A
cada cliente de la muestra le da una pieza de pollo actual y le pide que
califique su sabor en una escala de 1 a 20. Un valor cercano a 20 indica
que al participante le gusto el sabor, el tanto que una calificación cerca
de 1 indica que no le gusto el sabor. Luego, los mismos 15 participantes
les da una muestra de pollo con el nuevo sabor a especies y una vez
más le pide calificar su sabor e una escala de 1 a 20. Los resultados
aparecen en la siguiente tabla. ¿Es razonable concluir que el sabor a
especies es el preferido? Utiliza un nivel de significancia de .05.
Tabla 8
29
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
Solución.
La muestra es dependientes o están relacionadas. Es decir a los
participantes se les pide calificar los dos sabores de pollos. Por lo
tanto, si calcula la diferencia entre la clasificación del sabor a
especias y la del sabor actual, el valor resultante muestra que la
cantidad de participantes favorecen un sabor en comparación con
el otro. Si elige restar la calificación del sabor actual a la calificación
del sabor a especias, un resultado positivo es la “cantidad” con que
los participantes prefieren el sabor a especias. Las diferencias
negativas de las calificaciones indican que el participante prefirió el
sabor actual. Debido a la naturaleza un tanto subjetiva de las
calificaciones, no hay seguridad de que la distribución de las
diferencias siga la distribución normal, por lo que conviene utilizar la
prueba de rangos con el signo de Wilcoxon no paramétrica.
30
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
• Como es habitual, emplea el procedimiento de prueba de
hipótesis en 5 pasos. La hipótesis nula es que no hay diferencias
entre las calificaciones de los sabores del pollo. Es decir, la misma
cantidad de participantes dio una clasificación alta al sabor actual
y al sabor a especias. L hipótesis alternativa es que las
calificaciones son más altas para el sabor a especias. De manera
más formal:
• H0: No hay diferencia entre las calificaciones de los dos sabores
• H1: Las calificaciones son más altas para el sabor a especias.
• Se trata de una prueba de una cola. ¿Por qué? Porque Bernie
Frick, propietario de Fricker´s, cambiara el sabor de pollo solo si
los participantes en la muestra indican que la población de
clientes le gusta más el nuevo sabor. El nivel de significancia de la
prueba es de 0.05, como se indicó antes.
• Los pasos para realizar la prueba de rangos con signo de Wilcoxon
son los siguientes:
31
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
1.-Calcule la diferencia entre la clasificación del sabor a especias y la
del sabor actual de cada participante. Por ejemplo, la clasificación
del sabor a especias de Arquette fue de 14, y el del sabor actual de
12, por lo que la diferencia es 2. Para Jones, la diferencia es -8,
determinada mediante 8-16, y para Fish es 4, determinada por 6-2.
Las diferencias de todos los participantes aparecen en la columna 4
de la tabla 9.
2.-En el análisis posterior solo se considera las diferencias positivas y
negativas. Es decir, si la diferencia entre las calificaciones del sabor
es 0, ese participante se elimina de un análisis posterior y se reduce
el número de integrantes de la muestra. De la tabla 3 Hall, el sexto
participante, califico el sabor a especias y al actual con 16. Por lo
tanto, se lo elimina del estudio y se reduce del tamaño útil de la
muestra 15 a 14.
3.-Determina las diferencias absolutas de los valores calculados en
la columna 4. Recuerde que la diferencia absoluta ignora el signo de
la diferencia. Las diferencias absolutas se muestras en la columna 5.
32
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
33
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
Tabla 9 Clasificación de los sabores actual y de especias
34
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
5.- A cada clasificación asignada en la columna 6 se le da el mismo
signo que tenía en la diferencial original, y los resultados se
reportan en la columna 7. Por ejemplo, el segundo participante
tiene una diferencia de -8 y un rango de 6. Este valor se coloca en la
sección R de la columna 7.
6.- Se obtiene los totales de las columnas R+ y R-. Las sumas de los
rangos positivos es 75 y la suma de los rangos negativos es 30. La
menor de las dos sumas de los rangos se utilizan como el estadístico
de prueba y se conoce como T.
En los Contenidos Semanales en la tabla aparecen los valores
críticos de la prueba de rangos con el signo Wilcoxon una parte de
esa tabla se muestra a continuación. La fila α se utiliza para pruebas
de una cola, y la fila 2α para pruebas de dos colas. En este caso
desea demostrar que a los clientes les gusta más el sabor a
especias, que es una prueba de una cola, por lo que seleccionar la
fila α. Elija el nivel de significancia 0.05 y valla haya la columna con
el encabezado 0.05. Baje por la columna hasta la fila donde n es 14.
35
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
(Recuerde que una persona califico igual a ambos sabores y fue
eliminada del estudio; entonces, el tamaño útil de la muestra es 14)
El valor de la intersección es 25, por lo que el valor critico es 25. La
regla de decisión es realizar la hipótesis nula si el menor de los
totales de los rangos es 25 o menor. El valor que se obtuvo de la
tabla de valores T de Wilcoxon es el valor mayor en la región de
rechazo. En otras palabras la regla de decisión es rechazar H0 si la
menor de las dos sumas de los rangos es 25 o menor. En este caso,
la suma menor de rango es 30; en consecuencia, la decisión es no
rechazar la hipótesis nula no es posible concluir que hay una
diferencia entre las calificaciones del sabor actual el sabor a
especias. El señor Frick no demostró que los clientes prefirieran el
nuevo sabor el probable que continúe el sabor actual y no cambie el
sabor a especias.
36
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
Tabla de la prueba de rangos con el signo Wilcoxon.
37
Prueba de rangos con signo de
Wilcoxon para muestras dependientes.
Prueba de Wilcoxon de la suma de rangos de muestras
independientes.
Un procedimiento diseñado para determinar si dos muestras
independientes provienen de poblaciones equivalentes es la prueba
de Wilcoxon de la suma de rangos.
Esta prueba se basa en la suma de los rangos. Los datos se clasifican
como si las observaciones fueran parte de una sola muestra. Si la
hipótesis nula es verdadera los rangos tendrán una distribución casi
uniforme entre las dos muestras, y la suma de los rangos de las dos
muestras será casi igual. Es decir los rangos bajo, medio y alto
deberán dividirse en forma equitativa entre las dos muestras. Si la
hipótesis alternativa es verdadera una de las muestras tendrá
mayor cantidad de rangos bajos y por lo tanto una suma de rangos
menor. La otra muestra tendrá mayor cantidad de rangos altos, por
lo que la suma de rangos será mayor. Si cada una de las muestras
contiene al menos 8 observaciones se utiliza la distribución normal
estándar como estadístico de prueba.
38
Prueba de rangos con signo de
Wilcoxon para muestras dependientes.
La fórmula es:
𝒏 (𝒏 +𝒏 +𝟏)
𝑾− 𝟏 𝟏 𝟐
𝟐
Prueba de Wilcoxon de la suma de rangos. Z=
𝒏𝟏 𝒏𝟐 (𝒏𝟏 + 𝒏𝟐 +𝟏)
𝟏𝟐
Donde:
• “n1” Es el número de observaciones de la primera muestra.
• “n2” Es el número de observaciones de la segunda muestra.
• “W” Es la suma de los rangos de la primera población.
Ejemplo
Dan Thompson, presidente de CEO Airlines hace poco observó un aumento
del número de personas que no llegan a tomar los vuelos que salen de
Atlanta. Su interés principal es determinar si hay más personas que no se
presentan a tomar los vuelos que salen de Atlanta en comparación con los
vuelos que salen de Chicago. Una muestra de 9 vuelos de Atlanta y 8 de
Chicago aparecen en la tabla 10. Con un nivel de significancia de 0.05. ¿Es
posible concluir que hay más personas que no se presentan a tomar los
vuelos que salen de Atlanta? 39
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
Tabla 10 Número de personas que no se presentan a los vuelos
programados.
Atlanta Chicago
11 13
15 14
10 10
18 8
11 16
20 9
24 17
22 21
25
40
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
Solución Si el número de personas que no se presentan a tomar los
vuelos es el mismo en Atlanta que en Chicago, ambas poblaciones
serán casi iguales. Si el número de personas que no se presentan no
es el mismo, las dos sumas de los rangos serán muy diferentes.
Thompson considera que más personas pierden su vuelo en Atlanta.
Por ello, es adecuada una prueba de una cola, con la región de
rechazo en la cola derecha. Las hipótesis nulas y alternativas son:
H’0: la distribución de la población de personas que no se
presentan en la misma o menor en Atlanta que en Chicago.
H1: La distribución de la población de las personas que no se
presentan en Atlanta es mayor que en Chicago.
41
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
El estadístico de una prueba sigue la distribución normal de
estándar con un nivel de significancia de 0.05, se determina de la
tabla del Área bajo la curva normal en los contenidos semanales,
que el valor crítico de Z es 1.65. La hipótesis nula se rechaza si el
valor calculado de z es mayor de 1.65.
La hipótesis alternativa es que hay más personas que no se
presentan en Atlanta, lo que significa que la distribución se ubica a
la derecha de la distribución de Chicago. Los detalles de la
asignación del rango aparecen en la tabla 11.
Se clasificaron las clasificaciones de ambas muestras como si fueran
un solo grupo. El vuelo de Chicago con solo 8 personas que no se
presentaron tuvo la menor cantidad, por lo que se le asignó un
rango de 1, al vuelo de Chicago con 9 personas ausentes, un rango
de 2, y así en lo sucesivo. El vuelo de Atlanta con 25 personas que no
se presentaron es el mayor por lo que se le asigna el mayor rango.
17.
42
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
También hay dos cosas de rangos iguales. Hay un vuelo de Atlanta y
un vuelo de Chicago a los que no se presentaron 10 personas, y dos
vuelos de Atlanta con 11 asientos vacíos. ¿Cómo manejar estos
empates? La solución es promediar los rangos y asignar el rango
promedio a los dos vuelos. En el caso que comprende 10 personas
que no se presentaron los rangos comprendidos son 3 y 4 seguidos
la medida de estos rangos es 3.5, por lo que se asigna un rango de
3.5 a los dos vuelos de Atlanta y Chicago con 10 personas que no se
presentaron.
43
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
Tabla 11 Números de rango de las personas que no se presentaron a los
vuelos programados.
44
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
45
Prueba de rangos con signo de Wilcoxon
para muestras dependientes.
Conclusión
Al emplear la prueba de Wilcoxon de la suma de los rangos, pueden
enumerar las poblaciones en cualquier orden. Sin embargo una vez que haga
una elección, W deben ser la suma de los rangos identificados como la
población 1. Si, en el ejemplo de las personas que no se presentaron a los
vuelos, la población de Chicago se identificara como número 1, la dirección de
la hipótesis alternativa cambiaria, pero el valor absoluto de Z aun sería el
mismo.
H0: la distribución de la población de personas que no se presentaron en
Chicago es la misma o mayor que en Atlanta
H1: la distribución de la población de personas que no se presentaron en
chicago es menor que en Atlanta
El valor calculado de Z es -1.49, determinado por:
𝒏 (𝒏 +𝒏 +𝟏) 𝟖(𝟖+𝟗+𝟏)
𝑾− 𝟏 𝟏 𝟐 𝟓𝟔.𝟓−
𝟐 𝟐
Z= = = -1.49
𝒏𝟏 𝒏𝟐 (𝒏𝟏 +𝒏𝟐+𝟏) 𝟖 (𝟗)(𝟖+𝟗+𝟏)
𝟏𝟐 𝟏𝟐
De esta manera podemos observar que no hay una diferencia entre los
números habituales de personas que no se presentaron en Chicago y Atlanta.
46
Prueba de Kruskal-Wallis: análisis de la
varianza por rangos
Prueba de Kruskal-Wallis: análisis de la
varianza por rangos
El procedimiento del análisis de la varianza (ANOVA) se proporciona
con la igualdad de las medidas de varias poblaciones. Los datos
estaban en un nivel de intervalo o razón. Asimismo, se supuso que
las poblaciones seguían la distribución normal de probabilidad y que
sus desviaciones estándar eran iguales. ¿Qué sucede si los datos
están a escala ordinal y/o las poblaciones no siguen la distribución
normal? En 1952, W. H. Kruskal y W.A. Wallis reportaron una prueba
no paramétrica que solo requería datos de nivel original
(clasificados). No se requieren suposiciones acerca de la forma de
las poblaciones. A la prueba se le conoce como análisis en una
dirección de la varianza por rangos de Kruskal-Wallis.
Para la aplicación de la prueba de Kruskal-Wallis, las muestras
seleccionadas de la población deben ser independientes. Por
ejemplo, si selecciona o entrevista muestrea de tres grupos
(Ejecutivos, personal y supervisores) las respuestas de un grupo
(ejecutivos) no deben por ningún motivo influir en las respuestas de
los demás.
47
Prueba de Kruskal-Wallis
Para calcular el estadístico de prueba de Kruskal-Wallis,
Ejemplo
El hospital System of the Carolinas opera 3 hospitales en el área de Great
Charlotte: St. Luke´s Memorial, en el lado poniente de la ciudad, Swedish
Medical Center, al sur, y el Piedmont Hospital en el lado este. El director
de administración está preocupado acerca del tiempo de espera de los
pacientes con lesiones de tipo deportivo, que no ponen en peligro la vida,
y que llegan durante las tardes entre semana a los tres hospitales.
Específicamente, ¿existe una diferencia en los tiempos de espera de los 3
hospitales?
48
Prueba de Kruskal-Wallis
Solución
Para averiguarlo, el director
selecciona una muestra
aleatoria de pacientes en los
3 hospitales y determino el
tiempo, en minutos, en que
entra un hospital y en el
momento en que termina el
tratamiento. Los tiempos en
minutos se reportan a
continuación.
Tabla 12 Tiempos de espera
de los pacientes en sala de
urgencias en el Sistema Tabla 12
Hospitalarios de las
Carolinas
49
Prueba de Kruskal-Wallis
51
Prueba de Kruskal-Wallis
Con k-1 grados de libertad (k es el número de poblaciones), donde:
∑ R1, ∑ R2……. ∑ Rk Son las sumas de los rangos de la muestra 1, 2,…..k
respectivamente.
n1, n2,……nk Son los tamaños de las muestras 1, 2,……k respectivamente.
n, es el numero combinado de observaciones de todas las muestras.
53
Prueba de Kruskal-Wallis
𝟏𝟐 ∑𝑹𝟏 𝟐 ∑𝑹𝟐 𝟐 ∑𝑹𝟑 𝟐
H= + + −𝟑 𝒏+𝟏
𝒏 𝒏+𝟏 𝒏𝟏 𝒏𝟐 𝒏𝟑
Como el valor calculado de H (5.38) es menor que el valor critico de 5.991, no se rechaza la hipótesis nula. No
hay evidencia suficiente para concluir que existe una diferencia entre tiempos de espera en los tres hospitales.
54
Correlación por orden de Rango
Correlación por orden de Rango
Recuerde que”r” mide la asociación entre dos variables en escala de un
intervalo o de razón. Por ejemplo, el coeficiente de correlación reporta el
vínculo entre el salario de ejecutivos y sus años de experiencia, o entre el
número de millas de un embarque tiene que recorrer y el número de días que
tarda en llegar a su destina.
Charles Spearman, estadístico británico, introdujo una medida para
correlacionar datos de nivel ordinar. Esta medida permite describir la relación
entre conjunto de datos clasificados. Por ejemplo, a dos miembros del
personal en la Office of Research de la University of the Valley se les pide
clasificar 10 propuestas de investigación de la facultad con fines de
recolección de fondos. Aquí interesa estudiar la relación entre las
clasificaciones de los dos miembros del personal. Es decir, ¿los empleados
califican las mismas propuestas como las más valiosas y las menos valiosas
para los fondos? El coeficiente de correlación para rangos de Spearman,
denotado 𝑟𝑠 proporciona una medida de la asociación.
55
Correlación por orden de Rango
El coeficiente de correlación por rangos se calcula mediante la siguiente
formula.
Coeficiente de correlación por rangos de Spearman
𝟔 ∑𝒅 𝟐
𝒓𝒔 = 𝟏 −
𝒏(𝒏𝟐 − 𝟏)
Donde
d es la diferencia entre los rangos por cada par.
n es el número de observaciones por pares.
Al igual que el coeficiente de correlación, el coeficiente de correlación por
rangos adopta cualquier valor en un intervalo de −1.00 𝑎 1.00. Un valor
de −1.00 indica una correlación negativa perfecta, y un valor de 1.00 una
correlación positiva perfecta entre los rangos. Una correlación de rangos de
0 indica que no hay asociación entre los rangos. Correlaciones de rangos de
− 0.84 𝑦 0.80 indican una asociación fuerte, pero la primera indica una
relación inversa entre los rangos, y la última, una relación directa.
56
Correlación por orden de Rango
Ejemplo
Lorranger Plasttics, Inc, contrata a gerentes en capacitación provenientes de
universidades de Estados Unidos. A cada aspirante el reclutador le asigna
una calificación durante la entrevista en el campus. Esta calificación es una
expresión del potencial futuro y varia de 0 a 200; la calificación más alta
indica más potencial. Si el aspirante es contratado por Lorrenger, ingresa a
un programa de capacitación en la planta. Al terminarlo, recibe otra
calificación compuesta con base en pruebas, opiniones de líderes de grupo y
de personal de entrenamiento, cuyo rango va de 0 a 100. Nuevamente, una
calificación más alta indica un mayor potencial.
57
Correlación por orden de Rango
Ejemplo
La calificación en el campus y las calificaciones en la planta aparecen en la
tabla 14.
.
58
Correlación por orden de Rango
Ejemplo
Solución
59
Correlación por orden de Rango
60
Correlación por orden de Rango
El coeficiente de correlación de rangos de Spearman utiliza los rangos de
las calificaciones y no las calificaciones en sí. Esto es correlaciona los
rangos y no las calificaciones lo cual reduce el efecto de que la puntuación
que obtuvo Bobko sea mucho más alta que las otras. }
61
Correlación por orden de Rango
Se sigue el mismo procedimiento
con las calificaciones obtenidas en
la planta. De nuevo Ginny Alvear
obtuvo la puntuación más baja, 36
así que su rango en la planta es 1.
Hubo 3 puntuaciones de 45. La
media de los 3 rangos empatados
es 3 calculado mediante (2+3+4)/3
= 3 así que cada uno de estos
reclutas recibió un rango en la
planta de 3 en la tabla 15 se
ilustra lo anterior además, de los
cálculos para determinar rs.
Tabla 15 cálculos necesarios para
determinar el coeficiente de
correlación de rangos (rs).
62
Correlación por orden de Rango
63
Conceptos básicos del marco
Conceptos básicos del marco
Series de Tiempo
64
Componentes de la serie de tiempo
Componentes de la serie de tiempo
65
1. Tendencia secular: La tendencia secular o tendencia a largo plazo de una serie es por
lo común el resultado de factores a largo plazo. En términos intuitivos, la tendencia de
una serie de tiempo caracteriza el patrón gradual y consistente de las variaciones de la
propia serie, que se consideran consecuencias de fuerzas persistentes que afectan el
crecimiento o la reducción de la misma, tales como: cambios en la población, en las
características demográficas de la misma, cambios en los ingresos, en la salud, en el
nivel de educación y tecnología. Las tendencias a largo plazo se ajustan a diversos
esquemas. Algunas se mueven continuamente hacía arriba, otras declinan, y otras más
permanecen igual en un cierto período o intervalo de tiempo.
2. Variación estacional: El componente de la serie de tiempo que representa la
variabilidad en los datos debida a influencias de las estaciones, se llama componente
estacional. Esta variación corresponde a los movimientos de la serie que recurren año
tras año en los mismos meses (o en los mismos trimestres) del año poco más o menos
con la misma intensidad. Por ejemplo: Un fabricante de albercas inflables espera poca
actividad de ventas durante los meses de otoño e invierno y tiene ventas máximas en
los de primavera y verano, mientras que los fabricantes de equipo para la nieve y ropa
de abrigo esperan un comportamiento anual opuesto al del fabricante de albercas.
66
3. Variación cíclica: Con frecuencia las series de tiempo presentan
secuencias alternas de puntos abajo y arriba de la línea de tendencia que
duran más de un año, esta variación se mantiene después de que se han
eliminado las variaciones o tendencias estacional e irregular. Un ejemplo de
este tipo de variación son los ciclos comerciales cuyos períodos recurrentes
dependen de la prosperidad, recesión, depresión y recuperación, las cuales
no dependen de factores como el clima o las costumbres sociales.
4. Variación Irregular: Esta se debe a factores a corto plazo, imprevisibles y
no recurrentes que afectan a la serie de tiempo. Como este componente
explica la variabilidad aleatoria de la serie, es impredecible, es decir, no se
puede esperar predecir su impacto sobre la serie de tiempo. Existen dos
tipos de variación irregular: a) Las variaciones que son provocadas por
acontecimientos especiales, fácilmente identificables, como las elecciones,
inundaciones, huelgas, terremotos. b) Variaciones aleatorias o por
casualidad, cuyas causas no se pueden señalar en forma exacta, pero que
tienden a equilibrarse a la larga.
67
Tendencia de una serie
Estadística no paramétrica
69
Prueba de los Signos
Ho: "No hay preferencia determinada hacia alguna de las dos opciones"
H1:"Si existe una preferencia hacia alguna de las dos opciones ofrecidas"
71
Paso 6. Determinar la región de
Aceptación de Rechazo y la
región de rechazo.
Esto se realiza mediante el nivel
de significancia y la Tabla de
Valores bajo la curva normal
(valores de Z).
Con este valor se busca en el
cuerpo de la Tabla de Valores
Bajo la Curva Normal y se
encuentra el valor de Z que
determina la frontera entre las
Regiones de Aceptación y de
Rechazo.
72
Paso 7.
Calcular Z
Para encontrar el valor de la Z
calculada se necesitan los siguientes
datos:
n = número de signos positivos =
número de éxitos = número de veces
que una persona elige una opción
particular
μ=0.50 n
73
Paso 8. Ubicar el valor calculado de Z
Si Z calculada es mayor al valor Z de Tablas o si Z es menor al valor de -Z
de Tablas, entonces Z calculada cae en la Región de Rechazo y por
consecuencia se rechaza la Hipótesis Nula; en caso contrario, la Z
calculada cae en la Región de Aceptación y la Hipótesis Nula se acepta.
74
Prueba de los rangos con signo de Wilcoxon
76
Bibliografía
Bibliografía
Antonio., N. (2010). Probabilidad y estadística para ingeniería
y ciencias. Mc Graw Hill.
Devore, J. L. (2004). Probabilidad y estadística para ingeniería
y ciencias. Thomson.
Mendenhall, W. (1997). Probabilidad y estadística para
ingeniería y ciencias. Pearson.
Navidi, W. C. (2006). Estadística para ingenieros. Mc Graw
Hill. .
Ojeda, R. L. (2007). Probabilidad y Estadística básica para
ingenieros. Ecuador.Sánchez., O. (2000). Probabilidad y
Estadística. México: Mc Graw Hill. .
77