746 A Aplicada Trabajo Final-Yonira Marcano
746 A Aplicada Trabajo Final-Yonira Marcano
746 A Aplicada Trabajo Final-Yonira Marcano
ANALISIS COMPARATIVO DE
Preparado por
YONIRA MARCANO
C.I. No. XXXXXXXX
Asignatura
ESTADÍSTICA APLICADA (CÓD. 746)
Enero, 2011
RESUMEN
Para lo cual se consideraran las siguientes variables como objeto de estudio: X1: Total de ventas
acreditadas al vendedor. X2: Antigüedad del vendedor en la empresa, en meses. X3: Potencial de
mercado, ventas totales en unidades en el territorio de ventas. X4: Gastos de publicidad en el
territorio. X5: Participación en el mercado, promedio ponderado de los últimos cuatro años.
X6: Cambio de participación en el mercado en los últimos cuatro años. X7: Número de cuentas
asignadas a los vendedores. X8: Trabajo, índice ponderado basado en compras anuales y
concentración de cuentas. X9: Evaluación general del vendedor sobre ocho aspectos de su
desempeño, en una escala del 1 al 7. X10: Zona, división geográfica del país. X11: Territorio,
división estratégica de cada Zona.
INDICE
RESUMEN.................................................................................................................... 2
INTRODUCCION........................................................................................................... 5
METODOLOGIA............................................................................................................ 8
RESULTADOS............................................................................................................... 9
DISCUSIÓN................................................................................................................18
.................................................................................................................................. 26
CONCLUSIONES.........................................................................................................27
REFERENCIAS............................................................................................................ 29
INTRODUCCION
EL procedimiento de análisis de varianza, o ANOVA, utiliza una sola variable numérica medida
en los elementos de la muestra para probar la hipótesis nula de igualdad de medias poblaciones.
Esta variable puede ser de intervalo o de escala de razón.
Esta variable algunas veces recibe el nombre de variable dependiente, en especial en programas
de computadora que ejecutan ANOVA.
La hipótesis nula que se prueba en el ANOVA es que la mayoría de las poblaciones que se
estudian (al menos tres) tienen el mismo valor de la media para la variable dependiente. Las
hipótesis nula y alternativa en ANOVA son:
Ho: β1 = β2 … = βk = 0
HA: Al menos un no es cero
En la prueba ANOVA, se reúne evidencia muestral de cada población bajo estudio y se usan
estos datos para calcular un estadístico muestral. Después se consulta la distribución muestral
apropiada para determinar si el estadístico muestral contradice la suposición de que la hipótesis
nula es cierta. Si es así, se rechaza; de lo contrario no se rechaza.
Hemos de recordar que en la prueba de varianza con dos poblaciones se calcula el coeficiente de
las varianzas muestrales y se verifica con arreglo a la distribución F. Este procedimiento también
se usa en ANOVA para probar la hipótesis nula.
Se supone que todas las poblaciones bajo estudio tienen la misma varianza, sin importar si sus
medias son iguales. Es decir, ya sea que las poblaciones tengan medias iguales o distintas, la
variabilidad de los elementos alrededor de su respectiva media es la misma. Si esta suposición es
válida, entonces se puede probar la hipótesis nula de las medias poblacionales iguales usando la
distribución F.
El paso final en ANOVA requiere el cálculo de un cociente con la estimación del método entre en
el numerador y la estimación del método dentro en el denominador.. Si la hipótesis nula de que
las poblaciones tienen la misma media es cierta, esta razón consiste en dos estimaciones
separadas de la misma varianza poblacional y, se puede obtener la distribución F si las medias
poblacionales no son iguales. La estimación en el numerador estará inflada, y el resultado será un
cociente muy grande. Al consultar la distribución F no es probable que un cociente tan grande
haya sido obtenido de esta distribución, y la hipótesis nula será rechazada. La prueba de hipótesis
en ANOVA es de una cola: un estadístico F grande llevará al rechazo de la hipótesis nula y un
valor pequeño hará que no se rechace.
Para los efectos del presente informe se estudiarán 60 observaciones suministradas por la
empresa, a fin de conocer los factores que afectan el volumen de las ventas en cada territorio, se
procederá a estudiar la correlación existente entre las variables independientes, un coeficiente de
intercepción y una variable dependiente. Las variables objeto de estudio son:
El estudio de las mismas permitirán lograr determinar los factores de mayor incidencia en las
ventas.
Para efectos de este estudio se requiere la elaboración de tres (3) modelos, previamente
establecidos, a saber:
Modelo 1
X1 = b2 X2 + b3 X3 + b 4 X 4 + b5 X5 + b6 X6 + b7 X7 + b8 X8 + b9 X9 + b10 X10 + b11 X11
Modelo 2
X1 = b2 X2 + b3 X3 + b 4 X 4 + b9 X9 + b10 X10 + b11X11
Modelo 3
X1 = b2 X2 + b7 X7 + b8 X8
• Inferir sobre los parámetros poblacionales para cada uno de los modelos.
• Realizar un análisis de residuos para cada uno de los modelos propuestos.
• Determinar cuál de los modelos propuestos explica mejor la variable dependiente.
POBLACION:
Los datos del problema nos suministran claramente la muestra a ser evaluada. En este caso las 60
observaciones suministradas por la empresa
INSTRUMENTOS/MATERIALES:
PROCEDIMIENTO:
Se cargó en el programa Excel los datos suministrados por la Universidad para efectos de este
trabajo. Se corrió el mismo y se obtuvieron los índices y coeficientes, así como la tabla ANOVA
para efectuar el análisis de Varianza, los estadísticos "t" para cada una de las variables
independientes y determinar el valor significativo de cada una de ellas, los valores del parámetro
"F" y el valor crítico de "F" el cual nos indica el mínimo de grado de confianza con el que se
aceptarán los modelos a estudiar..
RESULTADOS
De acuerdo a los coeficientes obtenidos con la herramienta Excel indicados en las tablas adjunta,
podemos determinar la ecuación de regresión para cada uno de los modelos.
Modelo 1:
Estadísticas de la regresión
Coeficiente de correlación
0,62465428
múltiple
Coeficiente de Ecuación de la Regresión
0,39019297
determinación R^2 X1 = b2 X2 + b3 X3 + b 4 X 4 + b5 X5 + b6 X6 + b7 X7 + b8 X8 + b9 X9 + b10 X10 + b11 X11
R^2 ajustado 0,26574256 Y = -345,99+ 4,82+0,01+0,08+21,79-12,64+4,09+32,61+214,49+165,90-51,88
Error típico 1186,45691
Observaciones 60
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor crítico de
F
libertad cuadrados los cuadrados F
3,1353288
Regresión 10 44135397,5 4413539,75 0,00361348
5
Residuos 49 68976320,4 1407680,01
Total 59 113111718
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0,60215002
Coeficiente de Ecuación de la Regresión
determinación R^2 0,36258465 X1 = b2 X2 + b3 X3 + b 4 X 4 + b9 X9 + b10 X10 + b11X11
R^2 ajustado 0,29042442 Y = 558,03+5,42+0,01+0,10+206,51+208,35-64,07
Error típico 1166,34525
Observaciones 60
Análisis de Varianza
Grados de Suma de Promedio de Valor crítico de
F
libertad cuadrados los cuadrados F
5,0247159
Regresión 6 41012572,5 6835428,75 0,0003841
3
Residuos 53 72099145,3 1360361,23
Total 59 113111718
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0,5221449
Coeficiente de Ecuación de la Regresión
determinación R^2 0,2726353
X1 = b2 X2 + b7 X7 + b8 X8
R^2 ajustado 0,23366933
Ŷ = 658,30+4,78+8,47+54,02
Error típico 1212,09287
Observaciones 60
Análisis de Varianza
Valor
Grados de Suma de Promedio de los
F crítico de
libertad cuadrados cuadrados
F
Regresi 6,996754 0,0004440
3 30838246,7 10279415,6
ón 41 3
Residuo
56 82273471,2 1469169,13
s
Total 59 113111718
El análisis de varianza, como técnica de lo que trata es: si se está estudiando la característica
cuyos valores dependen de varias clases de efectos que operan simultáneamente, poder decidir si
tales efectos son debido al azar o si realmente son diferentes. Para la aplicación de ANOVA son
esenciales tres (3) suposiciones:
Y = -345,99+ 4,82+0,01+0,08+21,79-12,64+4,09+32,61+214,49+165,90-51,88
Estos resultados muestran que si varia la Antigüedad del vendedor en la empresa en una unidad,
manteniéndose fijos los valores de las otras variables, la variable dependiente Total de Ventas
acreditadas al vendedor variará en 4,83; igual criterio se aplicaría a las demás variables.
El error típico o error estándar de estimación mide los grados de dispersión de los valores Yi
alrededor del plano de regresión, entre menos dispersión se presente, más pequeño será el Se
(error estándar), y más preciso será el modelo en su predicción y pronostico, los resultados
obtenidos para el Modelo 1 muestran un resultado de 1186,456914.
A un nivel de significancia del 5%, con grados de libertad g.l. = n-k-1 = 60-10-1 = 49, el valor
t0.05,49 es de 2.0116 (con la ayuda de la Tabla F, hallamos el valor para 40 y 60 g.l, e
interpolamos); la regla de decisión es “no rechazar si t ± 2.0116; de lo contrario rechazar”.
Se extrae que con un nivel del 95% de confianza que la variable 2, contribuyen
significativamente a la explicación del modelo, debido a que este caso la hipótesis se rechaza; por
otra parte, podemos estar seguros en un 95% que las demás variables contribuyen
significativamente con la explicación del modelo, pues en estos casos la hipótesis no es
rechazada.
La gráfica para este modelo:
Modelo 2
Y = 558,03+5,42+0,01+0,10+206,51+208,35-64,07
El grado de relación que existe entre las variables, podemos decir que si aumentamos en una
unidad la variable Antigüedad del vendedor en la empresa (X2), dejando fijos el valor de las otras
variables independientes, la variable dependiente X1 variará 5.4255281; el mismo razonamiento
se puede aplicar a las otras variables independientes, de acuerdo a los resultados mostrados en la
Tabla.
El error típico o error estándar de estimación muestra un resultado de 1166,34525, una leve
diferencia con el Modelo 1, mostrando éste ultimo una menor dispersión, esto no puede ser
concluyente pues esto tan solo muestra el grado de dispersión que tienen o presentan los datos.
Con un grado de confianza del 95% que sólo la variable X2, contribuye significativamente en la
explicación del modelo, al ser rechazada, mientras que las variables independientes de este
modelo (X3, X4, X9, X10 Y X11), no contribuyen significativamente a la explicación del modelo
al ser aceptada su hipótesis. Las gráficas de los residuales para este modelo:
Modelo 3
X1 = b2 X2 + b7 X7 + b8 X8
Ŷ = 658,30+4,78+8,47+54,02
La ecuación de regresión múltiple muestra la relación que existe entre las variables
independientes y la variable dependiente, de cómo el comportamiento o variación de las primeras
afectan a la segunda, los resultados nos dicen que si la variable Antigüedad del vendedor en la
empresa (X2) aumenta en una unidad, manteniendo fijo el valor de las otras variables
independientes, la variable dependiente Evaluación del Vendedor (X9) modificará su valor en
4.78494529.
El error típico o error estándar de estimación es de 1212.09287; si verificamos los resultados
podemos afirmar que la dispersión de datos más alta la posee el Modelo 3, esto no debe tomarse
como concluyente por cuanto debemos seguir evaluando la ecuación.
Con un grado de significancia del 5%, con grados de liberta g.l. = n-k-1 = 60-3-1 = 56, con la
ayuda de la Tabla T, para la distribución t buscamos el valor para t 0,05;56 el cual es 2.0042;
construimos la regla de decisión “no rechazar si t ± 2.0042; de lo contrario rechazar la hipótesis”
Podemos inferir, por los resultados obtenidos, con un 95% de seguridad que las variables X2 y
X7, contribuyen significativamente a la explicación del modelo, pues para estas variables la
hipótesis nula se rechaza, mientras que la variable independiente X8 no contribuyen con la
explicación del modelo, pues las hipótesis no fueron rechazadas.
• De menor a mayor los modelos objeto de estudio de acuerdo al grado de dispersión de los datos,
el cual es medido a través del error típico o error estándar de estimación:
Modelo 1 1186,4
6
Modelo 2 1166.3
5
Modelo 3 1212.0
9
• La relación que existe entre las variables independientes y la variable dependiente, medidas a
través del coeficiente de determinación múltiple, mostramos los hallazgos realizados, según el
modelo:
0.39019297 ó
Modelo 1
39.02%
Modelo 2 0.36258465 ó 36.26%
Modelo 3 0.2726353 ó 27.26%
Se muestra que el Modelo 1 es el que presenta mayor grado de relación entre las variables
independientes y la variable dependiente.
El análisis de varianza o ANOVA demostró que de los Modelos 1, 2 y 3, por lo menos una de sus
variables independientes tienen relación con la variable dependiente, el mayor valor F lo tiene el
Modelo 3 con 6.99675441; seguido del Modelo 2 con 5.02471593; y por último el Modelo 1 con
3.13532885.
Se concluye que el Modelo 1 explica con mayor fuerza la relación entre las variables
independientes y la variable dependiente, ya que presenta una mayor significancia en predecir el
comportamiento de la variable dependiente.
REFERENCIAS
Prof. Gilberto Noguera (2007) Elementos de Excel para la Estadística – Guía de Excel
Venezuela: Universidad Nacional Abierta