A5.Lanas - Wendy.estadistica Basica
A5.Lanas - Wendy.estadistica Basica
A5.Lanas - Wendy.estadistica Basica
Actividad 5
Usted debe realizar la Actividad en estas hojas asegurándose de que el archivo electrónico resultante
sea legible. El formato de entrega es pdf, con el nombre del archivo
A5.Apellido.Nombre.EstadísticaBásica.pdf. Si se incumple estas reglas su trabajo tendrá una
calificación de cero.
Debe utilizar esfero o un lápiz que permita leer con facilidad el procedimiento realizado. También
podría usar word pero DEBE enviar en pdf.
Se requiere que usted muestre su trabajo y esfuerzo en cada problema de esta actividad. Se aplican las
siguientes reglas:
Ejercicio 1:
Conteste las siguientes preguntas. Sustente adecuadamente las mismas e indique la bibliografía que
tomó como referencia para la misma:
• Linealidad
En síntesis, la regresión lineal hace referencia que existe una relación lineal entre la variable
independiente, x, y la variable independiente, y.
La linealidad es una de las condiciones fundamentales para efectuar este tipo de análisis, la
cual puede ser confirmada mediante la visualización gráfica de los datos, donde se espera
que los puntos se alineen de manera más o menos lineal. Si los puntos no siguen este patrón,
entonces se debería evaluar la aplicación de una técnica de regresión no lineal. Además, la
linealidad puede ser comprobada mediante pruebas estadísticas, como el test de normalidad,
que se usa para comprobar si los residuos (diferencia entre los valores medidos y los valores
predichos) siguen una distribución normal.
Desarrollo
La forma más fácil de detectar si se cumple esta suposición es crear un diagrama de dispersión de x vs.
y. Esto le permite ver visualmente si existe una relación lineal entre las dos variables. Si parece que los
puntos en la gráfica podrían caer a lo largo de una línea recta, entonces existe algún tipo de relación
lineal entre las dos variables y esta suposición se cumple.
Diagramas de dispersión
➢ Parece haber una relación clara entre x e y, pero no una relación lineal:
Otros métodos:
Estadística Básica Actividad 5- Página 4 de 7 03/08/2023
➢ Gráfico de residuos: Después de ajustar el modelo de regresión, se realiza un gráfico de
dispersión de los residuos (diferencia entre los valores observados y los valores predichos) en
el eje vertical frente a los valores ajustados en el eje horizontal. Si los puntos en el gráfico de
residuos no muestran un patrón claro y se dispersan alrededor de cero, eso indica que el
supuesto de linealidad se mantiene. Si hay un patrón o tendencia en el gráfico, podría ser una
señal de que el modelo no es lineal.
➢ Prueba estadística: También se puede utilizar pruebas estadísticas para evaluar la linealidad.
Una de las pruebas más comunes es la prueba de Jarque-Bera, que evalúa si los residuos siguen
una distribución normal, lo que es consistente con la linealidad. Sin embargo, es importante
tener en cuenta que esta prueba solo detecta no linealidad en la relación funcional, no en la
relación entre las variables.
Si se crea un gráfico de dispersión de los valores de x e y, y se observa que hay no una relación
lineal entre las dos variables, entonces se tiene dos opciones:
2. Agregar otra variable independiente al modelo. Por ejemplo, si la gráfica de x vs. y tiene una
forma parabólica, entonces podría tener sentido agregar 𝑥 2 como una variable independiente
adicional en el modelo.
El siguiente supuesto de la regresión lineal hace referencia a cuando los residuos son independientes.
Esto es más relevante cuando se trabaja con datos de series de tiempo. Idealmente, no se requiere que
haya un patrón entre residuos consecutivos. Por ejemplo, los residuos no deberían crecer
constantemente a medida que pasa el tiempo.
Desarrollo:
La forma más sencilla de probar si se cumple este supuesto es observar un gráfico de serie de tiempo
residual, que es un gráfico de residuos frente al tiempo. Idealmente, la mayoría de las autocorrelaciones
residuales deberían caer dentro de las bandas de confianza del 95% alrededor de cero, que se ubican
en aproximadamente +/- 2-sobre la raíz cuadrada de n, donde n es el tamaño de la muestra. También
se puede probar formalmente si se cumple esta suposición mediante la prueba de Durbin-Watson.
➢ Prueba de Durbin-Watson
El Test de Durbin-Watson permite evaluar si existe autocorrelación en una Regresión lineal, sea
simple o múltiple. Con ello se pretende ver si los valores presentan algún tipo de dependencia
en cuanto al orden de obtención.
Estadística Básica Actividad 5- Página 5 de 7 03/08/2023
La fórmula e hipótesis para este test es la siguiente:
∑𝑛𝑡=2(𝑒𝑡 − 𝑒𝑡−2 )2
𝑑=
∑𝑛𝑡=1(𝑒𝑡 )2
𝑒𝑡 : 𝑟𝑒𝑠𝑖𝑑𝑢𝑜 𝑎 𝑡𝑖𝑒𝑚𝑝𝑜 𝑡
𝑑 < 𝑑𝐿 : 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
𝑑 > 𝑑𝑢 : 𝑛𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
𝑑𝐿 ≤ 𝑑 ≤ 𝑑𝑢 : 𝑡𝑒𝑠𝑡 𝑛𝑜 𝑑𝑒𝑐𝑖𝑠𝑖𝑣𝑜
Dependiendo de la naturaleza de la forma en que se infringe esta suposición, tiene algunas opciones:
1. Para una correlación serial positiva, se debe considerar agregar rezagos de la variable
dependiente y / o independiente al modelo.
2. Para una correlación serial negativa, se debe verificar que ninguna de sus variables esté sobre
diferenciada.
3. Para la correlación estacional, se debe considerar agregar variables ficticias estacionales al
modelo.
• Normalidad
Esta condición se refiere a la distribución normal de los residuos (diferencia entre los valores
observados y los valores estimados). Es decir, se espera que los residuos sigan una
distribución normal con una media cero y varianza constante.
Desarrollo:
o Los residuos se apartan claramente de una línea diagonal recta, lo que indica que no
siguen la distribución normal
1. Primero, se verifica que los valores atípicos no tengan un gran impacto en la distribución. Si
hay valores atípicos presentes, hay que asegurarse de que sean valores reales y que no sean
errores de entrada de datos.
2. Después se puede aplicar una transformación no lineal a la variable independiente y / o
Estadística Básica Actividad 5- Página 7 de 7 03/08/2023
dependiente. Los ejemplos comunes incluyen tomar el logaritmo, la raíz cuadrada o el recíproco
de la variable independiente y / o dependiente.
El siguiente supuesto de la regresión lineal se refiere a que los residuos tienen varianza constante en
cada nivel de x. Esto se conoce como homocedasticidad. Cuando este no es el caso, se dice que los
residuos sufren de heterocedasticidad.
Se refiere a la igualdad de varianzas de los errores o residuos en todos los niveles de la variable
independiente. En otras palabras, supone que la dispersión de los residuos es constante en todo el rango
de los valores de la variable predictora.
Desarrollo
Para detectar el supuesto de homocedasticidad en regresión lineal, puedes seguir algunos métodos:
➢ Gráfico de residuos vs. valores ajustados: Realiza un gráfico de dispersión donde en el eje
vertical se representen los residuos (diferencia entre los valores observados y los valores
predichos) y en el eje horizontal los valores ajustados (los valores de "y" predichos por el
modelo). Si los puntos en el gráfico están dispersos aleatoriamente alrededor de una línea
horizontal, eso sugiere homocedasticidad. Sin embargo, si la dispersión de los puntos aumenta
o disminuye a medida que aumentan los valores ajustados, eso indica heterocedasticidad, es
decir, la violación del supuesto de homocedasticidad.
➢ Pruebas estadísticas: También se puede utilizar pruebas estadísticas formales para evaluar la
homocedasticidad, como la prueba de Breusch-Pagan o la prueba de White. Estas pruebas
evalúan si la varianza de los residuos es constante o si está relacionada con alguna variable
independiente.
Si se detecta que hay violación del supuesto de homocedasticidad, es posible que las estimaciones y los
intervalos de confianza obtenidos a partir del modelo de regresión lineal sean sesgados o ineficientes.
En ese caso, puede ser necesario considerar transformaciones de las variables o utilizar métodos
alternativos de regresión que no asuman la homocedasticidad, como la regresión robusta.
Estadística Básica Actividad 5- Página 8 de 7 03/08/2023
Ejercicio 2:
Uno de los problemas más desafiantes que enfrenta el campo del control de la contaminación del agua
lo representa la industria de la peletería, ya que sus desechos son químicamente complejos; se
caracterizan por valores elevados de la demanda de oxígeno químico, sólidos volátiles y otras medidas
de contaminación. Considere los datos experimentales de la tabla a continuación, que se obtuvieron de
33 muestras de desechos tratados químicamente en un estudio realizado en Virginia Tech. Se
registraron los valores de x, la reducción porcentual de los sólidos totales, y de y, el porcentaje de
disminución de la demanda de oxígeno químico:
DIAGRAMA DE DISPERSIÓN
60
Reducción de la demanda de oxígeno (%)
50
40
30
20
10
0
0 10 20 30 40 50 60
Redducción de sólidos (%)
Estadística Básica Actividad 5- Página 9 de 7 03/08/2023
b) Explique qué tipo de relación se establece entre las dos variables mostradas.
Existe una alta correlacción postiva, debido a que el valor de "y" se incrementa a medida que el valor
de "x" aumenta. Se puede observar de igual manera que, en su mayoría los datos no se encuentran
dispersos y tienden hacia la derecha como lo muestra la dirección hacia la que se dirige la linea de
tendencia, esto confirma lo anteriormente dicho es decir que los datos tienen una alta correlación
positiva.
Ejercicio 3:
3.1. Se aplica un examen de colocación de estadística a todos los estudiantes de nuevo ingreso en una
universidad pequeña. Se negará la inscripción al curso regular de estadística a los estudiantes que
obtengan menos de 35 puntos y se les enviará a clases de regularización. Se registraron los resultados
del examen de colocación y las calificaciones finales de 20 estudiantes que tomaron el curso regular:
DIAGRAMA DE DISPERSIÓN
100
90
80
Calificación en el curso
70
60
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
Examen de colocación
Estadística Básica Actividad 5- Página 10 de 7 03/08/2023
b) Calcule la ecuación de la recta de regresión para predecir las calificaciones en el curso a partir
de las del examen de colocación.
Desarrollo:
Datos
N= 20
𝑥= 55,5 (media de x) 3080,25
= 58,65 (media de y)
2
∑ 𝑥2 − = (𝑥 − 𝑥)
= − 𝑥2 2
2
00 − = (𝑥 − ) Se remplazan los valores
= − 0 0
0
2 = 274,75 − =0 (𝑥 − )
− =0 𝑥 − 26,14
Calculo de la covarianza
=0 𝑥 − 26,14 +
∑𝑥
= −𝑥 =0 𝑥
0
= −
0
= 129,425
La ecuación de la recta de regresión representa que, por cada unidad de aumento en "x" (examen de
colocación), "y" ( calificación en el curso) aumenta en 0,47 unidades o puntos.
El término constante 32,51 indica el valor de "y" cuando "x" es igual a cero.
Estadística Básica Actividad 5- Página 11 de 7 03/08/2023
c) Grafique la recta en el diagrama de dispersión
DIAGRAMA DE DISPERSIÓN
100
90
=0 𝑥
80
Calificación en el curso
70
60
50
40
30
20
10
0
0 20 40 60 80 100
Examen de colocación
Existe una baja correlacción postiva, debido a que el valor de "x" aumenta ligeramente a medida que el
valor de "y" aumenta. Se puede observar de igual manera que, en su mayoría los datos se encuentran
dispersos y tienden hacia la derecha como lo muestra la dirección hacia la que se dirige la linea de
tendencia, esto confirma lo anteriormente dicho es decir que los datos tienen una baja correlación
positiva.
d) Si la calificación aprobatoria mínima fuera 60 puntos, ¿qué calificación en el examen de
colocación se debería usar en el futuro como criterio para negar a los estudiantes el derecho de
admisión a ese curso?
=0 𝑥
60 = 0 𝑥
60 -0,47 x = -27,49 58,357176
-0,47 x = − 0
-0,47 x = − Se multiplica por (-1) para cambiar de signo
x= 0
x=
3.2. Calcule e interprete los coeficientes de determinación y correlación para las siguientes
calificaciones de 6 estudiantes seleccionados al azar: (Considere que la variable independiente es la
calificación en matemáticas)
Estadística Básica Actividad 5- Página 12 de 7 03/08/2023
x y
Calificación
N° de ( − ) (𝑥 − 𝑥) 2 ( − )2
en Calificación (𝑥 − 𝑥) (𝑥 − 𝑥) ( − )
estudiantes
matemática en Inglés
s
1 70 74 -7,33333333 -5,33333333 39,11111111 53,7777778 28,4444444
2 92 84 14,6666667 4,66666667 68,44444444 215,111111 21,7777778
3 80 63 2,66666667 -16,3333333 -43,55555556 7,11111111 266,777778
4 74 87 -3,33333333 7,66666667 -25,55555556 11,1111111 58,7777778
5 65 78 -12,3333333 -1,33333333 16,44444444 152,111111 1,77777778
6 83 90 5,66666667 10,6666667 60,44444444 32,1111111 113,777778
Sumatoria 115,3333333 471,333333 491,333333
2
∑(𝑥 − 𝑥)( − ) ∑(𝑥 − 𝑥) 2 ∑( − )
= = =
= =
=
𝑟= 𝑟2 = 0,05743879 5,74%
Para obtener el coeficiente
de determinación se eleva al
𝑟= cuadrado el coeficiente de
( )( 0 )
determinación de Pearson
𝑟= 0,23966392
Se tiene un coeficiente de correlación de 0,24 aproximadamente, lo que indica tener una correlación
positiva débil entre las calificaciones de los estudiantes en matemáticas y inglés.
Un coeficiente de determinación del 5,74 % indica que solo alrededor del 5.74% de la variabilidad en la
variable dependiente (calificación en inglés) puede ser explicada por la variabilidad de la variable
independiente (calificación en matemáticas).
Ejercicio 4:
El departamento de ventas de una afamada empresa ha solicitado se lleve a cabo un conjunto de
ensayos experimentales con un horno para determinar una forma de predecir el tiempo de cocción, y,
a diferentes niveles de ancho del horno, x1, y a diferentes temperaturas, x2, y así poder tener un
parámetro extra para mejorar los índices de venta del horno. Se registraron los siguientes datos
Ecuaciones normales
= 𝑛𝑎 1 1 2 2 = 0𝑎 1 2
Se remplaza
los valores = 𝑎 1 2
2
1 =𝑎 1 1 1 2 1 2
en las
ecuaciones = 𝑎 1 2
2
2 =𝑎 2 1 1 2 2 2
= 0𝑎 1 2
= 𝑎 1 2
= 𝑎 1 2
= 0𝑎 1 2 = 𝑎 1 2 = 𝑎 1 2
− 0𝑎 = 1 2 − 𝑎= 1 2 − 𝑎= 1 2−
− 0𝑎 = 1 2− (-1) − 𝑎= 1 2− (-1) 𝑎=− 1 − 2 (-1)
𝑎 = −( 1 2 − ) 0 𝑎 = −( 1 2 − ) 𝑎 = (− 1 − 2 )
𝑎 = (− 1− 2 ) 0 𝑎 = (− 1 − 2 ) 3 𝑎=− 0 1− 2 0
1 𝑎=− 1− 2 2 𝑎=− 1 − 2
1 2=
0 1 2=
1 2 = 0 1 2 =
1 =( − 2) 1= ( − 2) 0
1 =( − 2) 1= 0− 2
1 = 0 − 2
Igualar las dos ecuaciones
0 − 2 = 0− 2
− 2 2 = 0- 0
0,54 2 =
2 = 0
1 = 0 − ( 0 )
1 =
𝑎=− ( )− ( 0 )
𝑎=0
=𝑎 1 1 2 2
=0 1 0 2
1) El valor de "a" es 0,5799, lo que quiere decir que es el punto de intersección con el eje, cuando los
valores de las variables X1 y X2 es decir los niveles de ancho y las temperaturas del horno son igual a
0.
2) La relación entre Y, tiempo de cocción y X1, ancho del horno se interpreta por la relación b1 que es
igual a 2,71 lo que significa que en este modelo, por cada incremento que se de en el ancho del horno,
se incrementa el tiempo de cocción en 2,71 en promedio.
3) La relación entre Y, tiempo de cocción y X2, temperatura del horno se interpreta por la relación b2
que es igual a 2,04 lo que significa que en este modelo, por cada incremento que se de en la temperatura
del horno, se incrementa el tiempo de cocción en 2,04 en promedio.