TP7 U7 MLineal
TP7 U7 MLineal
TP7 U7 MLineal
TP 7: Modelo Lineal
2023
7.1 En una compañı́a de seguros se desea determinar el grado de relación que existe entre el
ingreso familiar y el monto del seguro de vida del jefe de familia. Con base a una muestra
aleatoria de 18 familias, se obtuvo la siguiente información (en miles de dólares).
Ingreso 45 20 40 40 47 30 25 20 15
Seguro de vida 70 50 60 50 90 55 55 35 40
Ingreso 35 40 55 50 60 15 30 35 45
Seguro de vida 65 75 105 110 120 30 40 65 80
a. Razone cuál es la relación que tiene sentido estudiar ¿el monto del seguro de vida del
jefe de familia en función del ingreso familiar o este en función del seguro de vida del jefe
de familia? Realice un gráfico de dispersión (con R) para la relación elegida. ¿Sugiere el
mismo una relación lineal?
b. Obtenga la estimación del modelo utilizando R y grafique la recta de regresión del modelo
ajustado sobre el gráfico de dispersión realizado en el inciso anterior. Interprete los
coeficientes en el contexto de problema.
c. Halle la media estimada del seguro de vida cuando el ingreso familiar es de 55000 dólares.
A partir de este resultado, obtenga el residuo bajo el modelo estimado.
d. Estime a partir de un intervalo y bajo un nivel de confianza del 95% la media del seguro
de vida por cada mil dólares que se incrementa el ingreso familiar. Interprete el resultado.
e. Plantee las hipótesis adecuadas para determinar si existe evidencia para afirmar que los
ingresos no afectan el monto del seguro de vida del jefe familiar. Utilice el resultado
obtenido en el inciso anterior. Verifique lo resuelto a partir del p-valor. Use un nivel
de significación del 5%.
f. ¿Puede evaluar gráficamente todos los supuestos hechos en este modelo?, justifique su
respuesta. Realice gráficos adecuados sobre los residuos, para analizar los supuestos del
modelo. Decida sobre los mismos.
## R
ingreso = c(45,20,40,40,47,30,25,20,15,35,40,55,50,60,15,30,35,45)
seguro = c(70,50,60,50,90,55,55,35,40,65,75,105,110,120,30,40,65,80)
7.2 El director de la oficina de personal de una firma constructora desea saber si el puntaje
obtenido a través de un test para evaluar la destreza en determinado tipo de trabajo, dentro
de la empresa, puede ser pronosticada teniendo en cuenta la edad de los empleados que ya
tienen cierta experiencia en ese tipo de trabajo. La tabla de abajo da la información de una
muestra aleatoria de 15 empleados. (Adaptación del libro Business Statistics de Daniel et al.
1989, p. 577).
1
Estadı́stica I
destreza 15 15 21 28 30 35 40 35 30 45 50 60 45 60 50
edad 21 15 22 24 25 25 26 34 25 38 44 51 39 54 55
## R
destreza = c(15,15,21,28,30,35,40,35,30,45,50,60,45,60,50)
edad = c(21,15,22,24,25,25,26,34,25,38,44,51,39,54,55)
7.3 Considere la situación planteada en el problema anterior y tenga en cuenta el mismo conjunto
de valores observados.
a. Ajuste un modelo lineal sin ordenada (Ajuste 2) al origen y evalúe la bondad del modelo
ajustado.
Una medida que nos puede ayudar a evaluar el ajuste realizado es el coeficiente de
determinación, R2 , a la expresión,
Pn 2
i=1 Ê(Yi ) − Ȳ
R 2 = Pn 2 ; 0 ≤ R2 ≤ 1
i=1 Yi − Ȳ
Tiempo 10 20 30 40 50 60 70
Número de dı́as 35 28 23 20 18 15 13
a. Plantee un modelo lineal adecuado, esto es indique las variables consideradas cuáles son
aleatorias o no y el modelo que propone como ajuste. Escriba la ecuación de la recta
estimada del modelo lineal. Interprete en términos del problema la estimación de sus
parámetros.
b. Encuentre el valor estimado del tiempo medio de fabricación para un operario que lleva
25 dı́as fabricando artı́culos de ese tipo. Realice el gráfico de dispersión de los datos y la
recta ajustada. Y represente gráficamente este resultado obtenido en este inciso.
c. Evalúe los supuestos del modelo lineal planteado en el inciso (a). Fundamente su análisis.
d. Analice si es adecuado pensar que el tiempo de fabricación del artı́culo depende lineal-
mente de la cantidad de dı́as que hace que el operario se dedica a la fabricación de dicho
artı́culo. Utilice un nivel de significación del 5%.
e. Más aún, se supone que a medida que aumentan en una unidad el tiempo (en dı́as) de-
dicado a la fabricación de ese artı́culo, el operario se demora menos tiempo en realizarlo.
Planteé las hipótesis estadı́sticas adecuadas para analizar este supuesto y pruébelas uti-
lizando un intervalo de confianza con un nivel del 95%.
f. También se supone que un empleado que recién se dedica a fabricar estos artı́culos (em-
pleado sin experiencia) se demora más de 100 minutos en elaborar el artı́culo. Planteé
las hipótesis adecuadas y escriba el test con un estadı́stico de prueba teniendo en cuenta
un nivel de significación del 5%. Concluya en términos del problema.
## R
tiempo = c(10,20 ,30 ,40 ,50,60,70)
dias = c(35 ,28, 23, 20 ,18 ,15 ,13)
7.5 De acuerdo a la información suministrada por la Encuesta Nacional de Gastos de los Hoga-
res (ENGH) (2004/2005) suministrada por INDEC. Y observando en particular el gasto del
consumo de los hogares por región de residencia y finalidad del gasto. Se busca comparar el
porcentaje de gasto del hogar dedicado a alimentos y bebidas en relación al porcentaje de
hogares sin agua corriente en la vivienda. Los datos se muestran en la tabla siguiente,
a. Se piensa que aumenta el porcentaje de pobreza (que en este caso se mide teniendo en
cuenta hogares sin agua corriente en la vivienda) en los hogares a medida que se destina
mayor % del ingreso a rubro alimentación. Plantee un modelo lineal adecuado. Escriba
la ecuación de la recta estimada del modelo lineal. Interprete en términos del problema
la estimación de sus parámetros.
b. Analice si es adecuado pensar que el porcentaje de pobreza en los hogares depende
linealmente del porcentaje dedicado al rubro alimentos y bebidas en el hogar. Establezca
las hipótesis adecuadas para hacer este análisis, justifique su planteo y utilice un nivel
de significación del 5%. Concluya en términos del problema.
c. Exprese el valor del coeficiente de determinación e interprete en el contexto del problema.
d. Evalúe los supuestos del modelo lineal planteado en el inciso anterior. Y concluya sobre
lo observado en los gráficos.
## R
gastos = c(31.5,34.0,40.2,38.8,33.6,30.2)
sinagua = c(6.57,6.62,22.76,29.33,8.74,4.19)
7.6 Se llevó a cabo un estudio para determinar la relación lineal entre el número de años de
experiencia (x) y el salario anual en miles de dólares (Y ) para una profesión en particular en
una región geográfica dada. Se seleccionó una muestra aleatoria de 17 personas, las cuales
ejercen esta profesión, y se obtuvo la siguiente información
x Y x Y
13 26.1 27 36.0
16 33.2 25 36.5
30 36.1 7 21.4
2 16.5 15 31.0
8 26.4 13 31.4
31 36.4 6 19.1
19 33.8 10 24.6
20 36.5 4 19.8
1 16.9
a. Se estima una media de salario anual para una persona que tiene 5 años de experiencia
de 21170 dólares.
b. Se puede asumir con un nivel de significación del 5% que a medida que el profesional
tiene mayor experiencia, su salario anual aumenta en más de 500 dólares.
c. Se estima con un 95% de confianza que para un profesional sin experiencia la media de
salario anual se encontrará entre 15149 dólares y 20583 dólares.
d. Con un nivel de significación del 5% la media de salario anual para un profesional sin
experiencia se considera que es mayor a 17000 dólares.
e. El Colegio que agrupa a los profesionales asegura que no hay una relación lineal estadı́-
sticamente significativa actualmente, que relacione ambas variables.
f. Haciendo un análisis gráfico sobre los errores del ajuste realizado para evaluar el supuesto
de normalidad, se podrı́a pensar en no descartar este supuesto. Para concluir se deberı́a
hacer un test adecuado.
## R
experiencia = c(13,16,30,2,8,31,19,20,1,27,25,7,15,13,6,10,4)
salario = c(26.1,33.2,36.1,16.5,26.4,36.4,33.8,36.5,16.9,36.0,36.5,21.4,31.0,31.4,
19.1,24.6,19.8)
Ejercicios Complementarios
7.7 Una cadena de restaurantes de comida rápida decide llevar a cabo un experimento para medir
la influencia sobre las ventas del gasto en publicidad. En ocho regiones del paı́s, se realizaron
diferentes variaciones relativas en el gasto en publicidad, comparando con el año anterior y, se
observaron las variaciones en los niveles de ventas resultantes (ambos incremento expresados
en %). La tabla adjunta muestra los resultados.
a. Plantee un modelo lineal adecuado y ajuste el modelo entre variables mencionadas. Es-
criba el modelo de regresión estimado e interprete las estimaciones de los parámetros en
el contexto del problema.
b. ¿Puede asumir con un nivel de significación del 1%, de que si no se invierte en publi-
cidad, se espera que el incremento promedio de las ventas no sea nulo? Y a un nivel
de significación del 5%? Plantee las hipótesis que respondan a la pregunta planteada y
utilice p-valor para concluir al respecto.
c. El encargado de un local de esa cadena afirma que si no se invierte en publicidad, el
incremento promedio de las ventas se incrementa en menos del 4%. A partir de los
datos que se han obtenido, ¿es correcto lo que piensa el encargado? Plantee las hipótesis
convenientes, utilice un estadı́stico de prueba adecuado para dar respuesta con un nivel
de significación del 10%.
d. A partir de un intervalo de confianza adecuado, discuta si se puede asumir que el valor
esperado del incremento de las ventas aumenta, por cada unidad que se incremente en
publicidad. Asuma un nivel de confianza del 99%.
e. Teniendo en cuenta el resultado anterior el encargado de un local de esa cadena sospecha
que el valor esperado del incremento de las ventas aumenta en menos de 0.60 unidades,
por cada unidad que se incremente en publicidad. Corrobore esta sospecha con un nivel
de significación del 10%.
## R
gasto = c(0,4,14,10,9,8,6,1)
ventas = c(2.4,7.2,10.3,9.1,10.2,4.1,7.6,3.5)
7.8 El director de una empresa piensa que la demanda de un producto que él comercializa depende
únicamente del precio de venta al público (en miles de dólares). Para estudiar la demanda de
este producto pretende estimar el siguiente modelo:
Año 2010 2011 2012 2013 2014 2015 2016 2017 2018
Cantidad vendida 10 12 13 14 15 17 21 22 20
Precio 19 18 15 15 14 14 13 12 13
## R
cantidad = c(10,12,13,14,15,17,21,22,20)
precio = c(19,18,15,15,14,14,13,12,13)
7.9 El departamento de pinturas de una cadena de almacenes tiene dos realizaciones principales
por año, una en primavera y otra en otoño. El precio de la pintura se reduce del 10 al 30 por
ciento durante esas realizaciones.
La administración de la firma ha decidido reducir el precio de la pintura en un 50 por ciento
para las ventas de primavera. Aunque la casa no va a tener utilidades sobre las pinturas
con tales descuentos, el gerente de mercadeo de la firma espera generar con ello suficiente
tráfico como para asegurarse unas fuertes utilidades en las ventas de artı́culos auxiliares como
brochas, cinta protectora y diluyente para pinturas. Un nuevo empleado del departamento
de contabilidad está deseoso de impresionar al comité de fijación de polı́ticas de precios. Uno
de los miembros del comité ha dicho que: nada molesta más a un cliente que ir a una venta
de realización y encontrar que el artı́culo anunciado se agotó. Debemos estar seguros de
tener una provisión excesiva o sino nuestros costos de inventario, por todo el verano, van
a contrarrestar las utilidades de la realización. Se solicita a cada miembro del comité que
examine la información de realizaciones pasadas para presentar al comité en pleno la semana
siguiente. Los datos son los siguientes, dispuestos según el nivel de descuento.
% descuento 10 12 14 16 18 20 24 26 28 30
% variación ventas 3.43 3.75 4.52 5.13 5.94 6.35 7.99 8.23 9.46 10.35
## R
descuento = c(10,12,14,16,18,20,24,26,28,30)
ventas = c(3.43,3.75,4.52,5.13,5.94,6.35,7.99,8.23,9.46,10.35)
7.10 Suponga que el gerente de una cadena de servicios on-line de entrega de paqueterı́a desea
desarrollar un modelo para predecir las ventas semanales (miles de dólares) para las tiendas
individuales basado en el número de clientes que realizan compras por este sistema. Se selec-
cionó una muestra aleatoria entre todas las tiendas de la cadena y se observaron los siguientes
resultados;
clientes 907 926 506 741 789 889 874 510 529 420
ventas 11.20 11.05 6.84 9.21 9.42 10.08 9.45 6.73 7.24 6.12
clientes 679 872 924 607 452 729 794 844 1010 621
ventas 7.63 9.43 9.46 7.64 6.92 8.95 9.33 10.23 11.77 7.41
a. Plantee un modelo lineal adecuado para explicar las ventas en función del número de
clientes que compran por este sistema. Escriba la ecuación estimada del modelo e inter-
prete sus coeficientes en términos del problema.
b. Analice si es adecuado pensar que el modelo ajustado anteriormente es un buen modelo
para explicar las ventas en función del número de clientes que compran por este sistema.
Plantee hipótesis estadı́sticas adecuadas e indique cuál es el mı́nimo nivel de significación
para aceptar el modelo como adecuado.
c. Se piensa que independientemente del número de clientes que en la tiendan compran por
este sistema, las ventas semanales tienen una base de partida por diversos motivos, que
son significativamente positivas. Analice mediante una prueba de hipótesis estadı́stica
adecuada, si esta afirmación puede considerarse válida bajo un nivel de confianza del
95% y concluya en términos del problema.
d. Encuentre el valor medio estimado de las ventas para tiendas en las que compran 600
clientes por el sistema mencionado.
e. Analice gráficamente los supuestos del modelo ajustado y exprese una conclusión al
respecto.
## R
clientes = c(907,926,506,741,789,889,874,510,529,420,679,872,924,607,452,729,794,
844,1010,621)
ventas = c(11.20,11.05,6.84,9.21,9.42,10.08,9.45,6.73,7.24,6.12,7.63,9.43,9.46,
7.64,6.92,8.95,9.33,10.23,11.77,7.41)
7.11 Se piensa en ajustar un modelo lineal entre dos variables en una muestra de paı́ses desarrollados
entre el Consumo anual de vino tinto (en litros por habitante), x cuando no se exceden los 12
litros al año y no se tienen otros factores de riesgo) y el Número de muertes por enfermedad
cardı́aca, por cada 100.000 habitantes(Y ). Los resultados se muestran en la tabla siguiente:
consumo 2.5 1.8 3.9 1.9 2.9 0.8 2.4 6.5 2.9 1.6
muertes 211 167 167 266 131 227 191 86 220 207
consumo 0.8 5.8 9.1 1.3 0.8 1.2 0.7 2.7 7.9
muertes 297 155 71 285 211 199 300 172 107
a. Ajuste y represente (en forma aproximada) el modelo lineal estimado de acuerdo a los
resultados obtenidos con R. Interprete los coeficientes en términos del problema.
b. Si en un año particular no se consume vino tinto, ¿puede afirmarse que el número medio
de muertes por enfermedades cardı́acas es significativamente distinta de cero? Responda
a esta pregunta planteando hipótesis estadı́sticas adecuadas y usando un nivel de signifi-
cación que usted considere apropiado. Escriba también el test para estas hipótesis.
c. ¿Es el modelo lineal ajustado con R un buen modelo para estos datos? Responda a esta
pregunta utilizando el menor tamaño de error de tipo I que pueda considerar y señale si
este tamaño del error lo considera razonable.
d. Se piensa que por cada litro adicional anual de consumo de vino tinto, el número medio
de muertes por enfermedades cardı́acas disminuye en más de 16. Plantee las hipótesis
estadı́sticas adecuadas para probar esta afirmación y analı́celas utilizando un intervalo
de confianza del 95%.
e. Escriba el valor estimado del número medio de muertes cuando se consumen 5 litros de
vino tinto al año.
f. Explore sobre los residuos del modelo ajustado, el cumplimiento de los supuestos consid-
erados sobre los errores del modelo. Concluya al respecto.
## R
consumo = c(2.5,1.8,3.9,1.9,2.9,0.8,2.4,6.5,2.9,1.6,0.8,5.8,9.1,1.3,0.8,1.2,0.7,2.7,
7.9)
muertes = c(211,167,167,266,131,227,191,86,220,207,297,115,71,285,211,199,300,172,
107)