Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

TP7 U7 MLineal

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

ESTADÍSTICA I - CP/LA

TP 7: Modelo Lineal
2023

7.1 En una compañı́a de seguros se desea determinar el grado de relación que existe entre el
ingreso familiar y el monto del seguro de vida del jefe de familia. Con base a una muestra
aleatoria de 18 familias, se obtuvo la siguiente información (en miles de dólares).

Ingreso 45 20 40 40 47 30 25 20 15
Seguro de vida 70 50 60 50 90 55 55 35 40
Ingreso 35 40 55 50 60 15 30 35 45
Seguro de vida 65 75 105 110 120 30 40 65 80
a. Razone cuál es la relación que tiene sentido estudiar ¿el monto del seguro de vida del
jefe de familia en función del ingreso familiar o este en función del seguro de vida del jefe
de familia? Realice un gráfico de dispersión (con R) para la relación elegida. ¿Sugiere el
mismo una relación lineal?
b. Obtenga la estimación del modelo utilizando R y grafique la recta de regresión del modelo
ajustado sobre el gráfico de dispersión realizado en el inciso anterior. Interprete los
coeficientes en el contexto de problema.
c. Halle la media estimada del seguro de vida cuando el ingreso familiar es de 55000 dólares.
A partir de este resultado, obtenga el residuo bajo el modelo estimado.
d. Estime a partir de un intervalo y bajo un nivel de confianza del 95% la media del seguro
de vida por cada mil dólares que se incrementa el ingreso familiar. Interprete el resultado.
e. Plantee las hipótesis adecuadas para determinar si existe evidencia para afirmar que los
ingresos no afectan el monto del seguro de vida del jefe familiar. Utilice el resultado
obtenido en el inciso anterior. Verifique lo resuelto a partir del p-valor. Use un nivel
de significación del 5%.
f. ¿Puede evaluar gráficamente todos los supuestos hechos en este modelo?, justifique su
respuesta. Realice gráficos adecuados sobre los residuos, para analizar los supuestos del
modelo. Decida sobre los mismos.

## R
ingreso = c(45,20,40,40,47,30,25,20,15,35,40,55,50,60,15,30,35,45)
seguro = c(70,50,60,50,90,55,55,35,40,65,75,105,110,120,30,40,65,80)

7.2 El director de la oficina de personal de una firma constructora desea saber si el puntaje
obtenido a través de un test para evaluar la destreza en determinado tipo de trabajo, dentro
de la empresa, puede ser pronosticada teniendo en cuenta la edad de los empleados que ya
tienen cierta experiencia en ese tipo de trabajo. La tabla de abajo da la información de una
muestra aleatoria de 15 empleados. (Adaptación del libro Business Statistics de Daniel et al.
1989, p. 577).

1
Estadı́stica I
destreza 15 15 21 28 30 35 40 35 30 45 50 60 45 60 50
edad 21 15 22 24 25 25 26 34 25 38 44 51 39 54 55

a. Observe bajo un gráfico de dispersión si la destreza depende en forma lineal de la edad


de empleados.
b. Obtenga la recta de regresión lineal. Interprete el valor estimado de los coeficientes de
la recta en términos del problema. Y además, sobre el gráfico de dispersión que realizó
antes represente gráficamente la recta de regresión ajustada.
c. En este problema en particular, ¿tiene sentido ajustar un modelo lineal con ordenada
al origen significativamente distinta de cero? Planteé las hipótesis estadı́sticas que le
permitan dar respuesta a este interrogante y concluya al respecto utilizando un nivel de
significación del 10%.
d. El director de la oficina de personal sospecha que conforme aumenta la edad del empleado,
aumenta significativamente el puntaje obtenido evaluando la destreza en esa tarea en
particular. Pruebe esta sospecha con un nivel de significación de 1% y concluya al
respecto.
e. Considerando el modelo completo ajustado, es decir, con ordenada al origen y pendiente
(Ajuste 1). Si el empleado tienen 35 años, ¿qué puntaje esperado de destreza tendrá en
ese trabajo en particular? Y si el empleado tienen 58 años, ¿se puede estimar el puntaje
esperado de destreza que tendrá en ese trabajo en particular? Justifique su respuesta.

## R
destreza = c(15,15,21,28,30,35,40,35,30,45,50,60,45,60,50)
edad = c(21,15,22,24,25,25,26,34,25,38,44,51,39,54,55)

7.3 Considere la situación planteada en el problema anterior y tenga en cuenta el mismo conjunto
de valores observados.

a. Ajuste un modelo lineal sin ordenada (Ajuste 2) al origen y evalúe la bondad del modelo
ajustado.
Una medida que nos puede ayudar a evaluar el ajuste realizado es el coeficiente de
determinación, R2 , a la expresión,
Pn  2
i=1 Ê(Yi ) − Ȳ
R 2 = Pn 2 ; 0 ≤ R2 ≤ 1
i=1 Yi − Ȳ

y r2 a un valor estimado de R2 . El coeficiente de determinación es la proporción de la


varianza total de la variable explicada por la regresión. El coeficiente de determinación,
también llamado R cuadrado, refleja la bondad del ajuste de un modelo a la variable
que pretender explicar. Escriba e interprete el resultado del coeficiente de determinación
para cada uno de los modelos ajustados.
b. Evalúe los supuestos de ambos modelos ajustados (Ajuste 1 y 2) y concluya el respecto.
c. Bajo el modelo seleccionado evalúe si por cada año que aumenta la edad, puede aceptarse
un aumento en el puntaje medio de la destreza superior a una unidad. Planteé las
hipótesis estadı́sticas que le permitan hacer esta evaluación y pruébelas utilizando el
método del estadı́stico de prueba. Asuma un nivel de significación del 5% y concluya al
respecto.

TP7: Modelo Lineal 2


Estadı́stica I

7.4 En un nuevo proceso artesanal de fabricación de cierto artı́culo se ha considerado interesante ir


anotando periódicamente el tiempo (medido en minutos) que se utiliza para realizar una pieza
y el número de dı́as que el operario lleva en dicho proceso de fabricación. Con ello, se pretende
analizar cómo los operarios van adaptándose al nuevo proceso, mejorando paulatinamente su
ritmo de producción conforme van adquiriendo más experiencia en él. A partir de las cifras
recogidas, que aparecen en la tabla adjunta, se decide ajustar un modelo lineal que explique el
tiempo de fabricación en función del número de dı́as que se lleva trabajando con ese método.

Tiempo 10 20 30 40 50 60 70
Número de dı́as 35 28 23 20 18 15 13

a. Plantee un modelo lineal adecuado, esto es indique las variables consideradas cuáles son
aleatorias o no y el modelo que propone como ajuste. Escriba la ecuación de la recta
estimada del modelo lineal. Interprete en términos del problema la estimación de sus
parámetros.
b. Encuentre el valor estimado del tiempo medio de fabricación para un operario que lleva
25 dı́as fabricando artı́culos de ese tipo. Realice el gráfico de dispersión de los datos y la
recta ajustada. Y represente gráficamente este resultado obtenido en este inciso.
c. Evalúe los supuestos del modelo lineal planteado en el inciso (a). Fundamente su análisis.
d. Analice si es adecuado pensar que el tiempo de fabricación del artı́culo depende lineal-
mente de la cantidad de dı́as que hace que el operario se dedica a la fabricación de dicho
artı́culo. Utilice un nivel de significación del 5%.
e. Más aún, se supone que a medida que aumentan en una unidad el tiempo (en dı́as) de-
dicado a la fabricación de ese artı́culo, el operario se demora menos tiempo en realizarlo.
Planteé las hipótesis estadı́sticas adecuadas para analizar este supuesto y pruébelas uti-
lizando un intervalo de confianza con un nivel del 95%.
f. También se supone que un empleado que recién se dedica a fabricar estos artı́culos (em-
pleado sin experiencia) se demora más de 100 minutos en elaborar el artı́culo. Planteé
las hipótesis adecuadas y escriba el test con un estadı́stico de prueba teniendo en cuenta
un nivel de significación del 5%. Concluya en términos del problema.

## R
tiempo = c(10,20 ,30 ,40 ,50,60,70)
dias = c(35 ,28, 23, 20 ,18 ,15 ,13)

7.5 De acuerdo a la información suministrada por la Encuesta Nacional de Gastos de los Hoga-
res (ENGH) (2004/2005) suministrada por INDEC. Y observando en particular el gasto del
consumo de los hogares por región de residencia y finalidad del gasto. Se busca comparar el
porcentaje de gasto del hogar dedicado a alimentos y bebidas en relación al porcentaje de
hogares sin agua corriente en la vivienda. Los datos se muestran en la tabla siguiente,

Región del paı́s G.BA Pam. NO NO(1) Cuyo Patag


gastos (%) 31.5 34.0 40.2 38.8 33.6 30.2
hogares sin agua (%) 6.57 6.62 22.76 29.33 8.74 4.19
Fuente:INDEC, Encuesta Nacional de Gastos de los Hogares 2004/2005.

TP7: Modelo Lineal 3


Estadı́stica I

La composición de las regiones es la siguiente:


Gran Buenos Aires: Ciudad de Buenos Aires y 24 partidos del Gran Buenos Aires.
Pampeana: provincia de Buenos Aires (exceptuando los 24 partidos del GBA), Santa Fe,
Entre Rı́os, Córdoba y La Pampa.
Noroeste (1): Catamarca, La Rioja, Jujuy, Salta, Santiago del Estero y Tucumán.
Noreste: Corrientes, Chaco, Formosa y Misiones.
Cuyo: Mendoza, San Juan y San Luis.
Patagonia: Chubut, Rı́o Negro, Santa Cruz y Tierra del Fuego.

a. Se piensa que aumenta el porcentaje de pobreza (que en este caso se mide teniendo en
cuenta hogares sin agua corriente en la vivienda) en los hogares a medida que se destina
mayor % del ingreso a rubro alimentación. Plantee un modelo lineal adecuado. Escriba
la ecuación de la recta estimada del modelo lineal. Interprete en términos del problema
la estimación de sus parámetros.
b. Analice si es adecuado pensar que el porcentaje de pobreza en los hogares depende
linealmente del porcentaje dedicado al rubro alimentos y bebidas en el hogar. Establezca
las hipótesis adecuadas para hacer este análisis, justifique su planteo y utilice un nivel
de significación del 5%. Concluya en términos del problema.
c. Exprese el valor del coeficiente de determinación e interprete en el contexto del problema.
d. Evalúe los supuestos del modelo lineal planteado en el inciso anterior. Y concluya sobre
lo observado en los gráficos.

## R
gastos = c(31.5,34.0,40.2,38.8,33.6,30.2)
sinagua = c(6.57,6.62,22.76,29.33,8.74,4.19)

7.6 Se llevó a cabo un estudio para determinar la relación lineal entre el número de años de
experiencia (x) y el salario anual en miles de dólares (Y ) para una profesión en particular en
una región geográfica dada. Se seleccionó una muestra aleatoria de 17 personas, las cuales
ejercen esta profesión, y se obtuvo la siguiente información

x Y x Y
13 26.1 27 36.0
16 33.2 25 36.5
30 36.1 7 21.4
2 16.5 15 31.0
8 26.4 13 31.4
31 36.4 6 19.1
19 33.8 10 24.6
20 36.5 4 19.8
1 16.9

Responda Verdadero (V) o Falso (F). Justifique su respuesta en ambos casos.

a. Se estima una media de salario anual para una persona que tiene 5 años de experiencia
de 21170 dólares.
b. Se puede asumir con un nivel de significación del 5% que a medida que el profesional
tiene mayor experiencia, su salario anual aumenta en más de 500 dólares.

TP7: Modelo Lineal 4


Estadı́stica I

c. Se estima con un 95% de confianza que para un profesional sin experiencia la media de
salario anual se encontrará entre 15149 dólares y 20583 dólares.
d. Con un nivel de significación del 5% la media de salario anual para un profesional sin
experiencia se considera que es mayor a 17000 dólares.
e. El Colegio que agrupa a los profesionales asegura que no hay una relación lineal estadı́-
sticamente significativa actualmente, que relacione ambas variables.
f. Haciendo un análisis gráfico sobre los errores del ajuste realizado para evaluar el supuesto
de normalidad, se podrı́a pensar en no descartar este supuesto. Para concluir se deberı́a
hacer un test adecuado.

## R
experiencia = c(13,16,30,2,8,31,19,20,1,27,25,7,15,13,6,10,4)
salario = c(26.1,33.2,36.1,16.5,26.4,36.4,33.8,36.5,16.9,36.0,36.5,21.4,31.0,31.4,
19.1,24.6,19.8)

Ejercicios Complementarios
7.7 Una cadena de restaurantes de comida rápida decide llevar a cabo un experimento para medir
la influencia sobre las ventas del gasto en publicidad. En ocho regiones del paı́s, se realizaron
diferentes variaciones relativas en el gasto en publicidad, comparando con el año anterior y, se
observaron las variaciones en los niveles de ventas resultantes (ambos incremento expresados
en %). La tabla adjunta muestra los resultados.

Incremento del Gasto en publicidad 0 4 14 10 9 8 6 1


Incremento en las Ventas 2.4 7.2 10.3 9.1 10.2 4.1 7.6 3.5

a. Plantee un modelo lineal adecuado y ajuste el modelo entre variables mencionadas. Es-
criba el modelo de regresión estimado e interprete las estimaciones de los parámetros en
el contexto del problema.
b. ¿Puede asumir con un nivel de significación del 1%, de que si no se invierte en publi-
cidad, se espera que el incremento promedio de las ventas no sea nulo? Y a un nivel
de significación del 5%? Plantee las hipótesis que respondan a la pregunta planteada y
utilice p-valor para concluir al respecto.
c. El encargado de un local de esa cadena afirma que si no se invierte en publicidad, el
incremento promedio de las ventas se incrementa en menos del 4%. A partir de los
datos que se han obtenido, ¿es correcto lo que piensa el encargado? Plantee las hipótesis
convenientes, utilice un estadı́stico de prueba adecuado para dar respuesta con un nivel
de significación del 10%.
d. A partir de un intervalo de confianza adecuado, discuta si se puede asumir que el valor
esperado del incremento de las ventas aumenta, por cada unidad que se incremente en
publicidad. Asuma un nivel de confianza del 99%.
e. Teniendo en cuenta el resultado anterior el encargado de un local de esa cadena sospecha
que el valor esperado del incremento de las ventas aumenta en menos de 0.60 unidades,
por cada unidad que se incremente en publicidad. Corrobore esta sospecha con un nivel
de significación del 10%.

TP7: Modelo Lineal 5


Estadı́stica I

## R
gasto = c(0,4,14,10,9,8,6,1)
ventas = c(2.4,7.2,10.3,9.1,10.2,4.1,7.6,3.5)

7.8 El director de una empresa piensa que la demanda de un producto que él comercializa depende
únicamente del precio de venta al público (en miles de dólares). Para estudiar la demanda de
este producto pretende estimar el siguiente modelo:

Y (xi ) = β0 + β1 xi + ε(xi ) para i = 1, 2, . . . , n

Año 2010 2011 2012 2013 2014 2015 2016 2017 2018
Cantidad vendida 10 12 13 14 15 17 21 22 20
Precio 19 18 15 15 14 14 13 12 13

a. En base al modelo planteado en el enunciado, exprese qué supuestos deben considerarse


en el modelo planteado. Además, escriba el modelo de regresión estimado e interprete
las estimaciones de los parámetros en el contexto del problema.
b. Halle un intervalo de confianza del 90% para estimar la ordenada al origen. Interprete
en el contexto del problema.
c. ¿Cuál es el mı́nimo nivel de significación bajo el cual rechazamos la hipótesis de que el
ajuste a un modelo lineal es adecuado? Justifique su respuesta y planteé las hipótesis
que le permiten obtener este nivel de significación mı́nimo.
d. ¿Se puede aceptar que por cada unidad que aumente el precio del producto, la media
de la demanda disminuya en más de una unidad? Plantee las hipótesis adecuadas y
concluya a partir del p-valor con un nivel de significación del 1%.
e. Analice gráficamente los supuestos del modelo ajustado y exprese una conclusión al
respecto.

## R
cantidad = c(10,12,13,14,15,17,21,22,20)
precio = c(19,18,15,15,14,14,13,12,13)

7.9 El departamento de pinturas de una cadena de almacenes tiene dos realizaciones principales
por año, una en primavera y otra en otoño. El precio de la pintura se reduce del 10 al 30 por
ciento durante esas realizaciones.
La administración de la firma ha decidido reducir el precio de la pintura en un 50 por ciento
para las ventas de primavera. Aunque la casa no va a tener utilidades sobre las pinturas
con tales descuentos, el gerente de mercadeo de la firma espera generar con ello suficiente
tráfico como para asegurarse unas fuertes utilidades en las ventas de artı́culos auxiliares como
brochas, cinta protectora y diluyente para pinturas. Un nuevo empleado del departamento
de contabilidad está deseoso de impresionar al comité de fijación de polı́ticas de precios. Uno
de los miembros del comité ha dicho que: nada molesta más a un cliente que ir a una venta
de realización y encontrar que el artı́culo anunciado se agotó. Debemos estar seguros de
tener una provisión excesiva o sino nuestros costos de inventario, por todo el verano, van
a contrarrestar las utilidades de la realización. Se solicita a cada miembro del comité que
examine la información de realizaciones pasadas para presentar al comité en pleno la semana
siguiente. Los datos son los siguientes, dispuestos según el nivel de descuento.

TP7: Modelo Lineal 6


Estadı́stica I

% descuento 10 12 14 16 18 20 24 26 28 30
% variación ventas 3.43 3.75 4.52 5.13 5.94 6.35 7.99 8.23 9.46 10.35

El contador a cargo del sector analizó los datos que se presentaron.


Evalúe el valor de Verdad de los resultados encontrados por el contador. Justifique su res-
puesta.

a. Al explorar a través de un diagrama de dispersión se podrı́a considerar una relación de


tipo lineal entre Y la variación en la ventas (%) y x el % de descuento realizado. Y la
b (xi )) = −0.29091 + 0.34373 xi .
recta estimada que resulta de dicho ajuste es E(Y
b. En base al ajuste realizado se puede afirmar que el 99.14% de la variabilidad en las ventas
es explicada por el % de descuento.
c. Con un nivel de significación del 5% se puede rechazar la hipótesis que el porcentaje de
descuento no afecta la variación en las ventas.
d. El mı́nimo nivel de significación a partir del cual se rechaza el supuesto de que las ventas
aumentan en más de 0.32 por cada unidad que aumenta el porcentaje descuento es
0.03496829.
e. El supuesto de homoscedasticidad (igualdad de varianzas) se analiza mediante los re-
siduos pero también podrı́a analizarse mediante los errores.

## R
descuento = c(10,12,14,16,18,20,24,26,28,30)
ventas = c(3.43,3.75,4.52,5.13,5.94,6.35,7.99,8.23,9.46,10.35)

7.10 Suponga que el gerente de una cadena de servicios on-line de entrega de paqueterı́a desea
desarrollar un modelo para predecir las ventas semanales (miles de dólares) para las tiendas
individuales basado en el número de clientes que realizan compras por este sistema. Se selec-
cionó una muestra aleatoria entre todas las tiendas de la cadena y se observaron los siguientes
resultados;

clientes 907 926 506 741 789 889 874 510 529 420
ventas 11.20 11.05 6.84 9.21 9.42 10.08 9.45 6.73 7.24 6.12
clientes 679 872 924 607 452 729 794 844 1010 621
ventas 7.63 9.43 9.46 7.64 6.92 8.95 9.33 10.23 11.77 7.41

a. Plantee un modelo lineal adecuado para explicar las ventas en función del número de
clientes que compran por este sistema. Escriba la ecuación estimada del modelo e inter-
prete sus coeficientes en términos del problema.
b. Analice si es adecuado pensar que el modelo ajustado anteriormente es un buen modelo
para explicar las ventas en función del número de clientes que compran por este sistema.
Plantee hipótesis estadı́sticas adecuadas e indique cuál es el mı́nimo nivel de significación
para aceptar el modelo como adecuado.
c. Se piensa que independientemente del número de clientes que en la tiendan compran por
este sistema, las ventas semanales tienen una base de partida por diversos motivos, que
son significativamente positivas. Analice mediante una prueba de hipótesis estadı́stica
adecuada, si esta afirmación puede considerarse válida bajo un nivel de confianza del
95% y concluya en términos del problema.

TP7: Modelo Lineal 7


Estadı́stica I

d. Encuentre el valor medio estimado de las ventas para tiendas en las que compran 600
clientes por el sistema mencionado.
e. Analice gráficamente los supuestos del modelo ajustado y exprese una conclusión al
respecto.

## R
clientes = c(907,926,506,741,789,889,874,510,529,420,679,872,924,607,452,729,794,
844,1010,621)
ventas = c(11.20,11.05,6.84,9.21,9.42,10.08,9.45,6.73,7.24,6.12,7.63,9.43,9.46,
7.64,6.92,8.95,9.33,10.23,11.77,7.41)

7.11 Se piensa en ajustar un modelo lineal entre dos variables en una muestra de paı́ses desarrollados
entre el Consumo anual de vino tinto (en litros por habitante), x cuando no se exceden los 12
litros al año y no se tienen otros factores de riesgo) y el Número de muertes por enfermedad
cardı́aca, por cada 100.000 habitantes(Y ). Los resultados se muestran en la tabla siguiente:

consumo 2.5 1.8 3.9 1.9 2.9 0.8 2.4 6.5 2.9 1.6
muertes 211 167 167 266 131 227 191 86 220 207
consumo 0.8 5.8 9.1 1.3 0.8 1.2 0.7 2.7 7.9
muertes 297 155 71 285 211 199 300 172 107

a. Ajuste y represente (en forma aproximada) el modelo lineal estimado de acuerdo a los
resultados obtenidos con R. Interprete los coeficientes en términos del problema.
b. Si en un año particular no se consume vino tinto, ¿puede afirmarse que el número medio
de muertes por enfermedades cardı́acas es significativamente distinta de cero? Responda
a esta pregunta planteando hipótesis estadı́sticas adecuadas y usando un nivel de signifi-
cación que usted considere apropiado. Escriba también el test para estas hipótesis.
c. ¿Es el modelo lineal ajustado con R un buen modelo para estos datos? Responda a esta
pregunta utilizando el menor tamaño de error de tipo I que pueda considerar y señale si
este tamaño del error lo considera razonable.
d. Se piensa que por cada litro adicional anual de consumo de vino tinto, el número medio
de muertes por enfermedades cardı́acas disminuye en más de 16. Plantee las hipótesis
estadı́sticas adecuadas para probar esta afirmación y analı́celas utilizando un intervalo
de confianza del 95%.
e. Escriba el valor estimado del número medio de muertes cuando se consumen 5 litros de
vino tinto al año.
f. Explore sobre los residuos del modelo ajustado, el cumplimiento de los supuestos consid-
erados sobre los errores del modelo. Concluya al respecto.

## R
consumo = c(2.5,1.8,3.9,1.9,2.9,0.8,2.4,6.5,2.9,1.6,0.8,5.8,9.1,1.3,0.8,1.2,0.7,2.7,
7.9)
muertes = c(211,167,167,266,131,227,191,86,220,207,297,115,71,285,211,199,300,172,
107)

TP7: Modelo Lineal 8

También podría gustarte