Ejercicio de Regresión Lineal Multiple
Ejercicio de Regresión Lineal Multiple
Ejercicio de Regresión Lineal Multiple
para regresión junto dado de datos, y cómo analizar la ecuación obtenida. Aunque mostraremos cómo se puede ha-
cer regresión múltiple a mano o con una calculadora, pronto será evidente que no conviene hacer ni
siquiera un problema real pequeño a mano. Afortunadamente, hay muchos paquetes de software dis-
ponibles para hacer regresiones múltiples y otros análisis estadísticos. Estos paquetes realizan las
“operaciones numéricas” y lo dejan libre para concentrarse en el análisis del significado de la ecua-
ción de estimación resultante.
La regresión múltiple nos permitirá también ajustar tanto curvas como rectas. Usando las técni-
cas de variables ficticias, podemos incluir factores cualitativos, tales como el sexo, en nuestra regre-
sión múltiple. Esta técnica nos permitirá analizar el problema de discriminación con que abrimos el
presente capítulo. Las variables ficticias y las curvas de ajuste son solamente dos de las muchas téc-
nicas de modelado que se pueden utilizar en la regresión múltiple para aumentar la precisión de nues-
tras ecuaciones de estimación.
Ejercicios 13.1
Conceptos básicos
■ 13-1 ¿Por qué utilizamos regresión múltiple en lugar de regresión simple al estimar una variable dependiente?
■ 13-2 ¿De qué manera se utilizarán las variables ficticias en nuestro estudio de regresión múltiple?
■ 13-3 ¿A qué se refiere la palabra múltiple en la frase regresión múltiple?
■ 13-4 La dueña de una cadena de almacenes desea predecir las ventas mensuales a partir del tamaño de la ciu-
dad donde se localiza una tienda. Después de ajustar un modelo de regresión simple, decide que desea
incluir el efecto de la temporada del año en el modelo. ¿Se puede hacer esto utilizando las técnicas del pre-
sente capítulo?
■ 13-5 Describa los tres pasos del proceso de análisis de regresión múltiple y correlación.
■ 13-6 ¿Los procedimientos utilizados en la regresión múltiple difieren mucho de los usados en regresión sim-
ple? Explique su respuesta.
Enero 45 16 29
Febrero 42 14 24
Marzo 44 15 27
Abril 45 13 25
Mayo 43 13 26
Junio 46 14 28
Julio 44 16 30
Agosto 45 16 28
Septiembre 44 15 28
Octubre 43 15 27
Definición de las En este problema, X1 representa el número de horas de trabajo de auditoría de campo y X2 el nú-
variables mero de horas en computadora. La variable dependiente, Y, será los impuestos reales no pagados des-
cubiertos.
Ecuación de Recuerde que en la regresión simple, la ecuación de estimación Ŷ a bX describe la relación
estimación para entre las dos variables X y Y. En regresión múltiple, debemos extender esa ecuación, agregando un
regresión múltiple término para cada nueva variable. En símbolos, la ecuación 13-1 es la fórmula que se usa cuando te-
nemos dos variables independientes:
donde,
• Ŷ valor estimado correspondiente a la variable dependiente
• a ordenada Y
• X1 y X2 valores de las dos variables independientes
• b1 y b2 pendientes asociadas con X1 y X2, respectivamente
Visualización de la Podemos visualizar la ecuación de estimación simple como una recta en una gráfica; de manera
regresión múltiple similar, podemos representar una ecuación de regresión múltiple de dos variables como un plano,
como el que ilustra la figura 13-1. Se trata de una forma o figura tridimensional, con profundidad,
largo y ancho. Para obtener una idea intuitiva de esta forma tridimensional, visualice la intersección
de los ejes Y, X1 y X2 como un rincón de una habitación.
La figura 13-1 es una gráfica de los 10 puntos de la muestra y el plano alrededor del cual estos
puntos parecen agruparse. Algunos están arriba del plano y otros abajo; del mismo modo que los pun-
tos estaban arriba y abajo de la recta de regresión simple.
Uso del criterio de Nuestro problema consiste en decidir cuál de los planos que podemos dibujar será el que mejor
mínimos cuadrados se ajuste. Para hacer esto, de nuevo utilizaremos el criterio de mínimos cuadrados y localizaremos
para ajustar un plano el plano que minimice la suma de los cuadrados de los errores, es decir, de las distancias de los pun-
de regresión
tos alrededor del plano a los puntos correspondientes sobre el plano. Usemos nuestros datos y las si-
guientes tres ecuaciones para determinar los valores de las constantes numéricas a, b1 y b2.
Ecuaciones normales
Y na b1X1 b2X2 [13-2]
X1Y aX1 b1X12 b2X1X2 [13-3]
X2Y aX2 b1X1X2 b2X22 [13-4]
a = ordenada Y
X1
X2
Podemos obtener a, b1 y b2, los coeficientes del plano de regresión, resolviendo las ecuaciones
13-2, 13-3 y 13-4. Obviamente, la mejor manera de calcular todas las sumas implicadas en estas tres
ecuaciones es elaborar una tabla para recolectar y organizar la información necesaria, como se hizo
en la regresión simple. Esto se presenta en la tabla 13-2, para el problema del IRS.
Obtención de a, b1 Ahora, utilizando la información de la tabla 13-2 en las ecuaciones 13-2, 13-3 y 13-4, obtenemos
y b2 resolviendo las tres ecuaciones con tres constantes desconocidas (a, b1 y b2):
ecuaciones 13-2,
13-3 y 13-4 272 10a 441b1 147b2
12,005 441a 19,461b1 6,485b2
4,013 147a 6,485b1 2,173b2
Cuando resolvemos estas tres ecuaciones de manera simultánea, obtenemos:
a 13.828
b1 0.564
b2 1.099
Sustituyendo estos tres valores en la ecuación de regresión de dos variables (ecuación 13-l), obtene-
mos una ecuación que describe la relación entre el número de horas de trabajo en auditorías de cam-
po, el número de horas de computación y los impuestos no pagados descubiertos por el departamen-
to de auditorías:
Ŷ a b1X1 b2X2 [13-1]
13.828 0.564X1 1.099X2
El departamento de auditorías puede utilizar esta ecuación mensualmente para estimar la canti-
dad de impuestos no pagados que va a descubrir.
Uso de la ecuación Suponga que el IRS desea aumentar la cantidad de detecciones de impuestos no pagados el siguien-
de regresión múltiple te mes. Como los auditores capacitados son escasos, el IRS no tiene la intención de contratar perso-
para estimaciones nal adicional. El número de horas de trabajo en auditorías, entonces, permanecerá en el nivel de oc-
27.2
Y
X1 44.1
2 14.7
X
tubre, alrededor de 4,300 horas. Pero con el fin de aumentar las detecciones de impuestos no pagados,
el IRS espera aumentar el número de horas en computadora a cerca de 1,600. Como resultado:
X1 43 ← 4,300 horas de trabajo en auditorías de campo
X2 16 ← 1,600 horas de tiempo en computadora
Sustituyendo estos valores en la ecuación de regresión para el departamento de auditorías, obte-
nemos:
Ŷ 13.828 0.564 X1 1.099X2
Ŷ 13.828 (0.564)(43) (1.099)(16)
Ŷ 13.828 24.252 17.584
Ŷ 28.008 ← Detecciones estimadas de $28,008,000
Interpretación de la Por tanto, en el pronóstico para noviembre, el departamento de auditorías espera encontrar una
estimación evasión de impuestos cercana a 28 millones de dólares, para esta combinación de factores.
a, b1 y b2 son los Hasta este punto nos hemos referido a a como la ordenada Y, y a b1 y b2 como las pendientes del
coeficientes de re- plano de regresión múltiple. Pero, para ser más precisos, debemos decir que estas constantes numé-
gresión estimados ricas son los coeficientes de regresión estimados. La constante a es el valor de Ŷ (en este caso, la es-
timación de los impuestos no pagados) si tanto X1 como X2 tienen valor cero. Los coeficientes b1 y
b2 describen cómo los cambios en X1 y X2 afectan el valor de Ŷ. En el ejemplo del IRS, podemos de-
jar constante el número de horas de trabajo de auditoría de campo, X1, y cambiar el número de ho-
ras en computadora, X2. Cuando hacemos esto, el valor de Ŷ aumenta en $1,099,000 por cada 100
horas adicionales de tiempo en computadora. Del mismo modo, podemos fijar X2 y encontrar que
por cada aumento adicional de 100 horas en el número de horas de trabajo de auditorías de campo,
Ŷ aumenta $564,000.
SUGERENCIAS Sugerencia: si tiene problemas para vi- que el de la recta de regresión adecuada, es decir, el que mi-
Y sualizar lo que hace en realidad la regre- nimiza la suma de los cuadrados de las distancias vertica-
SUPOSICIONES sión múltiple, piense en el capítulo 12 y les entre los puntos de los datos y el plano, en este caso. Tal
recuerde que una recta de regresión des- vez sea útil recordar que cada variable independiente puede
cribe la relación entre dos variables. En la regresión múlti- ser responsable de cierta variación en la variable depen-
ple, el plano de regresión, como el que se ve en la página diente. La regresión múltiple es sólo una manera de usar
anterior, describe la relación entre tres variables, Y, X1 y X2. varias variables independientes para hacer un pronóstico
El concepto del plano de regresión adecuado es el mismo mejor de la variable dependiente.
25 3.5 5.0
30 6.7 4.2
11 1.5 8.5
22 0.3 1.4
27 4.6 3.6
19 2.0 1.3
EA 13-2 Se ha reunido la siguiente información de una muestra aleatoria de arrendadores de departamentos en una
ciudad. Se intenta predecir la renta (en dólares por mes) con base en el tamaño del departamento (núme-
ro de habitaciones) y la distancia al centro de la ciudad (en millas).
Renta Número de Distancia
(dólares) habitaciones al centro
360 2 1
1,000 6 1
450 3 2
525 4 3
350 2 10
300 1 4
a) Calcule la ecuación de mínimos cuadrados que relacione mejor estas tres variables.
b) Si alguien busca un departamento de dos habitaciones a 2 millas del centro, ¿qué renta debe esperar pagar?
Conceptos básicos
■ 13-7 Dado el siguiente conjunto de datos:
a) Calcule el plano de regresión múltiple.
b) Pronostique Y cuando X1 10.5 y X2 13.6.
Y X1 X2
10 8 4
17 21 9
18 14 11
26 17 20
35 36 13
8 9 28