Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

U1 - Regresión Lineal Múltiple

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 21

Instituto Tecnológico Superior de

Coatzacoalcos
División de Ingeniería Industrial

FEBRERO –JUNIO 2019

Nombre del Alumno: DE LOS SANTOS YUNIS ALMA LAURA

Apellido Paterno Apellido Materno Nombre(s)

ASIGNATURA: ESTADISTICA INFERENCIAL II


UNIDAD 1: REGRESIÓN LINEAL MÚLTIPLE

Nombre del Docente: JIMENEZ VENTURA BRICIO


Apellido Paterno Apellido Materno Nombre(s)

Semestre: 4° Grupo: “C” No. Control: 17081032 Fecha: 12/03//2019


ESTADISTICA INFERENCIAL II

REGRESION LINEAL MULTIPLE

INDICE

Introducción 3

1.1 Regresión lineal múltiple. 4

1.1.1 Pruebas de hipótesis en regresión lineal múltiple. 7

1.1.2 Intervalos de confianza y predicción en regresión múltiple. 10

1.1.3 Uso de un software estadístico 14

1.2 Regresión no lineal. 17

Conclusión 20

Referencias 21
INTRODUCCIÓN

En esta investigación abordaremos temas de interés como lo son: regresión lineal


múltiple, pruebas de hipótesis en regresión lineal múltiple, intervalos de confianza y
predicción en regresión múltiple, uso de un software estadístico y regresión no
lineal.

El Análisis de Regresión Lineal Múltiple nos permite establecer la relación que se


produce entre una variable dependiente 𝑌 y un conjunto de variables independientes
(X1, X2, ... XK). El análisis de regresión lineal múltiple, a diferencia del simple, se
aproxima más a situaciones de análisis real puesto que los fenómenos, hechos y
procesos sociales, por definición, son complejos y, en consecuencia, deben ser
explicados en la medida de lo posible por la serie de variables que, directa e
indirectamente.
UNIDAD 1- REGRESIÓN LINEAL MÚLTIPLE.

1.1 Regresión lineal múltiple.

En muchas situaciones prácticas existen varias variables independientes que se


cree que influyen o están relacionadas con una variable de respuesta, Y y por lo
tanto será necesario tomar en cuenta si se quiere predecir o entender mejor el
comportamiento de Y, Por ejemplo, para explicar o predecir el consumo de
electricidad en una casa habitación tal vez sea necesario considerar el tipo de
residencia, el número de personas que la habitan, la temperatura promedio de la
zona, etcétera.

Sea variables independientes o represoras, y sea una variable de


respuesta, entonces el modelo de regresión lineal múltiple con variables
independientes es el polinomio de primer orden:

Donde los son los parámetros del modelo que se conocen como
coeficientes de regresión y es el error aleatorio, con media cero,
. Si en la ecuación , estamos en el caso de regresión
lineal simple y el modelo es una línea recta; si , tal ecuación representa un
plano. En general, la ecuación representa un hiperplano en el espacio de
dimensiones generado por las variables {𝑋𝐽 }

El término lineal del modelo de regresión se emplea debido a que la ecuación es


función lineal de los parámetros desconocidos La interpretación de
éstos es muy similar a lo ya explicado para el caso de regresión lineal simple: es
la ordenada al origen, y mide el cambio esperado en por cambio unitario en
cuando el resto de las variables represoras se mantienen fijas o constantes.

Para encontrar los coeficientes de regresión múltiple por el método de mínimos


cuadrados aplicamos el siguiente sistema de ecuaciones normales:
Estas ecuaciones se pueden resolver para , y mediante cualquier

método apropiado para resolver sistemas de ecuaciones lineales

Por ejemplo, La siguiente tabla muestra los pesos Y a la libra más cercana, las
estaturas X1 a la pulgada más cercana y las edades X2 al año más cercano de 12
muchachos.

Regresión lineal múltiple

Tabla 1.5 Peso, estatura y edad


Peso Estatura Edad

64 57 8
71 59 10
53 49 6
67 62 11
55 51 8
58 50 7
77 55 10
57 48 9
56 52 10
51 42 6
12
76 61
9
68 57

Para encontrar los coeficientes de regresión ( , y ) múltiple mediante el


método de mínimos cuadrados seria de la siguiente manera
Tabla 1.6 Procedimiento para realizar los cálculos para la regresión múltiple

Al sustituir las sumatorias calculadas en las ecuaciones normales, se obtiene

Resolver este sistema de tres ecuaciones lineales para , y , es por lo menos


tedioso. Es común emplear matrices para simplificar el proceso. Hoy en día, esta
clase de cálculos son realizados por la computadora.

El resultado sería el siguiente por lo

tanto la ecuación de regresión es

La solución manual aplicando el sistema de tres ecuaciones lineales con tres


incógnitas (3x3) pudiera ser aplicando el método de eliminación de Gauss o bien el
método de Cramer. Para este tipo de planteamiento se recomienda el método de
Cramer el cual consiste en la siguiente secuencia:
1.1.1 Pruebas de hipótesis en regresión lineal múltiple.

Las hipótesis sobre los parámetros del modelo son equivalentes a las realizadas
para regresión lineal simple, pero ahora son más necesarias porque en regresión
múltiple tenemos más parámetros en el modelo; sin embargo, por lo general es
necesario evaluar su verdadera contribución a la explicación de la respuesta.
También requerimos de la suposición de que los errores se distribuyen en forma
normal, independientes, con media cero y varianza . Una
consecuencia de esta suposición es que las observaciones son:

La hipótesis global más importante sobre un modelo de regresión múltiple consiste


en ver si la regresión es significativa. Esto se logra probando la siguiente hipótesis:

Aceptar significa que ningún término o variable en el modelo tiene una


contribución significativa al explicar la variable de respuesta . Mientras que
rechazar implica que por lo menos un término en el modelo contribuye de
manera significativa a explicar . El procedimiento para probar esta hipótesis es
una generalización del procedimiento utilizado para probar la hipótesis equivalente
en regresión lineal simple.
El estadístico de prueba para la significancia del modelo de regresión lineal múltiple

está dado por:

que bajo tiene una distribución . Así, se rechaza si


o también si
Ejemplo
Se probará la significación de la regresión (con utilizando los datos de los
pesos , estaturas y edades de la tabla 1.5

El valor de calculado por formula nos da un valor de = 10,9402 ,por comodidad


observamos el resumen arrojado por Excel y/o Minitab

En tanto que el valor de encontrado en tablas cuando tenemos un nivel de


significancia de 0,05 y 2 grados de libertad en el numerador y 9 en el denominador
el cual es igual a 4,26

= =

Se rechaza la Hipótesis nula.


Dado que el valor encontrado en formula es mayor al punto crítico en base al
nivel de significancia por lo que rechazamos la hipótesis nula y aceptamos la
alterna lo cual implica que por lo menos un término en el modelo contribuye
de manera significativa a explicar .
Tabla 1.7 ANOVA para la significancia del modelo de regresión lineal múltiple
ANÁLISIS DE VARIANZA
Grados Suma de Promedio de los F Valor crítico
de cuadrados cuadrados de F
libertad
Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182

Total 11 888,25

Análisis de varianza en Minitab

Fuente GL SC MC F P
Regresión 2 629,37 314,69 10,94 0,004
Error residual 9 258,88 28,76
Total 11 888,25

Coeficiente de determinación
El que un modelo sea significativo no necesariamente implica que sea bueno en
términos de que explique la variación de los datos. Por ello es importante tener
mediciones adicionales de la calidad del ajuste del modelo, como las gráficas de
residuales y el coeficiente de determinación. Con la información del análisis de
varianza de la tabla 1.7 es muy sencillo calcular el coeficiente de determinación

, y el coeficiente de determinación ajustado :

Ambos coeficientes se interpretan de forma similar al caso de regresión lineal


simple, es decir, como el porcentaje de variabilidad de los datos que son explicados

por el modelo. Se cumple que ; en general, para hablar de un


modelo que tiene un ajuste satisfactorio es necesario que ambos coeficientes
tengan valores superiores a 0,7. Cuando en el modelo hay términos que no
contribuyen de manera significativa a éste, el tiende a ser menor que él .
Por lo tanto, es deseable depurar el modelo y para ello las siguientes pruebas de
hipótesis son de mucha utilidad.
Para los datos de la tabla 1.5 tenemos que:

Pruebas de hipótesis en regresión lineal múltiple.


Coeficiente de correlación múltiple
Es la raíz cuadrada del coeficiente de determinación

y es una medida de la intensidad de la relación entre la variable dependiente, y el


conjunto de variables o términos en el modelo

Error estándar de estimación


Al igual que en regresión lineal simple, el error estándar de estimación proporciona
la medida del error de ajuste de un modelo, éstas tienen una interpretación similar
a la que se dio para el caso de regresión lineal simple. En cuanto al cálculo en el

caso múltiple, el error estándar de estimación,

En el caso del ejemplo de los pesos, estatura y edades tenemos:

1.1.2 Intervalos de confianza y predicción en regresión múltiple.

En los modelos de regresión múltiple con frecuencia es conveniente construir


estimaciones de intervalos de confianza para los coeficientes de regresión . Por
ejemplo, a partir de la tabla 1.6 es claro que un estimador por intervalos de cada
coeficiente en lo individual está dado por:
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%

Intercepción 3,651215805 16,16780562 0,22583249 0,82637676 -32,9229014


Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -
0,167125373
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -
1,692959262

También es posible obtener un intervalo de confianza con respecto a la respuesta


media en un punto particular, digamos está dado por:

Ejercicios de regresión lineal múltiple.


1.- En una empresa dedicada a anodizar artículos de aluminio (baterías de cocina),
el anodizado se logra con una solución hecha a base de ácidos (sulfúrico, cítrico,
bórico) y dicromato de aluminio. En este proceso se controla el pH de la solución,
la temperatura, la corriente y el tiempo de permanencia. Debido al poco grosor del
anodizado, han aumentado las quejas por la escasa resistencia y durabilidad del
producto. Para resolver este problema se decide estudiar, mediante un
experimento, la relación del pH y la temperatura con el grosor del anodizado.
Los datos se muestran en la siguiente tabla:

pH Temperatura Espesor
1,2 -8 9
1,8 -8 14
1,2 8 10
1,8 8 19 8
1,2 -8 12
1,8 -8 11
1,2 8 20
1,8 8 14
1,5 0 13
1,5 0

a) ¿Cuáles son las variables independientes y cuál la dependiente? Argumente


Intervalos de confianza y predicción en regresión múltiple

b) Ajuste un modelo del tipo y anote la ecuación


del modelo ajustado
c) A partir del modelo ajustado, ¿cuál es el espesor estimado cuando se utiliza un
pH = 2 y una temperatura de 10 grados?
d) ¿El modelo es adecuado? Argumente con base en graficas de residuos, pruebas
de hipótesis y coeficientes de determinación.

2.- Se realizó un experimento para estudiar el sabor del queso panela en función
de la cantidad del cuajo y la sal. La variable de respuesta observada es el sabor
promedio reportado por un grupo de cinco panelistas que probaron todos los
quesos y los calificaron en una escala hedónica.
Los datos obtenidos se muestran a continuación:
Sal Cuajo Sabor
6 0,3 5,67
5,5 0,387 7,44
4,5 0,387 7,33
4 0,3 6,33
4,5 0,213 7,11
5,5 0,213 7,22
5 0,3 6,33
5 0,3 6,66

a) Ajuste el modelo
b) ¿El modelo explica la variación observada en el sabor? Argumente con base en
la significancia del modelo, los residuales y el coeficiente de determinación.
c) Ajuste un modelo que incluya términos cuadráticos y analice con detalle la
calidad del ajuste aplique las pruebas de hipótesis

d) Compare el error estándar de estimación ( y los coeficientes de


determinación

) para ambos modelos


e) ¿Cuál modelo prefiere para explicar el sabor?

17.- Se piensa que la energía eléctrica consumida mensualmente por una planta
química se relaciona con la temperatura ambiente promedio ( , el número de
días laborales del mes ( , la pureza promedio del producto y las toneladas
del producto producidas (𝑋4 ).
Se cuenta con los datos del último año, los cuales se presentan en la tabla siguiente:

240 25 24 91 100
236 31 21 90 95
290 45 24 88 110
274 60 25 87 88
301 65 25 91 94
316 72 26 94 99
300 80 25 87 97
296 84 25 86 96
267 75 24 88 110
276 60 25 91 105
288 50 25 90 100
261 38 23 89 98

a) Ajuste un modelo de regresión lineal múltiple a estos datos


b) Prediga el consumo de electricidad para un mes en el que ,
días y toneladas
c) Calcule para este modelo. Interprete esta cantidad
d) Grafique los residuales contra . Interprete la grafica
1.1.3 Uso de un software estadístico

Para capturar la tabla de datos para el análisis de regresión lineal múltiple,


primeramente, capturamos los datos en la hoja de cálculo, posteriormente
activamos datos seguido de análisis de datos y seleccionamos regresión, y
aceptar.
𝐷𝑎𝑡𝑜𝑠 → 𝐴𝑛á𝑙𝑖𝑠𝑖𝑠 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 → 𝑅𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛

En la ventana de captura se solicitará el rango de celdas donde se encuentran los


datos para la variable dependiente Rango de entrada y para la(s) variable(s)
represora(s) Rango de entrada (para los datos de X1 y X2, se sombrean ambos
simultáneamente con el ratón, en este caso a partir de la columna 2)

Activamos la casilla de rótulos, por default está indicado en una hoja nueva,
seleccionamos además cualquiera de las opciones de residuos, grafica de
residuales, y curva de regresión ajustada y aceptar y tendremos el resultado.
Utilizando Minitab
En Minitab la secuencia de captura para la regresión lineal simple o múltiple en la
hoja de cálculo una vez capturada las columnas de datos seleccionamos
Estadísticas luego Regresión seguida de Regresión nuevamente

𝐸𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎𝑠 → 𝑅𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 → 𝑅𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛

De la ventana desplegada en respuesta indicamos la variable de respuesta, en este


caso es resistencia y en predictor indicamos porcentaje de fibra activando también
cualquiera de las opciones posibles, terminando en aceptar.
Nota: De la ventana de captura aparecen automáticamente en el cuadro de la
izquierda la información de la tabla, en respuesta, se indica con un clic del ratón en
peso y este automáticamente se manifiesta, en predictores de igual manera se da
un clic a cada uno y estos se manifiestan en el recuadro.

1.2 Regresión no lineal.

Si las dos variables X y Y se relacionan según un modelo de línea recta, se habla


de regresión lineal simple

Cuando las variables X y Y se relacionan según una línea curva, se habla de


regresión no lineal o curvilínea. Aquí se puede distinguir entre regresión parabólica,
exponencial, potencial etc.

Supongamos que al hacer la representación gráfica correspondiente la distribución


bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relación entre
las dos variables, pero desde luego, esa relación no es lineal.
Por tanto, debemos buscar la función que ha de describir la dependencia entre las
dos variables.
Nos limitaremos al estudio de las más utilizadas: la función parabólica, la
logarítmica, la exponencial y la potencial.
Parábola de Regresión
En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a
la situación real dada.
La expresión general de un polinomio de 2º grado es:

donde a, b y c son los parámetros.

El problema consiste, por tanto, en determinar dichos parámetros para una


distribución dada. Seguiremos para ello, un razonamiento similar al que hicimos en
el caso del modelo de regresión lineal simple, utilizando el procedimiento de ajuste
de los mínimos cuadrados, es decir, haciendo que la suma de los cuadrados de las
desviaciones con respecto a la curva de regresión sea mínima:

donde, siguiendo la notación habitual, yi son los valores observados de la variable

dependiente, e los valores estimados según el modelo; por tanto, podemos


escribir D de la forma:

Para encontrar los valores de a, b y c que hacen mínima la expresión anterior,


deberemos igualar las derivadas parciales de D con respecto a dichos parámetros
a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema
se conocen como ecuaciones normales de Gauss (igual que en el caso de la
regresión lineal simple).
Función Exponencial, Potencial y Logarítmica
El problema de ajustar un modelo potencial, de la forma y uno exponencial
se reduce al de la función lineal, con solo tomar logaritmos.
Modelo potencial:
Si tomamos logaritmos en la expresión de la función potencial, obtendremos:

Como vemos es la ecuación de una recta: , donde ahora . De


modo que el problema es sencillo, basta con transformar Y en y X en y
ajustar una recta a los valores transformados. El parámetro b del modelo potencial
coincide con el coeficiente de regresión de la recta ajustada a los datos
transformados, y A lo obtenemos mediante el antilog(a).
Modelo exponencial:
Tomando logaritmos en la expresión de la función exponencial, obtendremos:

También se trata de la ecuación de una recta , pero ahora ajustándola


a y a X; de modo que, para obtener el parámetro A del modelo exponencial,
basta con hacer antilog(a), y el parámetro B se obtiene tomando antilog(b).
Modelo logarítmico:
La curva logarítmica Y = a + b es también una recta, pero en lugar de estar
referida a las variables originales X e Y, está referida a y a Y.

Hemos visto, cómo, a pesar de ser inicialmente modelos mucho más complejos que
el de una recta, estos tres últimos se reducen al modelo lineal sin más que
transformar adecuadamente los datos de partida.
CONCLUSIÓN

La regresión lineal múltiple analiza la relación de dos o más variables continuas,


cuando analiza dos variables a esta se le conoce como variable bivariantes que
pueden corresponder a variables cualitativas. La finalidad de una ecuación de
regresión es la de estimar los valores de una variable con base en los valores
conocidos de la otra. Del mismo modo, una ecuación de regresión explica los
valores de una variable en términos de otra. Es decir, se puede intuir una relación
de causa y efecto entre dos o más variables. El análisis de regresión únicamente
indica qué relación matemática podría haber, de existir una

Estas técnicas estadísticas constituyen una herramienta útil para el análisis de las
variables de un proceso ya que, a través de la aplicación de éstas, es posible
conocer el modelo que siguen y la fuerza con que se encuentran relacionadas.
Asimismo, es posible explicar la relación que guardan dos o más causas de un
posible defecto.
REFERENCIAS

Estadística Inferencial II
Autor: Raúl Jiménez González
Obtenido de:

https://www.academia.edu/8137314/Estad%C3%ADstica_Inferencial_II

Libro: Estadistica Matematica con Aplicaciones

Autor: William Mendenhall D. Wackerly, L. Scheaffer.

Editorial: Ed. Grupo editorial Iberoamericana.

También podría gustarte