Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Expo 1

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 15

REGRESION LINEAL SIMPLE

Introducción
Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o
dependencia entre variables. Frecuentemente resulta de interés conocer el efecto que una o
varias variables pueden causar sobre otra, e incluso predecir en mayor o menor grado valores
en una variable a partir de otra. Por ejemplo, supongamos que la altura de los padres influye
significativamente en la de los hijos. Podríamos estar interesados en estimar la altura media
de los hijos cuyos padres presentan una determinada estatura. Los métodos de regresión
estudian la construcción de modelos para explicar o representar la dependencia entre una
variable respuesta o dependiente (Y) y la(s) variable(s) explicativa(s) o dependiente(s), X. En
este Tema abordaremos el modelo de regresión lineal, que tiene lugar cuando la
dependencia es de tipo lineal, y daremos respuesta a dos cuestiones básicas:
• ¿Es significativo el efecto que una variable X causa sobre otra Y? ¿Es significativa la
dependencia lineal entre esas dos variables?
• De ser así, utilizaremos el modelo de regresión lineal simple para explicar y predecir la
variable dependiente (Y) a partir de valores observados en la independiente (X).
Ejemplo 1.
El inventor de un nuevo material aislante quiere determinar la magnitud de la compresión
(Y) que se producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes
cantidades de presión (X). Para ello prueba 5 piezas de material bajo diferentes presiones.
Los pares de valores observados (x, y) se muestran en la siguiente tabla

En principio no sabemos si las variables en cuestión están relacionadas o no, o si en caso de


haber dependencia es significativa o no. De haber entre ellas una dependencia lineal
significativa, podríamos expresar la Compresión (Y) a partir de la Presión (X) mediante una
recta, y a partir de ella predecir la compresión que se daría para un determinado nivel de
presión.
Una forma de determinar si puede existir o no dependencia entre variables, y en caso de
haberla deducir de qué tipo puede ser, es gráficamente representando los pares de valores
observados. A dicho gráfico se le llama nube de puntos o diagrama de dispersión.
Ejemplos de casos que podrían darse:
En a) hay ausencia de relación (independencia).
En b) existe asociación lineal positiva (varían en general en el mismo sentido).
En c) existe asociación lineal negativa (varían en sentido contrario).
En d) existe fuerte asociación, pero no lineal
El modelo de regresión lineal
La estructura del modelo de regresión lineal es la siguiente:

En esta expresión estamos admitiendo que todos los factores o causas que influyen en la
variable respuesta Y pueden dividirse en dos grupos: el primero contiene a una variable
explicativa X y el segundo incluye un conjunto amplio de factores no controlados que
englobaremos bajo el nombre de perturbación o error aleatorio, ε , que provoca que la
dependencia entre las variables dependiente e independiente no sea perfecta, sino que esté
sujeta a incertidumbre. Por ejemplo, en el consumo de gasolina de un vehículo (Y ) influyen la
velocidad (X) y una serie de factores como el efecto conductor, el tipo de carretera, las
condiciones ambientales, etc., que quedarían englobados en el error. Lo que en primer lugar
sería deseable en un modelo de regresión es que estos errores aleatorios sean en media cero
para cualquier valor x de X, es decir,

En dicha expresión se observa que:


• La media de Y, para un valor fijo x, varía linealmente con x.
• Para un valor x se predice un valor en Y dado por Y = E [Y /X = x] = β₀+ β₁x, por lo que el
modelo de predicción puede expresarse también como ˆ Y = β₀ + β₁X.
• El parámetro β₀ es la ordenada al origen del modelo (punto de corte con el eje Y) y β₁ la pendiente,
que puede interpretarse como el incremento de la variable dependiente por cada incremento en una
unidad de la variable independiente. Estos parámetros son desconocidos y habrá que estimarlos de
cara a realizar predicciones.

Además de la hipótesis establecida sobre los errores de que en media han de ser cero, se
establecen las siguientes hipótesis:
ii) La varianza de ε es constante para cualquier valor de x, es decir:

iii) La distribución de ε es normal, de media 0 y desviación σ.


v) Los errores asociados a los valores de Y son independientes unos de otros. En
consecuencia, la distribución de Y para x fijo es normal, con varianza constante σ², y media
que varía linealmente con x, dada por βϩ + βꙇ x. Además los valores de Y son independientes
entre sí.
Estimación de los parámetros del modelo
Partimos de una muestra de valores de X e Y medidos sobre n individuos:

Y queremos estimar valores en Y según el modelo ˆ Y = β₀+ β₁X, donde β₀ y β₁ son por el
momento desconocidos. Debemos encontrar entonces de entre todas las rectas la que mejor
se ajuste a los datos observados, es decir, buscamos aquellos valores de β₀ y β₁ que hagan
mínimos los errores de estimación. Para un valor xᵢ , el modelo estima un valor en Y igual a ˆ yᵢ
= β₀ + β₁ xᵢ y el valor observado en Y es igual a yᵢ, con lo cual el error de estimación en ese caso
vendría dado por eᵢ = yᵢ − yᵢ= yᵢ − (β₀ + β₁xᵢ). Entonces tomaremos como estimaciones de β₀ y
β₁ , que notamos por β₀ y β₁, aquellos valores que hagan mínima la suma de los errores al
cuadrado, que viene dada por:

De ahí que al método de estimación se le llame método de mínimos cuadrados. La solución


se obtiene por el mecanismo habitual, derivando SSE con respecto a β₀ y β₁ e igualando a 0.
Los estimadores resultan:

Siendo:
A la recta resultante Y = β₀ + β₁ X se le llama recta de regresión lineal de Y sobre X. Un último
parámetro a estimar en el modelo es la varianza de los errores (σ²). A su estimador se le
denomina varianza residual y viene dada por:

Ejemplo 2.
Para los datos del Ejemplo 1. Referentes a la cantidad de compresión (Y) de un material
aislante a diferentes niveles de presión (X), vamos a determinar la recta de regresión.

Luego

La recta de regresión de Y sobre X es por tanto:


Y = −0.1+0.7X
Inferencias sobre el coeficiente de regresión
Observábamos que los estimadores β₀ y β₁ dependen de la muestra seleccionada, por lo
tanto son variables aleatorias y presentarán una distribución de probabilidad. Estas
distribuciones de probabilidad de los estimadores pueden utilizarse para construir intervalos
de confianza o contrastes sobre los parámetros del modelo de regresión.
Al comienzo del capítulo nos planteábamos como uno de los objetivos el decidir si el efecto
de la variable independiente es o no significativo para la variable dependiente. Si nos fijamos,
esto es equivalente a contrastar si el coeficiente β₁ es o no significativamente distinto de
cero. Un β₁ = 0 implicaría la ausencia de relación lineal entre las variables.
En términos generales planteamos los siguientes contrastes para β₁:
Decíamos que de especial interés es el contraste:

Ejemplo 3 Para los datos Ejemplo 1 sobre el material aislante, vamos a contrastar si el efecto
de la presión sobre la compresión es o no significativo (α = 0.05)

Como |t| > t0.975, 3 podemos rechazar H0 al 5% de significación, por lo tanto el efecto de la
presión sobre la compresión es significativo.
El coeficiente de correlación lineal y el coeficiente de determinación
Nuestro objetivo en adelante será medir la bondad del ajuste de la recta de regresión a los
datos observados y cuantificar al mismo tiempo el grado de asociación lineal existente entre
las variables en cuestión. A mejor ajuste, mejores serán las predicciones realizadas con el
modelo. La evaluación global de una recta de regresión puede hacerse mediante la varianza
residual, que como sabemos es un índice de la precisión del modelo. Sin embargo, esta
medida no es útil para comparar rectas de regresión de variables distintas, o comparar el
grado de asociación lineal entre distintos pares de variables, ya que depende de las unidades
de medida de las variables.
El coeficiente de correlación lineal Como solución al inconveniente planteado, para medir la
asociación lineal entre dos variables X e Y se utiliza una medida adimensional denominada
coeficiente de correlación lineal, dado por:

Y su estimación a partir de datos de una muestra resulta:


El coeficiente de correlación lineal toma valores entre -1 y 1 y su interpretación es la
siguiente:
• Un valor cercano o igual a 0 indica respectivamente poca o ninguna relación lineal entre las
variables.
• Cuanto más se acerque en valor absoluto a 1 mayor será el grado de asociación lineal entre
las variables. Un coeficiente igual a 1 en valor absoluto indica una dependencia lineal exacta
entre las variables.
• Un coeficiente positivo indica asociación lineal positiva, es decir, tienden a variar en el
mismo sentido. n coeficiente negativo indica asociación lineal negativa, es decir, tienden a
variar en sentido opuesto.
Nótese que si β₁ = 0 entonces r = 0, en cuyo caso hay ausencia de linealidad. Por lo tanto,
contrastar si el coeficiente de correlación lineal es significativamente distinto de 0 sería
equivalente a contrastar si β₁ es significativamente distinto de cero, contraste que ya vimos
en la sección anterior.
LA REGRESIÓN LINEAL PARA PRONOSTICAR LA DEMANDA

Dentro de los modelos causales o asociativos encontramos el análisis de regresión o


regresión lineal, que es un método con enfoque cuantitativo que nos permite pronosticar la
demanda. Agrupa una variable dependiente (la demanda) con una o más variables
independientes a través de una ecuación lineal.
Te puede interesar: 6 métodos cuantitativos de pronóstico
El objetivo del análisis de regresión como método causal es pronosticar la demanda a partir
de una o más causas (variables independientes), las cuales pueden ser por ejemplo el tiempo,
precios del producto o servicio, precios de la competencia, economía del país, acciones del
gobierno o fomentos publicitarios.
Algunos apuntes importantes sobre éste método son:

• Puedes calcular series de tiempo y relaciones causales. En el primer caso, ubicas la


demanda histórica de tu bien o servicio para que cambie en función del tiempo. El segundo
caso es cuando la variable que pronosticas cambia en función de otra (variable causal).
• Lineal significa que los datos del periodo anterior y la proyección para el periodo futuro que
vas a obtener caen sobre una recta.
• Si hablamos de una sola variable independiente, es una regresión lineal simple, contrario
a si son dos o más variables independientes, donde hablaríamos de regresión lineal
múltiple.
• Es más útil cuando se enfoca en periodos de largo plazo. Esto aunado a su utilidad para
estimar la demanda en función de variables independientes.

Veamos entonces de que va el análisis de regresión:


Esta es la ecuación de la recta. En ella:
• La b es la inclinación de la recta.
• La a es la secante o la altura en la que la recta corta al eje y.
• La X es nuestra variable independiente.
• La Y es nuestra variable dependiente, nuestro pronóstico calculado para un periodo.
Como hacer una regresión lineal
Un ejemplo de regresión lineal para pronosticar la demanda:
Las ventas de la empresa IngE durante los últimos 10 trimestres son las siguientes:

¿Cómo pronosticar la demanda de los trimestres 13, 14 y 15 a través de un análisis de


regresión lineal?
Lo primero es estimar los parámetros. Lo podemos lograr con el método de mínimos
cuadrados, que nos permite encontrar la recta que mejor se ajusta a un conjunto de datos
dados. En nuestro caso, este conjunto está dado por las ventas trimestrales (variable
dependiente). La variable independiente es el tiempo. Vamos entonces a la siguiente fórmula
para determinar a y b:
• La y “minúscula” es el valor y de cada punto de datos.
• La n es el número de punto de datos.

Conocidas las ecuaciones y el papel de las variables, vamos acalcular el pronóstico con
regresión lineal:
En la siguiente se encuentran los cálculos realizados para los 12 trimestres según lo
requerido por las ecuaciones:

Con los valores de la última fila de la tabla, podemos calcular a y b, con los cuales logramos
calcular los valores de la última columna (Y) que es la recta que más se ajusta a la
demanda y.

• a= 63,62
• b=65,83
Sin embargo, lo que necesitamos es el pronóstico de los trimestres (periodos de tiempo) 11,
12 y 13. Tenemos todos los datos para hacerlo:

Cuando pronosticamos, siempre queremos saber qué tan exacto es el método que estamos
utilizando, igual que una medida de error de pronóstico.
Para eso hay diferentes medidas que nos dan el grado de error en un pronóstico.
Una medida apropiada para medir el error en regresión lineal es el error estándar de
estimación (S y, x), que nos permite determinar la variabilidad en torno a la recta de
regresión.

Con los datos obtenidos en nuestra tabla, reemplazamos en la formula y obtenemos:


Error estándar del estimado S y, x: 54,79
Esto lo interpretamos como una medida de la variabilidad o dispersión de los valores
observados alrededor de nuestra línea de regresión.

Regresión exponencial

En determinados experimentos, en su mayoría biológicos, la dependencia entre las variables X e Y es


de forma exponencial, en cuyo caso interesa ajustar a la nube de puntos una función del tipo:

Mediante una transformación lineal, tomando logaritmos neperianos, se convierte el problema en


una cuestión de regresión lineal. Es decir, tomando logaritmos neperianos:
Ejemplo

x y ln(y) x2 x ln(y)

1 3 1,0986 1 1,0986

1,2 3,4 1,2237 1,44 1,4684

1,5 5 1,6094 2,25 2,4141

2 2 0,6931 4 1,3862

3 4,1 1,4109 9 4,2327

3,7 5 1,6094 13,69 5,9547

4 7 1,9459 16 7,7836

4,5 6,5 1,8718 20,25 8,4231

Σ 20,9 Σ 36 Σ 11,4628 Σ 67,63 Σ 32,7614

Número de datos = n = 8
Crecimiento exponencial
Los modelos de crecimiento exponencial aplican para cualquier situación
donde el crecimiento es proporcional al tamaño actual de la cantidad de
interés.
Los modelos de crecimiento exponencial a menudo son usados para
situaciones de la vida real como el interés ganado en una inversión, población
humana o animal, crecimiento de cultivo bacterial, etc.
El modelo general de crecimiento exponencial es
y = C (1 + r ) t ,
donde C es la cantidad inicial o número, r es la tasa de crecimiento (por
ejemplo, una tasa de crecimiento del 2% significa r = 0.02), y t es el tiempo
transcurrido.
Ejemplo 1:
Una población de 32,000 con una tasa anual de crecimiento del 5% estaría
modelada por la ecuación:
y = 32000(1.05) t
con t en años.
Algunas ocasiones, quizá se le proporcione una tasa doble o triple en lugar de
una tasa de crecimiento en porcentaje. Por ejemplo, si se le ha dicho que los
números de células en un cultivo de bacterias se duplican cada hora, entonces
la ecuación para modelar la situación sería:
y=C·2t
con t en horas.
Ejemplo 2:
Suponga que un cultivo de 100 bacterias se pone en una caja de petri y el
cultivo se duplica en tamaño cada hora. Prediga el número de bacterias que
habrá en la caja de petri después de 12 horas.
P ( t ) = 100 · 2 t
P (12) = 100 · 2 12 = 409,600 bacterias
Regresión Múltiple
Dispone de una ecuación con dos variables independientes adicionales:

Se puede ampliar para cualquier número "m" de variables independientes:

Para poder resolver y obtener y en una ecuación de regresión múltiple el cálculo se


presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el método de
mínimo de cuadrados:

Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y Minitab y Excel.

El error estándar de la regresión múltiple

Es una medida de dispersión la estimación se hace más precisa conforme el grado de dispersión
alrededor del plano de regresión se hace mas pequeño.

Para medirla se utiliza la formula:

Y : Valores observados en la muestra

: Valores estimados a partir a partir de la ecuación de regresión

n : Número de datos
m : Número de variables independientes

El coeficiente de determinación múltiple

Mide la tasa porcentual de los cambios de Y que pueden ser explicados por

, y simultáneamente.

III.- APLICACION DE REGRESION MULTIPLE

Mediante el siguiente problema podremos ilustrar la aplicación de Regresión Multiple:

En la Facultad de Ingeniería de Sistemas y Computo de la Universidad "Inca Garcilaso de la Vega" se


quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo
cual se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en las
asignaturas de Algoritmos, Base de Datos y Programación como se muestran en el siguiente cuadro.

Alumno PHP Algoritmos Base de Datos Programación

1 13 15 15 13

2 13 14 13 12

3 13 16 13 14

4 15 20 14 16

5 16 18 18 17

6 15 16 17 15

7 12 13 15 11

8 13 16 14 15

9 13 15 14 13

10 13 14 13 10

11 11 12 12 10

12 14 16 11 14

13 15 17 16 15
14 15 19 14 16

15 15 13 15 10

Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje
reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos,
Base de Datos y Programación.

Se presentara la siguiente ecuación a resolver:

Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de
regresión o utilizando Regresión de Análisis de datos, en la Hoja de Calculo de Excel podemos
calcular también los coeficientes de regresión:

Por lo tanto podemos construir la ecuación de regresión que buscamos:

El Error Estándar de Regresión Múltiple

Mediante esta medida de dispersión se hace más preciso el grado de dispersión alrededor del plano
de regresión, se hace más pequeño.

Para calcularla se utiliza la formula siguiente:

En los resultados de Excel se llama error típico y para explicar la relación del aprendizaje de PHP que
se viene desarrollando es de 0.861
El coeficiente de determinación múltiple (r2)

Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables múltiples,
utilizando la si siguiente formula:

También podría gustarte