Expo 1
Expo 1
Expo 1
Introducción
Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o
dependencia entre variables. Frecuentemente resulta de interés conocer el efecto que una o
varias variables pueden causar sobre otra, e incluso predecir en mayor o menor grado valores
en una variable a partir de otra. Por ejemplo, supongamos que la altura de los padres influye
significativamente en la de los hijos. Podríamos estar interesados en estimar la altura media
de los hijos cuyos padres presentan una determinada estatura. Los métodos de regresión
estudian la construcción de modelos para explicar o representar la dependencia entre una
variable respuesta o dependiente (Y) y la(s) variable(s) explicativa(s) o dependiente(s), X. En
este Tema abordaremos el modelo de regresión lineal, que tiene lugar cuando la
dependencia es de tipo lineal, y daremos respuesta a dos cuestiones básicas:
• ¿Es significativo el efecto que una variable X causa sobre otra Y? ¿Es significativa la
dependencia lineal entre esas dos variables?
• De ser así, utilizaremos el modelo de regresión lineal simple para explicar y predecir la
variable dependiente (Y) a partir de valores observados en la independiente (X).
Ejemplo 1.
El inventor de un nuevo material aislante quiere determinar la magnitud de la compresión
(Y) que se producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes
cantidades de presión (X). Para ello prueba 5 piezas de material bajo diferentes presiones.
Los pares de valores observados (x, y) se muestran en la siguiente tabla
En esta expresión estamos admitiendo que todos los factores o causas que influyen en la
variable respuesta Y pueden dividirse en dos grupos: el primero contiene a una variable
explicativa X y el segundo incluye un conjunto amplio de factores no controlados que
englobaremos bajo el nombre de perturbación o error aleatorio, ε , que provoca que la
dependencia entre las variables dependiente e independiente no sea perfecta, sino que esté
sujeta a incertidumbre. Por ejemplo, en el consumo de gasolina de un vehículo (Y ) influyen la
velocidad (X) y una serie de factores como el efecto conductor, el tipo de carretera, las
condiciones ambientales, etc., que quedarían englobados en el error. Lo que en primer lugar
sería deseable en un modelo de regresión es que estos errores aleatorios sean en media cero
para cualquier valor x de X, es decir,
Además de la hipótesis establecida sobre los errores de que en media han de ser cero, se
establecen las siguientes hipótesis:
ii) La varianza de ε es constante para cualquier valor de x, es decir:
Y queremos estimar valores en Y según el modelo ˆ Y = β₀+ β₁X, donde β₀ y β₁ son por el
momento desconocidos. Debemos encontrar entonces de entre todas las rectas la que mejor
se ajuste a los datos observados, es decir, buscamos aquellos valores de β₀ y β₁ que hagan
mínimos los errores de estimación. Para un valor xᵢ , el modelo estima un valor en Y igual a ˆ yᵢ
= β₀ + β₁ xᵢ y el valor observado en Y es igual a yᵢ, con lo cual el error de estimación en ese caso
vendría dado por eᵢ = yᵢ − yᵢ= yᵢ − (β₀ + β₁xᵢ). Entonces tomaremos como estimaciones de β₀ y
β₁ , que notamos por β₀ y β₁, aquellos valores que hagan mínima la suma de los errores al
cuadrado, que viene dada por:
Siendo:
A la recta resultante Y = β₀ + β₁ X se le llama recta de regresión lineal de Y sobre X. Un último
parámetro a estimar en el modelo es la varianza de los errores (σ²). A su estimador se le
denomina varianza residual y viene dada por:
Ejemplo 2.
Para los datos del Ejemplo 1. Referentes a la cantidad de compresión (Y) de un material
aislante a diferentes niveles de presión (X), vamos a determinar la recta de regresión.
Luego
Ejemplo 3 Para los datos Ejemplo 1 sobre el material aislante, vamos a contrastar si el efecto
de la presión sobre la compresión es o no significativo (α = 0.05)
Como |t| > t0.975, 3 podemos rechazar H0 al 5% de significación, por lo tanto el efecto de la
presión sobre la compresión es significativo.
El coeficiente de correlación lineal y el coeficiente de determinación
Nuestro objetivo en adelante será medir la bondad del ajuste de la recta de regresión a los
datos observados y cuantificar al mismo tiempo el grado de asociación lineal existente entre
las variables en cuestión. A mejor ajuste, mejores serán las predicciones realizadas con el
modelo. La evaluación global de una recta de regresión puede hacerse mediante la varianza
residual, que como sabemos es un índice de la precisión del modelo. Sin embargo, esta
medida no es útil para comparar rectas de regresión de variables distintas, o comparar el
grado de asociación lineal entre distintos pares de variables, ya que depende de las unidades
de medida de las variables.
El coeficiente de correlación lineal Como solución al inconveniente planteado, para medir la
asociación lineal entre dos variables X e Y se utiliza una medida adimensional denominada
coeficiente de correlación lineal, dado por:
Conocidas las ecuaciones y el papel de las variables, vamos acalcular el pronóstico con
regresión lineal:
En la siguiente se encuentran los cálculos realizados para los 12 trimestres según lo
requerido por las ecuaciones:
Con los valores de la última fila de la tabla, podemos calcular a y b, con los cuales logramos
calcular los valores de la última columna (Y) que es la recta que más se ajusta a la
demanda y.
• a= 63,62
• b=65,83
Sin embargo, lo que necesitamos es el pronóstico de los trimestres (periodos de tiempo) 11,
12 y 13. Tenemos todos los datos para hacerlo:
Cuando pronosticamos, siempre queremos saber qué tan exacto es el método que estamos
utilizando, igual que una medida de error de pronóstico.
Para eso hay diferentes medidas que nos dan el grado de error en un pronóstico.
Una medida apropiada para medir el error en regresión lineal es el error estándar de
estimación (S y, x), que nos permite determinar la variabilidad en torno a la recta de
regresión.
Regresión exponencial
x y ln(y) x2 x ln(y)
1 3 1,0986 1 1,0986
2 2 0,6931 4 1,3862
4 7 1,9459 16 7,7836
Número de datos = n = 8
Crecimiento exponencial
Los modelos de crecimiento exponencial aplican para cualquier situación
donde el crecimiento es proporcional al tamaño actual de la cantidad de
interés.
Los modelos de crecimiento exponencial a menudo son usados para
situaciones de la vida real como el interés ganado en una inversión, población
humana o animal, crecimiento de cultivo bacterial, etc.
El modelo general de crecimiento exponencial es
y = C (1 + r ) t ,
donde C es la cantidad inicial o número, r es la tasa de crecimiento (por
ejemplo, una tasa de crecimiento del 2% significa r = 0.02), y t es el tiempo
transcurrido.
Ejemplo 1:
Una población de 32,000 con una tasa anual de crecimiento del 5% estaría
modelada por la ecuación:
y = 32000(1.05) t
con t en años.
Algunas ocasiones, quizá se le proporcione una tasa doble o triple en lugar de
una tasa de crecimiento en porcentaje. Por ejemplo, si se le ha dicho que los
números de células en un cultivo de bacterias se duplican cada hora, entonces
la ecuación para modelar la situación sería:
y=C·2t
con t en horas.
Ejemplo 2:
Suponga que un cultivo de 100 bacterias se pone en una caja de petri y el
cultivo se duplica en tamaño cada hora. Prediga el número de bacterias que
habrá en la caja de petri después de 12 horas.
P ( t ) = 100 · 2 t
P (12) = 100 · 2 12 = 409,600 bacterias
Regresión Múltiple
Dispone de una ecuación con dos variables independientes adicionales:
Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y Minitab y Excel.
Es una medida de dispersión la estimación se hace más precisa conforme el grado de dispersión
alrededor del plano de regresión se hace mas pequeño.
n : Número de datos
m : Número de variables independientes
Mide la tasa porcentual de los cambios de Y que pueden ser explicados por
, y simultáneamente.
1 13 15 15 13
2 13 14 13 12
3 13 16 13 14
4 15 20 14 16
5 16 18 18 17
6 15 16 17 15
7 12 13 15 11
8 13 16 14 15
9 13 15 14 13
10 13 14 13 10
11 11 12 12 10
12 14 16 11 14
13 15 17 16 15
14 15 19 14 16
15 15 13 15 10
Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje
reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos,
Base de Datos y Programación.
Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de
regresión o utilizando Regresión de Análisis de datos, en la Hoja de Calculo de Excel podemos
calcular también los coeficientes de regresión:
Mediante esta medida de dispersión se hace más preciso el grado de dispersión alrededor del plano
de regresión, se hace más pequeño.
En los resultados de Excel se llama error típico y para explicar la relación del aprendizaje de PHP que
se viene desarrollando es de 0.861
El coeficiente de determinación múltiple (r2)
Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables múltiples,
utilizando la si siguiente formula: