Ejemplo MRLS
Ejemplo MRLS
Ejemplo MRLS
MINÉRIA DE DATOS
Prfª. Carmen Lafuente Ibáñez
La regresión lineal simple es una técnica cuantitativa de dependencia que se utiliza para
investigar la relación estadística que existe entre una variable dependiente y una variable
independiente.
Etapas o fases:
Ejemplo:
Al oficial de una pista de carreras le gustaría desarrollar un modelo para predecir la cantidad de
dinero apostada (en millones de dólares) basándose en la asistencia. Se seleccionó una muestra
aleatoria de 15 días, y los resultados obtenidos se presentan a continuación:
CON SPSS
̂ 0 ˆ0 0 0,314 0
Desviación típica 3,808
Estimación de β0
error típˆ0 0,083 p-valor
Estimación de β1
ˆ1 0 0,022 0 p-valor
7,364
Desviación típica ˆ1 error típˆ1 0,003
Leyenda: B= Parámetros estimados. Error típ= desviación típica de los estimadores.t= valor empírico (o
calculado) del estadístico de contraste en las hipótesis de significatividad individual (H0:βi=0).sig=p-valor
CON RSTUDIO
Call:
lm(formula = cantidad ~ asistencia)
Residuals:
Min 1Q Median 3Q Max
-0.35096 -0.03515 0.02999 0.05621 0.09782
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.314363 0.082563 3.808 0.00218 **
asistencia 0.021698 0.002946 7.364 5.47e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Leyenda: Estimate= parámetros estimados. Std. Error= desviación típica de los estimadores. T-value=
valor empírico (o calculado) del estadístico de contraste en las hipótesis de significatividad individual
(H0:βi=0). Pr(>/t/)= p-value
A partir de los resultados de la tabla, el modelo estimado vendría dado por la siguiente
expresión:
ˆ0 tér min o independiente 0,314 . Es el valor que toma la variable dependiente cuando
la independiente es igual a 0. En este caso indica que si no asiste nadie (ASISTENCIA=0) la
cantidad apostada ascendería a 314.000 dólares. Este valor tendrá significado si se admiten
apuestas de forma telemática.
IC ( 1 ) [ ˆ1 dt ( ˆ1 )] [0,022 2,16 * 0,003] [0,022 0,00648 ] [0,01552 0,02848 ]
Como sabemos, el IC es una técnica de estimación que acota el verdadero valor del parámetro
entre dos valores, con un nivel de confianza prefijado. En este caso nos indica que con una
confianza del 95%, el verdadero valor de β1 se encuentra entre 15.520 y 28.480 dólares.
ASISTENCIA ˆ 20
E APUESTAS; ASISTENCIA 1 0,022 0,58
ˆ
APUESTAS 0.754
Según los resultados, la cantidad apostada, en el punto solicitado es poco sensible a la asistencia
(En términos absolutos una elasticidad inferior al 1%, inelástica, indica poca sensibilidad de la
variable dependiente ante variaciones de la variable independiente. Una elasticidad superior al
1%, elástica, indica que la variable dependiente es muy sensible a las variaciones de la variable
independiente)
Concretamente, el resultado obtenido indica que si la asistencia aumenta en un 1%, la cantidad
apostada aumenta en un 0,58%
6) Para determinar si los parámetros son significativos basta con llevar a cabo el siguiente
contraste de hipótesis:
Término independiente
H 0 : 0 0
H1 : 0 0
Según los resultados que proporcionan cualquiera de los programas utilizados, el valor calculado
(VC) del estadístico de contraste es de 3,808
ˆ0 0 0,314 0
VC : 3,808
error típˆ0 0,083
Como el valor calculado 3,808 es mayor que 1,96 (observar en la gráfica como el valor calculado
pertenece a la RC) rechazamos la hipótesis nula, esto es podemos “aceptar” que β0 es distinto
de cero y por tanto significativo.
H 0 : 1 0
H 1 : 1 0
Si razonamos de forma análoga al caso anterior, observamos que el valor calculado del
estadístico de contraste para este parámetro es de 7, 364, muy superior al valor teórico de 1,96.
Estamos en condiciones de rechazar la hipótesis nula, lo que indica que la pendiente es
significativa y por tanto la variable ASISTENCIA explica el comportamiento de la variable
APUESTAS.
Lógicamente en este caso el p-valor, de 0,00 es inferior al nivel de significación prefijado del 5%
7) Para predecir la cantidad apostada para una asistencia de 30000 personas, basta con sustituir
este valor (recordando que trabajamos en miles de personas) en el modelo de regresión
estimado:
Es decir, una asistencia de 30000 personas supondría una cantidad apostada de 974.000
dólares.