Tema 1 Regresión Lineal Simple y Correlación

Índice
Introducción
La correlación entre dos variables (X e Y) se refiere a la relación existente entre

ellas de tal manera que a determinados valores de X se asocian determinados
valores de Y. Por ejemplo, la correlación entre la altura y el peso, el número de
horas que un alumno pasa estudiando una asignatura y la nota que obtiene en la
misma, la cantidad de horas de sueño y el rendimiento en una determinada tarea,
o el número de amigos que uno tiene en un grupo y su grado de implicación en la
tarea que va a acometer con dicho grupo, etc...
La dependencia a la que hacemos referencia es relacional matemática y no

necesariamente de causalidad. Así, para un mismo número de unidades
producidas, pueden existir niveles de costo, que varían empresa
Tema 1 Regresión lineal simple y correlación
En este apartado veremos que la correlación y la regresión lineales simple son

métodos estadísticos que estudian la relación lineal existente entre dos variables.
La correlación cuantifica como de relacionadas están dos variables, mientras que

la regresión lineal consiste en generar una ecuación (modelo) que, basándose en
la relación existente entre ambas variables, permita predecir el valor de una a
partir de la otra.
1.1 Modelo de regresión simple
Este modelo indica que la regresión lineal simple consiste en generar un modelo
de regresión (ecuación de una recta) que permita explicar la relación lineal que
existe entre dos variables. A la variable dependiente o respuesta se le identifica
como Y y a la variable predictora o independiente como X.
El modelo de regresión lineal simple se describe de acuerdo con la ecuación:
Y=β0+β1X1+ϵ
Ya teniendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este

último representa la diferencia entre el valor ajustado por la recta y el valor real.
Recoge el efecto de todas aquellas variables que influyen en Y pero que no se
incluyen en el modelo como predictores. Al error aleatorio también se le conoce
como residuo.
La gran mayoría de casos, los valores β0 y β1 poblacionales son desconocidos,

por lo que, a partir de una muestra, se obtienen sus estimaciones β^0 y β^1. Estas
estimaciones se conocen como coeficientes de regresión, ya que toman aquellos
valores que minimizan la
suma de cuadrados
residuales, dando lugar a
la recta que pasa más
cerca de todos los puntos.
Donde Sy y Sx son las desviaciones típicas de cada variable y R el coeficiente de
correlación. β^0 es el valor esperado la variable Y cuando X = 0, es decir, la
intersección de la recta con el eje y. Es un dato necesario para generar la recta,
pero en ocasiones, no tiene interpretación práctica (situaciones en las que X no
puede adquirir el valor 0).1
1.2 Supuestos
Para poder crear un modelo de regresión lineal es necesario que se cumpla con
los siguientes supuestos:
1. Que la relación entre las variables sea lineal.
2. Que los errores en la medición de las variables explicativas sean

independientes entre sí.
3. Que los errores tengan varianza constante. (Homocedasticidad)
4. Que los errores tengan una esperanza matemática igual a cero (los errores de
una misma magnitud y distinto signo son equiprobables).
5. Que el error total sea la suma de todos los errores.
6. Los valores de la variable independiente X son fijos, medidos sin error.
7. La variable Y es aleatoria
8. Para cada valor de X, existe una distribución normal de valores de Y

(subpoblaciones Y)
9. Las variancias de las subpoblaciones Y son todas iguales.
10.Todas las medias de las subpoblaciones de Y están sobre la recta.
1.3 Determinación de la ecuación de regresión.
Esto consiste en determinar los valores de "a" y "b " a partir de la muestra, es
decir, encontrar los valores de a y b con los datos observados de la muestra. El
método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:
Luego, la ecuación de regresión muestral estimada es
Esto se interpretan como:
 a Es el estimador de a
 a Es el valor estimado de la variable Y cuando la variable X = 0
 b Es el estimador de b, es el coeficiente de regresión
Está expresado en las mismas unidades de Y por cada unidad de X. Indica el

número de unidades en que varía Y cuando se produce un cambio, en una unidad,
en X (pendiente de la recta de regresión).
A esto un velo negativo de b sería interpretado como la magnitud del decremento

en Y por cada unidad de aumento en X.
1.4 Medidas de variación

Esta medida de variabilidad es aquellas que miden la dispersión de los datos, es
decir, indican qué tan “parecidos” o que tan “diferentes” son entre si los valores
observados. Estas medidas son indispensables, dado que una medida de
tendencia central por si sola pudiese ser engañosa cuando los datos son muy
variables.
Estas medidas de variabilidad más utilizadas son:
 Rango
El rango o recorrido del conjunto de datos x1, x2, …, xn denotado con R, se

calcula como la diferencia entre el valor máximo y el valor mínimo del conjunto de
datos. Es decir:
donde Xmin y Xmax son respectivamente el valor mínimo y máximo de las n

observaciones.
 Rango intercuartílico
El rango intercuartílico del conjunto de datos x1, x2…, xn denotado con RI, se
calcula como la diferencia entre el tercer y primer cuartil del conjunto de datos. Es
decir:
donde Q1 y Q3 son respectivamente el primer y tercer cuartil de las n

observaciones.
 Desviación de un dato respecto al promedio
Una forma de medir la variabilidad de un conjunto de datos se hace a partir de la
desviación de las observaciones respecto al promedio, las cuales están dadas
por:
para i=1,,n , donde x¯ es el promedio observado del conjunto de datos.
 La varianza
La varianza muestral, cuasi -varianza o varianza corregida del conjunto de datos

x1, x2…, xn, denotada con s2, se calcula como:
donde x¯ es el promedio observado del conjunto de datos.
 La desviación estándar
La varianza se encuentra en unidades al cuadrado, buscando una medida más

fácil de comprender, se hace necesaria la definición de la desviación estándar.
La desviación estándar o desviación típica del conjunto de datos x1,x2,…,xn ,

denotada con s , se calcula como:
 La estandarización
Se denomina estandarización o tipificación al proceso de restar de una variable

la media y luego dividir por la desviación estándar. De este modo, si x1, x2,xn1,2,
…, es un conjunto de n realizaciones de una variable X, entonces cuando se
realiza este proceso se obtiene una nueva variable, denotada con Z, cuyas
observaciones está dadas por
para i=1…n, La variable Z se denomina variable estandarizada o variable

tipificada.
 Coeficiente de variación de Pearson
Para que nosotros podamos comparar la dispersión de dos o mas conjuntos de

datos no lo es adecuado comparar directamente las varianzas o las desviaciones
estándar porque:
 Dichas medidas están influenciadas por la escala de medida de los datos.

 Por sí mismas no ofrecen una medida que describa la magnitud de la
variabilidad de estos mismos.
Es necesario eliminar tal influencia generada por las unidades de medida. El

coeficiente de variación es una medida que no depende de las unidades de
medición.
El coeficiente de variación de Pearson del conjunto de datos x1, x2…, xn,

denotado con CV(x), se calcula como:
donde |a| es el valor absoluto de a.
1.5 Cálculo de los coeficientes de correlación y de determinación
Este cálculo nos sirve para medir la generosidad del ajuste de una recta de
regresión a un conjunto de observaciones, en el caso de tener una variable
dependiente y una independiente.
Dicha medida nos la da el coeficiente de determinación R2, que verifica 0 ≤ R2 ≤

1. Cuanto más cercano a uno sea su valor mejor será el ajuste, y tanto peor
cuanto más cercano a cero.
Se calcula como el cuadrado del coeficiente de correlación lineal de Pearson

El coeficiente de correlación lineal de Pearson (se denota r ó ρ) es una medida de
asociación lineal entre dos variables aleatorias X e Y:
Se verifica que –1 ≤ r ≤ 1 y podemos decir que:

Si r = -1, existe una relación lineal negativa perfecta entre X e Y.
Si r = 1, existe una relación lineal positiva perfecta entre X e Y.
Si r = 0, no existe ninguna relación lineal entre X e Y (X e Y son independientes).
1.6 Análisis residual
Como hemos acontecido pues podemos decir que los residuos, “e”, son la
estimación de los verdaderos errores. En regresión lineal la distribución de la
variable formada por los residuos debe ser Normal, esto es, los residuos
observados y los esperados bajo hipótesis de distribución normal deben ser
parecidos. Además, los residuos deben ser independientes. En consecuencia, el
análisis de los residuales nos va a permitir no solo profundizar en la relación que
se produce entre las dos variables, sino también, ponderar la bondad de ajuste
de la regresión obtenida.
Con esto tenemos que el estadístico de Durbin-Watson mide el grado de

autocorrelación entre el residuo correspondiente a cada observación y el anterior
(si los residuos son independientes, el valor observado en una variable para un
individuo no debe estar influenciado en ningún sentido por los valores de esta
variable observados en otro individuo). Si el valor del estadístico es próximo a 2
los residuos están correlacionados; si se aproxima a 4, estarán negativamente
correlacionados; y si se aproximan a 0 estarán positivamente correlacionados.
1.7 Inferencias acerca de la pendiente.
La inferencia acerca de la pendiente se refiere a la estimación y prueba de

hipótesis sobre la pendiente de una relación lineal entre dos variables. La
pendiente representa el cambio promedio en la variable dependiente por cada
unidad de cambio en la variable independiente.
Para realizar inferencia acerca de la pendiente, se utiliza el análisis de regresión

lineal. Este análisis permite estimar la pendiente y su intervalo de confianza, así
como realizar pruebas de hipótesis para determinar si la pendiente es
significativamente diferente de cero.
Como conclusión de este dato la inferencia acerca de la pendiente permite

determinar si existe una relación significativa entre dos variables y proporciona
información sobre la dirección y magnitud de esa relación.
1.8 Aplicaciones
Observaremos las líneas de tendencia
Una línea de tendencia representa una tendencia en una serie de datos obtenidos
a través de un largo período. Este tipo de líneas puede decirnos si un conjunto de
datos en particular (como, por ejemplo, el PBI, el precio del petróleo o el valor de
las acciones) han aumentado o decrementando en un determinado período. Se
puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo
de puntos, pero su posición y pendiente se calcula de manera más precisa
utilizando técnicas estadísticas como las regresiones lineales. Las líneas de
tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan
polinomios de mayor grado dependiendo de la curvatura deseada en la línea.
Medicina
En la medicina las primeras evidencias relacionando la mortalidad con el fumar

tabaco vinieron de estudios que utilizaban la regresión lineal. Los investigadores
incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo
por eliminar factores que pudieran producir correlaciones espurias. En el caso del
tabaquismo, los investigadores incluyeron el estado socioeconómico para
asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su
educación o posición económica. No obstante, es imposible incluir todas las
variables posibles en un estudio de regresión. En el ejemplo del tabaquismo, un
hipotético gen podría aumentar la mortalidad y aumentar la propensión a adquirir
enfermedades relacionadas con el consumo de tabaco. Por esta razón, en la
actualidad las pruebas controladas aleatorias son consideradas mucho más
confiables que los análisis de regresión.
Planteamiento del problema y justificación.
Tenemos una compañía que desea hacer predicciones del valor anual de sus
ventas totales en cierto país a partir de la relación de éstas y la renta nacional.
Para investigar la relación cuenta con los siguientes datos:
X representa la renta nacional en millones de euros e Y representa las ventas de

la compañía en miles.
Desarrollo del problema:
Para calcular la regresión lineal simple sea más fácil se elaboró la siguiente tabla
donde se concentran todas las operaciones.
Empleando los datos de la tabla se sustituyeron los valores en las fórmulas para
obtener la regresión lineal simple:
Posteriormente para calcular la correlación se realiza una tabla similar a la

anterior, en este caso se utilizan las medias de X y Y:
Gráfico de la dispersión de las variables
Al momento de trabajar en Excel podemos hacer uso de algunas herramientas o

complementos del programa, en este caso usamos el análisis de datos el cual nos
ayuda a calcular la regresión lineal simple con solo tener los datos de las variables
XyY
Objetivo
El objetivo de poder resolver estos problemas matemáticos es que podamos

predecir el valor anual de las ventas totales establecidas de la empresa en cierto
país utilizando como variables independientes de la renta nacional. Como en otros
términos se busca entender como la renta nacional X influye en las ventas de la
compañía Y y utilizar esta relación para hacer predicciones futuras.
Justificación
La justificación de resolver este problema y como otros es predecir las ventas de

la compañía a partir de la renta nacional se basa en que una compañía necesita
tomar decisiones estratégicas, como la asignación de recursos, la expansión del
mercado y la inversión en publicidad. La capacidad de prever sus ventas futuras
es esencial para tomar estas decisiones de manera informada. El resolver el
problema implica el análisis de datos históricos que relacionan la renta nacional y
las ventas de la compañía. Esto se hace mediante técnicas estadísticas y
matemáticas, como la regresión lineal, que permiten modelar la relación entre las
variables, como se menciona anteriormente el desarrollar un modelo estadístico
que permita predecir ventas futuras será de gran beneficio para la compañía ya
que podrá optimizar su estrategia para adaptarse a las condiciones económicas y
maximizar sus ingresos.
Conclusión
Como conclusión la correlación y la regresión simple lineal son herramientas

estadísticas fundamentales que desempeñan un papel crucial en la comprensión y
solución de problemas empresariales y científicos. La importancia de estas
técnicas se destaca aún más al considerar el problema específico de predecir las
ventas de una compañía a partir de la renta nacional, ya que proporciona
información valiosa para la toma de decisiones estratégicas, la planificación
financiera y la optimización de recursos. Esto se logra mediante el análisis de
datos, el desarrollo de modelos y la adaptación a las condiciones económicas
cambiantes.
Efectivamente verdad conocer la relación entre dos variables puede ser muy
beneficioso para las empresas en este caso, pero el uso de la correlación y la
regresión simple lineal puede extenderse a muchos ámbitos y disciplinas.
Bibliografía
 www.superprof.es,(s.f) / www.superprof.es Obtenido de:

https://www.superprof.es/apuntes/escolar/matematicas/estadistica/
disbidimension/ejerci cios-de-correlacion-y-regresion.html
 www.jmp.com (2023) Obtenido de:

https://www.jmp.com/es_mx/statistics-knowledge-portal/what-is-correlation.html
 www.studocu.com (2020) Obtenido de:

https://www.studocu.com/es-mx/document/tecnologico-universitario
Querétaro/estadística/unidad-1-regresion-lineal-simple/20809246
.
Anexos
Actividad 1
X Edad de y Edad de x^2 y^2 XY

Eduardo Nayeli
27 23 729 529 621
32 30 1024 900 960
39 32 1521 1024 1248
37 40 1369 1600 1480
45 34 2025 1156 1530
38 38 1444 1444 1444
43 42 1849 1764 1806
25 24 625 576 600
30 22 900 484 660
40 28 1600 784 .1120
356 313 13086 10261 11469
Las fórmulas: Resultados a): 0.7910
Resultado b): 3.9264

y Edad de Nayeli
45
40
f(x) = 0.793222683264177 x + 4.51728907330567
R² = 0.655730751498386
35
30
25
20
23 28 33 38 43 48
Estadísticas de la regresión
Coeficiente de 0.74562222
correlación
múltiple
Coeficiente de 0.5559525
determinación
R^2
R^2 ajustado 0.59835254
Error típico 4.46128523
Observacione 10
s
ANÁLISIS DE
VARIANZA
Grados Suma de Promedio de F Valor crítico de F
de cuadrados los cuadrados
libertad
Regresión 1 227.456604 227.456604 11.4282194 0.01484744
Residuos 6 119.418396 19.9030659
Total 7 346.875
Coeficiente Error típico Estadístico Probabilida

s t d
Intercepción 4.51728907 8.53545725 0.52923809 0.61563978
x edad de Eduardo 0.79322268 0.23464205 3.38056495 0.01484744
Inferior Superior Inferior Superior
95% 95% 95.0% 95.0%
- 25.402800 - 25.402800
16.3682224 6 16.368222 6
2 4
0.21907427 1.3673710 0.2190742 1.3673710
6 9 8 9
Actividad 2
x Edad y x−x y− y ( x−x ¿ ( x−x ¿2 ( y− y)2

de Edad
( y− y)
Eduardo de
Nayeli
27 23 -17.5 -16.125 282.1875 306.25 260.015625

32 30 -12.5 -9.125 114.0625 156.25 83.265625
39 32 -5.5 -7.125 39.1875 30.25 50.765625
37 40 -7.5 0.875 -6.5625 56.25 0.765625
45 34 0.5 -5.125 -2.5625 0.25 26.265625
38 38 -6.5 -1.125 7.3125 42.25 1.265625
43 42 -1.5 2.875 -4.3125 2.25 8.265625
25 24 -19.5 -15.125 294.9375 380.25 228.765625
30 22 -14.5 -17.125 248.3125 210.25 293.265625
40 28 -4.5 -11.125 50.0625 20.25 123.765625
356 313 -89 -78.25 1022.625 1204.5 1076.40625
Formula:
Resultado: 0.89848966
Poner fotos y índice

Tema 1 Regresión Lineal Simple y Correlación

Cargado por

Copyright:

Formatos disponibles

Tema 1 Regresión Lineal Simple y Correlación

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 1 Regresión Lineal Simple y Correlación

Cargado por

Copyright:

Formatos disponibles

Índice

La correlación entre dos variables (X e Y) se refiere a la relación existente entre

La dependencia a la que hacemos referencia es relacional matemática y no

En este apartado veremos que la correlación y la regresión lineales simple son

La correlación cuantifica como de relacionadas están dos variables, mientras que

1.1 Modelo de regresión simple

El modelo de regresión lineal simple se describe de acuerdo con la ecuación:

Ya teniendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este

La gran mayoría de casos, los valores β0 y β1 poblacionales son desconocidos,

1. Que la relación entre las variables sea lineal.

2. Que los errores en la medición de las variables explicativas sean

3. Que los errores tengan varianza constante. (Homocedasticidad)

5. Que el error total sea la suma de todos los errores.

6. Los valores de la variable independiente X son fijos, medidos sin error.

8. Para cada valor de X, existe una distribución normal de valores de Y

10.Todas las medias de las subpoblaciones de Y están sobre la recta.

1.3 Determinación de la ecuación de regresión.

Luego, la ecuación de regresión muestral estimada es

Esto se interpretan como:

Está expresado en las mismas unidades de Y por cada unidad de X. Indica el

A esto un velo negativo de b sería interpretado como la magnitud del decremento

1.4 Medidas de variación

Estas medidas de variabilidad más utilizadas son:

El rango o recorrido del conjunto de datos x1, x2, …, xn denotado con R, se

donde Xmin y Xmax son respectivamente el valor mínimo y máximo de las n

donde Q1 y Q3 son respectivamente el primer y tercer cuartil de las n

La varianza muestral, cuasi -varianza o varianza corregida del conjunto de datos

donde x¯ es el promedio observado del conjunto de datos.

La varianza se encuentra en unidades al cuadrado, buscando una medida más

La desviación estándar o desviación típica del conjunto de datos x1,x2,…,xn ,

Se denomina estandarización o tipificación al proceso de restar de una variable

para i=1…n, La variable Z se denomina variable estandarizada o variable

Para que nosotros podamos comparar la dispersión de dos o mas conjuntos de

 Dichas medidas están influenciadas por la escala de medida de los datos.

Es necesario eliminar tal influencia generada por las unidades de medida. El

El coeficiente de variación de Pearson del conjunto de datos x1, x2…, xn,

donde |a| es el valor absoluto de a.

1.5 Cálculo de los coeficientes de correlación y de determinación

Dicha medida nos la da el coeficiente de determinación R2, que verifica 0 ≤ R2 ≤

Se calcula como el cuadrado del coeficiente de correlación lineal de Pearson

Se verifica que –1 ≤ r ≤ 1 y podemos decir que:

1.6 Análisis residual

Con esto tenemos que el estadístico de Durbin-Watson mide el grado de

La inferencia acerca de la pendiente se refiere a la estimación y prueba de

Para realizar inferencia acerca de la pendiente, se utiliza el análisis de regresión

Como conclusión de este dato la inferencia acerca de la pendiente permite

Observaremos las líneas de tendencia

En la medicina las primeras evidencias relacionando la mortalidad con el fumar

X representa la renta nacional en millones de euros e Y representa las ventas de

Desarrollo del problema:

Posteriormente para calcular la correlación se realiza una tabla similar a la

Al momento de trabajar en Excel podemos hacer uso de algunas herramientas o

El objetivo de poder resolver estos problemas matemáticos es que podamos

La justificación de resolver este problema y como otros es predecir las ventas de

Como conclusión la correlación y la regresión simple lineal son herramientas

 www.superprof.es,(s.f) / www.superprof.es Obtenido de:

 www.jmp.com (2023) Obtenido de:

 www.studocu.com (2020) Obtenido de:

X Edad de y Edad de x^2 y^2 XY

Las fórmulas: Resultados a): 0.7910