Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Tema 1 Regresión Lineal Simple y Correlación

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 21

Índice

Introducción

La correlación entre dos variables (X e Y) se refiere a la relación existente entre


ellas de tal manera que a determinados valores de X se asocian determinados
valores de Y. Por ejemplo, la correlación entre la altura y el peso, el número de
horas que un alumno pasa estudiando una asignatura y la nota que obtiene en la
misma, la cantidad de horas de sueño y el rendimiento en una determinada tarea,
o el número de amigos que uno tiene en un grupo y su grado de implicación en la
tarea que va a acometer con dicho grupo, etc...

La dependencia a la que hacemos referencia es relacional matemática y no


necesariamente de causalidad. Así, para un mismo número de unidades
producidas, pueden existir niveles de costo, que varían empresa
Tema 1 Regresión lineal simple y correlación

En este apartado veremos que la correlación y la regresión lineales simple son


métodos estadísticos que estudian la relación lineal existente entre dos variables.

La correlación cuantifica como de relacionadas están dos variables, mientras que


la regresión lineal consiste en generar una ecuación (modelo) que, basándose en
la relación existente entre ambas variables, permita predecir el valor de una a
partir de la otra.

1.1 Modelo de regresión simple

Este modelo indica que la regresión lineal simple consiste en generar un modelo
de regresión (ecuación de una recta) que permita explicar la relación lineal que
existe entre dos variables. A la variable dependiente o respuesta se le identifica
como Y y a la variable predictora o independiente como X.

El modelo de regresión lineal simple se describe de acuerdo con la ecuación:

Y=β0+β1X1+ϵ

Ya teniendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este


último representa la diferencia entre el valor ajustado por la recta y el valor real.
Recoge el efecto de todas aquellas variables que influyen en Y pero que no se
incluyen en el modelo como predictores. Al error aleatorio también se le conoce
como residuo.

La gran mayoría de casos, los valores β0 y β1 poblacionales son desconocidos,


por lo que, a partir de una muestra, se obtienen sus estimaciones β^0 y β^1. Estas
estimaciones se conocen como coeficientes de regresión, ya que toman aquellos
valores que minimizan la
suma de cuadrados
residuales, dando lugar a
la recta que pasa más
cerca de todos los puntos.
Donde Sy y Sx son las desviaciones típicas de cada variable y R el coeficiente de
correlación. β^0 es el valor esperado la variable Y cuando X = 0, es decir, la
intersección de la recta con el eje y. Es un dato necesario para generar la recta,
pero en ocasiones, no tiene interpretación práctica (situaciones en las que X no
puede adquirir el valor 0).1

1.2 Supuestos

Para poder crear un modelo de regresión lineal es necesario que se cumpla con
los siguientes supuestos:

1. Que la relación entre las variables sea lineal.

2. Que los errores en la medición de las variables explicativas sean


independientes entre sí.

3. Que los errores tengan varianza constante. (Homocedasticidad)

4. Que los errores tengan una esperanza matemática igual a cero (los errores de
una misma magnitud y distinto signo son equiprobables).

5. Que el error total sea la suma de todos los errores.

6. Los valores de la variable independiente X son fijos, medidos sin error.

7. La variable Y es aleatoria

8. Para cada valor de X, existe una distribución normal de valores de Y


(subpoblaciones Y)
9. Las variancias de las subpoblaciones Y son todas iguales.

10.Todas las medias de las subpoblaciones de Y están sobre la recta.

1.3 Determinación de la ecuación de regresión.

Esto consiste en determinar los valores de "a" y "b " a partir de la muestra, es
decir, encontrar los valores de a y b con los datos observados de la muestra. El
método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuación de regresión muestral estimada es

Esto se interpretan como:

 a Es el estimador de a
 a Es el valor estimado de la variable Y cuando la variable X = 0
 b Es el estimador de b, es el coeficiente de regresión

Está expresado en las mismas unidades de Y por cada unidad de X. Indica el


número de unidades en que varía Y cuando se produce un cambio, en una unidad,
en X (pendiente de la recta de regresión).

A esto un velo negativo de b sería interpretado como la magnitud del decremento


en Y por cada unidad de aumento en X.

1.4 Medidas de variación


Esta medida de variabilidad es aquellas que miden la dispersión de los datos, es
decir, indican qué tan “parecidos” o que tan “diferentes” son entre si los valores
observados. Estas medidas son indispensables, dado que una medida de
tendencia central por si sola pudiese ser engañosa cuando los datos son muy
variables.

Estas medidas de variabilidad más utilizadas son:

 Rango

El rango o recorrido del conjunto de datos x1, x2, …, xn denotado con R, se


calcula como la diferencia entre el valor máximo y el valor mínimo del conjunto de
datos. Es decir:

donde Xmin y Xmax son respectivamente el valor mínimo y máximo de las n


observaciones.

 Rango intercuartílico

El rango intercuartílico del conjunto de datos x1, x2…, xn denotado con RI, se
calcula como la diferencia entre el tercer y primer cuartil del conjunto de datos. Es
decir:

donde Q1 y Q3 son respectivamente el primer y tercer cuartil de las n


observaciones.
 Desviación de un dato respecto al promedio
Una forma de medir la variabilidad de un conjunto de datos se hace a partir de la
desviación de las observaciones respecto al promedio, las cuales están dadas
por:
para i=1,,n , donde x¯ es el promedio observado del conjunto de datos.
 La varianza

La varianza muestral, cuasi -varianza o varianza corregida del conjunto de datos


x1, x2…, xn, denotada con s2, se calcula como:

donde x¯ es el promedio observado del conjunto de datos.

 La desviación estándar

La varianza se encuentra en unidades al cuadrado, buscando una medida más


fácil de comprender, se hace necesaria la definición de la desviación estándar.

La desviación estándar o desviación típica del conjunto de datos x1,x2,…,xn ,


denotada con s , se calcula como:

 La estandarización

Se denomina estandarización o tipificación al proceso de restar de una variable


la media y luego dividir por la desviación estándar. De este modo, si x1, x2,xn1,2,
…, es un conjunto de n realizaciones de una variable X, entonces cuando se
realiza este proceso se obtiene una nueva variable, denotada con Z, cuyas
observaciones está dadas por

para i=1…n, La variable Z se denomina variable estandarizada o variable


tipificada.
 Coeficiente de variación de Pearson

Para que nosotros podamos comparar la dispersión de dos o mas conjuntos de


datos no lo es adecuado comparar directamente las varianzas o las desviaciones
estándar porque:

 Dichas medidas están influenciadas por la escala de medida de los datos.


 Por sí mismas no ofrecen una medida que describa la magnitud de la
variabilidad de estos mismos.

Es necesario eliminar tal influencia generada por las unidades de medida. El


coeficiente de variación es una medida que no depende de las unidades de
medición.

El coeficiente de variación de Pearson del conjunto de datos x1, x2…, xn,


denotado con CV(x), se calcula como:

donde |a| es el valor absoluto de a.

1.5 Cálculo de los coeficientes de correlación y de determinación

Este cálculo nos sirve para medir la generosidad del ajuste de una recta de
regresión a un conjunto de observaciones, en el caso de tener una variable
dependiente y una independiente.

Dicha medida nos la da el coeficiente de determinación R2, que verifica 0 ≤ R2 ≤


1. Cuanto más cercano a uno sea su valor mejor será el ajuste, y tanto peor
cuanto más cercano a cero.

Se calcula como el cuadrado del coeficiente de correlación lineal de Pearson


El coeficiente de correlación lineal de Pearson (se denota r ó ρ) es una medida de
asociación lineal entre dos variables aleatorias X e Y:

Se verifica que –1 ≤ r ≤ 1 y podemos decir que:


Si r = -1, existe una relación lineal negativa perfecta entre X e Y.
Si r = 1, existe una relación lineal positiva perfecta entre X e Y.
Si r = 0, no existe ninguna relación lineal entre X e Y (X e Y son independientes).

1.6 Análisis residual

Como hemos acontecido pues podemos decir que los residuos, “e”, son la
estimación de los verdaderos errores. En regresión lineal la distribución de la
variable formada por los residuos debe ser Normal, esto es, los residuos
observados y los esperados bajo hipótesis de distribución normal deben ser
parecidos. Además, los residuos deben ser independientes. En consecuencia, el
análisis de los residuales nos va a permitir no solo profundizar en la relación que
se produce entre las dos variables, sino también, ponderar la bondad de ajuste
de la regresión obtenida.

Con esto tenemos que el estadístico de Durbin-Watson mide el grado de


autocorrelación entre el residuo correspondiente a cada observación y el anterior
(si los residuos son independientes, el valor observado en una variable para un
individuo no debe estar influenciado en ningún sentido por los valores de esta
variable observados en otro individuo). Si el valor del estadístico es próximo a 2
los residuos están correlacionados; si se aproxima a 4, estarán negativamente
correlacionados; y si se aproximan a 0 estarán positivamente correlacionados.
1.7 Inferencias acerca de la pendiente.

La inferencia acerca de la pendiente se refiere a la estimación y prueba de


hipótesis sobre la pendiente de una relación lineal entre dos variables. La
pendiente representa el cambio promedio en la variable dependiente por cada
unidad de cambio en la variable independiente.

Para realizar inferencia acerca de la pendiente, se utiliza el análisis de regresión


lineal. Este análisis permite estimar la pendiente y su intervalo de confianza, así
como realizar pruebas de hipótesis para determinar si la pendiente es
significativamente diferente de cero.

Como conclusión de este dato la inferencia acerca de la pendiente permite


determinar si existe una relación significativa entre dos variables y proporciona
información sobre la dirección y magnitud de esa relación.

1.8 Aplicaciones

Observaremos las líneas de tendencia

Una línea de tendencia representa una tendencia en una serie de datos obtenidos
a través de un largo período. Este tipo de líneas puede decirnos si un conjunto de
datos en particular (como, por ejemplo, el PBI, el precio del petróleo o el valor de
las acciones) han aumentado o decrementando en un determinado período. Se
puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo
de puntos, pero su posición y pendiente se calcula de manera más precisa
utilizando técnicas estadísticas como las regresiones lineales. Las líneas de
tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan
polinomios de mayor grado dependiendo de la curvatura deseada en la línea.

Medicina

En la medicina las primeras evidencias relacionando la mortalidad con el fumar


tabaco vinieron de estudios que utilizaban la regresión lineal. Los investigadores
incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo
por eliminar factores que pudieran producir correlaciones espurias. En el caso del
tabaquismo, los investigadores incluyeron el estado socioeconómico para
asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su
educación o posición económica. No obstante, es imposible incluir todas las
variables posibles en un estudio de regresión. En el ejemplo del tabaquismo, un
hipotético gen podría aumentar la mortalidad y aumentar la propensión a adquirir
enfermedades relacionadas con el consumo de tabaco. Por esta razón, en la
actualidad las pruebas controladas aleatorias son consideradas mucho más
confiables que los análisis de regresión.
Planteamiento del problema y justificación.
Tenemos una compañía que desea hacer predicciones del valor anual de sus
ventas totales en cierto país a partir de la relación de éstas y la renta nacional.
Para investigar la relación cuenta con los siguientes datos:

X representa la renta nacional en millones de euros e Y representa las ventas de


la compañía en miles.

Desarrollo del problema:

Para calcular la regresión lineal simple sea más fácil se elaboró la siguiente tabla
donde se concentran todas las operaciones.
Empleando los datos de la tabla se sustituyeron los valores en las fórmulas para
obtener la regresión lineal simple:

Posteriormente para calcular la correlación se realiza una tabla similar a la


anterior, en este caso se utilizan las medias de X y Y:
Gráfico de la dispersión de las variables

Al momento de trabajar en Excel podemos hacer uso de algunas herramientas o


complementos del programa, en este caso usamos el análisis de datos el cual nos
ayuda a calcular la regresión lineal simple con solo tener los datos de las variables
XyY
Objetivo

El objetivo de poder resolver estos problemas matemáticos es que podamos


predecir el valor anual de las ventas totales establecidas de la empresa en cierto
país utilizando como variables independientes de la renta nacional. Como en otros
términos se busca entender como la renta nacional X influye en las ventas de la
compañía Y y utilizar esta relación para hacer predicciones futuras.

Justificación

La justificación de resolver este problema y como otros es predecir las ventas de


la compañía a partir de la renta nacional se basa en que una compañía necesita
tomar decisiones estratégicas, como la asignación de recursos, la expansión del
mercado y la inversión en publicidad. La capacidad de prever sus ventas futuras
es esencial para tomar estas decisiones de manera informada. El resolver el
problema implica el análisis de datos históricos que relacionan la renta nacional y
las ventas de la compañía. Esto se hace mediante técnicas estadísticas y
matemáticas, como la regresión lineal, que permiten modelar la relación entre las
variables, como se menciona anteriormente el desarrollar un modelo estadístico
que permita predecir ventas futuras será de gran beneficio para la compañía ya
que podrá optimizar su estrategia para adaptarse a las condiciones económicas y
maximizar sus ingresos.
Conclusión

Como conclusión la correlación y la regresión simple lineal son herramientas


estadísticas fundamentales que desempeñan un papel crucial en la comprensión y
solución de problemas empresariales y científicos. La importancia de estas
técnicas se destaca aún más al considerar el problema específico de predecir las
ventas de una compañía a partir de la renta nacional, ya que proporciona
información valiosa para la toma de decisiones estratégicas, la planificación
financiera y la optimización de recursos. Esto se logra mediante el análisis de
datos, el desarrollo de modelos y la adaptación a las condiciones económicas
cambiantes.

Efectivamente verdad conocer la relación entre dos variables puede ser muy
beneficioso para las empresas en este caso, pero el uso de la correlación y la
regresión simple lineal puede extenderse a muchos ámbitos y disciplinas.
Bibliografía

 www.superprof.es,(s.f) / www.superprof.es Obtenido de:


https://www.superprof.es/apuntes/escolar/matematicas/estadistica/
disbidimension/ejerci cios-de-correlacion-y-regresion.html

 www.jmp.com (2023) Obtenido de:


https://www.jmp.com/es_mx/statistics-knowledge-portal/what-is-correlation.html

 www.studocu.com (2020) Obtenido de:


https://www.studocu.com/es-mx/document/tecnologico-universitario
Querétaro/estadística/unidad-1-regresion-lineal-simple/20809246

.
Anexos

Actividad 1

X Edad de y Edad de x^2 y^2 XY


Eduardo Nayeli
27 23 729 529 621
32 30 1024 900 960
39 32 1521 1024 1248
37 40 1369 1600 1480
45 34 2025 1156 1530
38 38 1444 1444 1444
43 42 1849 1764 1806
25 24 625 576 600
30 22 900 484 660
40 28 1600 784 .1120
356 313 13086 10261 11469

Las fórmulas: Resultados a): 0.7910

Resultado b): 3.9264


y Edad de Nayeli
45

40
f(x) = 0.793222683264177 x + 4.51728907330567
R² = 0.655730751498386
35

30

25

20
23 28 33 38 43 48

Estadísticas de la regresión
Coeficiente de 0.74562222
correlación
múltiple
Coeficiente de 0.5559525
determinación
R^2
R^2 ajustado 0.59835254
Error típico 4.46128523
Observacione 10
s
ANÁLISIS DE
VARIANZA
Grados Suma de Promedio de F Valor crítico de F
de cuadrados los cuadrados
libertad
Regresión 1 227.456604 227.456604 11.4282194 0.01484744
Residuos 6 119.418396 19.9030659
Total 7 346.875

Coeficiente Error típico Estadístico Probabilida


s t d
Intercepción 4.51728907 8.53545725 0.52923809 0.61563978
x edad de Eduardo 0.79322268 0.23464205 3.38056495 0.01484744
Inferior Superior Inferior Superior
95% 95% 95.0% 95.0%
- 25.402800 - 25.402800
16.3682224 6 16.368222 6
2 4
0.21907427 1.3673710 0.2190742 1.3673710
6 9 8 9

Actividad 2

x Edad y x−x y− y ( x−x ¿ ( x−x ¿2 ( y− y)2


de Edad
( y− y)
Eduardo de
Nayeli

27 23 -17.5 -16.125 282.1875 306.25 260.015625


32 30 -12.5 -9.125 114.0625 156.25 83.265625
39 32 -5.5 -7.125 39.1875 30.25 50.765625
37 40 -7.5 0.875 -6.5625 56.25 0.765625
45 34 0.5 -5.125 -2.5625 0.25 26.265625
38 38 -6.5 -1.125 7.3125 42.25 1.265625
43 42 -1.5 2.875 -4.3125 2.25 8.265625
25 24 -19.5 -15.125 294.9375 380.25 228.765625
30 22 -14.5 -17.125 248.3125 210.25 293.265625
40 28 -4.5 -11.125 50.0625 20.25 123.765625
356 313 -89 -78.25 1022.625 1204.5 1076.40625

Formula:

Resultado: 0.89848966

Poner fotos y índice

También podría gustarte