Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

TEORIA 03 Regresión Lineal

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

Introducción a la Matemática para Geología

REGRESIÓN LINEAL

Introducción
Una empresa quiere saber cuánto costará perforar un nuevo pozo de 2500 metros de
profundidad. La información disponible es la profundidad (en miles de metros) y el costo de
perforación (en miles de dólares) de ocho pozos.
Pozo Profundidad 𝑥 (miles de metros) Costo 𝑦 (miles de dólares)
1 1 80
2 1,5 110
3 1,7 120
4 1,8 130
5 2 180
Nuevo 2,5 Valor para estimar
6 2,1 220
7 2,3 240
8 2,6 300

Con la información disponible se construye el diagrama de dispersión. El objetivo es obtener la


recta que mejor se aproxima a los puntos de la nube, llamada recta de regresión.

Figura 23 El objetivo consiste en obtener la recta de regresión, para estimar el costo de


perforación del nuevo pozo de 2500 metros de profundidad, y valorar la estimación.

Objetivos
1. Construir un diagrama de dispersión e indicar el tipo de correlación.
2. Calcular medias marginales y centro de gravedad.
3. Calcular e interpretar los coeficientes de correlación y determinación.
4. Obtener la ecuación de la recta de regresión.
5. Resolver problemas con rectas de regresión, valorando la estimación.

37
© Ramón Omar Renfige Córdoba

Diagrama de dispersión y nube de puntos

Cuando se estudian a la vez dos variables 𝑥 e 𝑦, se obtienen 𝑛 pares ordenados de datos:


(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑖 , 𝑦𝑖 ), … , (𝑥𝑛 , 𝑦𝑛 )
Las primeras componentes de los pares son valores de la variable independiente y las segundas
componentes son los valores de la variable dependiente.
La representación de pares ordenados (𝑥, 𝑦) de datos de las variables en un sistema coordenado
cartesiano se llama diagrama de dispersión. El conjunto de puntos del diagrama es la nube de
puntos.

𝑥 𝑦
𝑥1 𝑦1
𝑥2 𝑦2
… …
𝑥𝑖 𝑦𝑖
… …
𝑥𝑛 𝑦𝑛

Figura 24 La recta de regresión es la que mejor se aproxima a todos los puntos de la nube.

Cuando el valor de una variable se calcula “exactamente” a partir de la otra se dice que entre
las variables existe una relación funcional, tal como ocurre en una relación que es función lineal.

Correlación

Cuando el valor de una variable se “estima” a partir del valor de la otra se dice que entre las
variables existe correlación. Puede suceder que no exista correlación.

Correlación según la intensidad

• Correlación fuerte: La nube de puntos es estrecha y alargada.


• Correlación débil: La nube de puntos es ancha y corta.

Correlación según el sentido

• Correlación directa: La correlación es directa cuando al aumentar el valor de la variable


independiente aumenta el valor de la variable dependiente.
• Correlación inversa: La correlación es inversa cuando al aumentar el valor de la variable
independiente disminuye el valor de la variable dependiente.

38
Introducción a la Matemática para Geología

Figura 25 La distribución de los puntos en la nube es un indicador del tipo de correlación.


La correlación puede ser lineal (los puntos se aproximan a una recta), cuadrática (los puntos
se aproximan a una parábola), exponencial, etcétera. Cuando los puntos de la nube tienen
una forma redondeada no hay dependencia entre las variables, no hay correlación.

Medias marginales

La media marginal (o promedio marginal) es el cociente entre la suma de los valores de la


variable y el número de observaciones o datos:
∑𝑛𝑖=1 𝑥𝑖 ∑𝑛𝑖=1 𝑦𝑖
𝑥̅ = 𝑦̅ =
𝑛 𝑛
El objetivo es obtener la ecuación de la recta de regresión para efectuar la estimación. El primer
paso consiste en obtener el centro de gravedad, un punto por donde pasa la recta de regresión

Centro de gravedad: Un punto de la recta de regresión

El centro de gravedad 𝐺(𝑥̅ , 𝑦̅) de la nube es un punto por donde pasa la recta de regresión. Sus
coordenadas son la media marginal de 𝑥 y la media marginal de 𝑦.

39
© Ramón Omar Renfige Córdoba

Actividad 8: Centro de gravedad


Justifique que la recta de regresión pasa por el punto 𝐺(1,88; 172,50).
Pozo 𝑥 𝑦
1 1,0 80
2 1,5 110
3 1,7 120
4 1,8 130
5 2,0 180
6 2,1 220
7 2,3 240
8 2,6 300
Suma 15 1380

Varianzas marginales

La varianza marginal de la variable 𝑥 o de la variable 𝑦 es el promedio de los cuadrados de las


desviaciones de los datos respecto de su media marginal:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∑𝒏𝒊=𝟏 𝒙𝟐𝒊 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 ∑𝒏𝒊=𝟏 𝒚𝟐𝒊
𝑆𝑥2 = = ̅𝟐
−𝒙 𝑆𝑦2 = = ̅𝟐
−𝒚
𝑛 𝒏 𝑛 𝒏

La varianza marginal es una medida de la dispersión de los valores de la variable respecto de su


media marginal. La varianza marginal de 𝑥 es un dato necesario para hallar la pendiente de la
recta de regresión.

Covarianza

La covarianza es el promedio de los productos de los desvíos de las variables respecto de sus
medias marginales y tiene el signo de la pendiente de la recta de regresión:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) ∑𝒏𝒊=𝟏 𝒙𝒊 𝒚𝒊
𝑆𝑥𝑦 = = ̅ ̅𝒚
−𝒙
𝑛 𝒏
La covarianza es una medida de la dispersión “conjunta” de los valores de las variables respecto
de sus medias marginales y es dato necesario para calcular la pendiente de la recta de regresión

Pendiente de la recta de regresión

La pendiente de la recta de regresión es el cociente entre covarianza y varianza marginal de 𝑥:


Covarianza 𝑆𝑥𝑦
𝑚= = 2
Varianza marginal de 𝑥 𝑆𝑥

40
Introducción a la Matemática para Geología

Ecuación de la recta de regresión

La recta de regresión pasa por el centro de gravedad 𝐺(𝑥̅ , 𝑦̅). Entonces, con este punto y la
pendiente se tiene la ecuación de la recta de regresión:
𝑦 − 𝑦̅ = 𝑚(𝑥 − 𝑥̅ )

Actividad 9: Recta de regresión y costo estimado de perforación


Pruebe que la recta de regresión es 𝑦 = 151,65 𝑥 − 112,60 y que la perforación de un pozo de
2500 metros de profundidad tiene un costo estimado de 266525 dólares.

Pozo 𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
1 1 80 1 6400 80
2 1,5 110 2,25 12100 165
3 1,7 120 2,89 14400 204
4 1,8 130 3,24 16900 234
5 2,0 180 4,00 32400 360
6 2,1 220 4,41 48400 462
7 2,3 240 5,29 57600 552
8 2,6 300 6,76 90000 780
Suma 15 1380 29,84 278200 2837

Desviaciones marginales

La desviación marginal es la raíz cuadrada positiva de la varianza marginal:

∑𝑛 𝑥 2 ∑𝑛 𝑦 2
𝑆𝑥 = √ 𝑖=1 𝑖 − 𝑥̅ 2 𝑆𝑦 = √ 𝑖=1 𝑖 − 𝑦̅ 2
𝑛 𝑛

Las desviaciones marginales son datos para calcular la intensidad de la correlación entre las
variables. Si la desviación marginal es “pequeña”, la media marginal es representativa de los
datos. El coeficiente de correlación lineal de Pearson es una medida de la intensidad de la
correlación entre las variables y tiene el signo de la pendiente de la recta de regresión.

Coeficiente de correlación lineal de Pearson

El coeficiente de correlación lineal de Pearson es el cociente entre la covarianza y el producto


de las desviaciones marginales:
𝑆𝑥𝑦
𝑟= (−1 ≤ 𝑟 ≤ +1)
𝑆𝑥 𝑆𝑦

41
© Ramón Omar Renfige Córdoba

Figura 26 El coeficiente de correlación lineal es un número comprendido entre -1 y 1.

Coeficiente de determinación

El coeficiente de determinación es el cuadrado del coeficiente de correlación lineal:


𝑅2 = 𝑟2 (0 ≤ 𝑅 2 ≤ 1)

Figura 27 El coeficiente de determinación es un número comprendido entre 0 y 1. La


estimación mejora cuando se aproxima a 1.

El coeficiente de determinación es una medida de cuán confiable es la recta de regresión para


realizar estimaciones:
• Si 𝑅 2 = 0, la recta de regresión no puede ser utilizada para estimar.
• Si 𝑅 2 se aproxima al valor 1, la estimación mejora.
• Si 𝑅 2 = 1 la recta de regresión puede ser utilizada calcular con exactitud y se dice que la
variable dependiente es función lineal de la variable independiente.

Actividad 10: Desviaciones marginales y coeficientes


A continuación, se presenta un resumen de la regresión lineal. Verifique que la desviación
marginal de la variable profundidad es 0,45, la de la variable costo de perforación en miles de
dólares 70,84, el coeficiente de correlación lineal 0,95 y el coeficiente de determinación 0,90 y
la estimación del costo de perforación del nuevo pozo es fiable en un 90%.

Número de datos 𝑛 8

∑𝑛𝑖=1 𝑥𝑖
Media marginal de 𝑥 𝑥̅ = 1,88
𝑛

∑𝑛𝑖=1 𝑦𝑖
Media marginal de 𝑦 𝑦̅ = 172,50
𝑛

Centro de gravedad 𝐺(𝑥̅ , 𝑦̅) (1,88;172,50)

∑𝑛𝑖=1 𝑥𝑖2
Varianza marginal de 𝑥 𝑆𝑥2 = − 𝑥̅ 2 0,20
𝑛

42
Introducción a la Matemática para Geología

∑𝑛𝑖=1 𝑦𝑖2
Varianza marginal de 𝑦 𝑆𝑦2 = − 𝑦̅ 2 5018,75
𝑛

∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖
Covarianza 𝑆𝑥𝑦 = − 𝑥̅ ̅𝑦 30,33
𝑛

𝑆𝑥𝑦
Pendiente de la recta 𝑚= 151,65
𝑆𝑥2

Recta de regresión 𝑦 − 𝑦̅ = 𝑚(𝑥 − 𝑥̅ ) 𝑦 = 151,65𝑥 − 112,60

∑𝑛 𝑥 2
Desviación marginal de 𝑥 𝑆𝑥 = √ 𝑖=1 𝑖 − 𝑥̅ 2
𝑛

∑𝑛 𝑦 2
Desviación marginal de 𝑦 𝑆𝑦 = √ 𝑖=1 𝑖 − 𝑦̅ 2
𝑛
𝑆𝑥𝑦
Coeficiente de correlación 𝑟=
𝑆𝑥 𝑆𝑦

Coeficiente de determinación 𝑅2 = 𝑟2

Aplicación 15: Coeficientes de correlación lineal y de determinación


Para cada una de las nubes de puntos indique el signo del coeficiente de correlación lineal y el
valor al que se aproxima ¿Cuál podría ser el valor del coeficiente de determinación?

Aplicación 16: Caudal del río y superficie de la cuenca


El conjunto de un río y sus afluentes y a su vez subafluentes, constituye una red hidrográfica. El
territorio y la red hidrográfica que lo irriga conforman lo que llamamos cuenca. Se entiende por

43
© Ramón Omar Renfige Córdoba

cuenca de drenaje el territorio drenado por un único sistema de drenaje natural, es decir, que
drena sus aguas al mar a través de un único río, o que vierte sus aguas a un único lago endorreico.

Figura 28 Una cuenca hidrográfica es una especie de “embudo” del territorio por el que
escurre el agua desde las partes altas, de donde sale el agua que fluye hacia otro lado.

Para predecir el caudal de un río, en función de la superficie de la cuenca de drenaje, la variable


independiente es la superficie de la cuenca y la variable dependiente el caudal del río. Estime el
caudal para una cuenca de drenaje con una superficie de 200 kilómetros cuadrados y valore la
estimación.

Superficie (km2) 128 140 161 186 199 216 231 244 250
Caudal (m3/s) 33 41 42 49 60 59 75 76 81

Línea de tendencia

Con una planilla de cálculo se puede construir el diagrama de dispersión, aproximar los puntos
mediante una línea de tendencia y obtener su ecuación (lineal, cuadrática, polinómica de grado
3, 4, 5 o 6, exponencial o logarítmica).
Para añadir la línea de tendencia al diagrama de dispersión:
• Haga clic en uno de los puntos del diagrama y con el botón derecho del ratón seleccione la
opción “Agregar línea de tendencia”.
• Elija la línea de tendencia que mejor se ajuste a los datos.
• Marque las opciones “Presentar ecuación y valor de R cuadrado en el gráfico”.

44
Introducción a la Matemática para Geología

Figura 29 En una planilla de cálculo puede crear un diagrama de dispersión, agregar una
línea de tendencia, su ecuación y valor de 𝑅2 .

Aplicación 17: Porosidad


La porosidad es el espacio vacío que no está ocupado por los granos, que es el material sólido
de la roca. Los poros permiten el almacenamiento de fluidos: petróleo, agua y/o gas. La
porosidad representa el volumen de estos fluidos presentes en el yacimiento. Generalmente los
yacimientos que presentan una porosidad muy baja no se consideran para ser explotados.

Figura 30 La porosidad es una medida del espacio vacío en un material.

En la tabla se registra la porosidad de un tipo de roca, en función de la profundidad. Estime la


porosidad a los 500 metros ¿Es buena la estimación?

Profundidad (km) 0 0,1 0,2 0,3 0,4 0,6 0,8 0,9 1


Porosidad (%) 35 32 27 25 21 15 8 6 5

Aplicación 18: Presión atmosférica y altitud


La presión atmosférica es la fuerza por unidad de superficie que ejerce el aire que forma la
atmósfera sobre la superficie terrestre.
A nivel del mar, la presión atmosférica es de 760 mm de Hg y disminuye con la altitud. Por
ejemplo, en la cima del monte Everest, a 8848 metros de altitud, la presión atmosférica es de
300 mm de Hg. En la tabla se muestra la relación entre la altura sobre el nivel del mar) y la

45
© Ramón Omar Renfige Córdoba

presión atmosférica. Estime la presión atmosférica a 2000 m de altitud, y la altitud a la cual la


presión atmosférica es de 600 mm de Hg ¿Es buena la estimación?

Altitud (msnm) 0 184 231 481 730 911 1343 1550 1820 2184
Presión (mm de Hg) 760 745 740 720 700 685 630 650 610 580

Aplicación 19: Dióxido de carbono en la atmósfera


El dióxido de carbono (CO2 ) es un gas incoloro, inodoro e incombustible que se genera cuando
se quema cualquier sustancia que contiene carbono, como los combustibles fósiles y las plantas
lo absorben durante la fotosíntesis. En la tabla se listan las concentraciones de dióxido de
carbono en la atmósfera, medidas en partes por millón. Estime la concentración de dióxido de
carbono en 1999.

Año 1984 1986 1988 1990 1992 1994 1996 1998 2000
CO2 (ppm) 344,3 347 351,3 354 356,3 358,9 362,7 366,5 369,4

Aplicación 20: Movimiento planetario


Los planetas del sistema solar orbitan alrededor del Sol (movimiento de traslación), a la vez que
giran sobre sus ejes (movimiento de rotación).
En la siguiente tabla se registra el periodo de revolución alrededor del Sol de cada planeta (en
días), periodo de rotación sobre su eje (en horas) y distancia media al Sol de los planetas
(millones de millas). Utilice la planilla de cálculo para investigar si existe correlación lineal entre
el periodo de revolución y distancia media al Sol y/o periodo de rotación y distancia media al
Sol. En el caso de existir correlación lineal, añada la línea de tendencia al diagrama de dispersión,
obtenga su ecuación y 𝑅 2.
Planeta Periodo de revolución Periodo de rotación Distancia media al Sol
(días) (horas) (millones de millas)
Mercurio 88 1,416 36

Venus 225 5,832 67

Tierra 365 24 93

Marte 687 25 142

Júpiter 4329 10 484

Saturno 10753 11 887

Urano 30660 17 1784

Neptuno 60225 16 2796

Plutón 90520 153 3666

46
Introducción a la Matemática para Geología

Bibliografía
1. DEMANA, F., Waits, B. y Foley, G. (2007). Precálculo gráfico, numérico y algebraico. (7a ed.).
México. Pearson Educación. (página 155)
2. STEWART, J., Redlin, L. y Watson, S. (2012). Precálculo Matemáticas para el Cálculo. (6a ed.).
México. Cengage Learning. (página 130)

47

También podría gustarte