Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

PC3 Metodos

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 8

Regresión múltiple y análisis de varianza (ANOVA)

Medina, Cristhian; Quispe, Araceli; Reyes, David.


PI524B - Métodos numéricos para ingeniería química
Departamento de ingeniería química y textil, Universidad Nacional de
Ingeniería, Lima, Perú.

Resumen
Objetivo: determinar la correlación lineal o la significancia de cada una de las variables
independientes mediante el planteamiento de una hipótesis y métodos: El estudio realizado es de
tipo cuantitativo, transversal y correlacional. Los datos extraídos corresponden a un grupo de
personas de distintas edades que se encontraban hospitalizadas en Unidad de Epidemiología
Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo.
Palabras clave: Edad, IMC, colesterol, producción del colorante natural ,TAD.

Abstract
Objective: to determine the linear correlation or the significance of each of the
independent variables by proposing a hypothesis and methods: The study carried out is
quantitative, cross-sectional and correlational. The data extracted correspond to a group of
people of different ages who were hospitalized in the Clinical Epidemiology and Biostatistics
Unit. Juan Canalejo Hospital Complex.
Keywords: Age, BMI, cholesterol, natural dye production, TAD.
1. Introducción
2.1. Prueba estadística
La regresión lineal múltiple permite
generar un modelo lineal en el que el valor Planteamos en la prueba global una
de la variable dependiente se determina a hipótesis para el uso de una comparación
partir de un conjunto de variables utilizando el ANOVA para las distintas
independientes llamadas predictores (X₁, variables en los diferentes problemas,
X₂, ...),Es una extensión de la regresión desempeñando como una idea de
lineal simple. Los modelos de regresión experimento secuencial y una relación de
múltiple pueden emplearse para predecir el causal. El valor de significancia de la
valor de la variable dependiente o para investigación es del valor de =0.05( 5%),en
evaluar la influencia que tienen los la cual si este valor es mayor que el p-valor
predictores sobre ella. Donde la regresión se acepta la hipótesis nula, si es menor se
lineal múltiple presenta un modelo, para rechaza la hipótesis nula. Para la
describir si entre la una variable respuesta y comparación de las variables, se utilizó el
variables X₁, X₂, ..., independientes hay una software de InfoStat o se realizó mediante en
relación lineal, que se expresa mediante 𝑌𝑖 análisis de datos (una ampliación de Excel)
= 𝛽₀ + 𝛽₁𝑋 i₁ + 𝛽₂𝑋i₂+. . . + 𝛽𝑋i.
𝑌: Es la variable respuesta 2.2. Planteamiento de la hipótesis
cuantitativa para el i-ésimo objeto, este es un La hipótesis del presente trabajo se
valor estimado diseña como un experimento secuencial y
𝛽k: Son los parámetros relación causal donde se enuncia de la
poblacionales llamados coeficientes. Siendo siguiente manera: Hipótesis alterna (Ha);
“n” el número de objetos u observaciones hay diferencias entre las variables
donde i = 0, 1, 2, n.  dependiente e independientes . Hipótesis
nula (Ho); no hay diferencias en el promedio
En este presente trabajo el objetivo entre las variables dependiente e
es determinar la correlación lineal o la independientes.[CITATION San15 \l 3082 ]
significancia de cada una de las variables
independientes mediante el planteamiento de
una hipótesis.[ CITATION Rob16 \l 3082 ]
2. Metodología
El análisis de regresión lineal
múltiple nos permite establecer la relación
que se produce entre una variable
dependiente Y con un conjunto de variables
independientes (X₁, X₂, ... ), por lo cual se
realizó un enfoque donde se analiza los
datos y las variables independientes
mediante el desarrollo estadístico o con los
softwares InfoStat y MegaStat para luego
plantear una hipótesis que deberá ser
aprobada o rechazada.
En el tercer problema se presentaron
los datos de la Unidad de Epidemiología
Clínica y Bioestadística. Complexo
3. Materiales Hospitalario Juan Canalejo, en donde se
analiza las variables independientes de edad,
3.1. Datos colesterol, IMC en función a la tensión
arterial diastólica.
Los datos del presente informe Tabla 3.-
fueron tomados de 3 problemas diferentes
planteados por el docente a cargo, en el
primer problema se presenta un experimento
secuencial para optimizar la producción de
un colorante natural en función de la
concentración de carbono ( X 1) y
X
temperatura ( 2 ). En la tabla 1 se muestran
los niveles de X 1 y X 2 con los que se
experimentó, así como la producción
observada Y en cada una de las condiciones.
Tabla 1.- Datos de producción del
colorante natural.

3.2. Diseño y muestra


        
Para la resolución de los problemas
presentados se hizo uso de la herramienta
“análisis de datos” (una extensión de Excel),
adicionalmente el primer problema fue el
único que se trabajó con InfoStat. En la
extensión de Excel se utilizó como función
para el análisis a la regresión, la cual se
ajusta a las ecuaciones presentadas en la
En el segundo problema se utiliza metodología con un nivel de confianza del
datos de soluciones acuosas de sulfato de 95%.
cobre. Presentamos el porcentaje de En el primer problema se analizan 12
remoción de iones cobre (R) mediante secuencias experimentales, para el segundo
electrodiálisis es una función de cuatro problema se trabajó con 9 corridas
parámetros, temperatura (T), concentración experimentales y en el tercer problema se
(C), flujo volumétrico (F) y diferencia de hizo uso de 67 casos diferentes.
potencial eléctrico (P). Los niveles de cada
parámetro se indican en la tabla 2. Para el cálculo estadístico del
ANOVA se utilizaron las siguientes
Tabla 2.- Datos de porcentaje de remoción fórmulas.
de iones cobre.
Suma de cuadrados 
n
´ − X́ )2
SS gruposetarios =∑ nk ( xk
k=1 Figura 2.- Gráfico de los residuos contra
k nk los niveles de concentración de carbono.
SS R=∑ ∑ ( x− X́ )2
k=1 j=1
k kj
SST =∑ ∑ (Xkj− X́ )2
k=1 j=1

Donde:
         X́ : Media aritmética 
    X́ : Media aritmética de todos los
resultados
Figura 1.- Tabla de expresiones para el Figura 3.- Gráfico de los residuos contra
cálculo de la ANOVA de un factor los niveles de temperatura.

Nota: Obtenido de
https://estadisticaeninvestigacion.wordpress.com/ana
lisis-de-varianza Figura 4.- Gráfico de probabilidad normal
4. Resultados

Para el primer problema se muestra a


continuación las gráficas de probabilidad
normal (porcentaje acumulado contra
residuos),residuos contra predichos, residuos
contra los niveles de concentración de
carbono y residuos contra los niveles de
temperatura. Tabla 5.-Resultados de ANOVA.

Tabla 4.- Estadísticas de la regresión

Tabla 5.- Estadísticas de la regresión


utilizando InfoStat.
Figura 6.- Gráfico de probabilidad normal Figura 7.- Gráfico de los residuos contra la
temperatura en grados Celsius.

Figura 8.- Gráfico de los residuos contra la


Tabla 6.- Los parámetros poblacionales concentración.

(𝛽k).

Tabla 7.-Coeficiente correlación de


Spearman y Pearson.

Figura 9.- Gráfico de los residuos contra el


flujo volumétrico.

Para el segundo problema se muestra


a continuación las gráficas de probabilidad
normal (porcentaje acumulado contra
residuos), residuos contra predichos,
residuos contra los niveles de temperatura,
residuos contra los niveles de concentración,
residuos contra los niveles de flujo
volumétrico y residuos contra la diferencia Figura 10.- Gráfico de los residuos contra
de potencial eléctrico. el potencial eléctrico.

Tabla 8.- Análisis de la regresión.


Figura 12.- Gráfico de los residuos contra
valores de edad.
Figura 11.- Gráfico de probabilidad normal

Figura 13.- Gráfico de los residuos contra


los valores de colesterol.
Tabla 9.-Resultados de ANOVA.

Figura 14.- Gráfico de los residuos contra


los valores del IMC

Tabla 10.-Coeficiente correlación Pearson

Para el problema 3 se muestra a


continuación las gráficas de probabilidad Figura 15.- Gráfico de probabilidad normal
normal (porcentaje acumulado contra
residuos),residuos contra predichos, residuos
contra los valores de edades, residuos contra
los valores de colesterol y residuos contra
los valores de IMC.
Tabla 11. Estadística de la regresión.

Tabla 12.- Análisis de la ANOVA.


Tabla 13.- Parámetros poblacionales. que hay diferencia significativa entre las
variables.

5. Discusión de resultados
Además, con los datos del coeficiente
El gráfico de probabilidad normal se expresa el modelo de la regresión múltiple
para el problema 1 se utiliza para verificar si expresado mediante: 𝑌𝑖 = 𝛽₀ + 𝛽₁𝑋 i₁ +
el modelo de regresión lineal utilizado es 𝛽₂𝑋i₂ ; 𝑌𝑖 = 12882.54629 + 71.6478417𝑋 i₁
correcto con los datos presentados, por la + -388.745479𝑋i₂.
cual lo comprobamos mediante el software
InfoStat o como indica la Figura 16. Para el problema 2 se observa un F
mayor al F critico por lo que se concluye
Figura 16.- QQ plot de los residuos de la
regresión para verificar normalidad.
que si hay relación entre las variables
analizadas.
Para el problema 3 se plantea la
Hipótesis alterna (Ha), Hay diferencias entre
el promedio de los puntajes obtenidos y las
variables edad, colesterol e IMC. Hipótesis
nula (Ho), no hay diferencias entre el
promedio de los puntajes y las variables
edad, colesterol e IMC. En la tabla N
En el gráfico Q-Q plot se presenta el nuestro Fcal tiene un valor de 24.8708815,
coeficiente de correlación lineal “r” de la nuestro =0.05 y nuestro Fcrítico calculado
correlación entre los cuantiles observados en Excel Fcrítico(1-; n-k; k-1) =
versus los cuantiles de la distribución teórica INV.F(0.95, 3, 63) = 2.75054141, con ello
seleccionada, este valor debe ser de al se rechaza Ho debido a que Fcal>Fcrítico. 
menos de “0.95” para aceptar la normalidad.
Como el “r” observado fue de 0.949, se 6. Conclusiones
acepta la normalidad.
En los problemas 1 y 2, de acuerdo
La gráfica de residuos se utiliza para con el análisis estadístico de los datos
examinar la bondad de ajuste en regresión en aplicando la comparación de medias con el
la cual la gráfica 1 se interpreta que no hay ANOVA, el Fcal es mayor que el Crítico de
sesgos en los residuos ni una dispersión no esta manera se rechaza Ho, es decir que hay
constante ni valores que desvíen el al menos una diferencia en el promedio.
comportamiento observado. En la gráfica 2 la
gráfica de residuos nos indica que la relación En el problema propuesto con datos
entre las variables estudiadas no es la indicada registrados se puede concluir que hay
o que existe correlación en los residuales. En diferencias entre el promedio de los puntajes
los resultados de la ANOVA, se tiene que el obtenidos y las variables edad, colesterol e
Fcal es mayor que el Ficticio entonces se IMC al rechazar el Ho y aceptar el Ha .
rechaza la hipótesis nula(Ho) y nos indicaría
7. Bibliografía
8.
Abuín, J. M. (2007). Regresion lineal multiple. En J. M. Abuín. Madrid: IEG.
Granados, R. M. (2016). Modelos de regresión lineal múltiple.
Ross,S. 2002. Probabilidad y estadística para
ingenieros. Ed Mc Graw Hill. 585 pp
Docovskiy, L. (2021). Análisis de regresión
Pértega Díaz S., Pita Fernández S. Unidad múltiple. from
de Epidemiología Clínica y https://luisdi.files.wordpress.com/20
Bioestadística. Complexo 08/09/primera-unidad-regresion-y-
Hospitalario Juan Canalejo. A correlacion.pdf
Coruña. Cad Aten Primaria 2000; 7:
173-176.
Spellman, L. J., «Entry and Profitability in a
Rnte·free Savings and Loan Markel),
Quarterly Review of Economics and
Business, 18. n." 2, 1978, pages. 87-
95. 

También podría gustarte