TF Estadistica 1913897
TF Estadistica 1913897
TF Estadistica 1913897
Estadística Inferencial
Trabajo Final Ordinario
y x y x
76 123 70 109
62 55 37 48
66 100 82 138
58 75 88 164
88 159 43 28
a) Grafique los datos; ¿la regresión lineal simple parece un modelo adecuado?
Es una representación gráfica de un proceso. Cada paso del proceso se representa por un
símbolo diferente que contiene una breve descripción de la etapa de proceso. Los símbolos
gráficos del flujo del proceso están unidos entre sí con flechas que indican la dirección de flujo
del proceso.
FUENTE:
https://concepto.de/diagrama-de-flujo/
Diagrama de flujo
Grafica
100
x y
90
123 76
80
55 62
70
100 66
60
75 58
50
159 88
40
109 70
30
48 37
20
138 82
10
164 88
0
28 43 0 20 40 60 80 100 120 140 160 180
• Mejor estimación de la recta:
Una recta que mejor se ajusta es una línea recta que es la mejor aproximación del conjunto de
datos dado.
Es usada para estudiar la naturaleza de la relación entre dos variables.
Una recta que mejor se ajusta puede ser determinada aproximadamente usando el método
visual al dibujar una línea recta en una gráfica de dispersión para que tanto el número de
puntos arriba de la recta y debajo de la recta sean casi iguales (y la línea pasa a través de
tantos puntos como sea posible).
http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf
Mejor estimación de la recta
Formulas Sustitución
10(74058) − (999)(670)
yො = 𝑎 + 𝑏= = 0.3532
𝑏𝑥 10(119969) − (999)2
2
𝛴𝑥 𝛴𝑦 − (𝛴𝑥)(𝛴𝑥𝑦)
a=
𝑛 𝛴𝑥 2 − (𝛴𝑥)2 119969 670 −(999)(74058)
a= = 31.71
𝑛(∑ 𝑥𝑦) − (∑ 𝑥)(∑ 𝑦) 10 119969 −(999)2
𝑏=
𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 yො = 31.71 + 0.03532
𝑥 2
x y xy x2 y
123 76 9348 15129 5776
55 62 3410 3025 3844
100 66 6600 10000 4356
75 58 4350 5625 3364
159 88 13992 25281 7744
109 70 7630 11881 4900
48 37 1776 2304 1369
138 82 11316 19044 6724
164 88 14432 26896 7744
28 43 1204 784 1849
Σx = 999 Σy = 670 Σxy = 74058 Σx2 = 119969 Σy2= 47670
• Relación entre yො = α + bx e yො = α + βx
Diremos que la relación entre dos variables X e Y es “perfectamente lineal”, si todos los pares
de valores observados (xi,yi) de dichas variables satisfacen la ecuación de una
recta:
En esta expresión α y β son constantes: α es la ordenada al origen y β la pendiente.
Decimos que X es una variable predictora de Y, ecuación (1). El valor i del subíndice
indexa las observaciones: i = 1,2,3,...,n. Para el ejemplo y1 representa el valor de la
presión obtenido para la temperatura x1.
• Error estándar en la mejor estimación de la recta
El error estándar (EE) se le conoce como una medida de las variaciones del estimador,
lo cual permite cuantificar el error de estimación (variación entre las estimaciones).
El error estándar del estadístico media muestral indica la confiabilidad de la media obtenida de una muestra
de tamaño n.
Se calcula de la siguiente manera:
∑ (𝑦
𝑆𝑦𝑥 √
= − 𝑦ො )2
𝑛−2
http://asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica/CARPETA%203%20INFERENCIA_EST
ADISTICA/DOC_%20INFERENCIA/TEMA%204/09%20REGRESION%20Y%20CORRELACION%20LINEAL%
20SIMPLE.pdf
Error Estándar
𝑦 = 𝑎 + 𝑏𝑥
𝑦 = 31.71 + 0.03532 𝑥
x y ^ = 𝑎+ 𝖰𝒙
𝒚 (𝒚 − 𝒚^)𝟐 Formulas
123 76 36.05 1596
55 62 33.65 803.72
∑(𝑦 − 𝑦ො )2
100 66 35.24 946.17 𝑆𝑦𝑥 =√
𝑛−2
75 58 34.36 558.84
28 43 32.69 106.29
Teniendo dos variables, la correlación facilita que se hagan estimaciones del valor de una de
ellas, con conocimiento del valor de la otra variable.
Este coeficiente es una medida que indica la situación relativa de los sucesos respecto a las
dos variables, es decir, representa la expresión numérica que indica el grado de
correspondencia o relación que existe entre las 2 variables. Estos números varían entre límites
de +1 y -1.
https://www.webyempresas.com/coeficiente-de-correlacion-de-pearson/
Coeficiente de correlación de Pearson
Formulas x y xy x2 y2
Valor Significado
(670)2
𝑆𝑦𝑦 = 47670 − = 2780
10
(999)2
𝑆𝑥𝑥 = 119969 − = 20168.9
10
(999)(670)
𝑆𝑥𝑦 = 74058 − = 7125
10
7125
𝑟= = 𝟎. 𝟗𝟓𝟏𝟓
√(2780)(20168.9)
Tabla
Esto indica que mediante el proceso de correlación de Pearson, siempre se encontrara con valores
positivos, no se será posible encontrar algún valor que sea negativo.
• Coeficiente de Correlación de Spearman: La correlación de Spearman evalúa la
relación monótona entre dos variables continuas u ordinales.
https://www.questionpro.com/blog/es/coeficiente-de-correlacion-de-spearman/
x y Rango x Rango y 𝑑𝑖 𝑑𝑖2
123 76 7 7 0 0
55 62 3 4 -1 1
100 66 5 5 0 0
75 58 4 3 1 1
159 88 9 9.5 -0.5 0.25
109 70 6 6 0 0
48 37 2 1 1 1
138 82 8 8 0 0
164 88 10 9.5 0.5 0.25
28 43 1 2 -1 1
---- ---- ---- ---- ---- Σ = 4.5
Formulas Sustitución
𝑑𝑖 = 𝑟𝑎𝑛𝑔𝑜 𝑥 − 𝑟𝑎𝑛𝑔𝑜 𝑦 6(4.5)
6 ∑ 𝑑2𝑖 𝑟𝑠= 1 − = 0.9728
10[(10)2 − 1]
𝑟𝑠 = 1 −
𝑛(𝑛2 − 1)
Diferentes tipos de relación entre Spearman y Pearson
Pearson = +1 Pearson = +0.851 Pearson = −0.093 Pearson = −1 Pearson = −0.799
Spearman = +1 Spearman = +1 Spearman = −0.093 Spearman = −1 Spearman = −1
• Desviación Estándar
Es la raíz cuadrada de la varianza de la variable.
10(74058) − (999)(670)
𝑏= = 0.3532
10(119969) − (999)2
(670)2
𝑆𝑦𝑦 = 47670 − = 2780
10
(999)2
𝑆𝑥𝑥 = 119969 − = 20168.9
10
(2780) − (0.3532)(7125)
𝑆2 = √ = 23.30
10 − 2
𝑆 = 5.74
Relación entre desviación estándar y el error estándar en la mejor estimación de la recta:
- La media muestral es el estimador usual de una media poblacional. Sin embargo, diferentes
muestras escogidas de la misma población tienden en general a dar distintos valores de medias
muéstrales.
http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf
• Coeficiente de determinación
https://economipedia.com/definiciones/r-cuadrado-coeficiente-determinacion.html
y 𝒚^ ̅ (^𝑦 − ̅ )2 ( 𝑦 − )̅ 2
76 36.05 6.7 29.35 4802.49
62 33.65 6.7 26.95 3058.09
66 35.24 6.7 28.54 3516.49
58 34.36 6.7 27.66 2631.69
88 37.33 6.7 30.63 6609.69
70 35.56 6.7 28.86 4006.89
37 33.41 6.7 26.71 918.09
82 36.58 6.7 29.88 5670.09
88 37.50 6.7 30.8 6606.69
43 32.70 6.7 26 1317.69
Σ = 670 Σ = 352.38 Σ = 67 Σ = 285.38 Σ = 39137.9
• Relacion entre el coeficiente de determinación y el coeficiente de correlación de Pearson:
FÓRMULA: SUTITUCIÓN:
∑( 𝑦ො 285.38
𝑅2 = − ̅ )2 𝑅2 = √
∑( 𝑦 − ̅)2 39137.9
𝑅2 = √0.007916
𝑅2 = 0.08897
Intervalos de confianza
El intervalo de confianza es un intervalo en torno a la estimación obtenida donde, con el nivel de
significación fijado, tenemos la confianza de encontrar el auténtico valor del parámetro estimado. Y así
con todos los intervalos que podemos construir a partir de todas las muestras del mismo tamaño.
La confianza se mide en términos de probabilidad: 0,95, 0,99 (nivel de significación α = 5%, 1%).
https://www.geogebra.org/m/Ps6ZVrVZ
Intervalo de confianza para β Intervalo de confianza para α
1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2 )𝑆 ( √ + ) < 𝑀𝑦/𝑥𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2 )𝑆 ( √ + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥
1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2 )𝑆 ( √ 1 + + ) < 𝑦𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2 )𝑆 ( √ 1 + + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥
Intervalo de confianza para β
Formula
(𝑇𝛼 /2 )𝑆 (𝑇𝛼/2 )𝑆
𝑏− <𝛽<𝑏+
√𝑆𝑥𝑥 √𝑆𝑥𝑥
Sustitución
(2.306)(5.74) (2.306)(5.74)
(0.3532) − < 𝛽 < (0.3532) +
√20168.9 √20168.9
I. C. 0.95 y=n–2 α
𝛼 =1− =1− = 0.025 y = 10 – 2 y
2 2 0.025
y=8
8 2.306
𝑇𝛼/2 = 2.306
Intervalo de confianza para α
Formula
Σx2 = 119969
(2.306)(5.74)√119969 (2.306)(5.72)√119969
(31.71) − < 𝛼 < (31.71) +
√(10)(20168.9) √(10)(20168.9)
Tabla
Sustitución
Tabla
“ Valores críticos para la distribución t “
I. C. 0.95 y=n– 2 α
𝛼 = 1− =1− = 0.025 y = 10 – 2 y
2 2 y=8 0.025
8 2.306 𝑇𝛼/2 = 2.306
Intervalo de confianza para yo
Formula
1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2)𝑆 ( √ 1 + + ) < 𝑦𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2)𝑆 ( √ 1 + + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥
Sustitución
Tabla
“ Valores críticos para la distribución t “
I. C. 0.95 y=n– 2 α
𝛼 = 1− =1− = 0.025 y = 10 – 2 y
2 2 y=8 0.025
8 2.306 𝑇𝛼/2 = 2.306
Método de Análisis de Varianza
⚫ Es un procedimiento mediante el cual la variación total de la variable dependiente se subdivide en componentes
significativos, que luego se observan y se tratan en forma sistemática.
⚫ Esta prueba se utiliza para determinar si las medias muestrales provienen de poblaciones con medias iguales,
cuando hay más de dos poblaciones en estudio.
⚫ El análisis de varianza (ANOVA) permite comparar simultáneamente todas la medias, evitando tener que realizar
pruebas en grupos de dos.
⚫ La comparación de las medias muestrales se basa en las varianzas muestrales
k= # de Tratamientos
n= número total de observaciones en todos los tratamientos convinados
T= Tratamientos
Fc= Factor de corrección
SCT= Suma de cuadrados totales
SCTr= Suma de cuadrados de tratamiento
SCE= Suma de cuadrados de error
https://www.dspace.espol.edu.ec/bitstream/123456789/25020/1/PROBABILIDAD%20Y%20ESTADISTICA%20BASICA%20P
ARA%20INGENIEROS.pdf
¿En qué consiste ANOVA?
⚫ Es una de las técnicas estadísticas más utilizadas para comparar grupos de medidas y
normalmente se emplea para establecer semejanzas y diferencias entre tres o más grupos
distintos. A través de ANOVA se establece un análisis para evaluar comparativamente unos
resultados en distintas clasificaciones o grupos. De esta manera, es posible calcular si los
valores medios son iguales en los distintos grupos estudiados.
Este análisis comparativo se realiza en aquellos contextos en los que los grupos estudiados
son independientes entre sí, pero la global de ellos puede ofrecer resultados
estadísticos que resulten de interés. En pocas palabras, los resultados obtenidos indican si
los valores medios entre dos grupos o más son semejantes o diferentes. Si no se utiliza el
análisis ANOVA de un factor las diferencias entre los distintos grupos estudiados
dependerían de la subjetiva de cada observador.
https://www.definicionabc.com/economia/anova.php
Formulas
∑ X = X + X + X … + Xn
∑ Y = y1 + y2 + y3 … + yn
⚫ 11.7) Los siguientes son algunos de los datos contenidos en un conjunto clásico denominado
“datos piloto de graficación” que aparecen en Fitting Equations to Data, de Daniel y Wood,
publicado en 1971. La respuesta y es el contenido de ácido del material determinado por
análisis volumétrico; mientras que el regresor x es el contenido de ácido orgánico
determinado por extracción y ponderación.
Hipótesis
H0 : µ 1 = µ 2 α = 0.05
H 1: Al menos una media es distinta
Procedimiento:
Total n– 1 SCT
20 – 1= 19 28,360.95
Se rechaza H0 sí
Fcal > F α, ,
Coclusión: Se acepta H0
la nota media es significativamente igual al contenido de acido
del material determinado por análisis que el acido organico
determinado por extracción y ponderación.
Prueba de hipótesis para β
Sustitución
Datos
(999)2
H0 : β = 1 𝑆𝑥𝑥 = 119969 − = 20168.9
10
H1 : β < 1
α = 0.05
n = 10
(2780) − (0.3532)(7125)
x = Cualquier valor de “x” 𝑆2 = √ = 23.30
10 − 2
Valor escogido x = 123
Formula
0.3532 − 1
𝑇= 5.74 = −16.0099
b−𝛽 √20168.9
𝑇=
𝑆
√𝑆𝑥𝑥
𝐻1 = −16.0099
Tabla (Valores críticos de Gráfica
la distribución t)
α = 0.05
y=n– 2
y = 10 – 2
y=8
α
y
0.05
8 1.860 - 16.0099 - 1.91
H1 H0
159
(2780) − (0.3532)(7125)
Formula 𝑆2 = √ = 23.30 109
10 − 2
48
𝐻1 = 7.18 Σ = 999
Tabla (Valores críticos de Gráfica
la distribución t)
𝛼 0.05
2 = 2 = 0.025
y=n– 2
y = 10 – 2
y=8
α
y
0.025
8 2.306 - 7.18 - 2.331 2.331 7.18
H1 H0 H0 H1
Problema 2
Distancia (Km) 825 215 1070 550 480 920 1350 325 670 1215
Tiempo (Días) 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
Mejor estimación de la recta
Formulas Sustitución
10(26370) − (7620)(28.5)
𝑦 = 𝑎 + 𝑏𝑥 𝑏= = 0.003585
10(7104300) − (7620)2
(∑ 𝑦) − 𝑏(∑ 𝑥)
𝑎= 28.5 − (0.003585)(7620)
𝑛 𝑎= = 0.11823
10
𝑛(∑ 𝑥𝑦) − (∑ 𝑥)(∑ 𝑦)
𝑏=
𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 𝑦 = 0.11823 + 0.003585 𝑥
x y xy x2 y2
Mejor estimación de la recta:
825 3.5 2887.5 680625 12.25
Introducen la ecuación ya conocida
215 1.0 215 46225 1 de Regresión Simple como el
1070 4.0 4280 1144900 16 procedimiento analítico para la
550 2.0 1100 302500 4 obtención exacta de predicciones.
480 1.0 480 230400 1
920 3.0 2760 846400 9
Conclusión
En este problema, lo que es la mejor
1350 4.5 6075 1822500 20.25
estimación de la recta indica que,
325 1.5 487.6 105625 2.25 basándose en la ecuación ya dada
670 3.0 2010 448900 9 de la recta de regresión indicara la
1215 5.0 6075 1476225 25 variación entre la tensión normal X
con la resistencia al corte.
Σ = 7620 Σ = 28.5 Σ = 26370 Σ = 7104300 Σ = 99.75
Diagrama de flujo
y = 0.0036x + 0.1181
Distancia vs Tiempo
R² = 0.9005
6
Tiempo 4
0
0 200 400 600 800 1000 1200 1400 1600
Distancia
Σ = 7620
x 825 215 1070 550 480 920 1350 325 670 1215
Σ = 28.5
y 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
𝑦 = 0.11823 + 0.003585 𝑥
Error Estándar
x y ^ =𝑎+ 𝖰𝒙
𝒚 (𝒚 − 𝒚^)𝟐 Formulas
Error Estándar: El error estándar (EE) se le conoce como una medida de las variaciones del
estimador, lo cual permite cuantificar el error de estimación (variación entre las estimaciones).
El error estándar del estadístico media muestral indica la confiabilidad de la media obtenida
de una muestra de tamaño n.
Formulas x y xy x2 y2
Valor Significado
(28.5)2
𝑆𝑦𝑦 = 99.75 − = 18.525
10
(7620)2
𝑆𝑥𝑥 = 7104300 − = 1297860
10
(7620)(28.5)
𝑆𝑥𝑦 = 26370 − = 4653
10
4653
𝑟= = 𝟎. 𝟗𝟒𝟖𝟗
√(18.525)(1297860)
Tabla
Esto indica que mediante el proceso de correlación de Pearson, siempre se encontrara con valores
positivos, no se será posible encontrar algún valor que sea negativo.
x y Rango x Rango y 𝑑𝑖 𝑑𝑖2
825 3.5 6 7 1 1
215 1.0 1 1.5 0.5 0.25
1070 4.0 8 8 0 0
550 2.0 4 4 0 0
480 1.0 3 1.5 1.5 2.25
920 3.0 7 5.5 1.5 2.25
1350 4.5 10 9 1 1
325 1.5 2 3 1 1
670 3.0 5 5.5 0.5 0.25
1215 5.0 9 10 1 1
---- ---- ---- ---- ---- Σ = 9.0
Formulas Sustitución
𝑑𝑖 = 𝑟𝑎𝑛𝑔𝑜 𝑥 − 𝑟𝑎𝑛𝑔𝑜 𝑦 6(9)
6 ∑ 𝑑2𝑖 𝑟𝑠 = 1 − = 0.0545
𝑟𝑠 = 1 − 10[(10)2 − 1]
𝑛(𝑛2 − 1)
Coeficiente de Correlación de Spearman: La correlación de Spearman evalúa la
relación monótona entre dos variables continuas u ordinales.
Varianza = Es una medida de dispersión definida como la esperanza del cuadrado de la desviación de
dicha variable respecto a la media.
Desviación Estándar = Es la raíz cuadrada de la varianza de la variable.
x y xy x2 y2
825 3.5 2887.5 680625 12.25
215 1.0 215 46225 1
1070 4.0 4280 1144900 16
550 2.0 1100 302500 4
480 1.0 480 230400 1
920 3.0 2760 846400 9
1350 4.5 6075 1822500 20.25
325 1.5 487.6 105625 2.25
670 3.0 2010 448900 9
1215 5.0 6075 1476225 25
Σ = 7620 Σ = 28.5 Σ = 26370 Σ = 7104300 Σ = 99.75
Formula: Sustitución:
10(26370) − (7620)(28.5)
𝑏= = 0.003585
10(7104300) − (7620)2
(7620)(28.5)
𝑺𝒚𝒚 − 𝒃 ∗ 𝑺𝒙𝒚 𝑆𝑥𝑦 = 26370 − = 4653
𝑺𝟐 = √ 10
𝒏−𝟐
(28.5)2
𝑆𝑦𝑦 = 99.75 − = 18.525
10
(18.525) − (0.003585)(4653)
𝑆2 = √ = 0.2304 𝑆 = 0.4801
10 − 2
-La media muestral es el estimador usual de una media poblacional. Sin embargo, diferentes
muestras escogidas de la misma población tienden en general a dar distintos valores de
medias muéstrales.
Coeficiente de determinación
y 𝒚^ ̅ ( ^𝑦 − ̅)2 ( 𝑦 − )̅ 2
3.5 3.0758 2.85 0.0509 0.4225
1.0 0.8890 2.85 3.8455 3.4225
4.0 3.9541 2.85 1.2119 1.3225
2.0 2.0899 2.85 0.5777 0.7225
1.0 1.8390 2.85 1.0221 3.4225
3.0 3.4164 2.85 0.3208 0.0225
4.5 4.9579 2.85 4.4432 2.7225
1.5 1.2833 2.85 2.4545 1.8225
3.0 2.5201 2.85 0.1088 0.0225
5.0 4.4740 2.85 2.6373 4.6225
Σ = 28.5 Σ = 28.4995 Σ = 28.5 Σ = 16.6727 Σ = 18.5250
Formula Sustitución
∑( 𝑦ො 16.6727
𝑅 2 = − ̅ )2 𝑅2 = √
∑( 𝑦 − ̅)2 18.5250
𝑅2 = √0.900010796
𝑅2 = 0.9486
1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2 )𝑆 ( √ + ) < 𝑀𝑦/𝑥𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2 )𝑆 ( √ + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥
1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2 )𝑆 ( √ 1 + + ) < 𝑦𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2 )𝑆 ( √ 1 + + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥
Intervalo de confianza para β
Formula
(𝑇𝛼 /2 )𝑆 (𝑇𝛼/2 )𝑆
𝑏− <𝛽<𝑏+
√𝑆𝑥𝑥 √𝑆𝑥𝑥
Sustitución
(2.306)(0.4801) (2.306)(0.4801)
(0.003585) − < 𝛽 < (0.003585) +
√1297860 √1297860
Tabla
I. C. 0.95 y=n– 2 α
𝛼 =1− =1− = 0.025 y
2 2 y = 10 – 2 0.025
y=8
8 2.306
𝑇𝛼/2 = 2.306
Intervalo de confianza para α
Formula
Σx2 = 7104300
(2.306)(0.4801)√7104300 (2.306)(0.4801)√7104300
(0.11823) − < 𝛼 < (0.11823) +
√(10)(1297860) √(10)(1297860)
Tabla
Sustitución
xo = cualquier valor de "x" ∑𝑥 7620 𝑦ො 𝑜 = 𝑎 + 𝑏 ∗ 𝑥𝑜 = 0.11823 + (0.003585)(825)
̅= = = 762
xo = 825 𝑛 10 𝑦ො 𝑜 = 3.075855
Tabla
“ Valores críticos para la distribución t “
I. C. 0.95 y=n– 2 α
𝛼 = 1− =1− = 0.025 y = 10 – 2 y
2 2 y=8 0.025
8 2.306 𝑇𝛼/2 = 2.306
Intervalo de confianza para yo
Formula
1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2)𝑆 ( √ 1 + + ) < 𝑦𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2)𝑆 ( √ 1 + + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥
Sustitución
xo = cualquier valor de "x" ∑𝑥 7620 𝑦ො 𝑜 = 𝑎 + 𝑏 ∗ 𝑥𝑜 = 0.11823 + (0.003585)(825)
̅= = = 762
xo = 825 𝑛 10 𝑦ො 𝑜 = 3.075855
Tabla
“ Valores críticos para la distribución t “
I. C. 0.95 y=n– 2 α
𝛼 = 1− =1− = 0.025 y = 10 – 2 y
2 2 y=8 0.025
8 2.306 𝑇𝛼/2 = 2.306
Método de Análisis de Varianza
⚫ Es un procedimiento mediante el cual la variación total de la variable dependiente se subdivide en componentes
significativos, que luego se observan y se tratan en forma sistemática.
⚫ Esta prueba se utiliza para determinar si las medias muestrales provienen de poblaciones con medias iguales,
cuando hay más de dos poblaciones en estudio.
⚫ El análisis de varianza (ANOVA) permite comparar simultáneamente todas la medias, evitando tener que realizar
pruebas en grupos de dos.
⚫ La comparación de las medias muestrales se basa en las varianzas muestrales
k= # de Tratamientos
n= número total de observaciones en todos los tratamientos convinados
T= Tratamientos
Fc= Factor de corrección
SCT= Suma de cuadrados totales
SCTr= Suma de cuadrados de tratamiento
SCE= Suma de cuadrados de error
https://www.dspace.espol.edu.ec/bitstream/123456789/25020/1/PROBABILIDAD%20Y%20ESTADISTICA%20BASICA%20P
ARA%20INGENIEROS.pdf
¿En qué consiste ANOVA?
⚫ Es una de las técnicas estadísticas más utilizadas para comparar grupos de medidas y
normalmente se emplea para establecer semejanzas y diferencias entre tres o más grupos
distintos. A través de ANOVA se establece un análisis para evaluar comparativamente unos
resultados en distintas clasificaciones o grupos. De esta manera, es posible calcular si los
valores medios son iguales en los distintos grupos estudiados.
Este análisis comparativo se realiza en aquellos contextos en los que los grupos estudiados
son independientes entre sí, pero la global de ellos puede ofrecer resultados
estadísticos que resulten de interés. En pocas palabras, los resultados obtenidos indican si
los valores medios entre dos grupos o más son semejantes o diferentes. Si no se utiliza el
análisis ANOVA de un factor las diferencias entre los distintos grupos estudiados
dependerían de la subjetiva de cada observador.
https://www.definicionabc.com/economia/anova.php
Formulas
∑ X2 = X 2 + X 2 + X 2 … + Xn 2
∑ X = X + X + X … + Xn ∑ Y2 = y 2 + y 2 + y 2 … + yn 2
∑ Y = y1 + y2 + y3 … + yn
Problema 2
Distancia (Km) 825 215 1070 550 480 920 1350 325 670 1215
Tiempo (Días) 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
Hipótesis
H0 : µ 1 = µ 2 α = 0.05
H 1: Al menos una media es distinta
Procedimiento:
Total n– 1 SCT
20 – 1= 19 4,179,422.137
Se rechaza H0 sí
Fcal > F α, ,
Coclusión: Se rechaza H0
No se mejora la prestación del servicio establecido en la
relación que existe entre tiempo empleado y la distancia
recorrida.
Regresión polinomial y su grafica
La regresión polinomial es una forma de regresión lineal en la que la relación entre la variable
independiente x y la variable dependiente y es modelada como un polinomio de grado n en x. La
regresión polinomial se ajusta a una relación no lineal entre el valor de x y la correspondiente media
condicional de y, denotada E (y | x), y se ha utilizado para describir fenómenos no lineales como la tasa
de crecimiento de los tejidos, la distribución de carbono Isótopos en sedimentos del lago, y la
progresión de epidemias de la enfermedad. Aunque la regresión polinómica se ajusta a un modelo no
lineal a los datos, como un problema de estimación estadística, es lineal, en el sentido de que la función
de regresión E (y | x) es lineal en los parámetros desconocidos que se calculan a partir de los datos.
Por esta razón, la regresión polinomial se considera un caso especial de regresión lineal múltiple.
https://conzmr.wordpress.com/2017/04/04/regresion-polinomial/
Regresión Lineal Múltiple: En estadística, la regresión lineal o ajuste lineal es un
modelo matemático usado para aproximar la relación de dependencia entre una
variable dependiente Y, las variables independientes Xi y un término aleatorio.
x y xy x2 x3 x4 x2y
Σx = 999 Σy = 670 Σxy = 74058 Σx2 = 119969 Σx3= 15935385 Σx4= 2241956837 Σx2y= 9427418
Formulas del tema
Sustitución
• El primer paso es calcular u obtener el determinante ΔD con el procedimiento en la matriz, sin
tomar la columna en donde se encuentran los resultados en las matrices.
10 𝑏𝑜 670 119969 𝑏2
999 𝑏𝑜 74058 15935385 𝑏2
119969 𝑏𝑜 9427418 2241956837 𝑏2
10 𝑏𝑜 999 𝑏1 670
999 𝑏𝑜 119969 𝑏1 74058
119969 𝑏𝑜 15935385 𝑏1 9427418
∆𝑏1 3𝑥1012
𝑏1 = = =1
∆𝐷 3𝑥1012
∆𝑏2 −9.21𝑥1011
𝑏2 = = = −0.037
∆𝐷 3𝑥1012
x y
Grafica
825 -24294.795 0
215 -1431.995 0 200 400 600 800 1000 1200 1400 1600
-10000
1070 -41227.97
-20000
550 -10579.17
-30000
480 -7981.47
920 -30333.47 -40000
https://economipedia.com/definiciones/r-cuadrado-coeficiente-determinacion.html
El coeficiente nos indicara si el modelo que se
utilizo es el adecuado para saber la variación en la
resistencia al corte, así entre mas grande sea el
coeficientede determinación este será mejor
El ajuste, según el cálculo del R cuadrado, es de 0.4371
Lo cual quiere decir que es un modelo cuyas
estimaciones no se ajustan bien a la variable real. Aunque
técnicamente no sería correcto, podríamos decir algo así
como que el modelo explica en un 43.71% a la variable
real.
TEMA 2: Regresión Lineal Múltiple y Correlación
Problema 2
x y xy x2 x3 x4 x2y
𝑏𝑜 𝑏2
7104300 6740411500] −7620[ 7620 6740411500] +7104300[ 7620 7104300
10[ ]
6740411500 8.33𝑥1012 7104300 8.33𝑥1012 7104300 6740411500
10 𝑏𝑜 28.5 7104300 𝑏2
7620 𝑏𝑜 26370 6740411500 𝑏2
7104300 𝑏𝑜 27470125 8.33 𝑥 1012 𝑏2
10 𝑏𝑜 7620 𝑏1 28.5
7620 𝑏𝑜 7104300 𝑏1 26370
7104300 𝑏𝑜 6740411500 𝑏1 27470125
∆𝑏1 5.7𝑥1016
𝑏1 = = = 0.003 𝑦 = 0.31
∆𝐷 1.9𝑥1019
∆𝑏2 3.23𝑥1013
𝑏2 = = = 1.7𝑥10−6
∆𝐷 1.9𝑥1019
x y y
825 3.9477 8
215 1.0392 7
1070 5.4720 6
550 2.4799 5
480 2.1473 4
920 4.5505 3
1350 7.4995 2
325 1.5062 1
670 3.1248 0
1215 6.5062 0 200 400 600 800 1000 1200 1400 1600
Comparación de regresión lineal y no lineal múltiple
La regresión lineal múltiple se basa en obtener una relación lineal entre un
conjunto de variables independientes X1,..,Xn con una variable dependiente Y, es
decir:
Y = b0+b1X1+b2X2+b3X3+ ··· +bnXn.
El éxito de determinar una correlación lineal múltiple es que exista una correlación
lineal simple de cada variable independiente con la variable dependiente.
En la regresión no lineal múltiple; Muchas de las relaciones entre variables que estudiamos en
geoquímica no son lineales. Se pueden destacar las funciones logarítmica, inversa, cuadrática,
cúbica, potencia, exponencial, etc. En la siguiente tabla se definen las funciones mas utilizadas:
-Lineal
-Logarítmica
- Cuadrático
- Potencia
- Exponencial
En general, para determinar qué modelo utilizar se representan los datos y se ajustan al modelo
más adecuado teniendo en cuenta la bondad del ajuste dentro del rango de datos medidos
experimentalmente y/o fuera del dicho rango (debido al carcter predictivo de las funciones).
https://web.ua.es/es/lpa/docencia/analisis-estadistico-de-datos-geoquimicos-con-
r/regresion-lineal-simple-y-multiple-regresion-no-lineal.html
Ecuaciones no lineales
https://matematica.laguia2000.com/general/sistema-de-ecuaciones-no-
lineales
Coeficiente de determinación
y 𝒚^ ̅ ( ^𝑦 − ̅)2 ( 𝑦 − )̅ 2
3.5 3.0758 2.85 0.0509 0.4225
1.0 0.8890 2.85 3.8455 3.4225
4.0 3.9541 2.85 1.2119 1.3225
2.0 2.0899 2.85 0.5777 0.7225
1.0 1.8390 2.85 1.0221 3.4225
3.0 3.4164 2.85 0.3208 0.0225
4.5 4.9579 2.85 4.4432 2.7225
1.5 1.2833 2.85 2.4545 1.8225
3.0 2.5201 2.85 0.1088 0.0225
5.0 4.4740 2.85 2.6373 4.6225
Σ = 28.5 Σ = 28.4995 Σ = 28.5 Σ = 16.6727 Σ = 18.5250
Formula Sustitución
∑( 𝑦ො 16.6727
𝑅 2 = − ̅ )2 𝑅2 = √
∑( 𝑦 − ̅)2 18.5250
𝑅2 = √0.900010796
𝑅2 = 0.9486
Problema 1
Los siguientes datos son la inversión neta (y) y la tasa de interés (x)
Tasa de
2.5 3 4 5 5.5 6 7
interés (x)
Inversión
12.5 10 7 4.5 4 3 3.5
neta (y)
Formulas Sustitución
𝑛(∑ 𝑥 𝑖 𝑦𝑖 ) − (∑ 𝑥 𝑖 )(∑ 𝑦𝑖 ) 7(3.155) − (4.5397)(5.2185)
𝐵= 𝐵=
𝑖 2 𝑖 2 𝑖 2 [7(3.
1 049) −(4.
5 397)2][7(4.2296) −(5.2185)2] =−0.600762
[𝑛 (∑ 𝑥 ) − (∑ 𝑥 ) ] [𝑛 (∑ 𝑦 )
− (∑ 𝑦𝑖 )2 ]
𝑦𝑖 = 𝐴𝑖 + 𝐵𝑥𝑖 → 𝐴 = 𝑦𝑖̅ − 𝐵𝑥𝑖̅
5.2185 4.5397
𝐴𝑖 = − (−0.600762) ( ) = 1.1351
𝑦𝑖 = 𝐴𝑖 + 𝐵𝑥 𝑖 7 7
𝑖
𝐴 = (10)𝐴 = (10)1.1351 = 13.6489
GRAFICA
yI
1.2
x yI
2.5 1.0969
1
3 1
0.8
4 0.845
6 0.544 0.4
7 0.4771
0.2
0
0 1 2 3 4 5 6 7 8
Tasa de interés
Problema 2:
Sea el siguiente conjunto de valores, las lecturas de un experimento donde “x” es el volumen
(variable independiente) e “y” es la presión de una masa dada de gas (variable resultante).
x y
1 7
2 30
3 90
4 170
5 290
6 450
7 650
x y xI = log x yI = log y xIyI (yI )2 (xI )2
1 7 0 0.8450 0 0.7140 0
2 30 0.3010 1.4771 0.4446 2.1818 0.0906
3 90 0.4771 1.9542 0.9323 3.8188 0.2276
4 170 0.6020 2.2304 1.3427 4.9746 0.3624
5 290 0.6989 2.4623 1.7209 6.0629 0.4884
6 450 0.7781 2.6532 2.0644 7.0394 0.6054
7 650 0.8450 2.8129 2.3769 7.9124 0.7140
Σ = 3.7021 Σ = 14.4351 Σ = 8.8818 Σ = 32.7039 Σ = 2.4884
Formulas Sustitución
7(8.8818) − (3.7021)(14.4351)
𝑛(∑𝑥𝑖𝑦𝑖)−(∑𝑥𝑖)(∑𝑦𝑖) 𝐵= = 0.1144
𝐵= [7(2.4884) − (3.7021)2][7(32.7039) − (14.4351)2]
[𝑛(∑𝑥𝑖2) −(∑𝑥𝑖)2][𝑛(∑𝑦𝑖2)−(∑𝑦𝑖)2]
𝑦𝑖 = 𝐴𝑖 + 𝐵𝑥𝑖 → 𝐴 = 𝑦𝑖̅ − 𝐵𝑥𝑖̅
𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 𝑖 14.4351 3.7021
𝐴𝑖 = − (0.1144) ( ) = 2.0005
7 7
𝑖
∑𝑦 𝑖 𝐴 = (10)𝐴 = (10)2.0005 = 100.1151
∑ 𝑥𝑖 𝑦𝑖̅ =
𝑥̅ =
𝑖
𝑛 𝑛
𝑦 = 𝐴𝑥𝐵 = 𝟏𝟎𝟎. 𝟏𝟏𝟓𝟏 𝒙𝟎.𝟏𝟏𝟒𝟒
GRAFICA
x yI
3
1 0.8450
2 1.4771 2.5
3 1.9542 2
4 2.2304 Presión
1.5
5 2.4623
6 2.6532 1
7 2.8129 0.5
0
0 1 2 3 4 5 6 7 8
Volumen
ECUACION EXPONENCIAL
𝑦 = 𝑎𝑒 𝑏𝑥
https://www.matesfacil.com/ESO/exponenciales/ejercicios-
resueltos-ecuaciones-exponenciales.html
ECUACION EXPONENCIAL
Problema 1:
Años de
1 2 3 4 5 6
experiencia(x)
Volumen de ventas
10 40 120 300 800 500
mensuales (y)
Formulas Sustitución
𝑛(∑ 𝑥𝑦 𝑖 ) − (∑ 𝑥)(∑ 𝑦 𝑖 ) 6(117.569) − (21)(29.3820)
𝐵= 𝐵= = 0.010180
2 [ 6(91) − (21)2][ 6(157.6649) − (29.3820)2]
[𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 ] [𝑛 (∑ 𝑦 𝑖 ) − (∑ 𝑦 𝑖
)2 ]
𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 → 𝐴 = 𝑦𝑖̅ − 𝐵 ̅
29.3820 21
𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 𝑖 𝐴𝑖 = − (0.010180) ( ) = 4.86137
6 6
𝑖
𝐴 = 𝑒 𝐴 = 𝑒4.86137 = 129.2010864
GRAFICA
x yI
yI
1 2.3025 yI
8
2 3.6888
7
3 4.7874
6
4 5.7037
5
5 6.6846
4
6 6.2146
3
0
0 1 2 3 4 5 6 7
x y
1 7
2 30
3 90
4 170
5 290
6 450
7 650
x y yI = Ln y xyI (yI )2 x2
1 7 1.9459 1.9459 3.7865 1
2 30 3.4011 6.8022 11.5674 4
3 90 4.4998 13.4994 20.2482 9
4 170 5.1357 20.5428 26.3754 16
5 290 5.6698 28.349 32.1466 25
6 450 6.1092 36.6552 37.3223 36
7 650 6.4769 45.3383 41.9502 49
Σ = 28 Σ= 1687 Σ = 33.2384 Σ = 153.1328 Σ = 173.3966 Σ = 140
Formulas Sustitución
𝑛(∑𝑥𝑦𝑖) −(∑𝑥)(∑𝑦𝑖) 𝐵=
𝐵= 2 [ 7(140) − (28)2][ 7
[𝑛(∑𝑥2)−(∑𝑥)2][𝑛(∑𝑦𝑖 ) −(∑𝑦𝑖)2]
𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 → 𝐴 = 𝑦̅𝑖− 𝐵 ̅
𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 𝑖 𝐴𝑖 =
33.2384
− (0.000001644) ( 28) = 4.7482
7 7
𝑖
∑𝑥 ∑ 𝑦𝑖 𝐴 = 𝑒𝐴 = 𝑒4.7482 = 115.3764
̅= 𝑦̅𝑖=
𝑛 𝑛
𝑦 = 𝐴𝑒𝐵𝑥 = 𝟏𝟏𝟓. 𝟑𝟕𝟔𝟒𝒆𝟎.𝟎𝟎𝟎𝟎𝟎𝟏𝟔𝟒𝟒𝒙
GRAFICA
x yI
7
1 1.9459
2 3.4011 6
3 4.4998
5
4 5.1357
5 5.6698 4
6 6.1092 Presión
3
7 6.4769
2
0
0 1 2 3 4 5 6 7 8
volumen
ECUACION LOGARITMICA
𝑦 = 𝐴 + 𝐵 𝐿𝑛 𝑥
http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Ecuaciones
_exponenciales_logaritmicas/Ecu_log.htm
ECUACION LOGARITMICA
Problema 1:
Los siguientes datos son precios en soles (x) y cantidades de ventas (y) en miles de
unidades de un articulo en periodo de 8 meses
Precios en
4 8 12 14 18 23 28 32
soles (x)
Cantidades de
240 200 150 130 100 80 60 30
ventas (y)
𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 𝑖 𝑦 𝑖 = 𝐴 + 𝐵 𝑥 𝑖 → 𝐴 = ̅ − 𝐵𝑥̅𝑖
990 21.4135
𝐴= — (−0.0003583)( ) = 123.7509
8 8
GRAFICA
xI y
1.3862 240 y
y
2.0794 200 300
2.4849 150
250
2.639 130
3.4657 30 100
50
0
0 0.5 1 1.5 2 2.5 3 3.5 4
Precios en soles
Problema 2:
Sea el siguiente conjunto de valores, las lecturas de un experimento donde “x” es el volumen
(variable independiente) e “y” es la presión de una masa dada de gas (variable resultante).
x y
1 7
2 30
3 90
4 170
5 290
6 450
7 650
x y xI = Ln x xI y y2 (xI) 2
1 7 0 0 49 0
2 30 0.6931 20.793 900 0.4803
3 90 1.0986 98.874 8100 1.2069
4 170 1.3862 235.654 28900 1.9215
5 290 1.6094 466.726 84100 2.5901
6 450 1.7917 806.265 202500 3.2101
7 650 1.9459 1264.835 422500 3.7865
Σ = 28 Σ= 1687 Σ = 8.5249 Σ = 2893.147 Σ = 747049 Σ = 13.1954
Formulas Sustitución
𝑛(∑ 𝑥 𝑖 𝑦) − (∑ 𝑥 𝑖 )(∑ 𝑦) 7(2893.147) − (8.5249)(1687)
𝐵= 𝐵= = −0.000003561
2 [ 7(13.1954) − (28)2][ 7(747049) − (1687)2]
[𝑛 (∑ 𝑥 𝑖 ) − (∑ 𝑥 𝑖 )2 ] [𝑛(∑ 𝑦2 ) − (∑ 𝑦)2 ]
𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 𝑖 𝑦 𝑖 = 𝐴 + 𝐵 𝑥 𝑖 → 𝐴 = ̅ − 𝐵𝑥 𝑖̅
1687 28
𝐴= — (−0.000003561) ( ) = 241.0000142
7 7
∑ 𝑥𝑖 ∑𝑦
𝑥̅𝑖= ̅= 𝑦 = 𝐴 + 𝐵 𝐿𝑛 𝑥
𝑛 𝑛
= 𝟐𝟒𝟏. 𝟎𝟎𝟎𝟎𝟏𝟒𝟐 − 𝟎. 𝟎𝟎𝟎𝟎𝟎𝟑𝟓𝟔𝟏 𝑳𝒏
𝒙
GRAFICA
xI y
0 7 Y
700
0.6931 30
1.0986 90 600
1.3862 170
500
1.6094 290
400
1.7917 450
1.9459 650 300
200
Presión
100
0
0 0.5 1 1.5 2 2.5
Volumen
GRAFICA
Potencial Exponencial
7
6.4769
6 6.1092
5.6698
5 5.1357
4.4998
4
3.4011
3
2.8129
2.6532
2.4623
2.2304
2 1.9459 1.9542
1.4771
1
0.845
0
1 2 3 4 5 6 7
Diseño de experimentos
Diseñar un experimento significa planear un experimento de modo que reúna la información pertinente al problema
bajo investigación. El diseño de un experimento es la secuencia completa de pasos tomados de antemano para
asegurar que los datos apropiados se obtendrán de modo que permitan un análisis objetivo que conduzca a
deducciones válidas con respecto al problema establecido.
https://www.gestiopolis.com/diseno-de-experimentos-en-la-estadistica-aplicada/.
Análisis de varianzas para un criterio o
un factor
https://www.gestiopolis.com/diseno-de-experimentos-en-la-estadistica-aplicada/.
Distingo entre bloques aleatorios y no aleatorios
Se puede distinguir un problema de no bloques contra uno de bloques desde que se muestran los datos, ya que
en la forma de ser acomodados los de no bloques solo se dividen por tratamientos solamente, mientras que los
de bloques están divididos en tratamientos y aparte seccionados en bloques, esto para saber como actúa cada
tratamiento aplicado en cada unidad experimental de la que se tomaron los datos. El diseño de bloque
aleatorizado identifica dos factores: tratamientos y bloques, los cuales afectan la respuesta obtenida en el
experimento.
Un diseño de bloque aleatorizado no debe usarse cuando tanto tratamientos como bloques corresponden a
factores experimentales de interés para el investigador. Al diseñar un factor como bloque, puede suponer que el
efecto del tratamiento será el mismo, cualquiera que sea el bloque que utilice. Si éste no es el caso, los dos
factores, bloques y tratamientos, se dice que interactúan y el análisis podría llevar a conclusiones incorrectas
respectoa la relación entre los tratamientos y la respuesta.
Recuerde que el bloqueo puede no ser siempre benéfico. Cuando el SCB se elimine del SCE, el número de
grados de libertad asociado con el SCE se reduce. Para que el bloqueo sea benéfico, la información ganada al
aislar la variación de bloque debe importar más que la pérdida de grados de libertad por error, pero, por lo
general, si se sospecha que las unidades experimentales no son homogéneas y se pueden agrupar las unidades
en bloques, es bueno usar el diseño de bloque aleatorizado.
https://www.gestiopolis.com/diseno-de-experimentos-en-la-estadistica-aplicada/.
Análisis de varianza para la clasificación unilateral
Fuente de Suma de Grados de Cuadrados
variación cuadrados libertad medios
Tratamientos SCT
Error SCE
Bloques
Error (dentro de
los
tratamientos)
Total
Prueba de Tukey
https://es.slideshare.net/erikapuerto/prueba-de-tukey.
Prueba de Duncan
https://estadisticaorquestainstrumento.wordpress.com/2013/01/28/test-de-duncan/.
Análisis de la varianza para dos factores
https://rpubs.com/Joaquin_AR/219504
Prueba de Krustall Wallis
https://rpubs.com/Joaquin_AR/219504
Planteamiento mediante bloques no aleatorios
Bibliografía
Libro: Introducción a la probabilidad y estadística.
Planteamiento mediante bloques no
Problema 1
aleatorios
Suponga que en un experimento industrial a un ingeniero le interesa la forma en que la
absorción media de humedad del concreto varía para 5 agregados de concreto diferentes. Las
muestras se exponen a la humedad durante 48 horas y se decide que para cada agregado
deben probarse 6 muestras, lo que haceque se requiera probarun total de 30 muestras.
Agregado 1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3664 16, 854
Media 553.33 596.33 610.50 465.17 610.67 561.80
Análisis de varianza para la clasificación unilateral
Fuente de Suma de Grados de Cuadrados
variación cuadrados libertad medios
Tratamientos SCT
Error SCE
Total STC
0
0.17 2.76 4.30
Bibliografía
Probabilidad y Estadística para
Ingenieros. Walpole No. 9 edición.
Prueba de Tukey
https://es.slideshare.net/erikapuerto/prueba-de-tukey.
Planteamiento mediante bloques no
Problema 1
aleatorios
Suponga que en un experimento industrial a un ingeniero le interesa la forma en que la
absorción media de humedad del concreto varía para 5 agregados de concreto diferentes. Las
muestras se exponen a la humedad durante 48 horas y se decide que para cada agregado
deben probarse 6 muestras, lo que haceque se requiera probarun total de 30 muestras.
Agregad 1 2 3 4 5
o
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3664 16, 854
Media 553.33 596.33 610.50 465.17 610.67 561.80
Humedad absorbida en mezclas de concreto
Mezcla 1 2 3 4 5
Diferencia de
Medias
465.17 145.5 145.33 104.16 88.16
553.33 57.34 57.17 16
569.33 41.34 41.17
610.5 0.17
610.67
Comparando el resultado con q
Diferencia de
Medias
465.17 145.5 145.33 104.16 88.16
553.33 57.34 57.17 16
569.33 41.34 41.17 Media Igual
610.5 0.17 Media Diferen te
610.67
Prueba de Duncan
https://estadisticaorquestainstrumento.wordpress.com/2013/01/28/test-de-duncan/.
Planteamiento mediante bloques no
Problema 1 aleatorios
Suponga que en un experimento industrial a un ingeniero le interesa la forma en que la
absorción media de humedad del concreto varía para 5 agregados de concreto diferentes. Las
muestras se exponen a la humedad durante 48 horas y se decide que para cada agregado
deben probarse 6 muestras, lo que haceque se requiera probar un total de 30 muestras.
Agregado 1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3664 16, 854
Media 553.33 596.33 610.50 465.17 610.67 561.80
Sustitución
Se entra con la Tabla de rangos estudentizados
γ P
2 3 4 5
24 2.919 3.066 3.16 3.226
25 2.9125 3.060 3.155 3.221
30 2.88 3.035 3.131 3.199
Maquinas 3
Error 15
0.149 3.29 3.33
Total 23 15.3
3
15 3.29
15
=1
=0.1149 3 8.70
8.70
Prueba de Tukey
https://es.slideshare.net/erikapuerto/prueba-de-tukey.
⚫ma 1
Proble
Operador 1 2 3 4 5 6
Medias 40.95 40.525 41.225 42.45 44.05 43.525
Formula y sustitución:
Tabla:
Puntos porcentuales superioresde la distribución de rango studentizado.
Grados de k
libertad 6
Numero de comparaciones: 15 4.59
Medias: 40.95 40.52 41.22 42.45 44.05 43.52
0
Media Igual
0 Media Diferente
0
0
⚫ma 2
Proble
γ P
2 3 4
15 3.014 3.16 3.25
Diferencia de
Medias
41.3
41.42
Condición
Diferencia de Medias
https://rpubs.com/Joaquin_AR/219504
Problema 1
En un experimento realizado para determinar cuál de 3 sistemas de misiles distintos es preferible,
se midió la tasa de combustión del propulsor para 24 arranques estáticos. Se emplearon 4 tipos de
combustible diferentes y el experimento generó observaciones duplicadas de las tasas de
combustión para cada combinación de los tratamientos.
Tipo de propulsor
Sistema de
misil
34.0 30.1 29.8 29.0
32.7 32.8 26.7 28.9
32.0 30.2 28.7 27.6
33.2 29.8 28.1 27.8
28.4 27.3 29.7 28.8
29.3 28.9 27.3 29.1
Formulas:
b-1 ab(n-1)
Sustitución:
Formulas:
b-1 ab(n-1)
Sustitución:
Tabla ANOVA:
Sistema de
2
misiles
Tipo de
3
propulsor
Interacción 6
Error 12
Total 23
Tabla 1: Valores críticos de la distribución F
2 12
12 3.89 2 19.41
Grafica:
Referencia:
Probabilidad y Estadística
para ingeniería y ciencias,
novena edición, Ronald E.
0
0.1715 5.85 Walpole , Raymond H.
Myers , Sharon L. Myers,
editorial Pearson, 2012
Conclusión:
Tabla 2: Valores críticos de la distribución F
3 12
12 3.49 3 8.74
Grafica:
Referencia:
Probabilidad y Estadística
para ingeniería y ciencias,
novena edición, Ronald E.
0 Walpole , Raymond H.
3.49 10.77
Myers , Sharon L. Myers,
editorial Pearson, 2012
Conclusión:
Tabla 3: Valores críticos de la distribución F
6 12
12 3.00 6 4.00
Grafica:
Referencia:
Probabilidad y Estadística
para ingeniería y ciencias,
novena edición, Ronald E.
0 Walpole , Raymond H.
2.97 3.00
Myers , Sharon L. Myers,
editorial Pearson, 2012
Conclusión:
Prueba de Krustall Wallis
https://rpubs.com/Joaquin_AR/219504
¿Cuándo se aplica?
https://previa.uclm.es/profesorado/mdsalvador/58109/teoria/anova_un_factor-lectura.pdf
Problema 1
Tipo de propulsor
Sistema de
misil
34.0 30.1 29.8 29.0
32.7 32.8 26.7 28.9
32.0 30.2 28.7 27.6
33.2 29.8 28.1 27.8
28.4 27.3 29.7 28.8
29.3 28.9 27.3 29.1
Tabla de rangos:
Tipo de
propulsor: Rango Rango Rango Rango
3 9.3448 3 0.216
Formula:
Sustitución:
Grafica:
0
0.216 8.255 9.3448
Conclusión:
Se acepta H0, no hay diferencia en las tasas medias de combustión del propulsor
cuando se emplean diferentes sistemas de misiles.
Referencia:
Probabilidad y Estadística para ingenieríay ciencias, novena edición, Ronald E.
Walpole , Raymond H. Myers , Sharon L. Myers, editorial Pearson, 2012.
PLANTEAMIENTO
Se tienen tres especies de cítricos a los cuales se mide la razón entre el área de las hojas y el peso
seco, bajo 3 condiciones de sombra (sol, semisombra y sombra).
Encuentre si existe una diferencia entre los valores obtenidos con una significancia del 5%
ANÁLISIS DE VARIANZA PARA
UN CRITERIO POR BLOQUES
y Y2
2
SSA i j ij
N
2
796
SSA (112 2 862 ... 812 ) 2,822.23
9
SUMA DE CUADRADOS DEL TRATAMIENTO
Naranja Pomelo Mandarina Totales
SOL 112 90 123 325
SEMISOMBRA 86 73 89 248
2 SOMBRA 80 62 81 223
1 Y
SSA i yi
2
Total 278 225 293 796
a N
2 SSA
1
SSA (3252 2482 2232 ) 796
1,884.23 S 2
k 1
1
3 9
1884.23
S
1
2
942.115
2
SUMA DE CUADRADOS DEL BLOQUE
Naranja Pomelo Mandarina Totales
2
Y
SSB j y j
1 2 SOL 112 90 123 325
b N SEMISOMBRA 86 73 89 248
SOMBRA 80 62 81 223
Total 278 225 293 796
2
1
SSB (278 225 293 ) 796
2 2 2
850.89 SSB
3 9 S 22
k 1
850.89
S 2
2 425.44
2
SUMA DE CUADRADOS DEL ERROR
Naranja Pomelo Mandarina Totales
Total 8
𝑺𝑺𝑻 = 2822.23
TOMA DE DECISIÓN
La hipótesis nula H0 se rechaza en el nivel de significancia
cuando
2
4 6.94 97.42 6.94
CONCLUSIÓN
Se rechaza H0, por lo menos 2 de los tamaños si
varían.
BIBLIOGRAFÍA
Libro: Estadística
Autor: Murray R. Spiegel
PRUEBA DE TUKEY
Sirve para probar todas las diferencias entre las medidas de tratamientos de un experimento es decir cuando
H0 ha sido rechazada. La única exigencia es que el número de repeticiones sea constante en todos los
tratamientos. Sirve para comprobar las medidas de los tratamientos dos a dos.
Ahora para realizar la prueba de Tukey utilizamos las medias de cada muestra ordenadas de menor a mayor ,
las cuales pondremos a continuación:
M1 M2 M3
108.33 82.66 74.33
APLICACIÓN DE LA FORMULA TABLA PUNTOS
PORCENTUALES DE RANGOS
ESTUDENTIZADOS
Después aplicamos la fórmula de la ley de Tukey la cual es la
1
siguiente:
2
3
4 6.50
M1
108.33
M2
82.66
M3
74.33 q 11.66
M3 74.33 34 8.33 - Si q es menor que el valor de
la diferencia de las medias,
M2 82.66 25.37 -
las medias son diferentes.
M1 108.33 -
M1 M2 M3
108.33 82.66 74.33 Se puede concluirque hay una variación
entre las siguientes medias con una
M3 74.33 34 8.33 -
significancia mayoral 0.5
M2 82.66 25.37 -
M1 108.33 - • M1-M3
• M1-M2
PRUEBA DE DUNCAN
Este procedimiento se basa en la noción general de un rango utilizado. El rango de cualquier subconjunto
de p medias muéstrales debe exceder cierto valor antes de que encuentre que cualquiera de las p medias
es diferente. Este valor se llama rango de menor significancia para las p medias y se denota como Rp.
Los siguientes datos se obtienen de la tabla de la prueba de Duncan con una significancia
del .05 y 4 grados de libertad.
M1 M2 M3
108.33 82.66 74.33
9.67
D2 3.92 7.03 Tratamientos 𝑺𝑺𝑨 = 1884.23 2
𝑺𝟐𝟏 =
3 942.11
9.67
D3 4.01 7.19 Total
𝑺𝑺𝑻 = 2822.23
8
3
Si el valor de D es menor que el
valor de la diferencia de medias,
estas medias son diferentes
M1 128.3 - M1 108.33 -
Maquinas K-1
Donde “k” es igual al
número de muestras
𝒌=𝟔
Error 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 k(n-1)
Donde “n” es igual al
número de pruebas
𝒏=𝟑
Total nk-1
MUESTRAS
1 2 3 4 5 6
T
2 1 2 3 4 5 6
k n 127 126 130 145 128
SST y
i j ij 150
2
ij 129 130 128 140 127 137
i0 j 0 nk 128 128 129 141 130 150
T 2403
i j ij
2 2
total
media
384
128
384
128
387
129
426
142
385
128.3
437
145.6
2403
800.9
k n
ij
y 2
i0 j0
127 2
129 2
128 2
...150 2
321927
24032
SST 321927 1126.5
18
SUMA DE CUADRADOS DEL TRATAMIENTO
SSA
k
Ti 2 T ij
2 MUESTRAS
i j 1 2 3 4 5 6
T 2403
129 130 128 140 127 137
2 2
128 128 129 141 130 150
i j ij
i
T 2
384 2
3842 ... 437 2 965351 media 128 128 129 142 128.3 145.6 800.9
i
SSA
965351 24032 S 2
SSA 983.16 k 1
1
3 18
983.16
S
1
2
196.63
5
SUMA DE CUADRADOS DEL ERROR
MUESTRA
S
12
5
3.11
16.46 3.11
CONCLUSIÓN
Se rechaza H0, las resistencias si varían, por lo
menos 2.
BIBLIOGRAFÍA
Libro: Estadística
Autor: Murray R. Spiegel
PRUEBA DE TUKEY
Sirve para probar todas las diferencias entre las medidas de tratamientos de un experimento es decir cuando
H0 ha sido rechazada. La única exigencia es que el número de repeticiones sea constante en todos los
tratamientos. Sirve para comprobar las medidas de los tratamientos dos a dos.
Ahora para realizar la prueba de Tukey utilizamos las medias de cada muestra ordenadas de menor a mayor ,
las cuales pondremos a continuación:
MUESTRA
1 2 3 4 5 6
́𝟏 ́𝟐 ́𝟑 ́𝟒 ́𝟓 ́𝟔
12 3.00
SUSTITUCIÓN
𝑺𝑺𝑨 = 983.16
Maquinas 5 𝑺𝟐
𝟏 =196.63
11.94
q3 5.98 𝒇 = 16.46
3 Error 𝑺𝑺𝑬 = 143.34 12 𝑺𝟐𝟐 = 11.94
𝑺𝑺𝑻 = 1126.5
Total 17
OBTENCIÓN DE MEDIAS DIFERENTES
́𝟏 ́𝟐 ́𝟑 ́𝟒 ́𝟓 ́𝟔
128 128 129 142 128.3 145.6
M6 M4 M3 M5 M2 M1
145.6 142 129 128.3 128 128
M1
M2
128
128
17.6*
17.6*
14*
14*
1
1
0.3
0.3
0
-
-
-
q 5.98
M5 128.3 17.3* 13.7* 0.7 - - -
Si q es menor que el valor de
M3 129 16.6* 13* - - - - la diferencia de las medias,
M4 142 3.6 - - - - - las medias son diferentes.
M6 145.6 - - - - - -
CONCLUSIÓN • M6-M1
• M6-M2 • M4-M1
Se puede concluirque hay una variación entre • M6-M5 • M4-M2
las siguientes medias con una significancia • M6-M3 • M4-M5
mayor al 0.5 • M4-M3
PRUEBA DE DUNCAN
Este procedimiento se basa en la noción general de un rango utilizado. El rango de cualquier subconjunto
de p medias muéstrales debe exceder cierto valor antes de que encuentre que cualquiera de las p medias
es diferente. Este valor se llama rango de menor significancia para las p medias y se denota como Rp.
́𝟏 ́𝟐 ́𝟑 ́𝟒 ́𝟓 ́𝟔
128 128 129 142 128.3 145.6
11.94
S 2 D5 3.36 6.68
D rp 2 3
n 11.94
D6 3.40 6.76 TABLA DE VALORES ESTUDENTIZADOS DE Rp
3
11.94
D2 3.06 6.10 2 3 4 5 6
3 D2=6.10 3.06 3.29 3.33 3.36 3.40
D3=6.54
11.94
D3 3.29 6.54 D4=6.62
3 D5=6.68
D6=6.76
11.94
D4 3.33 6.62
3
M6 M4 M3 M5 M2 M1 D2=6.10
145.6 142 129 128.3 128 128 D3=6.54
D4=6.62
M1 128 D6 D5 D4 D3 D2 -
D5=6.68 Si el valor de D es menorque el
M2 128 D5 D4 D3 D2 - - valor de la diferencia de medias,
D6=6.76
estas medias son diferentes
M5 128.3 D4 D3 D2 - - -
M3 129 D3 D4 - - - -
M4 142 D2 - - - - -
CONCLUSIÓN
M6 145.6 - - - - - - Se puede concluirque hay una
variación entre las siguientes
medias con una significancia
M6 M4 M3 M5 M2 M1
mayoral 0.5
145.6 142 129 128.3 128 128
• M6-M1
M1 128 17.6* 14* 1 0.3 0 - • M6-M2
M2 128 17.6* 14* 1 0.3 - - • M6-M5
• M6-M3
M5 128.3 17.3* 13.7* 0.7 - - -
M3 129 16.6* 13* - - - - • M4-M1
M4 142 3.6 - - - - - • M4-M2
• M4-M5
M 145.6 - - - - - -
• M4-M3
6
ANÁLISIS DE VARIANZA PARA
DOS CRITERIOS
PLANTEAMIENTO
ANÁLISIS DE VARIANZA PARA DOS CRITERIOS
Suponga que usted haya experimentado con levadura para una receta de panes dulces. Parece ser
que la cantidad de azúcar y la temperatura del agua afectan el tamaño de los panes. Basándose en
los siguientes datos, usted realiza un análisis de varianza para averiguar lo que es significativo de
estas recetas.
B1 B2 B3
76 87 60
A1
75 85 55
70 79 52
A2
69 78 50 TOTAL
TOTAL 290 329 217 836
MEDIAS 72.5 82.25 54.25 209
B1 B2 B3 TOTAL
A1 151 172 115 438
A2 139 157 102 398
TOTAL 290 329 217
TABLA ANOVA PARA DOS CRITERIOS
A SSA a-1
B SSB b-1
AB SS(AB) (a-1)(b-1)
B1 B2 B3
76 87 60
A1
75 85 55
70 79 52
A2
69 78 50 TOTAL
TOTAL 290 329 217 836
MEDIAS 72.5 82.25 54.25 209
SUSTITUCIÓN
SUSTITUCIÓN
Tabla Valores Críticos de la Distribución F
Resultados en Tabla ANOVA
1 2
A 1
6 5.99 5.14
B 2
AB 2
Error 6
Total 11
PRUEBA DE KRUSKAL-WALLIS
PROBLEMA 1
11 19.67