Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Semana 1 Revision

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 54

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Dpto. de Estadística e Informática

Conceptos Básicos

Profesor Raphael Valencia Chacón


1. Población. Es el conjunto de unidades elementales
con características similares. El estudio de toda la
población constituye un censo.
2. Unidad elemental. Es el elemento particular de la
población.
3. Muestra. Es un subconjunto de la población. Al
proceso de obtención de una muestra se le llama
muestreo.
Población Muestra U. Elemental

❖ Muestra representativa:
❖Debe haber sido obtenida al azar.
❖Su tamaño y sus elementos seleccionados con un
método de muestreo. 2
4. Variable. Es la característica que toma diferentes valores
cuando son evaluadas las unidades elementales de una
muestra o población. Se representa por letras mayúsculas
(X, Y, Z, W, X1, X2, Y1, Y2)

Un cliente
X=Edad
Y=Peso
Z=Sexo
W=Grado de instrucción
Una parcela
X1=Rendimiento (Kgrs./parcela)
X2=Número de mazorcas de maíz
X3=Tamaño de mazorcas
X4=Variedad de maíz

3
Cuantitativas. Son aquellas que se expresan en forma
numérica y se pueden realizar operaciones matemáticas
con ellas.
❖Continuas. Pueden tomar cualquier valor numérico
dentro de un intervalo continuo.
❖Discretas. Son representadas por el conjunto de
valores enteros.
Ejemplo 1. V. cuantitativas continuas
1. Costo de inventario (soles)
2. Longitud del langostino de río (cm)
3. Tiempo para atender un pedido en una pizzería (minutos)
Ejemplo 2. V. cuantitativas discretas
1. Número de pacientes atendidos cada 15 minutos en el área
ambulatoria
2. Número de predios que posee un agricultor de un valle
3. Número de quejas de los clientes de una aseguradora
4
Cualitativas. Son aquellas que permiten que una unidad
elemental pueda ser clasificada como poseedora o no de
cierta cualidad, propiedad o atributo.
❖Nominales. Sus valores no son factibles de ser
clasificados a través de un criterio de orden o jerarquía.
❖Jerárquicas. Si se puede establecer un criterio de
orden o jerarquía entre sus valores.

Ejemplo 3. V. cualitativas nominal


1. Sexo de los estudiantes (Masculino o Femenino)
2. Estado civil de una persona (Soltero, Casado, viudo o Conviviente)
3. Las zonas de las sucursales de un banco (Sur, Centro o Norte)
4. Los estados del agua (Sólido, Líquido o Gaseoso)
Ejemplo 4. V. cualitativas jerárquica
1. Calificación del servicio del comedor UNALM (Bueno, Regular o Malo)
2. Nivel de instrucción (Sin instrucción, Primaria, Secundaria o Superior)
3. Nivel socioeconómico de un cliente (Alto, Medio o Bajo)
4. Rango de ingreso familiar (500 - 2500, 2501 – 5000, 5001 – 7500,
Más de 7500)
5
5. Medidas estadísticas. Son calculadas con la
finalidad de describir el comportamiento de una
variable en una población o en una muestra.
❑ Parámetro. Son medidas estadísticas, para describir el
comportamiento de una variable en la población. Son
calculadas con los datos de toda la población. Es un valor
constante.
❑ Valor estadístico o Estadígrafo. Son medidas estadísticas,
para describir el comportamiento de una variable en la
muestra. Se calculan con los datos obtenidos de una
muestra. Son valores variables (varían de muestra a
muestra). Los estadísticos sirven para estimar a los
parámetros. Se representan con letras latinas.

6
Medidas estadísticas En una población En una muestra
(Parámetro) (Estadístico)

Media 
X
Mediana ME me
Moda MO mo
Proporción  p
Variancia 2 S2
Desviación Estándar  S
Coeficiente de CV cv
Variabilidad

7
La tabla de frecuencia está organizada por las categorías que
corresponden a los distintos valores que toma la variable
cualitativa.
Categoría o Frecuencia Frecuencia
Clase Absoluta Relativa
k= Número de categorías (fi) (fri%)
n= Número de observaciones Categoría 1 f1 fr1
Categoría 2 f2 fr2
...
Categoría k fk frk
Total n 100.0
𝐧
𝐟𝐢 = 𝐧
fi=Número de observaciones en la categoría i. Se cumple: 𝐢=𝟏

fri%=Porcentaje de observaciones con respecto al total. 𝐟𝐫 = 𝐟𝐢 𝐱𝟏𝟎𝟎


𝐢
𝐧
Tipo de gráficos
Se pueden usar las frecuencias absolutas (fi) o relativas porcentuales (fri).
❑ Gráfico de barras vertical u horizontal
8
❑Gráfico circular
Ejercicio 1.
Se ha realizado una encuesta para evaluar el nivel de
satisfacción de cuatro planes de seguro familiar (A, B, C y D).
Los resultados para una muestra de 40 clientes se muestra en
la siguiente tabla.
A Bueno A Regular A Malo D Regular C Bueno
A Malo A Malo A Malo C Malo B Bueno
B Regular D Regular D Regular B Regular D Regular
C Regular C Bueno B Regular C Malo C Bueno
B Malo B Bueno C Malo B Regular C Malo
D Malo C Malo B Regular D Bueno A Bueno
A Regular B Regular D Bueno A Bueno C Malo
D Regular B Malo B Bueno D Malo B Regular
a) Elabore una tabla de frecuencias y un gráfico de barras de
frecuencias absolutas para la variable plan de seguro familiar.
b) Elabore una tabla de frecuencias y un gráfico circular de
frecuencias porcentual para la variable nivel de satisfacción
9
Solución. n=40 clientes
a) Tabla de frecuencia y gráfico de barras

Distribución de clientes por plan de Planes de seguro familiar


seguro familiar 14
N 12
Planes fi fri% ú 12
10
A 9 22,5 m 10 9 9

e 8
B 12 30,0 r 6

C 10 25,0 o 4
2
D 9 22,5
0
Total 40 100,0 A B C D

b) Tabla de frecuencia y gráfico circular


Distribución de clientes por nivel de Niveles de satisfacción
satisfacción
Niveles fi fri% Bueno

Bueno 11 27,5 35,0 27,5


Regular

Regular 15 37,5 Malo


37,5
Malo 14 35,0
1
Total 40 100,0 0
La tabla de frecuencia está organizada por los distintos valores
que toma la variable cuantitativa discreta.

Valor de la Frecuencia Frecuencia


variable Absoluta Relativa
(fi) (fri%)
x1 f1 fr1
x2 f2 fr2

xk fk frk
Total n 100.0
Nota. Si existen demasiados valores distintos de la variable discreta, se debe
organizar como una variable continua.

Tipo de gráficos
Se pueden usar la frecuencia absoluta (fi) o relativa porcentual (fri%).
❑ Gráfico de bastones o varas
1
1
Ejercicio 2.
En una estación experimental se ha
determinado el número de larvas de
insectos encontrados en 40
parcelas, en un cultivo de frijol. Los
datos se muestran a continuación:

1 3 3 5 6 6 9 9 10 10
1 3 5 5 6 3 9 10 3 1
10 3 5 5 6 5 9 10 1 1
3 3 5 6 6 5 9 5 3 1

a) Elabore una tabla de frecuencias y su respectivo gráfico de


bastones
b) Interprete f3 y fr3
c) ¿Qué número y porcentaje de parcelas muestran al menos 6 larvas?

1
2
Solución. n=40 muestras
a) Tabla de frecuencias y gráfico de bastones
Distribución de número de
larvas de insectos
Número fi fri%
1 6 15,0
3 9 22,5
5 9 22,5
6 6 15,0
9 5 12,5
10 5 12,5
Total 40 100,0
b) Interpretación f3 y fr3
f3=9 muestras tienen 5 larvas de insecto.
fr3=22,5% de las muestras tienen 5 larvas de insectos.
c) ¿Qué número y porcentaje de parcelas muestran al menos 6 larvas?
Número=f4+f5+f6=6+5+5=16
1
Porcentaje=16/40+100=40.0% 3
La tabla de frecuencia está organizada por intervalos de clase que
agrupan al conjunto de datos.
N° de Intervalos Marca de Frec. Frec. Frec. Frec.
clases de clase clase Absoluta Relativa Acumulada Acumulada
[LI-LS> X’ fi fri% Absoluta Relativa
i
Fi Fri%
1 [LI1-LS1> x’1 f1 fr1 F1 Fr1
2 [LI2-LS2> x’2 f2 fr2 F2 Fr2
.
.
.
k [LIk-LSk] x’k fK frK FK=n FrK=100.0
Total n 100.0 1
LIi = Límite inferior de la clase i (Límite cerrado)
LSi= Límite superior de la clase i 𝐢
𝐅𝐢 = 𝐟𝐣 = 𝐟𝟏 + 𝐟𝟐 + ⋯ 𝐟𝐢
Fi=Número de datos acumuladas hasta la clase i. 𝐣=𝟏
𝐅𝐢 𝐢
Fri%=Porcentajes acumulado hasta la clase i. 𝐢 𝐧 =
𝐅𝐫 =
𝐣=𝟏
𝐟𝐫𝐣 = 𝐟𝐫𝟏 + ⋯ 𝐟𝐫𝐢

′ 𝑳𝑰𝒊 + 𝑳𝑺𝒊 1
X’i =Promedio entre LI y LS. 𝑿𝒊 = 𝟐 4
Pasos para la construcción de una tabla de frecuencias:

Paso 1. Hallar el rango o amplitud. R = Máximo-Mínimo


Paso 2. Hallar el número de intervalos de clase (k). Se aplica la regla de
Sturges. K=1 + 3.3xLog(n). Eligiendo un valor: 3 ≤ k ≤ 15
❑ Se aplica el redondeo normal a entero: Si es  5, aumenta.

Paso 3. Hallar el tamaño de Intervalo de Clase (TIC). TIC = R/k


❑ El número de decimales del TIC es igual al de las observaciones.

❑ Se aplica el redondeo por exceso. Si el digito es  1, se aumenta


en una unidad el valor.
Paso 4. Hallar el límite inferior y superior de cada intervalo de clase.
LI1 = Mínimo LS1= LI1 + TIC
LI2 = LI1 + TIC = LS1 LS2= LI2 + TIC
LI3 = LI2 + TIC = LS2 LS3= LI3 + TIC
...
LIk = LIk-1 + TIC = LSk-1 LSk= LIk + TIC
Paso 5. Realizar el conteo de los datos, asignando cada uno a alguno
de los intervalos de clase. Se completar la tabla con: x’i , fi , fri , Fi , Fri .
1
5
Ejercicio 3.
Con la finalidad de evaluar la viabilidad de
un proyecto de reforestación de una zona
sometida a estrés turístico, para el que se ha
solicitado una subvención pública, se ha
tomado muestras sobre la composición en
mg/cm3 de desechos orgánicos en el suelo.
Los datos obtenidos fueron:

Composición de desechos orgánicos (mg/cm3)


8.2 12.9 15.3 18.8 20.8
9.2 12.9 15.8 19.7 21.0
9.4 14.0 15.9 20.3 21.4
10.8 14.2 16.9 20.3 22.2
10.8 14.4 18.2 20.3 22.5
11.1 15.1 18.4 20.2 23.2
11.2 15.1 18.6 20.7 25.8
a) Construir la tabla de frecuencias usando la regla de Sturges.
b) A partir de la tabla de frecuencias interprete: f4, fr4, F4, Fr4
c) Elabore el respectivo histograma de frecuencias porcentuales 1
6
Solución:
a) Tabla de frecuencias usando la regla de Sturges.
Paso 1. Rango. R=Máximo-Mínimo= 25.8-8.2 = 17.6
Paso 2. Número de intervalos. n=35 muestras de suelos
K=1+3.3xLog(n)=1+3.3xLog(35)=6.09≈6 (a entero)
Paso 3. Tamaño de Intervalo de Clase.
TIC=R/k=17.6/6=2.93≈3.0 (un decimal, redondeo por exceso)
Paso 4. Límites inferiores y superiores de cada intervalo de clase.
LI1=Mínimo=8.2 LS1=LI1 +TIC=8.2+3.0=11.2
LI2=LI1+TIC=LS1=11.2 LS2=LI2 +TIC=11.2+3.0=14.2
LI3=LI2+TIC=LS2=14.2 LS3=LI3 +TIC=14.2+3.0=17.2
LI4=LI3+TIC=LS3=17.2 LS4=LI4 +TIC=17.2+3.0=20.2
LI5=LI4+TIC=LS4=20.2 LS5=LI5 +TIC=20.2+3.0=23.2
LI6=LI5+TIC=LS5=23.2 LS6=LI6 +TIC=23.2+3.0=26.2
Marca de clase:
X’1=(8.2+11.2)/2=9.7
X’2=(11.2+14.2)/2=X’1+TIC=9.7+3.0=12.7 . . .
Paso 5. Realizar el conteo de los datos, asignando cada uno a alguno de 1
los intervalos de clase. Se completar la tabla con: x’i , fi , fri , Fi , Fri . 7
Descomposición de desechos orgánicos (mg/cm3)
Clase Intervalo de clase X'i fi fri Fi Fri
1 [ 8,2 11,2 > 9,7 6 17,1 6 17,1
2 [ 11,2 14,2 > 12,7 4 11,4 10 28,6
3 [ 14,2 17,2 > 15,7 8 22,9 18 51,4
4 [ 17,2 20,2 > 18,7 5 14,3 23 65,7
5 [ 20,2 23,2 > 21,7 10 28,6 33 94,3
6 [ 23,2 26,2 ] 24,7 2 5,7 35 100,0
35 100,0

b) A partir de la tabla de frecuencias interprete: f4, fr4, F4, Fr4.


f4=5 muestras de desechos orgánicos son mayores e iguales a 17,2
pero menores a 20,2.
fr4=14,3% de las muestras los desechos orgánicos son mayores e
iguales a 17,2 pero menores a 20,2.
F4=23 muestras de desechos orgánicos son mayores e iguales a 8,2
pero menores a 20,2.
P4=65,7% de las muestras de desechos orgánicos son mayores e
iguales a 8,2 pero menores a 20,2.
c) Elabore el respectivo histograma de frecuencias porcentuales

Descomposición de desechos orgánicos

%
30.0 28.6

25.0 22.9

20.0
17.1
14.3
15.0
11.4
10.0
5.7
5.0

0.0
8,2 1 11,2 14,2 17,2 20,2 23,2 26,2
Media o promedio
Medidas de Media ponderada
tendencia Mediana
central Moda
Percentiles

Rango
Medidas de Rango intercuartil
Variancia
variabilidad
Desviación estándar
Coeficiente de variabilidad

Medidas de Coeficiente de asimetría de


asimetría Pearson

Diagrama de
cajas 2
0
Las medidas estadísticas pueden son calculadas con los
datos provenientes de una población (N: Tamaño de la
población) o muestra (n: Tamaño de la muestra) para
evaluar diferentes variables (cuantitativas y cualitativas),
cuya finalidad es resumir y representar el conjunto de
datos.
Observaciones:
1. Las medidas estadísticas asumen las mismas unidades de
medida de la variable en estudio
2. Para las variables cuantitativas, se pueden calcular todas las
medidas estadísticas.
3. En el caso de las variables cualitativas, sólo es posible
calcular las medidas como la moda y la proporción
2
1
Medidas de Tendencia Central
Son medidas estadísticas que se localizarían en la parte central de
la distribución de los datos. Permiten resumir y representar en un
sólo valor el conjunto de datos. Las principales medidas de
tendencia central son:

•La media o promedio


•La media ponderada
•La mediana
•La moda
•Percentil

22
La media o promedio de un conjunto de observaciones es
igual a la suma de sus valores dividido entre el número
de observaciones
1 N
Media Poblacional: = 
N j =1
Xj

1 n
Media Muestral: X = Xj
n j =1
Ejemplo 1. Suponga que se tiene los datos de las ventas
semanales (en dólares) de una muestra de 8 vendedores. Calcule
la venta promedio semanal.
150 120 300 280 350 250 160 280
1 8 150 + 120 + 300 + 280 + 350 + 250 + 160 + 280 1,890
X =  xi = = = 236.3
8 i =1 8 8
Interpretación. La venta promedio semanal por vendedor fue de $ 236.3 2
3
La media ponderada se usa en aquellos casos donde las
observaciones tienen diferente importancia dentro de una
población o muestra.
k

x w
j =1
j j
x1w1 + x2 w2 + ...xk wk
xp = =
k
w1 + w2 + ... + wk
w
j =1
j

2
4
La mediana es el valor que ocupa la posición central de un
conjunto de datos, previamente ordenados. La mediana se
calcula:
𝑿 𝒏 + 𝑿 𝒏+𝟏
𝟐 𝟐
𝑺𝒊, 𝒏 𝒆𝒔 𝒊𝒎𝒑𝒂𝒓: 𝒎𝒆 = 𝑿 𝒏+𝟏 𝑺𝒊, 𝒏 𝒆𝒔 𝒑𝒂𝒓: 𝒎𝒆 =
𝟐 𝟐

Ejemplo 2. Los siguientes datos corresponden a los pesos (en Kg.) de 10


personas: 50, 77, 53, 76, 63, 64, 75, 54, 52, 80. Calcule la mediana
Datos ordenados: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80

X +X
63 + 64
10 10
( ) ( +1)
n = 10 par , me = 2 2
= = 63.5
2 2
Interpretación. Un 50% de personas pesan menos de 63.5 Kg.
y el otro 50% pesa más de 63.5 Kg. 25
1. La mediana divide a las n observaciones previamente
ordenadas, en dos partes iguales. El 50% con valores
menores a la mediana y el otro 50% con valores
mayores a la mediana.
2. La suma de las desviaciones absolutas de las
observaciones con respecto a la mediana es un valor
mínima. n n

X
j =1
j − me   X j − c , donde
j =1
cR

3. La mediana no está afectada por valores extremos.

26
La moda de un conjunto de datos es el valor o atributo que
ocurre con mayor frecuencia.

mo = Mayor más frecuente

Propiedades:
1. Puede no existir o puede haber más de una moda en un
conjunto de datos.
2. No es afectada por valores extremos.
3. Se aplica tanto para información cualitativa como
cuantitativa.

27
El percentil Pq divide a un conjunto de datos previamente
ordenado en un q% menores que Pq y un (100 – q)% mayores
que Pq.
Para calcular el percentil Pq, se determina en primer lugar la
posición (Pos).
= E ( Entero )  Pq = x( E )
 n + 1 
Pos = qx 
 100  = E.d ( Decimal )  Pq = x( E ) + 0.d  (x( E +1) − x( E ) )

Cuartiles. Divide el conjunto de datos en cuatro partes iguales (25%


cada parte).
• Primer cuartil. Percentil 25: P25 = Q1
• Segundo cuartil. Percentil 50: P50 = Q2 = me
• Tercer cuartil. Percentil 75: P75 = Q3
2
8
Son medidas de variabilidad permiten conocer el grado de
dispersión o variabilidad dentro de un conjunto de datos.
Se usan para comparar la variabilidad entre dos o más
conjuntos de datos. Cuando los datos presentan baja
variabilidad, se dice que son homogéneos y cuando
presentan alta variabilidad se dice que son heterogéneos.
Las principales medidas de variabilidad son las siguientes:

•La amplitud o rango


•El rango intercuartílico
•La variancia y la desviación estándar
•El coeficiente de variabilidad

29
Ejemplo 1.
Considerar los siguientes datos como las notas de la
primera práctica de una muestra de alumnos cada una de
las tres secciones de una asignatura:

Grupo Notas Media


A 14 14 14 14 14 14 14 14 14 14 14
B 14 13 15 14 12 15 16 13 12 16 14
C 19 8 19 11 16 18 6 13 10 20 14

Los grupos A, B y C tienen la misma media pero


diferente dispersión en torno a la media.
• Respecto a la variabilidad o dispersión: A < B < C
• Respecto a la homogeneidad : A > B > C
• Respecto a la confiabilidad de la media: A > B > C

30
El rango o amplitud de un conjunto de observaciones es
igual a la diferencia entre el valor máximo y el valor
mínimo.
R = Xmax – Xmin
Desventajas:
• Esta afectada por valores extremos
• No mide la variabilidad de los datos intermedios
Ejemplo 2.
Notas de PC1: 14,13,15,14,12,15,16,13,12,16,18,14,16
Hallar e interpretar el rango.
R = 18 – 12 = 6 puntos.
Interpretación. La amplitud de la nota de la primera
práctica fue de 6 puntos.
31
El rango intercuartílico, se calcula como la diferencia entre el
percentil 75 (P75 = Q3) y el percentil 25 (P25 = Q1).

RI = P75 - P25
El RI corresponde al rango del 50% central de los datos.

Ejemplo 3.
Notas de PC1: 12,12,13,13,14,14,14,15,15,16,16,16,18
Hallar e interpretar el rango intercuartílico.
Pos=3.5, P25=13+0.5x(13-13)=13
Pos=10.5, P75=16+0.5x(16-16)=16
R = 16 – 13 = 3 puntos.
Interpretación. La amplitud del 50% central de las
notas de la primera práctica fue de 3 puntos .
32
La variancia es el promedio de la suma de cuadrados de
las desviaciones respecto a la media.
1 N 2 2
Poblacional:  = N  ( X j −  ) = N   X j − N  
2 1 N 2

j =1  j =1 
1  n 2
1 n
 ( )  X j − n X 
2

Muestral: S =
2
Xj −X = 2

n − 1 j =1 n − 1  j =1 

Desviación estándar muestral: S = S 2

Para una tabla de frecuencias:


k k
1 1
 ( f i X i − n X )
2
S =
2
fi ( X i − X ) =
2 2

n − 1 i =1 n − 1 i =1
donde k número de categorías
33
El coeficiente de variabilidad es una medida de dispersión
relativa (no tiene unidades) y se define como la razón
entre la desviación estándar y la media aritmética de un
conjunto de observaciones.
 s
Poblacional: CV =  100 Muestral: cv =  100
 x
Ejemplo 5.
Halle el coeficiente de variabilidad de las notas de la
primera práctica para el grupo B.
SB 1.49
cvB = x100 = x100 = 10.6%
xB 14
Interpretación. La variabilidad de la primera práctica
del grupo B es 10.6%. 34
Comparación de la variabilidad
Para comparar la variabilidad entre dos o más conjuntos
de datos, se debe considerar:

Unidades de Unidades de medidas iguales


medidas
Medias Medias
diferentes
similares diferentes
cv1 con cv2 S1 con S2 cv1 con cv2

35
Coeficiente de Correlación de Pearson

El coeficiente de correlación de Pearson es una medida de la


asociación existente entre dos variables cuantitativas. Este
coeficiente toma valores desde -1 hasta 1. Para interpretar un
coeficiente de correlación tenga en cuenta lo siguiente:

a) El valor de r es independiente de las unidades en que se


midan x e y
b) r =1: significa una perfecta correlación positiva, es decir,
todos los puntos caen sobre una línea con pendiente positiva.
c) r = 0: significa no hay correlación. Es decir, las variables son
independientes
d) r = -1: significa una perfecta correlación negativa, es decir,
todos los puntos caen sobre una línea con pendiente negativa.
e) r mide la fuerza de una relación lineal
f) Se usa cuando los datos están medidos en una escala de
intervalo o de razón.
Si r =0 nula
Si -0.10 < r < 0.10 Casi nula

Si -0.20 < r ≤ -0.10 0.10 ≤ r < 0.20 Muy baja

Si -0.40 < r ≤ -0.20 0.20 ≤ r < 0.40 Baja

Si -0.60 < r ≤ -0.40 0.40 ≤ r < 0.60 Media

Si -0.80 < r ≤ -0.60 0.60 ≤ r < 0.80 Alta


Si r ≤ -0.80 r > 0.80 Muy alta
Si r =± 1 Perfecta
 El coeficiente de correlación está dada por:

Siendo:
SPXY: suma de productos corregidos de X e Y.
SCX : suma de cuadrados corregidos de X.
SCY : suma de cuadrados corregidos de Y.
 Prueba de hipótesis para el coeficiente de correlación de
Pearson
Hipótesis:

H0: ρ = 0 (No existe correlación entre X e Y)


H1: ρ ≠ 0 (Si existe correlación entre X e Y)
r
tc = ~ t( n −2)
Estadístico de prueba: (1 − r 2 ) / (n − 2)

Regla de Decisión:

La hipótesis nula se rechaza con un nivel de significación α si:


t c  −t ( / 2,n−2 ) o t c  t (1− / 2,n−2 )

Usando p-valor:
Si p-valor ≤ α , entonces se RHo y se acepta la H1.
Por lo tanto si existe correlación lineal (asociación) entre las variables X e Y
Ejemplo de aplicación 1
Un ingeniero pesquero está interesado en evaluar
12 ejemplares de trucha en un estudio de índole
acuícola, con la finalidad de verificar si existe una
correlación entre la longitud del cuerpo y su
ancho.

Asumiendo de que las variables cumplen el


supuesto de normalidad, responda las siguientes
preguntas:
a. Estime e interprete el coeficiente de
correlación de Pearson para la longitud y
el ancho de las truchas.
Cálculos previos:
X: Longitud
Y: Ancho

Existe una muy baja correlación positiva entre la longitud y el ancho


de las truchas.
b. Realice la prueba estadística más adecuada para
verificar si existe correlación entre la longitud y el
ancho de las truchas. Use α=0.05
P1) Planteamiento de hipótesis
H0: ρ = 0 (No existe correlación entre X e Y)
H1: ρ ≠ 0 (Si existe correlación entre X e Y)
P2) Nivel de significación: α=0.05
P3) Estadístico de prueba y desarrollo
P3) Estadístico de prueba y desarrollo:

P4) Criterios de decisión

Como
t(0.025,10)<tc<t(0.975,10)=2.228
entonces no se rechaza Ho.
P5) Conclusión
A un nivel de significación del 5% no se
rechaza Ho. Luego no se puede afirmar que
exista correlación entre la longitud y el ancho
de las truchas.
Coeficiente de Correlación de Spearman

El coeficiente de correlación de Spearman (1904)


es una prueba no paramétrica cuando se quiere
medir la relación entre dos variables y no cumplen
el supuesto de normalidad en la distribución de
tales valores, o cuando una o ambas variables
estudiadas son de tipo ordinal. Toma valores entre -
1 y 1, y se interpreta exatamente igual que el
coeficiente de correlación de Pearson.
Coeficiente de Correlación de Spearman

Suponga que se toma una muestra aleatoria (x1,


Y1), ... , (xn' Yn) de n pares de observaciones.
Si las Xi y las Yi se ordenan en sentido
ascendente y se calcula la correlación muestral
de estos puestos, el coeficiente resultante se
llama coeficiente de correlación de orden de
Spearman. Si no hay empates, una formula
equivalente para calcular este n coeficiente es:
6 d i
2

rs = 1 − i =1

n ( n − 1)
2
Coeficiente de Correlación de Spearman
di = son las diferencias entre los puestos de los miembros de
los distintos pares n = nº de datos

Prueba de Hipótesis de coeficiente de correlación de


Spearman

Hipótesis:

H0: ρ = 0 (No existe correlación entre X e Y)


H1: ρ ≠ 0 (Si existe correlación entre X e Y)
n
6 di2
Cálculo de rs:
rs = 1 − i =1

n ( n − 1)
2
Regla de Decisión:

Rechazar Ho si rs < - rs,/2 r, o rs > rs,/2

Nota:
Si n > 30, se puede calcular: y utilizar la tabla de la distribución
normal
Ejemplo 2:
Se sospecha que la abundancia de la especie de
gramínea Poa bulbosa en los pastizales depende
en gran medida de la humedad que hay en el
suelo. Para comprobar esta hipótesis se realizó un
muestreo con una cuadrícula de 20 cm de lado
obteniéndose una muestra al azar de 12
cuadriculas de pasto. En cada cuadrícula se midió
la cobertura de la especie y la humedad del suelo
mediante un TDR. Ambas son variables
cuantitativas y no se ajustaron una distribución
normal.
Realice la prueba estadística más adecuada
utilizando un α=0.05
Pasos para hallar rs:

1. Clasificar por jerarquìa los valores de X


desde 1 hasta n (el número de parejas de
valores de X e Y en la muestra).
2. Clasificar por jerarquía los valores de Y desde
1 hasta n.
3. Calcular di, para cada pareja de
observaciones, restando la jerarquía de Yi de
la jerarquía de Xi.
4. Elevar al cuadrado cada di y calcular, la suma
de los valores elevados al cuadrado.
5. Calcula rs
Cobertura( Humedad(Y Rango
Obs X) ) Rango (X) (Y) di di2
1 82 42 2 3 -1 1
2 98 46 6 4 2 4
3 87 39 5 2 3 9
4 40 37 1 1 0 0
5 116 65 10 8 2 4
6 113 88 9 11 -2 4
7 111 86 8 10 -2 4
8 83 56 3 6 -3 9
9 85 62 4 7 -3 9
10 126 92 12 12 0 0
11 106 54 7 5 2 4
12 117 81 11 9 2 4
Suma 52
P1) Planteamiento de hipótesis
H0: No existe correlación entre la cobertura de la especie y
la humedad del suelo
H1: Existe correlación entre la cobertura de la especie y la
humedad del suelo
P2) Nivel de significación: α=0.05
P3) Estadístico de prueba y desarrollo
6 x52
Calculo de rs rs = 1 − = 0,818
12 x (122 − 1)

rs,/2= 0,5804 ( 2 colas)

si n= 12 y para α=0.05, la tabla de Spearman arroja el valor de rs,α/2=0.580


0.025 de área 0.025 de área

-0.5804 -0.5804

Como rs =0.818 es mayor a rs,α/2= 0.5804 , entonces se


rechaza Ho.
P5) Conclusión
A un nivel de significación del 5% se rechaza Ho. Por lo tanto
hay correlación entre la cobertura de Poa bulbosa y la
humedad del suelo.
Un zootecnista está interesado en evaluar 12 ejemplares de
trucha en un estudio de índole acuícola, con la finalidad de
relacionar la longitud del cuerpo y su ancho.
Longitu
d 66 63 64 76 76 60 73 69 67 65 70 72
Ancho 6 7 6 7 4 3 4 5 4 5 9 7
Se comprobó que las variables no cumplen con el supuesto
de normalidad. Correlación: Longitud; Ancho
Correlación de Pearson de Longitud y Ancho = 0.175
Valor p = 0.587
Rho de Spearman: Longitud;
Ancho
Rho de Spearman para Longitud y Ancho = 0.128
Valor p = 0.691
a.Indique el coeficiente correlación adecuado entre longitud y
ancho del cuerpo de la trucha. Interprete.
b.Pruebe de hipótesis para la existencia de correlación entre
longitud y ancho del cuerpo de la trucha. Usar  = 0.05

También podría gustarte