Semana 1 Revision
Semana 1 Revision
Semana 1 Revision
Conceptos Básicos
❖ Muestra representativa:
❖Debe haber sido obtenida al azar.
❖Su tamaño y sus elementos seleccionados con un
método de muestreo. 2
4. Variable. Es la característica que toma diferentes valores
cuando son evaluadas las unidades elementales de una
muestra o población. Se representa por letras mayúsculas
(X, Y, Z, W, X1, X2, Y1, Y2)
Un cliente
X=Edad
Y=Peso
Z=Sexo
W=Grado de instrucción
Una parcela
X1=Rendimiento (Kgrs./parcela)
X2=Número de mazorcas de maíz
X3=Tamaño de mazorcas
X4=Variedad de maíz
3
Cuantitativas. Son aquellas que se expresan en forma
numérica y se pueden realizar operaciones matemáticas
con ellas.
❖Continuas. Pueden tomar cualquier valor numérico
dentro de un intervalo continuo.
❖Discretas. Son representadas por el conjunto de
valores enteros.
Ejemplo 1. V. cuantitativas continuas
1. Costo de inventario (soles)
2. Longitud del langostino de río (cm)
3. Tiempo para atender un pedido en una pizzería (minutos)
Ejemplo 2. V. cuantitativas discretas
1. Número de pacientes atendidos cada 15 minutos en el área
ambulatoria
2. Número de predios que posee un agricultor de un valle
3. Número de quejas de los clientes de una aseguradora
4
Cualitativas. Son aquellas que permiten que una unidad
elemental pueda ser clasificada como poseedora o no de
cierta cualidad, propiedad o atributo.
❖Nominales. Sus valores no son factibles de ser
clasificados a través de un criterio de orden o jerarquía.
❖Jerárquicas. Si se puede establecer un criterio de
orden o jerarquía entre sus valores.
6
Medidas estadísticas En una población En una muestra
(Parámetro) (Estadístico)
Media
X
Mediana ME me
Moda MO mo
Proporción p
Variancia 2 S2
Desviación Estándar S
Coeficiente de CV cv
Variabilidad
7
La tabla de frecuencia está organizada por las categorías que
corresponden a los distintos valores que toma la variable
cualitativa.
Categoría o Frecuencia Frecuencia
Clase Absoluta Relativa
k= Número de categorías (fi) (fri%)
n= Número de observaciones Categoría 1 f1 fr1
Categoría 2 f2 fr2
...
Categoría k fk frk
Total n 100.0
𝐧
𝐟𝐢 = 𝐧
fi=Número de observaciones en la categoría i. Se cumple: 𝐢=𝟏
e 8
B 12 30,0 r 6
C 10 25,0 o 4
2
D 9 22,5
0
Total 40 100,0 A B C D
xk fk frk
Total n 100.0
Nota. Si existen demasiados valores distintos de la variable discreta, se debe
organizar como una variable continua.
Tipo de gráficos
Se pueden usar la frecuencia absoluta (fi) o relativa porcentual (fri%).
❑ Gráfico de bastones o varas
1
1
Ejercicio 2.
En una estación experimental se ha
determinado el número de larvas de
insectos encontrados en 40
parcelas, en un cultivo de frijol. Los
datos se muestran a continuación:
1 3 3 5 6 6 9 9 10 10
1 3 5 5 6 3 9 10 3 1
10 3 5 5 6 5 9 10 1 1
3 3 5 6 6 5 9 5 3 1
1
2
Solución. n=40 muestras
a) Tabla de frecuencias y gráfico de bastones
Distribución de número de
larvas de insectos
Número fi fri%
1 6 15,0
3 9 22,5
5 9 22,5
6 6 15,0
9 5 12,5
10 5 12,5
Total 40 100,0
b) Interpretación f3 y fr3
f3=9 muestras tienen 5 larvas de insecto.
fr3=22,5% de las muestras tienen 5 larvas de insectos.
c) ¿Qué número y porcentaje de parcelas muestran al menos 6 larvas?
Número=f4+f5+f6=6+5+5=16
1
Porcentaje=16/40+100=40.0% 3
La tabla de frecuencia está organizada por intervalos de clase que
agrupan al conjunto de datos.
N° de Intervalos Marca de Frec. Frec. Frec. Frec.
clases de clase clase Absoluta Relativa Acumulada Acumulada
[LI-LS> X’ fi fri% Absoluta Relativa
i
Fi Fri%
1 [LI1-LS1> x’1 f1 fr1 F1 Fr1
2 [LI2-LS2> x’2 f2 fr2 F2 Fr2
.
.
.
k [LIk-LSk] x’k fK frK FK=n FrK=100.0
Total n 100.0 1
LIi = Límite inferior de la clase i (Límite cerrado)
LSi= Límite superior de la clase i 𝐢
𝐅𝐢 = 𝐟𝐣 = 𝐟𝟏 + 𝐟𝟐 + ⋯ 𝐟𝐢
Fi=Número de datos acumuladas hasta la clase i. 𝐣=𝟏
𝐅𝐢 𝐢
Fri%=Porcentajes acumulado hasta la clase i. 𝐢 𝐧 =
𝐅𝐫 =
𝐣=𝟏
𝐟𝐫𝐣 = 𝐟𝐫𝟏 + ⋯ 𝐟𝐫𝐢
′ 𝑳𝑰𝒊 + 𝑳𝑺𝒊 1
X’i =Promedio entre LI y LS. 𝑿𝒊 = 𝟐 4
Pasos para la construcción de una tabla de frecuencias:
%
30.0 28.6
25.0 22.9
20.0
17.1
14.3
15.0
11.4
10.0
5.7
5.0
0.0
8,2 1 11,2 14,2 17,2 20,2 23,2 26,2
Media o promedio
Medidas de Media ponderada
tendencia Mediana
central Moda
Percentiles
Rango
Medidas de Rango intercuartil
Variancia
variabilidad
Desviación estándar
Coeficiente de variabilidad
Diagrama de
cajas 2
0
Las medidas estadísticas pueden son calculadas con los
datos provenientes de una población (N: Tamaño de la
población) o muestra (n: Tamaño de la muestra) para
evaluar diferentes variables (cuantitativas y cualitativas),
cuya finalidad es resumir y representar el conjunto de
datos.
Observaciones:
1. Las medidas estadísticas asumen las mismas unidades de
medida de la variable en estudio
2. Para las variables cuantitativas, se pueden calcular todas las
medidas estadísticas.
3. En el caso de las variables cualitativas, sólo es posible
calcular las medidas como la moda y la proporción
2
1
Medidas de Tendencia Central
Son medidas estadísticas que se localizarían en la parte central de
la distribución de los datos. Permiten resumir y representar en un
sólo valor el conjunto de datos. Las principales medidas de
tendencia central son:
22
La media o promedio de un conjunto de observaciones es
igual a la suma de sus valores dividido entre el número
de observaciones
1 N
Media Poblacional: =
N j =1
Xj
1 n
Media Muestral: X = Xj
n j =1
Ejemplo 1. Suponga que se tiene los datos de las ventas
semanales (en dólares) de una muestra de 8 vendedores. Calcule
la venta promedio semanal.
150 120 300 280 350 250 160 280
1 8 150 + 120 + 300 + 280 + 350 + 250 + 160 + 280 1,890
X = xi = = = 236.3
8 i =1 8 8
Interpretación. La venta promedio semanal por vendedor fue de $ 236.3 2
3
La media ponderada se usa en aquellos casos donde las
observaciones tienen diferente importancia dentro de una
población o muestra.
k
x w
j =1
j j
x1w1 + x2 w2 + ...xk wk
xp = =
k
w1 + w2 + ... + wk
w
j =1
j
2
4
La mediana es el valor que ocupa la posición central de un
conjunto de datos, previamente ordenados. La mediana se
calcula:
𝑿 𝒏 + 𝑿 𝒏+𝟏
𝟐 𝟐
𝑺𝒊, 𝒏 𝒆𝒔 𝒊𝒎𝒑𝒂𝒓: 𝒎𝒆 = 𝑿 𝒏+𝟏 𝑺𝒊, 𝒏 𝒆𝒔 𝒑𝒂𝒓: 𝒎𝒆 =
𝟐 𝟐
X +X
63 + 64
10 10
( ) ( +1)
n = 10 par , me = 2 2
= = 63.5
2 2
Interpretación. Un 50% de personas pesan menos de 63.5 Kg.
y el otro 50% pesa más de 63.5 Kg. 25
1. La mediana divide a las n observaciones previamente
ordenadas, en dos partes iguales. El 50% con valores
menores a la mediana y el otro 50% con valores
mayores a la mediana.
2. La suma de las desviaciones absolutas de las
observaciones con respecto a la mediana es un valor
mínima. n n
X
j =1
j − me X j − c , donde
j =1
cR
26
La moda de un conjunto de datos es el valor o atributo que
ocurre con mayor frecuencia.
Propiedades:
1. Puede no existir o puede haber más de una moda en un
conjunto de datos.
2. No es afectada por valores extremos.
3. Se aplica tanto para información cualitativa como
cuantitativa.
27
El percentil Pq divide a un conjunto de datos previamente
ordenado en un q% menores que Pq y un (100 – q)% mayores
que Pq.
Para calcular el percentil Pq, se determina en primer lugar la
posición (Pos).
= E ( Entero ) Pq = x( E )
n + 1
Pos = qx
100 = E.d ( Decimal ) Pq = x( E ) + 0.d (x( E +1) − x( E ) )
29
Ejemplo 1.
Considerar los siguientes datos como las notas de la
primera práctica de una muestra de alumnos cada una de
las tres secciones de una asignatura:
30
El rango o amplitud de un conjunto de observaciones es
igual a la diferencia entre el valor máximo y el valor
mínimo.
R = Xmax – Xmin
Desventajas:
• Esta afectada por valores extremos
• No mide la variabilidad de los datos intermedios
Ejemplo 2.
Notas de PC1: 14,13,15,14,12,15,16,13,12,16,18,14,16
Hallar e interpretar el rango.
R = 18 – 12 = 6 puntos.
Interpretación. La amplitud de la nota de la primera
práctica fue de 6 puntos.
31
El rango intercuartílico, se calcula como la diferencia entre el
percentil 75 (P75 = Q3) y el percentil 25 (P25 = Q1).
RI = P75 - P25
El RI corresponde al rango del 50% central de los datos.
Ejemplo 3.
Notas de PC1: 12,12,13,13,14,14,14,15,15,16,16,16,18
Hallar e interpretar el rango intercuartílico.
Pos=3.5, P25=13+0.5x(13-13)=13
Pos=10.5, P75=16+0.5x(16-16)=16
R = 16 – 13 = 3 puntos.
Interpretación. La amplitud del 50% central de las
notas de la primera práctica fue de 3 puntos .
32
La variancia es el promedio de la suma de cuadrados de
las desviaciones respecto a la media.
1 N 2 2
Poblacional: = N ( X j − ) = N X j − N
2 1 N 2
j =1 j =1
1 n 2
1 n
( ) X j − n X
2
Muestral: S =
2
Xj −X = 2
n − 1 j =1 n − 1 j =1
n − 1 i =1 n − 1 i =1
donde k número de categorías
33
El coeficiente de variabilidad es una medida de dispersión
relativa (no tiene unidades) y se define como la razón
entre la desviación estándar y la media aritmética de un
conjunto de observaciones.
s
Poblacional: CV = 100 Muestral: cv = 100
x
Ejemplo 5.
Halle el coeficiente de variabilidad de las notas de la
primera práctica para el grupo B.
SB 1.49
cvB = x100 = x100 = 10.6%
xB 14
Interpretación. La variabilidad de la primera práctica
del grupo B es 10.6%. 34
Comparación de la variabilidad
Para comparar la variabilidad entre dos o más conjuntos
de datos, se debe considerar:
35
Coeficiente de Correlación de Pearson
Siendo:
SPXY: suma de productos corregidos de X e Y.
SCX : suma de cuadrados corregidos de X.
SCY : suma de cuadrados corregidos de Y.
Prueba de hipótesis para el coeficiente de correlación de
Pearson
Hipótesis:
Regla de Decisión:
Usando p-valor:
Si p-valor ≤ α , entonces se RHo y se acepta la H1.
Por lo tanto si existe correlación lineal (asociación) entre las variables X e Y
Ejemplo de aplicación 1
Un ingeniero pesquero está interesado en evaluar
12 ejemplares de trucha en un estudio de índole
acuícola, con la finalidad de verificar si existe una
correlación entre la longitud del cuerpo y su
ancho.
Como
t(0.025,10)<tc<t(0.975,10)=2.228
entonces no se rechaza Ho.
P5) Conclusión
A un nivel de significación del 5% no se
rechaza Ho. Luego no se puede afirmar que
exista correlación entre la longitud y el ancho
de las truchas.
Coeficiente de Correlación de Spearman
rs = 1 − i =1
n ( n − 1)
2
Coeficiente de Correlación de Spearman
di = son las diferencias entre los puestos de los miembros de
los distintos pares n = nº de datos
Hipótesis:
n ( n − 1)
2
Regla de Decisión:
Nota:
Si n > 30, se puede calcular: y utilizar la tabla de la distribución
normal
Ejemplo 2:
Se sospecha que la abundancia de la especie de
gramínea Poa bulbosa en los pastizales depende
en gran medida de la humedad que hay en el
suelo. Para comprobar esta hipótesis se realizó un
muestreo con una cuadrícula de 20 cm de lado
obteniéndose una muestra al azar de 12
cuadriculas de pasto. En cada cuadrícula se midió
la cobertura de la especie y la humedad del suelo
mediante un TDR. Ambas son variables
cuantitativas y no se ajustaron una distribución
normal.
Realice la prueba estadística más adecuada
utilizando un α=0.05
Pasos para hallar rs:
-0.5804 -0.5804