Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

1.estadistica Descriptiva

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 75

ESCUELA SUPERIOR POLITECNICA DEL LITORAL

Estadística Descriptiva
Andres G. Abad, PhD

FIMCP-ESPOL
Estadística Gerencial
Guayaquil, Ecuador
Estadística

▪ Descriptiva. Organización, resumen y presentación


de datos
▪ Inferencial. Llegar a una conclusión acerca de la
población, el proceso o el modelo de asignación
de las variables

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 2


Objetivos de la Estadística Descriptiva
▪ Presentar de manera efectiva información compleja
▪ Ordenar información para la percepción de patrones de
interés
▪ Comunicar ideas estadísticas

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 3


Presentación gráfica de la
información
▪ Diagrama de puntos
▪ Gráficas de dispersión
▪ Diagramas de tallos y hojas
▪ Histogramas
▪ Diagramas de cajas con bigotes
▪ Gráficas de Pareto
▪ Series de tiempo

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 4


Diagrama de puntos
Ejemplo: Datos de resistencia a la tensión de muestras de mortero
Portland (Kg/cm2) con polímero agregado:
16.85 16.40 17.21 16.35 16.52 17.04 16.96 17.15 16.59 16.57
mortero Portland sin modificar:
17.50 17.63 18.25 18.00 17.86 17.75 18.22 17.90 17.96 18.15

* * ** * * ** * * + + + + + ++ + + +

16.0 16.5 17.0 17.5 18.0 18.5

* = Mortero modificado
+ = Mortero sin modificar

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 5


Graficas de dispersión

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 6


Ejemplo: Resistencia a la tensión de 80
muestras de aleación Aluminio - Litio

105 221 183 186 121 181 180 143 97 154 153 174 120 168 167
141 245 228 174 199 181 158 176 110 163 131 154 115 160 208
158 133 207 180 190 193 194 133 156 123 134 178 76 167 184
135 229 146 218 157 101 171 165 172 158 169 199 151 142 163
145 171 148 158 160 175 149 87 160 237 150 135 196 201 200
176 150 170 118 149

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 7


Tallos y Hojas ordenado
Tallo Hoja Frecuencia
7 6 1
8 7 1
9 7 1
10 1 5 2
11 0 5 8 3
12 0 1 3 3
13 1 3 3 4 5 5 6
14 1 2 3 5 8 6 9 9 8
15 0 0 1 3 4 4 6 7 8 8 8 8 12
16 0 0 0 3 3 5 7 7 8 9 10
17 0 1 1 2 4 4 5 6 6 8 10
18 0 0 1 1 3 4 6 7
19 0 3 4 6 9 9 6
20 0 1 7 8 4
21 8 1
22 1 8 9 3
23 7 1
24 5 1

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 8


Mediana, cuartiles, percentiles
76 87 97 101 105 110 115 118 120 121
123 131 133 133 134 135 135 141 142 143
145 146 148 149 149 150 150 151 153 154
154 156 157 158 158 158 158 160 160 160
163 163 165 167 167 168 169 170 171 171
172 174 174 175 176 176 178 180 180 181
181 183 184 186 190 193 194 196 199 199
200 201 207 208 218 221 228 229 237 245

Son 80 datos, como es un numero par, la mediana será el promedio de los


que ocupan los lugares 40 y 41, o sea (160+163)/2=161.5
El primer cuartil es el valor en (0.25)*80+0.5=20.5, es decir, el promedio de
los valores en los puestos 20 y 21, o sea (143+145)/2=144
El tercer cuartil es el promedio de los valores en los puestos 60 y 61, es
decir, (181+181)/2=181

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 9


El rango intercuartil

▪ RIC=Q3-Q1
▪ Es una medida de dispersión de datos
▪ En el ejemplo anterior: RIC=181-144=37

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 10


Tabla de Frecuencias

Clase Frecuencia Frec. Relativa Frec. Rel. Acum.


70 a 90 2 0.0250 0.0250
90 a 110 3 0.0375 0.0625
110 a 130 6 0.0750 0.1375
130 a 150 14 0.1750 0.3125
150 a 170 22 0.2750 0.5875
170 a 190 17 0.2125 0.8000
190 a 210 10 0.1250 0.9250
210 a 230 4 0.0500 0.9750
230 a 250 2 0.0250 1.0000

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 11


Histograma

Para el número de clases se recomienda utilizer la raíz cuadrada del


número de observaciones.

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 12


Diagrama de Cajas o Boxplot
▪ Presenta al mismo tiempo una medida de dispersión,
de tendencia central y de valores extremos
▪ Se debe determinar la mediana, el primero y el tercer
cuartil y los valores máximo y mínimo
▪ Rango Intercuartílico RIC=Q3-Q1

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 13


Las gráficas de Caja son útiles para
hacer comparaciones
El desplazamiento
Supongamos que
de las gráficas de
un corredor entrena
caja hacia la
para una
izquierda indica que
determinada carrera
el entrenamiento ha
y se toman los
dado resultado, ya
tiempos que
que se tardan
necesita para
menos segundos en
recorrer los 100m,
recorrer la misma
durante 10 días
distancia, siendo la
consecutivos (cada
diferencia entre el
día se toman varios
máximo y el mínimo
tiempos y se
menor, como así
calculan mediana,
también la
cuartiles, valores
diferencia
mínimo y máximo)
intercuartílica

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 14


Ejemplo
En un diario presentan el siguiente gráfico de caja. La
variable en estudio es “calificación en un examen de
ingreso”

Teniendo en cuenta esta gráfica indique en forma


aproximada:
a)¿Qué calificación obtuvo el estudiante con menor nota?
b)¿Qué calificación obtuvo el estudiante con mayor nota?
c)¿Cuál es el primer cuartil?
d)¿Cuál es el tercer cuartil?
e)¿Cuál es la mediana?
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 15
Ejercicio
En un aeropuerto se registran los vuelos que arriban en una
semana determinada y los datos se vuelcan en la siguiente
tabla:

Día Lunes Martes Miércoles Jueves Viernes Sábado Domingo

Vuelos 25 37 45 50 32 40 30

Ordene en forma creciente y calcule mediana y cuartiles.


¿Cuántos vuelos hay el día que hay menos vuelos?
¿Cuántos vuelos hay el día que hay más vuelos?
Represente mediante un diagrama de caja y bigotes.

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 16


Diagrama de Pareto
▪ Se ordenan la frecuencias en orden descendente
▪ La escala horizontal no es necesariamente numérica
▪ La línea indica los porcentajes acumulados
▪ Útiles en análisis de datos de defectos en procesos de producción
▪ Muy usada en los programas de mejoramiento de calidad pues permite
a los ingenieros concentrarse en los problemas realmente importantes

▪ La Ley o Principio de Pareto, también conocida como la Regla del


80/20 (ó 20/80), establece que, de forma general y para un amplio
número de fenómenos, aproximadamente el 80% de las consecuencias
proviene del 20% de las causas.

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 17


Ejemplo, Proceso de fabricación
de un puerta de automóvil

Tipo de Cant
Defecto
Tipo de Defecto Cant %
Mancha 21
Rayón 35 32
Rayón 35 Floja 29 26
Defecto en 17 Mancha 21 19
manija Defecto en manija 17 16
Floja 29 Otros 8 7
Abollada 3 TOTAL 110 100

Defecto en vidrio 5

TOTAL 110

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 18


Diagrama de Pareto

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 19


Serie de tiempo

300
Resist a la tensión

250

200

150

100

50

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 20


Descripción numérica de los datos

▪ Media
▪ Varianza
▪ Moda
▪ Mediana
▪ Sesgo
▪ Curtosis
▪ Covarianza
▪ Factor de correlación

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 21


La media

La media muestral
n
x1 + x2 +... + xn 1
x= = å xi
n n i=1

La media de la población
N
1
=
N
x
i =1
i

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 22


Varianza muestral
n

sxx
å i
(x - x ) 2
én æ n ö

å xi - çå xi ÷ ú
1 ê 1
s =
2
= i=1
= 2

n -1 n -1 n -1 êë i=1 n è i=1 ø úû

Los datos de la muestra están mas cerca de la media de la muestra que


de la media de la población, para compensar esto la varianza se
multiplica por n/(n-1)

Las n desviaciones suman cero, por lo tanto la n-ésima desviación se


puede obtener a partir de las n-1 restantes (n-1 “grados de libertad”)

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 23


Covarianza y Correlación

1 n 1  n  
s xy = 
n − 1 i =1
( xi − x )( yi − y ) =   xi yi  − nx y 
n − 1  i =1  

S xy
rxy =
SxS y

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 24


La moda

▪ El valor de mayor frecuencia


▪ Si hay dos, la distribución es bi-modal

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 25


Rango

▪ La diferencia entre el máximo y el mínimo de los


valores de la población

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 26


Asimetría

▪ (g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente


la misma cantidad de valores a los dos lados de la media. Este valor es difícil de
conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos
o negativos (± 0.5).
▪ (g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a
reunir más en la parte izquierda que en la derecha de la media.
▪ (g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a
reunir más en la parte derecha de la media

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 27


Curtosis

(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría


es bastante difícil encontrar un coeficiente de Curtosis de cero (0),
por lo que se suelen aceptar los valores cercanos (± 0.5 aprox.).
(g2 > 0) la distribución es Leptocúrtica
(g2 < 0) la distribución es Platicúrtica

ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador 28


Installing Data Analysis (Cont.)
▪ Then you will see the following menu. Click on Options.

Click

29
Installing Data Analysis (Cont.)
▪ In the Excel Options dialog, click on Add-Ins.

Click

30
Installing Data Analysis Cont.)
▪ Then you will see the following window.
▪ There is a Manage section at the bottom. Click on Go.

Click
31
Installing Data Analysis (Cont.)
▪ In the Add-Ins menu, select Analysis ToolPak.
▪ Then click on OK.

Click

32
Installing Data Analysis (Cont.)
▪ It will take some time to load the package.
▪ When finished, click on the Data tab in the main menu.
▪ You should see the Data Analysis module on right.

33
The Frequency Table
▪ Open the file SoftDrink.xls to create the frequency table.

34
The Frequency Table (Cont.)
▪ Note: In this example, the data is given in TEXT form.
▪ The frequency table needs to be created manually.
▪ Type the titles “Item” and “Frequency” in the columns you want for the
frequency table.

35
The Frequency Table (Cont.)
▪ Manually type all values in the “Item” column. Be sure not to miss.

Coke Classic
Diet Coke
Pepsi-Cola
Dr. Pepper
Sprite

36
The Frequency Table (Cont.)
▪ The function COUNTIF is used here to calculate the frequencies.
▪ This function needs two values: the range and the criteria.
▪ Range is the range of cells with the values you want to count.
▪ Criteria describes which values in that range are to be counted.

37
The Frequency Table (Cont.)
▪ In cell D2 type “=COUNTIF(”
▪ Then select the data range. (A2:A51, in this example.)

38
The Frequency Table (Cont.)
▪ Type a “,”
▪ For the criteria, simply select the cell in the “Item” column whose whose
values you want to count. (C2, for example)
▪ Press Enter to perform the function in this cell

39
The Frequency Table (Cont.)
▪ Type (or copy) the same function for the rest of the items.
▪ You will get the following frequency table.

=COUNTIF(A$2:A$51,C3) =COUNTIF(A$2:A$51,C2)

=COUNTIF(A$2:A$51,C4)

=COUNTIF(A$2:A$51,C6)

=COUNTIF(A$2:A$51,C5)

40
The Bar Graph for SoftDrink.xls
▪ Based on the frequency table you just created, you can get the bar
graph.
▪ Note: You CANNOT create the bar graph using the sample data
directly.

◼ How to create the bar graph for the following data is shown on the next
slide.

Item Frequency
Coke Classic 19
Diet Coke 8
Pepsi-Cola 13
Dr. Pepper 5
Sprite 5

41
The Bar Graph (Cont.)
▪ First select the data in the frequency table. (C2:D6, in this example.)

42
The Bar Graph (Cont.)

Click “Insert” tab in Menu.

Then click “Bar”.

Then click “Clustered


Bar”.

43
The Bar Graph (Cont.)
▪ Then you will see the following bar graph.

44
The Bar Graph (Cont.)

The column option in


Excel creates a vertical
bar graph.

Click “Insert” tab in Menu.

Then click “Bar”.

Then click “Clustered


Bar”.

45
The Bar Graph (Cont.)
▪ Then you will see the following bar graph.

46
The Pie Chart for SoftDrink.xls
▪ Creating a pie chart is similar to the bar graph.
▪ Note: You CANNOT create the bar graph using the sample data
directly.

◼ How to create the pie chart for the following data is shown on the next
slide.
Item Frequency
Coke Classic 19
Diet Coke 8
Pepsi-Cola 13
Dr. Pepper 5
Sprite 5

47
The Pie Chart (Cont.)
▪ First select the data in the frequency table. (C2:D6, in this example.)

48
The Pie Chart (Cont.)

Click the “Insert” tab in Menu.

Then click “Pie”.

Then click “Pie”.

49
The Pie Chart (Cont.)
▪ Then you will see the following pie chart.

50
The Pie Chart (Cont.)

Click the pie chart to active Chart


Tools.
Click

To show the percentages, change


the layout, as follows.

Click “Chart Tools” tab in Menu.

Then click “Quick Layout”.

Then click “Layout 1”.


51
The Pie Chart (Cont.)
▪ Then you will see the following pie chart.

52
The Histogram
▪ Open the file Audit.xls.

Click “Data” tab in Menu.

Then click “Data Analysis”.

53
The Histogram (Cont.)
▪ In the Data Analysis menu, select Histogram.
▪ Then click on OK

54
The Histogram (Cont.)
▪ You will see the Histogram menu.
▪ In the input section, select the range with your data in the Input Range.
(A2:A21, in this example.)
▪ Then in the output section, select the cell where you want to save the
result. [Here, the result is put in the same worksheet.]
▪ Select Chart Output.
▪ Then click on OK

55
The Histogram (Cont.)
▪ You will see the following histogram.

56
The Histogram (Cont.)
▪ In the histogram menu, the bin range was left blank.
▪ However, you can create your own bin ranges, as follows.
▪ Type in the bin range first. In this example, the bin ranges are set to the
following (< 10, 10 – 15, 15 – 20, and so on).

57
The Histogram (Cont.)
▪ In the input section of the histogram menu, enter the bin range you just
created. (B2:B7, in this example.)
▪ All other settings are the same as before.

58
The Histogram (Cont.)
▪ You will see the following histogram.

59
Arithmetic Mean for Salary.xls
▪ AVERAGE(number1, [number2], ...) computes the average (arithmetic
mean) of the numbers.
▪ Number1 is the first number, cell reference, or range for which you want
the average.

=AVERAGE(B2:B13)

60
Median for Salary.xls
▪ MEDIAN(number1, [number2], ...) computes the median of the
numbers.
▪ Number1 is the first number, cell reference, or range for which you want
the average.

=MEDIAN(B2:B13)
Percentiles for Salary.xls
▪ PERCENTILE.INC(array,k) computes the k-th percentile of values in a
range.
▪ Array is the array or range of data. K is the percentile value.

=PERCENTILE.INC(B2:B13,0.25)

=PERCENTILE.INC(B2:B13,0.5)

=PERCENTILE.INC(B2:B13,0.75)
Mode for Salary.xls
▪ MODE(number1,[number2],...]) computes the mode of the numbers.
▪ Number1 is the first number, cell reference, or range for which you want
the average.

=MODE(B2:B13)
Variance for Salary.xls
▪ VAR.P(number1,[number2],...]) calculates the population variance.
▪ VAR.S(number1,[number2],...]) calculates the sample variance.

=VAR.P(B2:B13)

=VAR.S(B2:B13)
Standard Deviation for Salary.xls
▪ STDEV.P(number1,[number2],...]) calculates the population standard
deviation.
▪ STDEV.S(number1,[number2],...]) calculates the sample standard
deviation.

=STDEV.P(B2:B13)

=STDEV.S(B2:B13)

65
Descriptive Statistics
▪ Open the file Salary.xls.

Click “Data” tab in Menu.

Then click “Data Analysis”.


Descriptive Statistics (Cont.)
▪ In the Data Analysis menu, select Descriptive Statistics.
▪ Then click on OK
Descriptive Statistics (Cont.)

▪ You will see the Descriptive


Statistics menu.
▪ In the input section, enter the
data range in Input Range.
(B2:B13 here.)
▪ In the output section, enter the
cells where you want to save
the result. [Here the results are
put in the same worksheet.]
▪ Select Summary Statistics.
▪ Then click on OK
Descriptive Statistics (Cont.)
▪ You will see the following results.

69
Scatter Diagrams
▪ Open file Stereo.xls.

70
Scatter Diagrams (Cont.)

▪ First select the data range


consisting of two columns.
(B3:C12, here.)
▪ One column contains
values for X and the other
column for Y.
▪ You can also include the
row with the column labels.

71
Scatter Diagrams (Cont.)

Click the “Insert” tab in the Menu.

Then click “Scatter”.

Then click “Scatter with Only Markers”.

72
Scatter Diagrams (Cont.)
▪ Then you will see the following scatter diagram.

73
Correlation and Covariance

▪ COVARIANCE.P(array1,array2) computes the population


covariance XY.
▪ Array1 is the cell range of values for the X variable.
▪ Array2 is the cell range of values for the Y variable.
▪ COVARIANCE.S(array1,array2) computes the simple covariance
SXY.
▪ CORREL(array1,array2) computes the
sample correlation = population correlation.
▪ Open file Stereo.xls as an example (see the next slide).

74
Correlation and Covariance (Cont.)

=COVARIANCE.P(B3:B12,C3:C12)
=COVARIANCE.S(B3:B12,C3:C12)

=CORREL(B3:B12,C3:C12)

75

También podría gustarte