Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare una empresa de Scribd logo
3. ESTADÍSTICA DESCRIPTIVA
                    Dr. Edgar Acuna
             http://math.uprm.edu/~edgar

        UNIVERSIDAD DE PUERTO RICO
    RECINTO UNIVERSITARIO DE MAYAGUEZ


Minitab 14
ESTADÍSTICA DESCRIPTIVA

    En este capítulo se verán las técnicas que se usan para la organización
    y presentación de datos en tablas y gráficas, así como el cálculo de
    medidas estadísticas. Se considerarán solamente datos univariados y
    bivariados.




Minitab 14                Edgar Acuna                             Universidad de2Puerto R
3.1Organización        de                                         datos
Cuantitativos Discretos
3.1.1 Tablas de Frecuencias: Los datos cuantitativos discretos se organizan
   en tablas, llamadas Tablas de Distribución de frecuencias. tipos de
   frecuencias:
   Frecuencia absoluta: Indica el número de veces que se repite un valor de la
   variable.

   Frecuencia relativa: Indica la proporción con que se repite un valor. Se
   obtiene dividiendo la frecuencia absoluta entre el tamaño de la muestra.
   Para una mejor interpretación es más conveniente mutiplicarla por 100
   para trabajar con una Frecuencia relativa porcentual.

    Frecuencia absoluta acumulada: Indica el número de valores que son
   menores o iguales que el valor dado.

   Frecuencia relativa porcentual acumulada: Indica el porcentaje de datos
   que son menores o iguales que el valor dado.
Minitab 14                Edgar Acuna                            Universidad de3Puerto R
3.1.2 El plot de puntos (“Dotplot”)
    La gráfica más elemental es el plot de puntos (“Dotplot”) que consiste en
   colocar un punto cada vez que se repite un valor. Esta gráfica permite
   explorar la simetría y el grado de variabilidad de la distribución de los
   datos con respecto al centro, el grado de concentración o dispersión de los
   datos con respecto al valor central y permite detectar la presencia de
   valores anormales (“outliers”).
  En MINITAB el plot de puntos se obtiene eligiendo la opción Dotplot del
   menú Graph.




Minitab 14               Edgar Acuna                             Universidad de4Puerto R
3.1.3 Gráfica de Línea
     La gráfica de línea es una alternativa a la gráfica de puntos. Por cada valor
    de la variable se traza una linea vertical de altura proporcional a la
    frecuencia absoluta del valor de la variable.

3.2 Organización de datos Cuantitativos Continuos:
    Cuando los datos son de una variable continua o de una variable discreta
   que asume muchos valores distintos, ellos se agrupan en clases que son
   representadas por intervalos y luego se construye una tabla de frecuencias,
   cada frecuencia absoluta (relativa porcentual) representa el número
   (porcentaje) de datos que caen en cada intervalo.




Minitab 14                 Edgar Acuna                               Universidad de5Puerto R
3.2.1 Tablas de frecuencias-Histograma
       en modo texto
  La forma de obtener este histograma es eligiendo la opción Character Graphs
 del menú Graph y luego del submenú que sale se elige Histogram. En la salida
 aparecerán los puntos medios de los intervalos de clase (llamados también
 Marcas de clase) y la frecuencia absoluta de cada clase.


 3.2.2 Histograma en modo gráfico
  Es la gráfica de la tabla de distribución de frecuencias para datos agrupados,
 consiste de barras cuyas bases son los intervalos de clases y cuyas alturas son
 proporcionales a las frecuencias absolutas (o relativas) de los correspondientes
 intervalos.



 Minitab 14               Edgar Acuna                             Universidad de6Puerto R
3.3 Presentación de datos cualitativos
 En este caso los datos también se pueden organizar en tablas de frecuencias,
 pero las frecuencias acumuladas no tienen mucho significado, excepto cuando
    la
variable es ordinal. Para obtener la tabla se sigue la secuencia STATSTablesT
Tally. Si se desea obtener las frecuencias acumuladas se pueden seleccionar en
la ventana Tally.


3.3.1 Gráficas de Barras
   Las gráficas de barras pueden ser verticales u horizontales. Las gráficas de
   barras se obtienen eligiendo la opción Bar Chart del menú Graph. Si se
   desea una gráfica de barras verticales simple, entonces se elige la opción de
   Counts of unique variables como el significado de las barras y
   simultáneamente la opción Simple.


 Minitab 14                Edgar Acuna                            Universidad de7Puerto R
3.3.2 Gráficas Circulares

      Este tipo de gráfica se usa cuando se quiere tener una idea de la
    contribución de cada valor de la variable al total. Aunque es usada más
    para variables cualitativas, también podría usarse para variables
    cuantitativas discretas siempre que la variable no asuma muchos valores
    distintos.

     Para obtener gráficas circulares se usa la opción Pie Chart del menú
    Graph.




Minitab 14               Edgar Acuna                           Universidad de8Puerto R
3.4 Gráfica de tallo y hojas (“Stem-
and-Leaf ”)
      Es una gráfica usada para datos cuantitativos.
 Ejemplo 3.4. Los siguientes datos representan pesos de una muestra de 15
    varones adultos.
    165 178 185 169 152 180 175 189 195 200 183 191 197
    208 179
    Hacer su gráfica de “Stem-and Leaf”.

 Solución: En este caso las ramas la forman los primeros dos dígitos de los
    datos, y las hojas serán dadas por los últimos dígitos de los datos.

                                                          continuación: …


 Minitab 14                 Edgar Acuna                        Universidad de9Puerto R
Ejemplo 3.4.
    Luego el “stem-and leaf “ será de la siguiente manera:




    Interpretación: El uso del “stem-and-leaf” es exactamente igual al del
    Histograma, la única diferencia está en que del “stem-and-leaf” se
    pueden recuperar los datos muestrales, pero de un histograma no se puede
    hacer. En este ejemplo el “stem-and-leaf” es asimétrico a la izquierda,
    no tiene mucha variabilidad ni “outliers”.


Minitab 14                Edgar Acuna                           Universidad de Puerto R
                                                                             10
3.5 Cálculo de Medidas Estadisticas
    Hay dos tipos principales de medidas Estadísticas: medidas de Tendencia
    Central y medidas de Variabilidad.
    Las medidas de tendencia central dan una idea del centro de la
    distribución de los datos. Las principales medidas de este tipo son la media
    o promedio aritmético, la mediana, la moda y la media podada.

    Las medidas de variabilidad expresan el grado de concentración o
    dispersión de los datos con respecto al centro de la distribución. Entre las
    principales medidas de este tipo están la varianza, la desviación estándar,
    el rango intercuartílico. Aparte también hay medidas de posición, como
    son los cuartiles, deciles y percentiles. Además, una medida de asimetría
    (“skewness”) y una medida de aplanamiento (“kurtosis”).



Minitab 14                Edgar Acuna                              Universidad de Puerto R
                                                                                11
3.5.1 Medidas de Centralidad
     La media o promedio se obtiene sumando todos los datos y dividiendo
    entre el número de datos. Es decir, si x1, x2,…,xn, representan las
    observaciones de una variable X en una muestra de tamaño n, entonces la
    media de la variable X está dada por:
                                    n

                                   ∑x       i
                              x=   i =1

                                        n
       La media podada es una medida más resistente que la media a la
    presencia de valores anormales. Para calcular la Media Podada, primero se
    ordenan los datos en forma creciente y luego se elimina un cierto
    porcentaje de datos (redondear si no da entero) en cada extremo de la
    distribución, finalmente se promedian los valores restantes.




Minitab 14                Edgar Acuna                           Universidad de Puerto R
                                                                             12
3.5.2 Medidas de Variabilidad
     El rango o amplitud es la diferencia entre el mayor y menor valor de la
    muestra. Mientras mayor sea el rango existe mayor variabilidad.
    La varianza es una medida que da una idea del grado de concentración de
    los datos con respecto a la media. Para determinar el grado de
    concentración de los datos sería el promedio de las desviaciones con
    repecto a la media, es decir ,
                                n

                               ∑( x
                               i=1
                                        i   −x)

                                     n

    La desviación estándar es la raíz cuadrada positiva de la varianza y tiene
    la ventaja que está en las mismas unidades de medida que los datos. Se
    representa por s.

Minitab 14                Edgar Acuna                            Universidad de Puerto R
                                                                              13
3.5.3. Medidas de Posición
    Los Cuartiles: Son valores que dividen a la muestra en 4 partes
    aproximadamente iguales. El 25% de los datos son menores o iguales que
    el cuartil inferior o primer cuartil, representado por Q1. El siguiente 25 %
    de datos cae entre el cuartil inferior y la mediana, la cual es equivalente al
    segundo cuartil. El 75 % de los datos son menores o iguales que el cuartil
    superior o tercer cuartil, representado por Q3, y el restante 25% de datos
    son mayores o iguales que Q3.

    Los Deciles: Son valores que dividen a la muestra en 10 partes iguales

    Los Percentiles: Dado un cierto porcentaje 100p, donde p varía entre 0 y
    1, el percentil del 100p% es un valor tal que 100p% de los datos caen a la
    izquierda del percentil. En particular, la mediana y los cuartiles son
    percentiles. El primer cuartil es el percentil de 25%, la mediana es el
    percentil del 50% y el tercer cuartil es el percentil del 75%.
Minitab 14                 Edgar Acuna                               Universidad de Puerto R
                                                                                  14
3.5.4   Cálculo de medidas estadísticas
usando MINITAB.
    En MINITAB se pueden calcular simultáneamente varias medidas estadísticas de
    centralidad y de variabilidad para un conjunto de datos, para esto se elige la opción
    Display Descriptive Statistics del submenú de Basic Statistics del menú STAT.


3.6 El Diagrama de Caja (“Boxplot”)
    Permite tener una idea visual de la distribución de los datos. O sea, determinar si
    hay simetría, ver el grado de variabilidad existente y finalmente detectar “outliers”
    .
    En MINITAB hay varias maneras de obtener el “Boxplot” de un conjunto de datos,
    una de ellas es eligiendo la opción Boxplot del menú Graph. Otra manera es
    obtener un “boxplot” es eligiendo la opción Character Graphs del menú
    Graph y luego boxplot del listado que aparece.


Minitab 14                   Edgar Acuna                                  Universidad de Puerto R
                                                                                       15
3.7 Organización y Presentación de
    datos Bivariados
 3.7.1 Datos bivariados categóricos
       Para organizar datos de dos variables categóricas o cualitativas se usan
       tablas de doble entrada. Los valores de una variable van en columnas y
       los valores de la otra variable van en filas. Para hacer esto en MINITAB
       se elige la opción Tables del menú Stat. y luego la opción Cross
       Tabulation del submenú deTables.

       Hay dos maneras de usar Cross Tabulation dependiendo de como se
       han entrado los datos. Primero, cuando los datos de cada variable están
       dados en dos columnas distintas. O sea, como si hubiesen sido las
       contestaciones de un cuestionario.

       La segunda situación donde Cross Tabulation es usada, es cuando las
       frecuencias absolutas de cada celda están totalizados
Minitab 14                Edgar Acuna                             Universidad de Puerto R
                                                                               16
Ejemplo 3.17.
       Los siguientes datos se han recopilados para tratar de establecer si
       hay relación entre el Sexo del entrevistado y su opinión con respecto a
       una ley del Gobierno.




       Usar MINITAB para construir una tabla de contingencia y responder
       además las siguientes preguntas:
       a) ¿Qué porcentaje de los entrevistados son mujeres que se abstienen
       de opinar?
       b) De los entrevistados varones. ¿Qué porcentaje está en contra de la
       ley?
       De los entrevistados que están a favor de la ley. ¿Qué porcentaje son
       varones?
       De los que no se abstienen de opinar ¿Qué porcentaje son varones?
Minitab 14                 Edgar Acuna                             Universidad de Puerto R
                                                                                17
Solución:
      En este caso se entra la columna c3 (‘conteo’ ) en la ventanita
    correspondiente a Frequencies are in que aparece en la ventana de
    dialogo de Cross Tabulation . Los resultados serán como sigue:




    Cuando se tiene dos variables categóricas se pueden hacer gráficas de
    barras agrupadas ("bars in clusters") o en partes componentes ("stacked
    bars") para visualizar la relación entre ellas.
Minitab 14               Edgar Acuna                           Universidad de Puerto R
                                                                            18
Ejemplo 3.20
    Hallar una gráfica de partes componentes para comparar los estudiantes
    (por programa) según el tipo de escuela de donde proceden, usando datos
    del ejemplo 3.1.
    Solución: Bajo la opción de Graphs -> Bar Chart, las opciones que se
    muestran en la figura 3.37.




  Figura 3.37: Ventanas de diálogo para una gráfica de partes componentes


Minitab 14               Edgar Acuna                           Universidad de Puerto R
                                                                            19
Continuación (Ejemplo 3.20)
   Solución:
   Luego, en la ventana de Scale -> Axes and Ticks elija la opción
   “Transpose value and category scales” y en la ventana de Labels coloque
   el título de la gráfica y los valores correspondientes a las barras. La gráfica
   resultante se muestra en la Figura 3.38.




    Figura 3.38. Gráfica de barras en partes componentes para la variable
    Programa según Escuela
Minitab 14                 Edgar Acuna                               Universidad de Puerto R
                                                                                  20
3.7.2 Conjunto de datos que contienen
      una variable cualitativa y otra
      cuantitativa
    La forma estándar de presentar los datos es en columnas donde cada
    columna representa un valor de la variable cualitativa y los valores dentro
    de cada columna representan valores de la variable cuantitativa. En general
    el objetivo es comparar los valores de la variable cualitativa según los
    valores de la variable cuantitativa, esto se lleva a cabo con una técnica
    llamada análisis de varianza (ver capítulo 10).

    La gráfica más adecuada para representar este tipo de información es el
    "Boxplot".



Minitab 14                Edgar Acuna                             Universidad de Puerto R
                                                                               21
3.7.3 Datos Bivariados Continuos


      Si se quiere representar la relación entre dos variables cuantitativas
     entonces se usa un diagrama de dispersión (“Scatterplot”). Para obtener un
     diagrama de dispersión entre dos variables X e Y se usa la opción
     Scatterplots del menú Graph.




Minitab 14                Edgar Acuna                            Universidad de Puerto R
                                                                              22
Ejemplo 3.22
    Es bien frecuente tener datos de una variable para un período de tiempo
    (dias, meses o años), estos tipos de datos son llamados series cronológicas
    o series temporales. Para este tipo de datos se pueden hacer gráficos de
    barras (aunque éstas son inadecuadas si el período de tiempo es muy
    grande) y gráficas lineales. Las siguientes gráficas se refieren al número
    de visitantes a Puerto Rico desde 1950 hasta 1998.




Minitab 14                Edgar Acuna                              Universidad de Puerto R
                                                                                23
3.8 El Coeficiente de Correlación
    Llamado también coeficiente de correlación de Pearson, se representa por r y es
    una medida que representa el grado de asociación entre dos variables cuantitativas
    X e Y.




    Sxx es llamada la Suma de Cuadrados corregida de X, Syy es la Suma de
    Cuadrados Corregida de Y, y Sxy es la Suma de Productos de X e Y.
    Tanto Sxx como Syy no pueden ser negativas, Sxy si puede ser positiva o
    negativa.
    La correlación varia entre -1 y 1.
Minitab 14                  Edgar Acuna                                  Universidad de Puerto R
                                                                                      24
Ejemplo 3.23.
   El dueño de una empresa que vende carros desea determinar si hay relación
  lineal entre los años de experiencia de sus vendedores y la cantidad de
  carros que venden. Los siguientes datos representan los años de experiencia
  (X) y las unidades de carros vendidas al año (Y), de 10 vendedores de la
  empresa.




  Solución:
  Haciendo uso de la calculadora de MINITAB. Se obtienen los siguientes
  resultados


Minitab 14               Edgar Acuna                             Universidad de Puerto R
                                                                              25
Solución: (Ejemplo 3.23.)
    Interpretación:
    Existe una buena relación lineal entre los años de experiencia y las
    unidades que vende el vendedor. Además mientras más experiencia tiene
    el vendedor más carros venderá. Se puede usar los años de experiencia
    para predecir las unidades que venderá anualmente a través de una línea
    recta.




    En MINITAB, el coeficiente de correlación se puede obtener eligiendo la
    opción correlation del submenú Basic Statistics del menú Stat.

Minitab 14               Edgar Acuna                           Universidad de Puerto R
                                                                            26
3.9 Una introducción a Regresión
Lineal.
   La variable Y es considerada como la variable dependiente o de respuesta
   y la variable X es considerada la variable independiente o predictora. La
   ecuación de la línea de regresión es:

                                                ˆ
    Donde: α es el intercepto con el eje Y, y β es la pendiente de la línea de
             ˆ

    regresión. Ambos son llamados los coeficientes de la línea de regresión.
                             ˆ
    Los estimadores α y β son hallados usando el método de mínimos
                       ˆ

    cuadrados, que consiste en minimizar la suma de los errores cuadráticos
    de las observaciones con respecto a la línea. Las fórmulas de cálculo son:



    donde x es la media de los valores de la variable X y y es la media de los
    valores de Y.

Minitab 14                Edgar Acuna                             Universidad de Puerto R
                                                                               27
3.9 Una introducción a Regresión
                 Lineal.
    Interpretación de los coeficientes de regresión:
                   ˆ
    La pendiente β se interpreta como el cambio promedio en la variable de
    respuesta Y cuando la variable predictora X se incrementa en una unidad
    adicional.
    El intercepto indica el valor promedio de la variable de respuesta Y
    cuando la variable predictora X vale 0. Si hay suficiente evidencia de que
    X no puede ser 0 entonces no tendría sentido la interpretación deα .
                                                                      ˆ


    En MINITAB, es posible obtener simultáneamente, el “scatterplot”, el
    coeficiente R2 y la línea de regresión. Para esto, se sigue la secuencia
    StatS Regression Fitted line Plot


Minitab 14                Edgar Acuna                            Universidad de Puerto R
                                                                              28
Ejemplo 3.25.
    Supongamos que se desea establecer una relación entre la nota que un
    estudiante obtiene en la parte de aprovechamiento matemático de ingreso
    (CEEB) y el Promedio académico al final de su primer año de universidad
    (GPA). Se toma una muestra de 15 estudiantes y se obtiene los siguientes
    datos:




    Obtener el diagrama de dispersión de los datos, la ecuación de la línea de
    regresión y trazar la línea encima del diagrama de dispersión.


Minitab 14                Edgar Acuna                            Universidad de Puerto R
                                                                              29
Solución (Ejemplo 3.25.)
La variable independiente es CEEB y la                                                    La ecuación de la línea de regresión
variable dependiente es GPA. La gráfica es:                                              aparecerá en la ventana session
                         Regresión de GPA versus CEEB
                             GPA = 2.210 + 0.001087 CEEB
          3.50                                                    S           0.291371
                                                                  R-Sq          12.1%
                                                                  R-Sq(adj)      5.4%

          3.25



          3.00
    GPA




          2.75

                                                                                         Interpretación: La pendiente
          2.50
                                                                                         0.00109 indica que por cada punto
                 400   500         600
                                   CEEB
                                                700        800
                                                                                         adicional en el College Board el
                                                                                         promedio del estudiante subiría en
Interpretación:     El    coeficiente      de                                            promedio en 0.00109, o se podría
determinación es .121 y como la pendiente de                                             decir que por cada 100 puntos más
la línea de regresión es positiva resulta ser                                            en el College Board el promedio
                                                                                         académico del estudiante subiría
que la correlación es .11, esto indica una                                               en .109. Por otro lado, si
pobre relación lineal entre las variables                                                consideramos que es imposible que
CEEB y GPA. O sea que es poco confiable                                                  un estudiante sea admitido sin tomar
predecir GPA basado en el CEEB usando una                                                el College Board, podemos decir que
                                                                                         no tiene sentido interpretar el
línea.                                                                                   intercepto.
 Minitab 14                                                      Edgar Acuna                                 Universidad de Puerto R
                                                                                                                          30
Predicción
    Uno de los mayores usos de la línea de regresión es la predicción del valor
    de la variable dependiente dado un valor de la variable predictora. Esto se
    puede hacer fácilmente sustituyendo el valor dado de X en la ecuación.

    Por ejemplo, supongamos que deseamos predecir el promedio académico
    de un estudiante que ha obtenido 600 puntos en la parte matemática del
    examen de ingreso. Sustituyendo x =600 en la ecuación de la línea de
    regresión se obtiene Y=2.21+.00109*600=2.21+.654=2.864. Es decir que
    se espera que el estudiante tenga un promedio académico de 2.86.

    MINITAB también tiene una opción que permite hacer predicciones pero,
    esto será tratado en el capítulo 9 del texto.


Minitab 14                Edgar Acuna                             Universidad de Puerto R
                                                                               31

Más contenido relacionado

Estadistica Descriptiva

  • 1. 3. ESTADÍSTICA DESCRIPTIVA Dr. Edgar Acuna http://math.uprm.edu/~edgar UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ Minitab 14
  • 2. ESTADÍSTICA DESCRIPTIVA En este capítulo se verán las técnicas que se usan para la organización y presentación de datos en tablas y gráficas, así como el cálculo de medidas estadísticas. Se considerarán solamente datos univariados y bivariados. Minitab 14 Edgar Acuna Universidad de2Puerto R
  • 3. 3.1Organización de datos Cuantitativos Discretos 3.1.1 Tablas de Frecuencias: Los datos cuantitativos discretos se organizan en tablas, llamadas Tablas de Distribución de frecuencias. tipos de frecuencias: Frecuencia absoluta: Indica el número de veces que se repite un valor de la variable. Frecuencia relativa: Indica la proporción con que se repite un valor. Se obtiene dividiendo la frecuencia absoluta entre el tamaño de la muestra. Para una mejor interpretación es más conveniente mutiplicarla por 100 para trabajar con una Frecuencia relativa porcentual. Frecuencia absoluta acumulada: Indica el número de valores que son menores o iguales que el valor dado. Frecuencia relativa porcentual acumulada: Indica el porcentaje de datos que son menores o iguales que el valor dado. Minitab 14 Edgar Acuna Universidad de3Puerto R
  • 4. 3.1.2 El plot de puntos (“Dotplot”) La gráfica más elemental es el plot de puntos (“Dotplot”) que consiste en colocar un punto cada vez que se repite un valor. Esta gráfica permite explorar la simetría y el grado de variabilidad de la distribución de los datos con respecto al centro, el grado de concentración o dispersión de los datos con respecto al valor central y permite detectar la presencia de valores anormales (“outliers”). En MINITAB el plot de puntos se obtiene eligiendo la opción Dotplot del menú Graph. Minitab 14 Edgar Acuna Universidad de4Puerto R
  • 5. 3.1.3 Gráfica de Línea La gráfica de línea es una alternativa a la gráfica de puntos. Por cada valor de la variable se traza una linea vertical de altura proporcional a la frecuencia absoluta del valor de la variable. 3.2 Organización de datos Cuantitativos Continuos: Cuando los datos son de una variable continua o de una variable discreta que asume muchos valores distintos, ellos se agrupan en clases que son representadas por intervalos y luego se construye una tabla de frecuencias, cada frecuencia absoluta (relativa porcentual) representa el número (porcentaje) de datos que caen en cada intervalo. Minitab 14 Edgar Acuna Universidad de5Puerto R
  • 6. 3.2.1 Tablas de frecuencias-Histograma en modo texto La forma de obtener este histograma es eligiendo la opción Character Graphs del menú Graph y luego del submenú que sale se elige Histogram. En la salida aparecerán los puntos medios de los intervalos de clase (llamados también Marcas de clase) y la frecuencia absoluta de cada clase. 3.2.2 Histograma en modo gráfico Es la gráfica de la tabla de distribución de frecuencias para datos agrupados, consiste de barras cuyas bases son los intervalos de clases y cuyas alturas son proporcionales a las frecuencias absolutas (o relativas) de los correspondientes intervalos. Minitab 14 Edgar Acuna Universidad de6Puerto R
  • 7. 3.3 Presentación de datos cualitativos En este caso los datos también se pueden organizar en tablas de frecuencias, pero las frecuencias acumuladas no tienen mucho significado, excepto cuando la variable es ordinal. Para obtener la tabla se sigue la secuencia STATSTablesT Tally. Si se desea obtener las frecuencias acumuladas se pueden seleccionar en la ventana Tally. 3.3.1 Gráficas de Barras Las gráficas de barras pueden ser verticales u horizontales. Las gráficas de barras se obtienen eligiendo la opción Bar Chart del menú Graph. Si se desea una gráfica de barras verticales simple, entonces se elige la opción de Counts of unique variables como el significado de las barras y simultáneamente la opción Simple. Minitab 14 Edgar Acuna Universidad de7Puerto R
  • 8. 3.3.2 Gráficas Circulares Este tipo de gráfica se usa cuando se quiere tener una idea de la contribución de cada valor de la variable al total. Aunque es usada más para variables cualitativas, también podría usarse para variables cuantitativas discretas siempre que la variable no asuma muchos valores distintos. Para obtener gráficas circulares se usa la opción Pie Chart del menú Graph. Minitab 14 Edgar Acuna Universidad de8Puerto R
  • 9. 3.4 Gráfica de tallo y hojas (“Stem- and-Leaf ”) Es una gráfica usada para datos cuantitativos. Ejemplo 3.4. Los siguientes datos representan pesos de una muestra de 15 varones adultos. 165 178 185 169 152 180 175 189 195 200 183 191 197 208 179 Hacer su gráfica de “Stem-and Leaf”. Solución: En este caso las ramas la forman los primeros dos dígitos de los datos, y las hojas serán dadas por los últimos dígitos de los datos. continuación: … Minitab 14 Edgar Acuna Universidad de9Puerto R
  • 10. Ejemplo 3.4. Luego el “stem-and leaf “ será de la siguiente manera: Interpretación: El uso del “stem-and-leaf” es exactamente igual al del Histograma, la única diferencia está en que del “stem-and-leaf” se pueden recuperar los datos muestrales, pero de un histograma no se puede hacer. En este ejemplo el “stem-and-leaf” es asimétrico a la izquierda, no tiene mucha variabilidad ni “outliers”. Minitab 14 Edgar Acuna Universidad de Puerto R 10
  • 11. 3.5 Cálculo de Medidas Estadisticas Hay dos tipos principales de medidas Estadísticas: medidas de Tendencia Central y medidas de Variabilidad. Las medidas de tendencia central dan una idea del centro de la distribución de los datos. Las principales medidas de este tipo son la media o promedio aritmético, la mediana, la moda y la media podada. Las medidas de variabilidad expresan el grado de concentración o dispersión de los datos con respecto al centro de la distribución. Entre las principales medidas de este tipo están la varianza, la desviación estándar, el rango intercuartílico. Aparte también hay medidas de posición, como son los cuartiles, deciles y percentiles. Además, una medida de asimetría (“skewness”) y una medida de aplanamiento (“kurtosis”). Minitab 14 Edgar Acuna Universidad de Puerto R 11
  • 12. 3.5.1 Medidas de Centralidad La media o promedio se obtiene sumando todos los datos y dividiendo entre el número de datos. Es decir, si x1, x2,…,xn, representan las observaciones de una variable X en una muestra de tamaño n, entonces la media de la variable X está dada por: n ∑x i x= i =1 n La media podada es una medida más resistente que la media a la presencia de valores anormales. Para calcular la Media Podada, primero se ordenan los datos en forma creciente y luego se elimina un cierto porcentaje de datos (redondear si no da entero) en cada extremo de la distribución, finalmente se promedian los valores restantes. Minitab 14 Edgar Acuna Universidad de Puerto R 12
  • 13. 3.5.2 Medidas de Variabilidad El rango o amplitud es la diferencia entre el mayor y menor valor de la muestra. Mientras mayor sea el rango existe mayor variabilidad. La varianza es una medida que da una idea del grado de concentración de los datos con respecto a la media. Para determinar el grado de concentración de los datos sería el promedio de las desviaciones con repecto a la media, es decir , n ∑( x i=1 i −x) n La desviación estándar es la raíz cuadrada positiva de la varianza y tiene la ventaja que está en las mismas unidades de medida que los datos. Se representa por s. Minitab 14 Edgar Acuna Universidad de Puerto R 13
  • 14. 3.5.3. Medidas de Posición Los Cuartiles: Son valores que dividen a la muestra en 4 partes aproximadamente iguales. El 25% de los datos son menores o iguales que el cuartil inferior o primer cuartil, representado por Q1. El siguiente 25 % de datos cae entre el cuartil inferior y la mediana, la cual es equivalente al segundo cuartil. El 75 % de los datos son menores o iguales que el cuartil superior o tercer cuartil, representado por Q3, y el restante 25% de datos son mayores o iguales que Q3. Los Deciles: Son valores que dividen a la muestra en 10 partes iguales Los Percentiles: Dado un cierto porcentaje 100p, donde p varía entre 0 y 1, el percentil del 100p% es un valor tal que 100p% de los datos caen a la izquierda del percentil. En particular, la mediana y los cuartiles son percentiles. El primer cuartil es el percentil de 25%, la mediana es el percentil del 50% y el tercer cuartil es el percentil del 75%. Minitab 14 Edgar Acuna Universidad de Puerto R 14
  • 15. 3.5.4 Cálculo de medidas estadísticas usando MINITAB. En MINITAB se pueden calcular simultáneamente varias medidas estadísticas de centralidad y de variabilidad para un conjunto de datos, para esto se elige la opción Display Descriptive Statistics del submenú de Basic Statistics del menú STAT. 3.6 El Diagrama de Caja (“Boxplot”) Permite tener una idea visual de la distribución de los datos. O sea, determinar si hay simetría, ver el grado de variabilidad existente y finalmente detectar “outliers” . En MINITAB hay varias maneras de obtener el “Boxplot” de un conjunto de datos, una de ellas es eligiendo la opción Boxplot del menú Graph. Otra manera es obtener un “boxplot” es eligiendo la opción Character Graphs del menú Graph y luego boxplot del listado que aparece. Minitab 14 Edgar Acuna Universidad de Puerto R 15
  • 16. 3.7 Organización y Presentación de datos Bivariados 3.7.1 Datos bivariados categóricos Para organizar datos de dos variables categóricas o cualitativas se usan tablas de doble entrada. Los valores de una variable van en columnas y los valores de la otra variable van en filas. Para hacer esto en MINITAB se elige la opción Tables del menú Stat. y luego la opción Cross Tabulation del submenú deTables. Hay dos maneras de usar Cross Tabulation dependiendo de como se han entrado los datos. Primero, cuando los datos de cada variable están dados en dos columnas distintas. O sea, como si hubiesen sido las contestaciones de un cuestionario. La segunda situación donde Cross Tabulation es usada, es cuando las frecuencias absolutas de cada celda están totalizados Minitab 14 Edgar Acuna Universidad de Puerto R 16
  • 17. Ejemplo 3.17. Los siguientes datos se han recopilados para tratar de establecer si hay relación entre el Sexo del entrevistado y su opinión con respecto a una ley del Gobierno. Usar MINITAB para construir una tabla de contingencia y responder además las siguientes preguntas: a) ¿Qué porcentaje de los entrevistados son mujeres que se abstienen de opinar? b) De los entrevistados varones. ¿Qué porcentaje está en contra de la ley? De los entrevistados que están a favor de la ley. ¿Qué porcentaje son varones? De los que no se abstienen de opinar ¿Qué porcentaje son varones? Minitab 14 Edgar Acuna Universidad de Puerto R 17
  • 18. Solución: En este caso se entra la columna c3 (‘conteo’ ) en la ventanita correspondiente a Frequencies are in que aparece en la ventana de dialogo de Cross Tabulation . Los resultados serán como sigue: Cuando se tiene dos variables categóricas se pueden hacer gráficas de barras agrupadas ("bars in clusters") o en partes componentes ("stacked bars") para visualizar la relación entre ellas. Minitab 14 Edgar Acuna Universidad de Puerto R 18
  • 19. Ejemplo 3.20 Hallar una gráfica de partes componentes para comparar los estudiantes (por programa) según el tipo de escuela de donde proceden, usando datos del ejemplo 3.1. Solución: Bajo la opción de Graphs -> Bar Chart, las opciones que se muestran en la figura 3.37. Figura 3.37: Ventanas de diálogo para una gráfica de partes componentes Minitab 14 Edgar Acuna Universidad de Puerto R 19
  • 20. Continuación (Ejemplo 3.20) Solución: Luego, en la ventana de Scale -> Axes and Ticks elija la opción “Transpose value and category scales” y en la ventana de Labels coloque el título de la gráfica y los valores correspondientes a las barras. La gráfica resultante se muestra en la Figura 3.38. Figura 3.38. Gráfica de barras en partes componentes para la variable Programa según Escuela Minitab 14 Edgar Acuna Universidad de Puerto R 20
  • 21. 3.7.2 Conjunto de datos que contienen una variable cualitativa y otra cuantitativa La forma estándar de presentar los datos es en columnas donde cada columna representa un valor de la variable cualitativa y los valores dentro de cada columna representan valores de la variable cuantitativa. En general el objetivo es comparar los valores de la variable cualitativa según los valores de la variable cuantitativa, esto se lleva a cabo con una técnica llamada análisis de varianza (ver capítulo 10). La gráfica más adecuada para representar este tipo de información es el "Boxplot". Minitab 14 Edgar Acuna Universidad de Puerto R 21
  • 22. 3.7.3 Datos Bivariados Continuos Si se quiere representar la relación entre dos variables cuantitativas entonces se usa un diagrama de dispersión (“Scatterplot”). Para obtener un diagrama de dispersión entre dos variables X e Y se usa la opción Scatterplots del menú Graph. Minitab 14 Edgar Acuna Universidad de Puerto R 22
  • 23. Ejemplo 3.22 Es bien frecuente tener datos de una variable para un período de tiempo (dias, meses o años), estos tipos de datos son llamados series cronológicas o series temporales. Para este tipo de datos se pueden hacer gráficos de barras (aunque éstas son inadecuadas si el período de tiempo es muy grande) y gráficas lineales. Las siguientes gráficas se refieren al número de visitantes a Puerto Rico desde 1950 hasta 1998. Minitab 14 Edgar Acuna Universidad de Puerto R 23
  • 24. 3.8 El Coeficiente de Correlación Llamado también coeficiente de correlación de Pearson, se representa por r y es una medida que representa el grado de asociación entre dos variables cuantitativas X e Y. Sxx es llamada la Suma de Cuadrados corregida de X, Syy es la Suma de Cuadrados Corregida de Y, y Sxy es la Suma de Productos de X e Y. Tanto Sxx como Syy no pueden ser negativas, Sxy si puede ser positiva o negativa. La correlación varia entre -1 y 1. Minitab 14 Edgar Acuna Universidad de Puerto R 24
  • 25. Ejemplo 3.23. El dueño de una empresa que vende carros desea determinar si hay relación lineal entre los años de experiencia de sus vendedores y la cantidad de carros que venden. Los siguientes datos representan los años de experiencia (X) y las unidades de carros vendidas al año (Y), de 10 vendedores de la empresa. Solución: Haciendo uso de la calculadora de MINITAB. Se obtienen los siguientes resultados Minitab 14 Edgar Acuna Universidad de Puerto R 25
  • 26. Solución: (Ejemplo 3.23.) Interpretación: Existe una buena relación lineal entre los años de experiencia y las unidades que vende el vendedor. Además mientras más experiencia tiene el vendedor más carros venderá. Se puede usar los años de experiencia para predecir las unidades que venderá anualmente a través de una línea recta. En MINITAB, el coeficiente de correlación se puede obtener eligiendo la opción correlation del submenú Basic Statistics del menú Stat. Minitab 14 Edgar Acuna Universidad de Puerto R 26
  • 27. 3.9 Una introducción a Regresión Lineal. La variable Y es considerada como la variable dependiente o de respuesta y la variable X es considerada la variable independiente o predictora. La ecuación de la línea de regresión es: ˆ Donde: α es el intercepto con el eje Y, y β es la pendiente de la línea de ˆ regresión. Ambos son llamados los coeficientes de la línea de regresión. ˆ Los estimadores α y β son hallados usando el método de mínimos ˆ cuadrados, que consiste en minimizar la suma de los errores cuadráticos de las observaciones con respecto a la línea. Las fórmulas de cálculo son: donde x es la media de los valores de la variable X y y es la media de los valores de Y. Minitab 14 Edgar Acuna Universidad de Puerto R 27
  • 28. 3.9 Una introducción a Regresión Lineal. Interpretación de los coeficientes de regresión: ˆ La pendiente β se interpreta como el cambio promedio en la variable de respuesta Y cuando la variable predictora X se incrementa en una unidad adicional. El intercepto indica el valor promedio de la variable de respuesta Y cuando la variable predictora X vale 0. Si hay suficiente evidencia de que X no puede ser 0 entonces no tendría sentido la interpretación deα . ˆ En MINITAB, es posible obtener simultáneamente, el “scatterplot”, el coeficiente R2 y la línea de regresión. Para esto, se sigue la secuencia StatS Regression Fitted line Plot Minitab 14 Edgar Acuna Universidad de Puerto R 28
  • 29. Ejemplo 3.25. Supongamos que se desea establecer una relación entre la nota que un estudiante obtiene en la parte de aprovechamiento matemático de ingreso (CEEB) y el Promedio académico al final de su primer año de universidad (GPA). Se toma una muestra de 15 estudiantes y se obtiene los siguientes datos: Obtener el diagrama de dispersión de los datos, la ecuación de la línea de regresión y trazar la línea encima del diagrama de dispersión. Minitab 14 Edgar Acuna Universidad de Puerto R 29
  • 30. Solución (Ejemplo 3.25.) La variable independiente es CEEB y la La ecuación de la línea de regresión variable dependiente es GPA. La gráfica es: aparecerá en la ventana session Regresión de GPA versus CEEB GPA = 2.210 + 0.001087 CEEB 3.50 S 0.291371 R-Sq 12.1% R-Sq(adj) 5.4% 3.25 3.00 GPA 2.75 Interpretación: La pendiente 2.50 0.00109 indica que por cada punto 400 500 600 CEEB 700 800 adicional en el College Board el promedio del estudiante subiría en Interpretación: El coeficiente de promedio en 0.00109, o se podría determinación es .121 y como la pendiente de decir que por cada 100 puntos más la línea de regresión es positiva resulta ser en el College Board el promedio académico del estudiante subiría que la correlación es .11, esto indica una en .109. Por otro lado, si pobre relación lineal entre las variables consideramos que es imposible que CEEB y GPA. O sea que es poco confiable un estudiante sea admitido sin tomar predecir GPA basado en el CEEB usando una el College Board, podemos decir que no tiene sentido interpretar el línea. intercepto. Minitab 14 Edgar Acuna Universidad de Puerto R 30
  • 31. Predicción Uno de los mayores usos de la línea de regresión es la predicción del valor de la variable dependiente dado un valor de la variable predictora. Esto se puede hacer fácilmente sustituyendo el valor dado de X en la ecuación. Por ejemplo, supongamos que deseamos predecir el promedio académico de un estudiante que ha obtenido 600 puntos en la parte matemática del examen de ingreso. Sustituyendo x =600 en la ecuación de la línea de regresión se obtiene Y=2.21+.00109*600=2.21+.654=2.864. Es decir que se espera que el estudiante tenga un promedio académico de 2.86. MINITAB también tiene una opción que permite hacer predicciones pero, esto será tratado en el capítulo 9 del texto. Minitab 14 Edgar Acuna Universidad de Puerto R 31