Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Tema 5

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 23

TEMA 5: ESTADÍSTICA DESCRIPTIVA UNIVARIANTE

Qué vamos a ver en esta unidad?


• Descripción univariante basada en frecuencias.
• Descripción univariante basada en ordenaciones.
• Descripción univariante basada en momentos de la distribución.

• Trabajaremos suponiendo un conjunto de datos obtenidos empíricamente a partir de


una medición concreta de una o varias variables aleatorias en un conjunto de objetos
estadísticos (sujetos) determinado.
• Presentaremos un conjunto de índices y gráficos que nos permiten caracterizar
(organizar, sintetizar y describir) los datos de forma que la información que se obtenga
sea útil.
• El proceso de elaboración e interpretación de este conjunto de índices y gráficos es el
que se ha etiquetado bajo el epígrafe de Estadística Descriptiva. Descripción univariante
basada en momentos de la distribución
• Conforme a lo planteado en el punto anterior, la realización de un proceso descriptivo
exhaustivo en cualquier investigación está recuperando un papel cada vez más
preponderante. Sobre todo desde el desarrollo e implantación de la estrategia
propugnada desde el Análisis Exploratorio de Datos (EDA), sistematizada por J.W. Tukey
en la década de los años setenta del Siglo XX.
• Empezaremos por abordar el análisis descriptivo desde una perspectiva univariante o
unidimensional, consistente en caracterizar la distribución de la realización empírica de
una única variable aleatoria.
• No sólo se realiza el análisis descriptivo univariante mediante coeficientes estadísticos,
pues es habitual recurrir a representaciones gráficas o disposiciones tabulares para
llevar a cabo este tipo de análisis.

DESCRIPCIÓN DATOS CATEGÓRICOS : DISTRIBUCIÓN DE FRECUENCIAS


➢ La medición mediante una escala nominal únicamente permite clasificar el conjunto
de observaciones de acuerdo a un conjunto de categorías (exhaustivas y
mutuamente excluyentes).
➢ El proceso descriptivo se encaminará a caracterizar cómo se distribuyen las distintas
observaciones sobre el conjunto de categorías. Los indicadores más utilizados son:
• La frecuencia individual fi (número de sujetos o valores incluidos en la
categoría, expresado mediante un índice de carácter absoluto).
• La frecuencia relativa o proporción pi = fi /n (número de sujetos o
valores con respecto al total de observaciones recogidas en el conjunto
de todas las categorías, expresado mediante un índice de carácter
relativo).
• El porcentaje individual Pi = (fi /n)x 100 (índice también de carácter
relativo).

DESCRIPCIÓN DATOS CATEGÓRICOS : REPRESENTACIONES GRÁFICAS


➢ Podemos obtener, entre otros, diagramas de barras y diagramas de sectores circulares:
➢ Diagrama de Pareto: frecuencias absolutas y frecuencias acumuladas (puntitos
rojos). Acaba en el 1000 porque era de donde partíamos a la gente que
preguntábamos, si no estaría mal.

DESCRIPCIÓN DATOS CATEGÓRICOS : OTROS INDICADORES


Índices de tendencia central: Moda. Podemos encontrar distribuciones unimodales,
bimodales o multimodales.
Índices de variabilidad: formas de calcular la variabilidad de los resultados obtenidos (ej:
mucha gente se va a una de las opciones, los resultados están muy repartidos… lo
calculamos con lo siguiente:)
Razón de variación (RV):

Índice de Blau(D): (pi = frecuencia relativa) sumar todos los Pi al cuadrado.

Índice de Teachman(H):

Índice de Variación Cualitativa (IQV):


Otros indicadores de frecuencia: Odds:

Índices epidemiológicos:
•Prevalencia: es la proporción de casos detectados sobre el total de la población examinada.
• Incidencia: es la razón de nuevos casos detectados en un periodo de tiempo sobre el total
de la población a riesgo.

Usamos el índice de Blau (D) con todos los datos de Pi (0,334 , 0,309 , 0,237 y 0,12)

Ahora la proporción que usamos es mujeres 0,58 y hombres 0,42; esto es nuestro nuevo Pi
Hacemos índice de blau:
D= 1 – (0,58^2 + 0,42^2) = 0,49 (0 – 0,50)
Ahora nuestro índice esta entre 0 y 0,50

Para poder comparar usamos índice de variación cualitativa


Cuanto + cerca de 0 menor dispersión; 0,98 mayor dispersión.
DESCRIPCIÓN DATOS ORDINALES
• Se requiere utilizar una escala que permita establecer relaciones de orden entre los
objetos estadísticos en base a la característica de interés.
• Además de poder utilizarse los indicadores vistos en el apartado anterior se incorporan
todos aquellos desarrollados para incorporar la noción de orden.
• Los aspectos a tener en cuenta al realizar la descripción de una variable ordinal:
1. Localización: mediante índices de posición.
2. Tendencia central: buscando algún valor típico considerado un buen representante
global de la distribución.
3. Dispersión: grado de heterogeneidad de la característica medida en la muestra.
4. Forma: nivel de asimetría y apuntamiento en la distribución empírica.
5. Presencia de valores anómalos: entendidos como valores que ocupan posiciones
extremas diferenciados del conjunto restante de datos.
6. Tratamiento de valores perdidos o (missing): qué tipo de medidas analíticas se
tomarán en presencia de datos faltantes.

DESCRIPCIÓN DATOS ORDINALES : LOCALIZACIÓN


• Se entiende por cuantila la división de la distribución empírica de frecuencias
acumuladas (o de la función de distribución de probabilidad) en un número de
subgrupos ordenados de igual densidad o proporción de valores. Mediante las cuantilas
es posible ubicar a cada objeto estadístico de forma relativa respecto al conjunto de
objetos medidos.
• Clásicamente se ha utilizado la Mediana (Md), que divide el recorrido de la variable en
dos segmentos, los Cuartiles en cuatro, los Deciles en diez o los Centiles(o Percentiles)
en cien. Indicando segmentos de proporción 0,5; 0,25; 0,1 y 0,01.
• Entre estos índices existen equivalencias conceptualmente evidentes. Por ejemplo la
mediana, el cuartil 2, el decil 5 y el centil 50 deberían coincidir en el mismo valor.

• Una expresión genérica para el cálculo de los Centiles es la siguiente:

donde k es el percentil de interés (de 1 a 99); j es la posición que ocupa el centil dentro de los
valores ordenados; i es la posición entera inmediatamente anterior; xi es el valor que ocupa la
posición i en la variable ordenada; y xi+1 es el valor que ocupa la posición i + 1 en la variable
ordenada.
• Así los pasos a seguir son:
1. Ordenar los datos de la variable en la muestra;
2. buscar la posición j del centil de interés y
3. aplicar la fórmula anterior de la interpolación lineal.
• Existen otros algoritmos de cálculo de los centiles, por lo que dependiendo del software
utilizado el valor concreto para un determinado cuantil puede variar ligeramente. Por
ejemplo, en la instalación base de R hay 9 algoritmos distintos.
• Los denominados Valores Letra utilizados en el Análisis Exploratorio de Datos se basan en
ir dividiendo por dos los segmentos extremos de la distribución ordenada mediante los
valores que ocuparían la posición a la “profundidad” adecuada.
• Los valores letra también son conocidos como Percentiles de Tukey. Se pueden generar
tantos valores letra como segmentaciones realicemos. La Mediana (Md), los Cuartos (Fi y Fs
) también denominados “hinges” (bisagras) por Tukey, los Octavos (Ei y Es ), los Dieciseisavos
(Di y Ds ) y así sucesivamente.
• Para determinar la profundidad (depth) o posición que ocupan los Valores Letra dentro de
la variable ordenada utilizamos las siguientes expresiones:

• Utilizando la parte entera de la profundidad obtenida y, contando desde los extremos de


cada segmento, identificaríamos el valor correspondiente al indicador deseado.

20= nº de individuos
21= n+1
J=4,2
Hemos encontrado la j que es una posición,
teneos que encontrar la i que es la posición
entera inmediatamente anterior. Por lo tanto
si la j = 4,2 la i= 4
Con la j y la i podemos encontrar C20 (cetil 20) =3,2
X= posición

DESCRIPCIÓN DATOS ORDINALES : TENDENCIA CENTRAL


• Los índices utilizados para capturar la tendencia central de variables medidas mediante
una escala ordinal se construyen a partir de diferentes indicadores de localización o
posición reseñados anteriormente. Se podría decir que mediante la Tendencia Central
se intenta localizar un punto de anclaje del conjunto de valores de la variable.
• Así, la Mediana debe considerarse como un índice de tendencia central además, de ser
un indicador de localización.
• Promedio de Cuartiles: Índice clásicamente utilizado donde Q1 y Q3 se correspondería
con el primer y tercer cuartil (o sus centiles equivalentes, 25 y 75).

• Los Resúmenes Promedio (MidSummary) son un grupo de indicadores que se obtienen


como resultado de promediar los valores letra situados a igual profundidad, de forma
genérica:

pudiéndose generar el MidF , MidE , ..., incluso el denominado MidR si utilizamos el máximo
y mínimo valor de los datos.
• La Trimedia, promedio de la mediana y los Valores Letra cuartos, ponderando la
Mediana con doble peso:

• El Rango Medio se define como el dato que estaría a mitad del recorrido del dato
con el menor valor al dato con el mayor valor.

• Todos los índices anteriormente citados pueden, de hecho, construirse con


cualquiera de los algoritmos de cálculo de los centiles clásicos o con los valores letra
utilizados por el Análisis Exploratorio de Datos.
DESCRIPCIÓN DATOS ORDINALES : DISPERSIÓN
• Para capturar el nivel de homogeneidad o heterogeneidad del conjunto de valores
de aquellas variables medidas mediante una escala de tipo ordinal también nos
servimos de indicadores de Localización.
1. Índices de Dispersión Absoluta:
Son aquellos índices que recogen la variabilidad del conjunto de observaciones mediante algún
tipo de índice caracterizado por alguna unidad de medida (generalmente la de la variable o bien
una transformación de esta unidad). Como norma general cuanto mayor es la dispersión, mayor
es el valor del índice. Pero como este tipo de índices generalmente no están acotados por ambos
extremos y, además, son sensibles a la unidad de medida, provoca que la dispersión sea
difícilmente comparable.
• Índices basados en la Amplitud (Spread) o distancia entre dos puntos o valores de
la variable ubicados a igual profundidad con respecto a los extremos. Así podemos
generar la Amplitud Total, Rango o Recorrido mediante el cálculo de la diferencia
entre los valores extremos. Las diferentes VL-SPREAD, si utilizamos valores letra. En
el caso de la F-SPREAD (Fs − Fi ) conceptualmente tenemos un índice equivalente a
la IQR (Amplitud Intercuartílica, Q3 − Q1 ).
• Semidistancias entre Cuantilas, como la clásicamente utilizada Desviación Cuartil:

• El índice MAD, ha sido definido por Tukey como la Mediana de las Desviaciones
Absolutas respecto a la Mediana de los valores iniciales (lo que se alejan en mediana
las puntuaciones de la variable respecto a la mediana sin tener en cuenta si el
alejamiento es en sentido positivo o negativo).

MAD = Md|Xi – Md|

2. Índices de Dispersión Relativa:


Para solventar los problemas de comparabilidad que presentan los índices de dispersión
absoluta, se generan los de dispersión relativa. Su característica más relevante es que son
independientes de la unidad de medida (en cierto sentido puede considerarse que son
adimensionales).
• Coeficiente de Variación Robusto. Un indicador de dispersión se divide entre un
indicador de tendencia central, en este caso, la semi-amplitud intercuartos y el midF:

• En caso de utilizar los cuartiles primero y tercero tendríamos el denominado Coeficiente


de Variación Cuartílico (CVQ ):

DESCRIPCIÓN DATOS ORDINALES : FORMA


• Para evaluar la forma de una variable cabe hacer referencia a dos aspectos como son el
nivel de simetría (Skewness) y el grado de apuntamiento (Kurtosis). Ambos índices se
refieren al aspecto que tendría el gráfico del histograma de frecuencias de la
distribución empírica.
• El nivel de simetría se evalúa con respecto a un eje de simetría que se hallaría ubicado
en una localización de tendencia central (para variables ordinales, la Mediana, por
ejemplo). Se pueden presentar tres tipos de patrones:
• Simétrico.
• Asimetría negativa: los datos presentan mayor recorrido en los valores por debajo del
indicador de tendencia central.
• Asimetría positiva: los datos presentan mayor recorrido en los valores por encima del
indicador de tendencia central.
• Índices basados en los resúmenes promedio:
Md ≤ MidF ≤ MidE ≤ MidD ≤ MidR → Asimetría +
Md = MidF = MidE = MidD = MidR → Simetría
Md ≥ MidF ≥ MidE ≥ MidD ≥ MidR → Asimetría –
• Índice de Yule (H1 ):

• Índice de Kelly (H3 ):

Para ambos casos :


H < 0 → Asimetría negativa
H = 0 → Simetría
H > 0 → Asimetría positiva

• El nivel de apuntamiento o curtosis se evaluaría con respecto a la máxima altura que


alcanzaría la distribución de frecuencias empíricas en su recorrido en relación al
referente que supondría el máximo de la función de densidad de la distribución de
probabilidad normal. Análogamente se pueden presentar tres tipos de patrones:
• Mesocúrtico, igual apuntamiento que la distribución normal.
• Leptocúrtico, mayor apuntamiento que la distribución normal.
• Platicúrtico, menor apuntamiento que la distribución normal.
• Coeficiente K2 :

• Coeficiente K3 :

Para ambos casos:


K < 1 → Dist. platicúrtica
K = 1 → Dist. mesocúrtica
K > 1 → Dist. Leptocúrtica
DESCRIPCIÓN DATOS ORDINALES: REPRESENTACIONES GRÁFICAS
Como se ha comentado anteriormente, es posible utilizar todos los índices y gráficos que serían
válidos para variables medidas en escala nominal. Es por ello que en el caso de utilizar las tablas
de frecuencias para este tipo de variables nos permitiría interpretar la columna de frecuencias
acumuladas, puesto que ahora los valores ya se hallan ordenados. De hecho las frecuencias
acumuladas constituyen la distribución empírica de la variable y representan una estimación de
la hipotética función de distribución de la variable aleatoria.

Diagramas de caja:
• Mediante este gráfico, utilizado en el Análisis Exploratorio de Datos, se pueden evaluar
diferentes características de interés ubicadas en la misma gráfica:
• Permite evaluar la tendencia central ubicando la Mediana.
• Nos identifica diferentes ubicaciones relevantes (mediante los cuartos, Fi y Fs).
• Nos informa del grado de dispersión con respecto al centro de la variable (50
% central de las
observaciones) y en las colas (el 25 % de las observaciones ubicada en cada uno
de los extremos).
• Identifica tanto para el centro como para las colas de la distribución, si la
distribución es o no simétrica y, caso de existir, el tipo de asimetría (nos indica
si ésta es positiva o negativa).
• Adicionalmente permite detectar posibles valores anómalos (outliers),
identificándolos como anomalías moderadas o anomalías extremas.

Para construir el diagrama de caja se necesita:


1. La mediana de la variable.
2. Dibujar la caja utilizando los Cuartos como límites de esta. Por tanto su longitud será
igual a la F − SPREAD. NOTA: Equivalentemente se pueden utilizar Q1 y Q3.
3. Fijar los límites de atención que nos permitirán detectar valores anómalos:
• Los límites de atención primarios (Inferior LPi y Superior LPs), ubicados a 1,5
veces la F − SPREAD con respecto a los cuartos.
• Los límites de atención secundarios (Inferior LSi y Superior LSs ), ubicados a 3
veces la F − SPREAD con respecto a los cuartos.
Si LPi > xi ≥ LSi ó LPs < xi ≤ LSs → xi es una anomalía moderada
Si LSi > xi ó LSs < xi → xi es una anomalía extrema.
4. Determinar los valores adyacentes (menor y mayor valor de los datos que no son
identificables como anomalías)
• Otra representación gráfica es el denominado Gráfico de Tallo y Hojas:
• Nótese que se trata de una gráfica de barras en la que se representan las observaciones
mostrando los valores numéricos concretos obtenidos

DESCRIPCIÓN DATOS ORDINALES : VALORES ANÓMALOS


La relevancia de detectar valores anómalos no reside únicamente en describir las características
de los objetos medidos. Más adelante expondremos la incidencia que tienen este tipo de valores
sobre ciertos índices.
Hemos visto como mediante el Gráfico de Caja es posible identificar este tipo de valores, pero
además disponemos de algún otro indicador para llevar a cabo esta tarea. Por ejemplo:

DESCRIPCIÓN DATOS NUMÉRICOS (INTERVALO/RAZÓN)


• Las variables de naturaleza cuantitativa posibilitan la utilización de escalas de tipo
intervalo o razón, con lo que toman sentido todas las operaciones definidas para los
números reales, permitiendo extraer el máximo nivel de información de la variable
medida.
• Se generan un conjunto de índices y gráficos específicos para abordar este tipo de
escalas, pero igualmente son admisibles todos los válidos para escalas de rango inferior.
• Como aspectos relevantes a describir para este tipo de datos permanecen los
mencionados para datos de tipo ordinal (localización, tendencia central, dispersión y
forma; así como la identificación de valores anómalos y el tratamiento de valores
perdidos).
• Como índices de localización se plantea el uso de los que anteriormente se han indicado
para variables medidas con una escala ordinal. Esto es así puesto que la única
característica relevante para determinar la posición es el orden que ocupa el valor
Los índices estadísticos clásicamente utilizados para describir este tipo de datos son los que se
derivan del estudio de los diferentes Momentos de orden k en la distribución de probabilidad
en una variable aleatoria. La expresión general de un momento de orden k es:

donde c toma el valor 0, si el momento es referido respecto origen, o toma el valor de la E (X ),


si por ejemplo es centrado.
DESCRIPCIÓN DATOS NUMÉRICOS (INTERVALO/RAZÓN) : TENDENCIA
CENTRAL
1. Basados en los momentos de una distribución
• Media aritmética: Es la razón de la suma de todos los valores de la variable sobre el total de
observaciones. En términos de su interpretación geométrica puede representarse como el
centro de gravedad o punto de equilibrio de todos los valores de la variable

en la expresión de la izquierda se calcula el índice sobre el conjunto de sujetos de la población


(parámetro) y en la de la derecha sobre una muestra (estadístico).
• Media cuadrática: es la media del cuadrado de los valores.

• Media Armónica: Vendría definida por H que representa el inverso de la media aritmética de
los valores observados. Es útil para describir la variable original en aquellas situaciones en que
al no ser su distribución simétrica, la hemos transformado utilizando el inverso.

• Media geométrica: Considerando la transformación logarítmica del conjunto de valores de la


variable, la media geométrica vendría definida por la siguiente expresión:

2. Indicadores Resistentes: La resistencia indicaría el nivel de sensibilidad del índice


estadístico a la presencia de valores anómalos. Desde el Análisis Exploratorio de Datos
se ha propuesto la utilización de índices con un mayor grado de resistencia:
• Medias recortadas (Trimmed Means): El principio de generación de estos indicadores se basa
en eliminar un porcentaje P igual de valores a cada extremo de la distribución y con los restantes
calcular la media aritmética correspondiente.
• Medias Winsorizadas: En lugar de eliminar el porcentaje P de observaciones, éstas son
sustituidas por tantos valores iguales al inmediatamente anterior y posterior de los eliminados,
siguiendo el principio de Winsor.
• Basados en indicadores de posición: Todos los indicadores de tendencia central presentados
para escalas ordinales: Mediana, resúmenes promedio, trimedia...

3. No se verán en el presente curso pero otros estimadores son los llamados M-


Estimadores robustos.

DESCRIPCIÓN DATOS NUMÉRICOS (INTERVALO/RAZÓN) : DISPERSIÓN


1. Basados en los momentos de una distribución:
• Varianza: Se basa en el momento centrado de segundo orden, dado que utiliza la media como
referente en torno al cual evaluar la dispersión, fijando el orden dos para evitar que el
numerador de la expresión se anule (fuese igual a cero). Como inconvenientes más relevantes,
mencionar que no se halla en la misma unidad de medida que la variable, no está acotado y es
poco resistente. A continuación se muestran las expresiones para la obtención del parámetro,
el estadístico y un estimador insesgado de la varianza:

• Desviación estándar: Para conseguir un índice de dispersión en la misma unidad de medida


que la variable se genera este índice extrayendo la raíz cuadrada de la variancia:

La siguiente expresión para el cálculo de la desviación estándar es equivalente a la anterior,


pero más simple de aplicar manualmente:
• Diferencia media:

• Desviación media:

• Desviación geométrica: Considerando la transformación logarítmica del conjunto de valores


de la variable, la desviación geométrica vendría definida por la siguiente expresión:

2. . Indicadores de dispersión relativa (Adimensionales)


• Coeficiente de Variación:

3. Indicadores resistentes: Además de todos los índices de dispersión indicados para


variables de carácter ordinal, también es posible calcular la Varianza Winsorizada,
aplicando el principio de Winsor a los datos y calculando la varianza (o la desviación
estándar) con todos los datos.
DESCRIPCIÓN DATOS NUMÉRICOS (INTERVALO/RAZÓN) : FORMA

1. Índices de simetría (o asimetría):

• Primer Coeficiente de Pearson:

• Segundo Coeficiente de Pearson:

• Tercer Coeficiente de Pearson:

• Coeficiente de Fisher:

Para todos estos indicadores:


Índice < 0 → Asimetría negativa
Índice = 0 → Simetría
Índice > 0 → Asimetría positiva

• Otros indicadores de simetría:


Moda ≥ Mediana ≥ Media → Asimetría negativa ´
Moda = Mediana = Media → Simetría
Moda ≤ Mediana ≤ Media → Asimetría positiva

2. Índices de apuntamiento
• Coeficiente de Pearson: El coeficiente de Pearson toma el valor 3 para variables mesocúrticas.
Valores superiores indican una distribución Leptocúrtica y valores inferiores una distribución
platicúrtica.
• Coeficiente de Fisher: El coeficiente de Fisher no supone más que la traslación del coeficiente
de Pearson para que la mesocurtosis venga indicada por el valor 0.

REPRESENTACIONES GRÁFICAS: HISTOGRAMAS


• Para variables cuantitativas, el histograma de frecuencias es el gráfico habitual.
• Se agrupan los valores en intervalos de clase, el ancho de las barras es proporcional a la
amplitud de los intervalos y su altura refleja la frecuencia de éstos.
• Permite detectar asimetrías, valores anómalos (en caso de haber vacíos en la
distribución) y superponiendo una curva normal podemos incluso interpretar el
apuntamiento.
REPRESENTACIONES GRÁFICAS: GRÁFICOS DE DENSIDAD
• El histograma no dejan de ser aproximación discreta a la función de densidad empírica.
Esta función de densidad se puede representar gráficamente:
REPRESENTACIONES GRÁFICAS: DIAGRAMAS DE CAJA
IDEAS FINALES
• En esta unidad hemos introducido los aspectos básicos relacionados con la descripción
estadística.
• Una correcta descripción de la información muestral es esencial para extraer
conocimiento útil a propósito del problema de investigación.
• En general, se resume descriptivamente por medio de indicadores, tablas y gráficos.
• Dependiendo de la escala de medida tendrá sentido plantear unos determinados
gráficos e indicadores para resumir la información contenida en la muestra.
• Aunque en el presente curso practicaréis el cálculo manual de algunos indicadores, con
el objetivo de afianzar el aprendizaje, en la práctica real se recurrirá a software
especializado que realizará todas las operaciones en cuestión de segundos.
• En este curso también trabajaremos con el software R-Commander para describir
distintos tipos de variables aleatorias recogidas en una muestra.

También podría gustarte