Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Estadística Descriptiva

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 40

Estadstica descriptiva

La estadstica descriptiva es una gran parte de la estadstica que se dedica a analizar y representar los datos. Este anlisis es muy bsico. Aunque hay tendencia a generalizar a toda la poblacin, las primeras conclusiones obtenidas tras un anlisis descriptivo, es un estudio calculando una serie de medidas de tendencia central, para ver en qu medida los datos se agrupan o dispersan en torno a un valor central. esto es lo que podria ser un concepto aproximado.

Tabla de representacin de los datos


Tpica :
y

Variable caracterstica o suceso en la primera columna y sus frecuencias y porcentajes y acumulativas en las sucesivas columnas. Representacin grfica: en los ejes de coordenadas: eje vertical para la variable y eje horizontal para frecuencias.

Todos estos elementos son opcionales. Las variables, caractersticas o sucesos, con sus correspondientes valores no estn siempre presentes, aunque pueden expresarse como intervalos, tiempos, escalas, etc

ESTADSTICA DESCRIPTIVA
CONCEPTOS BSICOS INTRODUCCIN La investigacin cuya finalidad es: el anlisis o experimentacin de situaciones para el descubrimiento de nuevos hechos, la revisin o establecimiento de teoras y las aplicaciones prcticas de las mismas, se basa en los principios de Observacin y Razonamiento y necesita en su carcter cientfico el anlisis tcnico de Datos para obtener de ellos informacin confiable y oportuna. Este anlisis de Datos requiere de la Estadstica como una de sus principales herramientas, por lo que los investigadores de profesin y las personas que de una y otra forma la realizan requieren adems de los conocimientos especializados en su campo de actividades, del manejo eficiente de los conceptos, tcnicas y procedimientos estadsticos. ESTADSTICA

Es el conjunto de procedimientos y tcnicas empleadas para recolectar, organizar y analizar datos, los cuales sirven de base para tomar decisiones en las situaciones de incertidumbre que plantean las ciencias sociales o naturales. ESTADSTICA INDUCTIVA Y DEDUCTIVA Uno de los problemas fundamentales de la Estadstica es el estudio de la relacin existente entre una poblacin y sus muestras. Segn la direccin de tal relacin la Estadstica puede ser: Deductiva, cuando a partir del conocimiento de la poblacin se trata de caracterizar cada muestra posible. Inductiva, cuando a partir del conocimiento derivado de una muestra se pretende caracterizar la poblacin. ESTADSTICA DESCRIPTIVA E INFERENCIAL Estadstica Descriptiva se refiere a la recoleccin, presentacin, descripcin, anlisis e interpretacin de una coleccin de datos, esencialmente consiste en resumir stos con uno o dos elementos de informacin (medidas descriptivas) que caracterizan la totalidad de los mismos. La estadstica Descriptiva es el mtodo de obtener de un conjunto de datos conclusiones sobre si mismos y no sobrepasan el conocimiento proporcionado por stos. Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una poblacin o de una muestra, cuando en la etapa preliminar de la Inferencia Estadstica se conocen los elementos de una muestra. Estadstica Inferencial se refiere al proceso de lograr generalizaciones acerca de las propiedades del todo, poblacin, partiendo de lo especfico, muestra. las cuales llevan implcitos una serie de riesgos. Para que stas generalizaciones sean vlidas la muestra deben ser representativa de la poblacin y la calidad de la informacin debe ser controlada, adems puesto que las conclusiones as extradas estn sujetas a errores, se tendr que especificar el riesgo o probabilidad que con que se pueden cometer esos errores. La estadstica inferencial es el conjunto de tcnicas que se utiliza para obtener conclusiones que sobrepasan los lmites del conocimiento aportado por los datos, busca obtener informacin de un colectivo mediante un metdico procedimiento del manejo de datos de la muestra. En sus particularidades la Inferencia distingue la Estimacin y la Contrastacin de Hiptesis. Es estimacin cuando se usan las caractersticas de la muestra para hacer inferencias sobre las caractersticas de la poblacin. Es contrastacin de hiptesis cuando se usa la informacin de la muestra para responder a interrogantes sobre la poblacin. ANALISIS ESTADSTICO

El anlisis estadstico es todo el proceso de organizacin, procesamiento, reduccin e interpretacin de datos para realizar inferencias. DATOS Y VARIABLES Cuando se consideran los mtodos de organizacin, reduccin y anlisis de datos estadsticos, se hace necesario aclarar los siguientes conceptos. Variables: es toda caracterstica que vara de un elemento a otro de la poblacin. Datos: son medidas o valores de las caractersticas susceptibles de observar y contar, se originan por la observacin de una o ms variables de un grupo de elementos o unidades CLASIFICACIN DE VARIABLES Las variables pueden clasificarse en: categricas o cualitativas (atributos), no tienen ningn grado de comparacin numrica, ejemplo: sexo, estado civil; y numricas o cuantitativas, son caractersticas factibles de expresar por medio de nmeros, estas pueden ser Discretas, que solo pueden tomar ciertos valores aislados en un intervalo, y Continuas, que pueden tomar cualquier valor en un intervalo. REPRESENTACIN DE DATOS Los datos son colecciones de un nmero cualquiera de observaciones relacionadas entre si, para que sean tiles se deben organizar de manera que faciliten su anlisis, se puedan seleccionar tendencias, describir relaciones, determinar causas y efectos y permitan llegar a conclusiones lgicas y tomar decisiones bien fundamentadas; por esa razn es necesario conocer lo mtodos de Organizacin y Representacin, la finalidad de stos mtodos es permitir ver rpidamente todas las caractersticas posibles de los datos que se han recolectado. Representacin Tabular: Presenta las variable y las frecuencias con que los valores de stas se encuentran presentes en el estudio. Representacin Grfica : Se llaman grficas a las diferentes formas de expresar los datos utilizando los medios de representacin que proporciona la geometra. METODOS DE REPRESENTACIN DE DATOS CUANTITATIVOS Arreglo de Datos. Es una forma de presentar los datos en un arreglo ascendente o descendente. Ofrece las ventajas siguientes: describe los valores mnimos y mximos, en l

se pueden dividir los datos fcilmente en secciones, permite darse cuenta de los valores que aparecen ms de una vez, se puede observar la distancia entre valores consecutivos. Diagrama de Puntos. Muestra la frecuencia con que aparece cada uno de los valores Diagrama de Tallo y Hoja. Es til para realizar una exploracin preliminar del conjunto, genera una imagen adecuada de ellos sin perder informacin. Distribucin de Frecuencias. Es una forma de sintetizar los datos y consiste en valerse de una tabla para clasificar los datos segn su magnitud, en ella se seala el nmero de veces que aparece cada uno de los valores. Cuando se dispone de un gran nmero de valores discretos o cuando las variables son continuas, tiene sentido formar una tabla que presente la distribucin de frecuencias de los datos agrupados en intervalos o clases, de igual tamao si es posible, sin embargo una tabla de este tipo supone una concentracin de datos que produce prdida de informacin. DISTRIBUCIN DE FRECUENCIAS Organizacin de datos agrupados Definiciones Clases o intervalos de clase: Grupo de valores que describen una caracterstica. Deben incluir todas las observaciones y ser excluyentes. Los intervalos contienen los lmites de clase que son los puntos extremos del intervalo. Se denominan intervalos cerrados, cuando contienen ambos lmites e intervalos abiertos si incluyen solo un lmite. Limites Reales: Sirven para mantener la continuidad de las clases Anchura o tamao del intervalo: es la diferencia entre los lmites reales de una clase Nmero de clases: es el nmero total de grupos en que se clasifica la informacin, se recomienda que no sea menor que 5 ni mayor que 15 Marca de Clase: Es el punto medio del intervalo de clase, se recomienda observar que los puntos medios coincidan con los datos observados para minimizar el error. Frecuencia: es el nmero de veces que aparece un valor Frecuencia Acumulada: Indica cuantos casos hay por debajo o arriba de un determinado valor o lmite de clase. Frecuencia Relativa: Indica la proporcin que representa la frecuencia de cada intervalo de clase en relacin al total, es til para comparar varias distribuciones con parmetros de referencia uniformes.

Frecuencia Acumulada Relativa: Indica la proporcin de datos que se encuentra por arriba o debajo de cierto valor o lmite de clase. Grficos de una Distribucin de Frecuencias Los grficos son tiles porque ponen en relieve y aclaran las tendencias que no se captan fcilmente en la tabla, ayudan a estimar valores con una simple ojeada y brinda una verificacin grfica de la veracidad de las soluciones. Histograma: Esta formado por rectngulos cuya base es la amplitud del intervalo y tiene la caracterstica que la superficie que corresponde a las barras es representativa de la cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases que tienen el mismo tamao o diferente ( intervalo variable). La utilizacin de los intervalos de amplitud variable se recomienda cuando en alguno de los intervalos , de amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos de los intervalos sea mucho mayor que la de los dems, logrando as que las observaciones se hallen mejor repartidas dentro del intervalo. Polgono de Frecuencias Se puede obtener uniendo cada punto medio (marca de clase) de los rectngulos del histograma con lneas rectas, teniendo cuidado de agregar al inicio y al final marcas de clase adicionales, con el objeto de asegurar la igualdad del reas. Curvas de frecuencia No es ms que la curva suavizada que se traza sobre el polgono y representa la asimetra y la curtosis que tiene la distribucin, permite visualizar un esquema ms claro del patrn de datos. Existen varios tipos de curva de frecuencia: Curvas J, Simtricas o Asimtricas (sesgada a la derecha o a la izquierda), Unimodales, Bimodales y Multimodales. Ojivas: Cuando se trata de relacionar observaciones en un mismo aspecto para dos colectivos diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia, es necesario tener una base estndar, la frecuencia relativa. La ojiva representa grficamente la forma en que se acumulan los datos y permiten ver cuantas observaciones se hallan por arriba o debajo de ciertos valores. Es til para obtener una medida de los cuartiles, deciles , percentiles. MEDIDAS DESCRIPTIVAS Con estas medidas se persigue reducir en pocas cifras significativas el conjunto de observaciones de una variable y describir con ellas ciertas caractersticas de los conjuntos, logrando una comparacin ms precisa de los datos que la que se puede conseguir con tablas y grficas.

MEDIDAS DE TENDENCIA CENTRAL: PROMEDIOS Los promedios son una medida de posicin que dan una descripcin compacta de como estn centrados los datos y una visualizacin ms clara del nivel que alcanza la variable, pueden servir de base para medir o evaluar valores extremos o raros y brinda mayor facilidad para efectuar comparaciones. Es importante poner en relieve que la notacin de promedio lleva implcita la idea de variacin y que este nmero promedio debe cumplir con la condicin de ser representativo de conjunto de datos. El promedio como punto tpico de los datos es el valor al rededor del cual se agrupan los dems valores de la variable. MEDIA ARITMTICA Es una medida matemtica, un nmero individual que representa razonablemente el comportamiento de todos los datos. Para datos no agrupados X = S xi / n Para datos agrupados X = S fi Xi / S fi donde Xi es la marca de clase para cada intervalo y fi es la frecuencia de clase Caractersticas de la Media: 1. En su clculo estn todos los valores del conjunto de datos por lo que cada uno afecta la media. 2. La suma algebraica de las desviaciones de los valores individuales respecto a la media es cero. 3. La suma del cuadrado de las desviaciones de una serie de datos a cualquier nmero A es mnimo si A = X 4. Aunque es confiable porque refleja todos los valores del conjunto de datos puede ser afectada por los valores extremos, y de esa forma llegar a ser una medida menos representativa, por lo que si la distribucin es asimtrica, la media aritmtica no constituye un valor tpico. LA MODA Es el valor de un conjunto de datos que ocurre ms frecuentemente, se considera como el valor ms tpico de una serie de datos.

Para datos agrupados se define como Clase Modal el intervalo que tiene ms frecuencia. La moda puede no existir o no ser nica, las distribuciones que presentan dos o ms mximos relativos se designan de modo general como bimodales o multimodales. Caractersticas de la Moda. 1. Representa ms elementos que cualquier otro valor 2. No est afectada por los valores extremos pero para datos continuos es dudoso su clculo. 3. La moda para una distribucin de frecuencias de datos agrupados no puede ser calculada exactamente, el valor de la moda puede ser afectado por el mtodo de agrupacin de los intervalos de clase. 4. La moda no permite conocer la mayor parte de los datos 5. Algunas veces el azar interviene de manera importante y hace que un valor no representativo se repita frecuentemente. 6. Puede usarse para datos cuantitativos como cualitativos 7. La moda como estadstico, vara mucho de una muestra a otra 8. Cuando se tienen dos o ms modas es difcil su interpretacin 9. Tiene la ventaja de que los datos desproporcionados con respecto al resto no la distorsionan, pero no se presta para un tratamiento matemtico. LA MEDIANA Es el valor de la observacin que ocupa la posicin central de un conjunto de datos ordenados segn su magnitud. Es el valor medio o la media aritmtica de los valores medios. La mediana es un valor de la variable que deja por debajo de l un nmero de casos igual al que deja por arriba. Geomtricamente la mediana es el valor de la variable que corresponde a la vertical que divide al histograma en dos reas iguales. Cuando determinados valores de un conjunto de observaciones son muy grandes o pequeos con respecto a los dems, entonces la media aritmtica se puede distorsionar y perder su carcter representativo, en esos casos es conveniente utilizar la mediana como medida de tendencia central. Caractersticas de la mediana

1. Es un promedio de posicin no afectado por los valores extremos. 2. No est definida algebraicamente 3. Cuando la localizacin del elemento central puede ser determinada y los lmites de clase mediana son conocidos, la mediana para la distribucin de frecuencias puede ser calculada por interpolacin, no importando que sta contenga intervalos abiertos, cerrados, iguales o diferentes. 4. La suma de los valores absolutos, sin considerar el signo, de las desviaciones individuales respecto a la mediana es mnimo. 5 La mediana en caso de una distribucin asimtrica, no resulta desplazado del punto de tendencia central. 6. Si el universo tiene curtosis excesiva la mediana como estadstico, vara menos que cualquier otra medida. 7. Si la mediana se calcula por interpolacin y hay lagunas en los valores de la clase mediana o los datos son irregulares, esta medida no es buena ya que su ubicacin puede resultar falsa. 8. Si se desea ubicar las condiciones de un elemento en una clase, la mediana resulta se indicada, ya que por comparacin pone en evidencia si un elemento est en la mitad superior a ella o en la inferior. MEDIA ARITMETICA PONDERADA En sta, para cada uno de los valores de xi se asigna un factor wi de peso, que depende de la importancia que el investigador desee darle. Xp = S ( xi wi) / S wi MEDIA GEOMTRICA til cuando la variable cambia a lo largo del tiempo, esto es, en el calculo del promedio de tasas, razones, proporciones geomtricas y relaciones de variables. Se utiliza en Matemticas Financieras y Finanzas para promediar nmeros ndices, tasas de cambio, etc. La media Geomtrica de una serie de nmeros es la raz n-sima del producto de esos nmeros M = n e (x 1 * x 2 * x 3 *.....*x n ) Se ve afectada por todos los nmeros y valores extremos pero en menor grado que la Media Aritmtica, su valor siempre es menor que el de sta.

MEDIA ARMNICA Se utiliza para el promedio de rendimientos y velocidades. La Media Armnica de una serie de nmeros es el reciproco de la media aritmtica del recproco de esos nmeros. 1 / MH = [ S 1 / xi ] / n MEDIA CUADRTICA Es la raz cuadrada de la media aritmtica de los cuadrados de los nmeros, se usa eficientemente para promediar los errores o desviaciones porque es ms susceptible a los mismos. MC = 2 e S [ xi 2 ] / n LOS CUANTILES Son valores que dividen a la distribucin en n partes iguales Cuartiles, cuatro partes iguales: Q1, Q2, Q3 Deciles, diez pares iguales : D1, D2..........D9 Percentiles o centiles, cien partes iguales: P1, P2.....P99 Los cuantiles permiten hacer un anlisis minucioso de la distribucin, se utilizan generalmente cuando se quiere ubicar un dato dentro del conjunto. Por ejemplo. Pertenece el dato x al 50% superior ?, al 10% inferior? , al 50 % central?, etc. MEDIDAS DE DISPERSIN Un rasgo principal de los datos es su dispersin o amplitud, que se refiere a su variabilidad, a la evaluacin de cun separados o extendidos estn estos datos o bien cuanto difieren unos de otros. Variacin: es el grado en que los datos numricos tienden a extenderse al rededor de un valor, generalmente el valor medio Por qu es importante la variacin? 1. Al menudo una medida de posicin de un conjunto de datos se vincula con la indicacin de cun tpico o representativo es para la poblacin y para ello es necesario contar con la informacin que proporcionan las mediadas de variacin. Solo el conocimiento de un estadstico de tendencia central no aclara o define toda la distribucin, adems que no existe un valor de tendencia central ideal, por lo que es significativo tener una idea de la dispersin de los valores y determinar si es mucha o poca al rededor de la media, pues si la

variacin es muy grande entonces esta medida de tendencia central no es buena seleccin como valor tpico. 2. La medida de tendencia central no indica la relacin de un dato con los otros, es necesario para ello las medidas de variabilidad o dispersin. 3. Al tratar problemas con datos dispersos se requiere conocer que problemas puede esto traer, hasta que punto la dispersin tiene un riesgo aceptable o inaceptable en la toma de decisiones. 4. Al comparar dos distribuciones por lo general centramos la atencin en la posicin y en la dispersin. RANGO Mide la dispersin de la totalidad de los datos. Es la ms obvia de las mediadas ya que es la distancia entre los valores mximo y mnimo. El rango o recorrido da alguna idea del grado de variacin que ocurre en la poblacin, pero con frecuencia los resultados pueden ser engaosos, pues este depende de los valores extremos e ignora la variacin de las dems observaciones. Est afectado por ocurrencias raras o extraordinarias. INTERVALO INTERDECIL Mide la dispersin del 80% de los datos centrales y se obtiene de la diferencia entre el decil 9 y el decil 1, evitando as los puntos extremos. INTERVALO INTERCUARTIL : Cuando aumenta la dispersin de una distribucin de frecuencias, se ampla la distancia entre los cuartiles, por lo que esta distancia puede usarse como base de una medida de variabilidad El intervalo intercuartil, es el recorrido entre el cuartil 3 y el cuartil 1. Es el intervalo en el cual est comprendido el 50% de los datos centrales. DESVIACIN CUARTLICA Mide el intervalo promedio de un cuarto de los datos [Q3-Q1)/2] Si la distribucin es perfectamente simtrica, los dos cuartiles Q1 y Q3 equidistan de la mediana y la mitad de la distancia entre los cuartiles representa la distancia promedio entre ellos y la mediana.

Si en una distribucin simtrica se mide una distancia igual a la desviacin cuartlica a ambos lados de un punto ubicado en el centro de los cuartiles, el 50% de los valores estarn incluidos dentro de esos lmites y el valor del punto medio coincide con la mediana. La ventaja de la desviacin cuartlica es que evita los valores extremos utilizando nicamente la mitad intermedia de los datos. DESVIACIN MEDIA La desviacin Media o Desviacin absoluta promedio, es la media aritmtica de las desviaciones absolutas de cada una de las observaciones con respecto a su valor central, la media aritmtica, o la mediana Cuanto mayor es su valor, mayor es la dispersin de los datos DM =[ S | xi . X | ] / n DM = [ S fi | xi - X | ] / S fi Las caractersticas de esta media de dispersin son: 1. Su valor depende del valor de cada observacin. 2. Se puede calcular al rededor de la media o de la mediana. 3. La desviacin promedio respecto a la mediana es un mnimo 4. Mide la desviacin de una observacin sin notar si est por encima o por debajo del promedio. VARIANZA Otro tratamiento para evadir la suma cero de las desviaciones de las observaciones respecto a su Media Aritmtica, consiste en recurrir al proceso de elevar al cuadrado estas desviaciones y sumar los cuadrados, dividiendo la suma por el nmero de casos, a esta cantidad se le denomina varianza, y es la ms importante de las medidas de variacin porque tiene la ventaja de no prescindir de los signos de las desviaciones, pero al igual que la desviacin media los valores extremos pueden distorsionarla s 2 = S ( xi - X ) 2 / n s 2 = S fi (xi-X ) 2 / S fi S 2 = S (xi-X) 2 / ( n) S 2 = S fi ( xi-X ) 2 / ( S fi )

S 2 * = S (xi-X) 2 / ( n-1) S 2 *= S fi ( xi-X ) 2 / ( S fi -1) En inferencia, con una muestra tomada de una poblacin grande se pretende descubrir cuanto varan los datos al rededor de la media poblacional, si embargo cuando no se conoce la media de la poblacin se estima a partir de la media aritmtica de la muestra y esto hace que parezca menos variable de o que es en realidad, al dividir por n-1 se est compensando por la variabilidad ms pequea que se observa en la muestra, por lo que S 2 * , la suma de cuadrados dividida por n-1 es considerado un estimador ms eficiente para la varianza poblacional. DESVIACION ESTANDAR Cuando se utiliza la varianza como medida de dispersin, para salvar el problema de trabajar con distintas dimensiones en la media y en la medida de variabilidad es necesario definir la Desviacin estndar como la raz cuadrada de l varianza. La Desviacin Estndar es til para describir cuanto se apartan de la media de la distribucin los elementos individuales. Una medida de ello se denomina puntuacin estndar nmero de desviaciones a las que determinada observacin se encuentra con respecto a la media. Puntuacin estndar de xi = (xi - X) / s Al comparar distribuciones tambin hacemos uso de la calificacin estndar. Caracterstica de la Desviacin Estndar: 1. Es afectada por el valor de cada observacin 2. Como consecuencia de considerar desviaciones cuadrticas pone mayor nfasis en las desviaciones extremas que en las dems desviaciones. 3. Si en el eje X de la distribucin de frecuencias normal, se mide a ambos lados de la media una distancia igual a : Una desviacin estndar se forma un intervalo en el cual se encuentra el 68.27% de los valores centrales de la variable Dos desviaciones estndar, se forma un intervalo donde se encuentra el 95.43% de los valores centrales Tres desviaciones estndar, se forma un intervalo que contiene el 99.73% de los valores centrales

4. Al construir la tabla de frecuencias de una variable discreta y calcular a partir de ella la desviacin estndar no hay prdida de informacin por lo que la desviacin para los datos observados es igual que para los datos tabulados. En la construccin de una tabla de una variable continua hay prdida de informacin por el agrupamiento de los valores en intervalos y se traduce en la discrepancia entre el valor de la desviacin observada y tabulada. MEDIADAS DE DISPERSIN RELATIVAS Cuando se necesita comparar dos o ms series de datos a veces no es posible hacerlo con las medidas absolutas, ya sea porque las unidades son diferentes o porque tienen diferente media, en stos casos deben utilizarse cantidades relativas definida generalmente como: Dispersin relativa = Dispersin absoluta / media COEFICIENTE DE VARIACIN Es la medida de dispersin relativa ms usada y se define como el cociente de la desviacin estndar entre el promedio aritmtico, expresado en porcentaje y es adimensional V=S/X MEDIDAS DE ASIMETRA Y CURTOSIS MEDIDAS DE SESGO O ASIMETRIA En las distribuciones que no toman la forma de una curva acampanada Normal, interesa muchas veces obtener dos medias adicionales, las de asimetra y curtosis. Las medidas de asimetra muestran si en la distribucin hay concentracin de datos en un extremo, superior o inferior, y se denomina Sesgo positivo o a la derecha si la concentracin es en el extremo inferior y Sesgo Negativo o a la izquierda si la concentracin es en el superior. COEFICIENTE DE PEARSON En las distribuciones simtricas, la media , la mediana y la moda coinciden y conforme la distribucin se separa de la simetra estos valores se separan, por lo que la ms corriente de las medidas de asimetra es la diferencia entre la moda y la media que se la ms sensible a los valores extremos Sk = ( X -Mo) / S Para cuando la moda no se encuentra bien definida se puede sustituir por la mediana Sk= 3 ( X -Me) / S

Estas medidas se conocen como el primero y segundo coeficiente de Pearson y varan entre el intervalo + 3, es cero para la distribucin normal. MEDIDA CUARTIL DE ASIMETRIA En una distribucin simtrica los cuartiles quedan simtricamente colocados respecto a la mediana, pero si es asimtrica un cuartil se separa ms que otro. La medida cuartil de asimetra marca esta relacin Sk =[ ( Q3-Me) -( Me-Q1) ]/ ( Q3-Q1) Si la asimetra es a la derecha Q3 est ms lejos de la mediana que Q1, si la asimetra es a la izquierda Q1 est mas alejada de la mediana que Q3.Esta medida vara siempre entre + 1, si es cero la distribuciones normal. COEFICIENTE DE SESGO PERCENTLICO Se aplica con el mismo criterio de la medida Cuartil de Asimetra Sk = [( P90-P50) -(P50-P10) ]/ ( P90-P10) MEDIDAS DE CURTOSIS Al comparar cun aguda es una distribucin en relacin con la Distribucin Normal, se pueden presentar diferentes grados de apuntalamiento. 1. Mesocrtica, Normal 2. PlarticrtiCa, Menor apuntalamiento 3. Leptocrtica, Mayor apuntalamiento COEFICIENTE DE CURTOSIS PERCENTILICO Una medida del apuntalamiento o curtosis de la distribucin est basada en los cuartiles y percentiles, y est dada por el coeficiente de Curtosis Percentlico K= ( 0.5 ( Q3- Q1) ) / ( P90-P10) Para la distribucin normal K toma un valor de 0.263 y las distribuciones se definen como: Leptocrtica si k es mayor que 0.263 Platicrtica si k es menor que 0.263 Introduccin

Existen diferentes razones por las cuales los profesionales de la atencin primaria deben conocer los fundamentos de la epidemiologa y la estadstica como instrumentos del trabajo cotidiano. Entre dichas razones sealamos las siguientes: los trminos estadsticos y epidemiolgicos invaden la literatura mdica, la medicina es cada vez ms cuantitativa, su conocimiento nos permitir leer la bibliografa mdica con ms capacidad crtica para detectar errores potenciales y falacias. Nos ser tambin til para llegar a conclusiones correctas acerca de procedimientos para el diagnstico y del resultado de las pruebas 1,2. Su conocimiento nos permitir a su vez valorar protocolos de estudio e informes remitidos para su publicacin y participar, en definitiva, en la investigacin mdica. Resulta imprescindible, por lo tanto, conocer los conceptos bsicos de estadstica que nos faciliten la realizacin de estudios y conocer las posibilidades a desarrollar con ayuda de profesionales estadsticos para mejorar dicho anlisis. En este trabajo se pretende dar a conocer algunas nociones estadsticas que nos ayudarn a explorar y describir, en un primer momento, nuestros datos. Poblaciones y Muestras Cuando se realiza un estudio de investigacin, se pretende generalmente inferir o generalizar resultados de una muestra a una poblacin. Se estudia en particular a un reducido nmero de individuos a los que tenemos acceso con la idea de poder generalizar los hallazgos a la poblacin de la cual esa muestra procede. Este proceso de inferencia se efecta por medio de mtodos estadsticos basados en la probabilidad. La poblacin representa el conjunto grande de individuos que deseamos estudiar y generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogneo que rene unas caractersticas determinadas. La muestra es el conjunto menor de individuos (subconjunto de la poblacin accesible y limitado sobre el que realizamos las mediciones o el experimento con la idea de obtener conclusiones generalizables a la poblacin ). El individuo es cada uno de los componentes de la poblacin y la muestra. La muestra debe ser representativa de la poblacin y con ello queremos decir que cualquier individuo de la poblacin en estudio debe haber tenido la misma probabilidad de ser elegido. Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos sealar 3: a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo. b. Como consecuencia del punto anterior ahorraremos costes. c. Estudiar la totalidad de los pacientes o personas con una caracterstica determinada en muchas ocasiones puede ser una tarea inaccesible o imposible de realizar. d. Aumentar la calidad del estudio. Al disponer de ms tiempo y recursos, las observaciones y mediciones realizadas a un reducido nmero de individuos

pueden ser ms exactas y plurales que si las tuvisemos que realizar a una poblacin. e. La seleccin de muestras especficas nos permitir reducir la heterogeneidad de una poblacin al indicar los criterios de inclusin y/o exclusin. Tipos de datos Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla, tensin arterial sistlica, etctera). Los datos son los valores que toma la variable en cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos adems concretar la escala de medida que aplicaremos a cada variable. La naturaleza de las observaciones ser de gran importancia a la hora de elegir el mtodo estadstico ms apropiado para abordar su anlisis. Con este fin, clasificaremos las variables, a grandes rasgos, en dos tipos 3-5: variables cuantitativas o variables cualitativas. a. Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o expresarse numricamente. Las variables cuantitativas pueden ser de dos tipos: o Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango numrico determinado (edad, peso, talla). o Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango. Suelen tomar solamente valores enteros (nmero de hijos, nmero de partos, nmero de hermanos, etc).

b. Variables cualitativas. Este tipo de variables representan una cualidad o atributo que clasifica a cada caso en una de varias categoras. La situacin ms sencilla es aquella en la que se clasifica cada caso en uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotmicos o binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificacin no es suficiente y se requiere de un mayor nmero de categoras (color de los ojos, grupo sanguneo, profesin, etctera). En el proceso de medicin de estas variables, se pueden utilizar dos escalas: Escalas nominales: sta es una forma de observar o medir en la que los datos se ajustan por categoras que no mantienen una relacin de orden entre s (color de los ojos, sexo, profesin, presencia o ausencia de un factor de riesgo o enfermedad, etctera). o Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarqua entre las categoras (grados de disnea, estadiaje de un tumor, etctera).
o

Estadstica descriptiva Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al anlisis descriptivo de los mismos. Para variables categricas, como el sexo o el estadiaje, se quiere conocer el nmero de casos en cada una de las categoras, reflejando habitualmente el porcentaje que representan del total, y expresndolo en una tabla de frecuencias. Para variables numricas, en las que puede haber un gran nmero de valores observados distintos, se ha de optar por un mtodo de anlisis distinto, respondiendo a las siguientes preguntas: a. Alrededor de qu valor se agrupan los datos? b. Supuesto que se agrupan alrededor de un nmero, cmo lo hacen? muy concentrados? muy dispersos? a. Medidas de tendencia central Las medidas de centralizacin vienen a responder a la primera pregunta. La medida ms evidente que podemos calcular para describir un conjunto de observaciones numricas es su valor medio. La media no es ms que la suma de todos los valores de una variable dividida entre el nmero total de datos de los que se dispone. Como ejemplo, consideremos 10 pacientes de edades 21 aos, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos sujetos ser de:

Ms formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de la variable en cuestin, el valor medio vendr dado por:

Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la observacin equidistante de los extremos. La mediana del ejemplo anterior sera el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80.

Como quiera que en este ejemplo el nmero de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el clculo de la media de estos dos valores nos dar a su vez 60, que es el valor de la mediana. Si la media y la mediana son iguales, la distribucin de la variable es simtrica. La media es muy sensible a la variacin de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios. Por ltimo, otra medida de tendencia central, no tan usual como las anteriores, es la moda, siendo ste el valor de la variable que presenta una mayor frecuencia. En el ejemplo anterior el valor que ms se repite es 60, que es la moda b. Medidas de dispersin Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la dispersin de los mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, la varianza (S2) de los datos es la ms utilizada. Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin.

Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada. En el ejemplo anterior la varianza sera: Sx2= La desviacin tpica (S) es la raz cuadrada de la varianza. Expresa la dispersin de la distribucin y se expresa en las mismas unidades de medida de la variable. La desviacin tpica es la medida de dispersin ms utilizada en estadstica.

Aunque esta frmula de la desviacin tpica muestral es correcta, en la prctica, la estadstica nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1.

Por tanto, la medida que se utiliza es la cuasidesviacin tpica, dada por:

Aunque en muchos contextos se utiliza el trmino de desviacin tpica para referirse a ambas expresiones. En los clculos del ejercicio previo, la desviacin tpica muestral, que tiene como denominador n, el valor sera 20.678. A efectos de clculo lo haremos como n-1 y el resultado seria 21,79. El haber cambiado el denominador de n por n-1 est en relacin al hecho de que esta segunda frmula es una estimacin ms precisa de la desviacin estndar verdadera de la poblacin y posee las propiedades que necesitamos para realizar inferencias a la poblacin. Cuando se quieren sealar valores extremos en una distribucin de datos, se suele utilizar la amplitud como medida de dispersin. La amplitud es la diferencia entre el valor mayor y el menor de la distribucin. Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65. Como medidas de variabilidad ms importantes, conviene destacar algunas caractersticas de la varianza y desviacin tpica:
y

y y

Son ndices que describen la variabilidad o dispersin y por tanto cuando los datos estn muy alejados de la media, el numerador de sus frmulas ser grande y la varianza y la desviacin tpica lo sern. Al aumentar el tamao de la muestra, disminuye la varianza y la desviacin tpica. Para reducir a la mitad la desviacin tpica, la muestra se tiene que multiplicar por 4. Cuando todos los datos de la distribucin son iguales, la varianza y la desviacin tpica son iguales a 0. Para su clculo se utilizan todos los datos de la distribucin; por tanto, cualquier cambio de valor ser detectado.

Otra medida que se suele utilizar es el coeficiente de variacin (CV). Es una medida de dispersin relativa de los datos y se calcula dividiendo la desviacin tpica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersin o variabilidad de dos o ms grupos. As, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviacin tpica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su desviacin tpica de 21,3. La pregunta sera: qu distribucin es ms dispersa, el peso o la tensin arterial? Si comparamos las desviaciones tpicas observamos que la desviacin tpica de la tensin arterial es mucho mayor; sin embargo, no podemos comparar

dos variables que tienen escalas de medidas diferentes, por lo que calculamos los coeficientes de variacin: CV de la variable peso =

CV de la variable TAS = A la vista de los resultados, observamos que la variable peso tiene mayor dispersin. Cuando los datos se distribuyen de forma simtrica (y ya hemos dicho que esto ocurre cuando los valores de su media y mediana estn prximos), se usan para describir esa variable su media y desviacin tpica. En el caso de distribuciones asimtricas, la mediana y la amplitud son medidas ms adecuadas. En este caso, se suelen utilizar adems los cuartiles y percentiles. Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posicin. El percentil es el valor de la variable que indica el porcentaje de una distribucin que es igual o menor a esa cifra. As, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de s al 80% del total de las puntuaciones. Los cuartiles son los valores de la variable que dejan por debajo de s el 25%, 50% y el 75% del total de las puntuaciones y as tenemos por tanto el primer cuartil (Q1), el segundo (Q2) y el tercer cuartil (Q3). Bibliografa 1. Sackett, D.L., Haynes, R.B., Guyatt, G.H., Tugwell, P. Epidemiologa clnica. Ciencia bsica para la medicina clnica. 2 ed. Madrid : Mdica Panamericana; 1994. 2. Fletcher RH., Fletcher SW., Wagner E.H. Epidemiologa clnica. 2 ed. Barcelona: Masson, Williams & Wilkins; 1998. 3. Dawson-Saunders B, Trapp RG. Bioestadstica Mdica . 2 ed. Mxico: Editorial el Manual Moderno; 1996. 4. Milton JS, Tsokos JO. Estadstica para biologa y ciencias de la salud. Madrid: Interamericana McGraw Hill; 2001. 5. Martn Andrs A, Luna del Castillo JD. Bioestadstica para las ciencias de la salud. 4 ed. Madrid: NORMA; 1993.

Estadstica Descriptiva
1. Introduccin

Una de las ramas de la Estadstica ms accesible a la mayora de la poblacin es la Descriptiva. Esta parte se dedica nica y exclusivamente al ordenamiento y tratamiento mecnico de la informacin para su presentacin por medio de tablas y de representaciones grficas, as como de la obtencin de algunos parmetros tiles para la explicacin de la informacin. La Estadstica Descriptiva es la parte que conocemos desde los cursos de educacin primaria, que se ensea en los siguientes niveles y que, por lo general, no pasa a ser un anlisis ms profundo de la informacin. Es un primer acercamiento a la informacin y, por esa misma razn, es la manera de presentar la informacin ante cualquier lector, ya sea especialista o no. Sin embargo, lo anterior no quiere decir que carezca de metodologa o algo similar, sino que, al contrario, por ser un medio accesible a la mayora de la poblacin humana, resulta de suma importancia considerar para as evitar malentendidos, tergiversaciones o errores.

2. Representacin de tronco y hoja


Un mtodo para iniciar el anlisis exploratorio de los datos, previo al uso de los mtodos estadsticos tradicionales, y que adems proporciona informacin rpida, visual y es relativamente nueva, es la representacin grfica de tronco y hoja. Esta representacin se basa en la ordenacin de los datos a manera de grfico, pero sin llegar a ello, utilizando las decenas y las unidades. Esta tcnica se puede encontrar en el libro de Freund y Simon, pero comentaremos su uso a travs del siguiente ejemplo que contiene las calificaciones obtenidas en una prueba de matemticas: 78 66 93 73 61 76 100 81 70 83 83 64 88 91 74 70 97 77 72 86

Ahora pensaremos en cada uno de los datos separando las decenas de las unidades, es decir, el nmero 51 se ver como 5 | 1. De esta manera las decenas se pondrn en una columna, en forma vertical, y las unidades a su derecha:

6 7 8 9 10

1 8 3 3 0

6 0 8 7

4 4 2 3 6 0 7 1 3 6 1

Para entenderle un poco ms, hemos de decir que el primer rengln que dice 6 | 1 6 4 quiere decir que entre la lista de datos se encuentran los valores 61, 66 y 64. Esta es la representacin grfica tronco y hoja, donde cada rengln es una posicin de tronco y cada dgito de la derecha es una hoja.

El procedimiento para realizarla es primero empezar con los troncos, es decir la columna de la izquierda, y despus dato por dato ir llenando las hojas a la derecha de la lnea vertical, en el tronco correspondiente. Adems, si se desean tener los datos ordenados, y hay gente que lo prefiere as, se pueden ordenar las hojas en cada rengln para que la representacin quede como sigue:

6 7 8 9 10

1 0 1 1 0

4 0 3 3

6 2 3 4 6 7 8 3 6 8 7

En realidad una representacin de tronco y hojas presenta la misma informacin que la lista original de datos, pero de una manera mucho ms compacta (especialmente si la lista de datos es ms grande) y manejable. Sin embargo, informacin ms compleja resulta un poco ms difcil de manejar, por lo que en ocasiones conviene redondear los datos, ignorar sus partes decimales o utilizar las centenas u otras posiciones de los nmeros para las troncos. En cada uno de esos casos conviene hacer alguna anotacin, o poner una nota, a fin que los lectores puedan identificar las adecuaciones realizadas y as poder interpretar lo que se quiere transmitir. Para mostrar la informacin de manera ms clara, es posible modificar el nmero de posiciones del posiciones del tronco, aumentndola o disminuyndola de acuerdo a las necesidades particulares de cada problema. Por ejemplo, con los datos del examen anterior, se pueden dividir en dos cada posicin del tronco, utilizando la primera posicin para disponer las hojas 0, 1, 2, 3 y 4, y la segunda posicin para las hojas restantes. De esta manera, se obtiene la representacin grfica de doble tronco: 66+ 77+ 88+ 99+ 101 6 0 6 1 6 1 7 0 4 0 2 3 4 7 8 3 3 8 3

Con esto se han duplicado el nmero de posiciones del tronco, con la intencin de buscar una mayor claridad en la presentacin. Esta manera de representacin inicial de los datos no la profundizaremos ms, sino que la utilizaremos ms adelante en algunos casos para, precisamente, presentar una representacin inicial de la informacin obtenida.

3. Poblacin y muestra
Algo importante que hay que mencionar es que no siempre se trabaja con todos los datos. sto por diversas razones, que pueden ser desde prcticas hasta por economa. Por ejemplo, resultara muy costoso obtener los datos de todos los seres humanos, o imprctico (y a la vez destructivo) obtener como datos el tiempo en el que se funden las bombillas producidas por una cierta marca realizando la medicin de toda la produccin. El estudio conducira a la empresa a la ruina, pues la produccin entera desaparecera. Por esta razn se considera un subconjunto del total de los casos, sujetos u objetos que se estudian y que se les obtienen los datos. La poblacin, entonces, es el total hipottico de los datos que se estudian o recopilan. Ante la imposibilidad ocasional de conseguir a la poblacin, entonces se recurre a la muestra, que viene siendo un subconjunto de los datos de la poblacin, pero tal subconjunto tiene que contener datos que pueden servir para posteriores generalizaciones de las conclusiones. Un estudio ms detallado de las caractersticas de las muestras para permitir tales generalizaciones se realizar ms adelante.

3.2. Parmetros y estadsticos


Existen medidas para realizar descripciones cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras, diferencindose entre ellas las que se refieren a las mismas poblaciones y a las muestras. Para el caso de las poblaciones, las medidas que las descriven se denominan parmetros, y suelen estar representadas con letras griegas (por ejemplo Q y W). Por otro lado, para el caso de aquellas medidas que describen a una muestra se les llama estadsticos o estimadores, y son representados por letras de nuestro alfabeto (por ejemplo, x o s). Tales medidas cuantitativas que describen a las poblaciones y a las muestras se comentarn enseguida.

4. Datos sin agrupar 5. Medidas de tendencia central para datos sin agrupar
David Lane de la Universidad Rice (Rice Virtual Lab in Statistics) tiene un
applet que demuestra las propiedades bsicas de la media y la mediana. Puedes realizar un ejercicio calculando las medidas de tendencia central para una poblacin de tamao 20 haciendo click en el botn de la derecha.

6. Medidas de dispersin para datos sin agrupar


Para hacer un ejercicio del clculo de las medidas de dispersin para una poblacin de

tamao 20 haciendo click en el botn de la derecha.

7. Medidas de ubicacin para datos sin agrupar 8. Datos agrupados 9. Distribuciones de frecuencias 10. Representaciones grficas
Gran parte de la utilidad que tiene la Estadstica Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de informacin depender de la presentacin de los datos, siendo la forma grfica uno de los ms rpidos y eficientes, aunque tambin uno de los que ms pueden ser manipulados o ser malinterpretados si no se tienen algunas precauciones bsicas al realizar las grficas. Existen tambin varios tipos de grficas, o representaciones grficas, utilizndose cada uno de ellos de acuerdo al tipo de informacin que se est usando y los objetivos que se persiguen al presentar la informacin. Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al momento de realizar cualquier grfica a fin de que la informacin sea transmitida de la manera ms eficaz posible y sin distorsiones: 1. El eje que represente a las frecuencias de las observaciones (comnmente el vertical o de las ordenadas) debe comenzar en cero (0), de otra manera podra dar impresiones errneas al comparar la altura, longitud o posicin de las columnas, barras o lneas que representan las frecuencias. 2. La longitud de los espacios que representan a cada dato o intervalo (clase) en la grfica deben ser iguales. 3. El tipo de grfico debe coincidir por sus caractersticas con el tipo de informacin o el objetivo que se persigue al representarla, de otra manera la representacin grfica se convierte en un instrumento ineficaz, que produce ms confusin que otra cosa, innecesario o productor de malinterpretaciones. Por ejemplo, si se desea representar la proporcin de poblacin masculina en un pas conviene ms usar una grfica de pastel o circular que una grfica de barras al compararla contra la poblacin femenina; por un lado se puede apreciar dicha proporcin, por el otro se aprecia cul de las dos poblaciones es mayor. Hay un punto que conviene remarcar: existe software que permite la construccin rpida y eficiente de grficas a partir de bases de datos o hojas de clculos, pero no importa cun bonita, bien delineada, bien coloreada o bien presentada est una grfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver ms sobre el objetivo de estas herramientas y la Estadstica: la transmisin eficiente de la informacin.

Si quieres ver indicaciones de cmo hacerlas usando Excel haz click.

10.2. Tipos de grficos


Para las distribuciones de frecuencias la representacin grfica ms comn es el histograma. Un ejemplo es el que se presenta a continuacin y que representa el nmero de "visitas" que ha tenido este hipertexto de acuerdo a la hora de la visita.

En el eje horizontal (o de las abscisas) se representan los intervalos de los datos, marcndose de manera continua las fronteras entre cada uno de los stos. De esta manera, el histograma est compuesto rectngulos, cuyo nmero coincide con la cantidad de intervalos considerados, el ancho de la base de cada uno de esos rectngulos es la misma siempre y coincide con las fronteras de los intervalos, y la altura corresponde a la frecuencia de cada intervalo. Es importante observar que resulta difcil utilizar este tipo de representacin cuando existen intervalos abiertos o cuando los intervalos no son iguales entre s. Otra observacin es la amplitud de los intervalos, que se puede establecer utilizando la regla de Sturges, pues al cambiarla la presentacin visual de un histograma puede variar. Un applet que muestra cmo el nmero de clases y su ancho pueden hacer variar fue desarrollado por Webster West de la Universidad del Sur de Carolina. El programa Excel no permite crear de manera automtica histogramas, pues proporciona el ancho de las columnas de tal manera que quedan separadas. Sin embargo, existe la manera de hacerlas.

Un tipo de grfico muy parecido al histograma es la grfica de columnas. Para este

tipo de grfica, elaboradas con rectngulos tambin, se pide que sus bases sean del mismo ancho y sus alturas equivalentes con las frecuencias. Para este tipo, a diferencia del histograma, no es necesario tener una escala horizontal continua, por lo que los rectngulos (o barras) no tienen que aparecer juntas entre s. Otra observacin pertinente es que se pueden representar en la misma grfica, utilizando las mismas escalas horizontales y verticales, varios datos correspondientes a las mismas variables producto de varias observaciones. Esto produce una grfica con varias series, correspondiendo cada una de ellas a cada observacin de la muestra (o poblacin), y tenindose una grfica compuesta. Es conveniente que cada serie de datos (u observaciones) sean ilustradas o iluminadas de igual manera entre s, pero distinta de las dems. El ejemplo que sigue pertenece al comportamiento de las calificaciones parciales de tres alumnos de preparatoria. Las series (cada una de las calificaciones parciales) estn coloreadas con diferente color para mostrar el comportamiento tanto individual, como de cada uno de los alumnos con respecto a los dems. Es interesante observar que la escala horizontal no es continua (es nominal).

Existe la posibilidad, y si los recursos lo permiten, de representar grficos compuestos de una manera "tridimensional", es decir, con grficos que posean no slo dos ejes, sino tres; y en los que los rectngulos son sustitudos por prismas de base rectangular (ocasionalmente el software en el mercado permite utilizar prismas cuya base son polgonos regulares de ms de cuatro lados, pirmides o cilindros). Un ejemplo es el siguiente:

donde se representa el porcentaje del PIB gastado en docencia e investigacin por cinco pases en el lapso de 1988 a 1999 (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12). Es importante considerar que este tipo de grficos puede complicarse mucho, haciendo que la informacin sea menos legible.

Tambin es posible realizar grficas de barras horizontales, los cuales se parecen mucho a las grficas de columnas, con la salvedad importante de que la funcin de los ejes se intercambian y el eje horizontal queda destinado a las frecuencias y el eje vertical a las clases. Es muy comn que este tipo de grficos se utilicen para ilustrar el tamao de una poblacin dividida en estratos como, por ejemplo, son sus edades. El ejemplo que se presenta es la poblacin de un pas ficticio llamado "Timbuctulandia":

A este tipo de grficos en particular se le llama pirmide de edades por su forma. Incluso, cuando se compara la poblacin masculina y femenina por estratos de edades, se estila utiliza el lado izquierdo para la poblacin de un sexo y el lado derecho para el otro, el resultado es una "pirmide" casi simtrica (depender de la poblacin en particular).

Cuando los datos se relacionan entre s, es decir, cuando podemos decir que existe cierta continuidad entre las observaciones (como por ejemplo el crecimiento poblacional, la evolucin del peso o estatura de una persona a travs del tiempo, el desempeo acadmico de un estudiante a lo largo de su instruccin escolar, las variaciones presentadas en la medicin realizada en algn experimento cada segundo o minuto) se pueden utilizar las grficas de lneas, que consisten en una serie de puntos trazados en las intersecciones de las marcas de clase y las frecuencias de cada una, unindose consecutivamente con lneas:

Este ejemplo muestra el comportamiento del peso corporal (en kilogramos) de dos individuos a lo largo de cinco observaciones anuales. Al igual que en el caso de las grficas de columnas (y de otras ms) es posible presentar varias series de observaciones (en este caso cada serie de observaciones son los pesos de un individuo).

Otra forma de representacin de un uso menos comn, y muy parecida a las grficas de lneas, es el polgono de frecuencias. La diferencia fundamental entre ambas es que en el polgono de frecuencias se aaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra despus de la ltima. El resultado es que se "sujeta" la lnea por ambos extremos al eje horizontal y lo que podra ser una lnea separada del eje se convierte, junto con ste, en un polgono. El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e investigacin durante el ao de 1990 en cinco pases (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12):

El Excel no crea automticamente polgonos de frecuencias, sino que produce grficas de lneas. Sin embargo, es posible arreglrselas para hacerlas.

Una grfica similar al polgono de frecuencias es la ojiva, pero sta se obtiene de aplicar parcialmente la misma tcnica a una distribucin acumulativa y de igual manera que stas, existen las ojivas mayor que y las ojivas menor que. Existen dos diferencias fundamentales entre las ojivas y los polgonos de frecuencias (y por sto la aplicacin de la tcnica es parcial): 1. Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho. 2. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor. Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los datos que se usaron para ejemplificar el histograma:

La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que est sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se dira: despus de las 4:00 horas). De forma anloga, en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el nmero de observaciones menores que la frontera sealada (en caso de tiempos sera el nmero de observaciones antes de la hora que seala la frontera). Si se utiliza una distribucin porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que segn sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que que se acaba de usar, pero con una distribucin porcentual:

En ocasiones, al comparar dos series de observaciones (o de datos) se utiliza una llamada grfica de reas, la cual consiste en rellenas el rea que se encuentre debajo de las lneas que resultan de una grfica de lneas. El ejemplo que se presenta es la comparacin del total de las especies de las familias del orden Carnivora y las que estn amenazadas, en Mxico, (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):58):

Cuando lo que se desea es resaltar las proporciones que representan algunos subconjuntos con respecto al total, es decir, cuando se est usando una escala categrica, conviene utilizar una grfica llamada de pastel o circular. Por ejemplo, para ilustrar la matrcula en licenciatura (en Mxico) por reas de conocimiento en el ao de 1992 se puede usar algo as como sigue (Fuente: ANUIES,1995):

De hecho, si se desea resaltar una de las categoras que se presentan, es vlido tomar esa "rebanada" de la grfica y separarla de las dems:

Para hacer una grfica de este tipo en papel.


Hay que tomar algunas precauciones al utilizar este tipo de grficos. Por un lado, comparar dos grficos circulares (por ejemplo, si se quisieran comparar las proporciones de matrculas en licenciatura por reas de conocimiento en licenciatura para dos aos distintos) resulta muy difcil y, por tanto, no es muy aconsejable. Por otro lado, en ocasiones existen categoras con pocas frecuencias (por ejemplo, dos o tres con frecuencias relativas menores al 1% cada una), haciendo que la grfica resulte "pesada" y las etiquetas se encimen. Una posible solucin es juntarlas en una sola categora (por ejemplo, la tpica "otras" o "varias"), pero entonces habra que ponderar si se hace una grfica extra con dichas observaciones nicamente, haciendo la anotacin pertinente, o simplemente se ignoran por no resultar significativas.

Actualmente, y mucho en los medios masivos de comunicacin, se utilizan grficos para ilustrar los datos o los resultados de alguna investigacin. Regularmente se utilizan dibujos para representar dicha informacin, y el tamao o el nmero de estos dibujos dentro de una grfica queda determinado por la frecuencia correspondiente. A este tipo de grfica se le llama pictograma y stos son dos ejemplos:

El de la izquierda representa la poblacin de los Estados Unidos (cada hombrecillo representa a dos millones de habitantes), el de la derecha representa la masa de tres planetas de nuestro sistema solar tomando como unidad a la masa de la Tierra (cada representa la masa de nuestro planeta: Venus tiene masa menor y Neptuno tiene ms 17 veces ms masa que la Tierra). Las versiones del Excel 7.0 y anteriores no tienen opciones para realizar este tipo de grficas, las posteriores s. Otros programas contemporneos (como el Corel Draw o el Harvard Graphics) s son capaces.

Cuando se pretende ilustrar la dispersin de las observaciones realizadas, y as trabajar algunas cosas como correlaciones se puede utilizar una grfica de dispersin. Por ejemplo, el ejemplo de la izquierda es la dispersin que se presenta al comparar el nmero de tesis doctorales en ciencias exactas contra el nmero de total de tesis doctorales (todo en Mxico) en observaciones anuales entre 1984 y 1990 (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12):

La grfica de la derecha es resultado de comparar el dimetro (en miles de kilmetros) de los planetas interiores del nuestro sistema solar contra sus densidades (en gramos por centmetro cbico). Es interesante observar que los puntos parecen "seguir" una

lnea imaginaria que se asemeja a una recta, con excepcin de un caso atpico: Mercurio. Uno de los usos de este tipo de grficas es precisamente encontrar si las observaciones siguen algn patrn lineal (una lnea de tendencia) o si existen valores atpicos. Para el caso del Excel, el programa es capaz de graficar las lneas de tendencias que siguen un conjunto de datos.

Un tipo de grfico similar a las grficas de dispersin son las grficas de burbujas, en las cuales se presenta la dispersin de las observaciones de la misma forma que aqullas, pero se le aade la posibilidad de visualizar otra variable representada en el tamao del punto, pues stos se convierten en crculos (burbujas) con radios proporcionales a las magnitudes que representan.

Este ejemplo compara la distancia que existe en cada uno de los planetas interiores de nuestro sistema solar al Sol contra el tiempo que necesitan para recorrer sus rbitas, y el tamao de las burbujas indica la masa de cada planeta.

Adems existen otros tipos de grficos, cada uno con caractersticas particulares que les proporcionan cierta intencionalidad para su uso, como son las grficas de radar y las grficas polares.

ESTADSTICA DESCRIPTIVA

EN TODAS LAS CIENCIAS EXPERIMENTALES SURGE EL PROBLEMA DE TENER QUE DETERMINAR VALORES NUMERICOS DE UNA O MAS MAGNITUDES; A VECES LAS MAGNITUDES DESEADAS PUEDEN MEDIRSE DIRECTAMENTE, EN OTROS CASOS HAY QUE HACER UN TRATAMIENTO MATEMTICO, GRAFICO O NUMERICO DE LOS DATOS A FIN DE CALCULAR LOS VALORES DE CIERTAS MAGNITUDES DIFERENTES DE LAS DIRECTAMENTE OBSERVADAS. UNA VEZ CALCULANDO EL VALOR DE UNA MAGNITUD CONVIENE DETERMINAR SU EXACTITUD YA QUE SIEMPRE HAY PRESENTES ERRORES EXPERIMENTALES. EL ERROR EXPERIMENTAL ES LA DIFERENCIA ENTRE EL VALOR OBSERVADO Y EL VALOR REAL, ASI DE ESTA FORMA PODEMOS EXPRESAR LA RELACION : Valor Observado = Valor Real + Error Experimental Y COMO ORDINARIAMENTE NO CONOCEMOS EL VERDADERO VALOR DE LA MAGNITUD DEBEREMOS ENCONTRAR ALGUNA FORMA DE ESTIMAR EL ERROR EXPERIMENTAL, PARA ESTE FIN SE UTILIZA EL ANLISIS ESTADSTICO. ASI PUES, DEFINIREMOS DE MANERA PRACTICA, CITANDO DOS DEFINICIONES REFERENTES, PRIMERAMENTE LO QUE ES LA ESTADSTICA EN SI, Y POR ENDE A LO QUE ES LA ESTADSTICA DESCRIPTIVA:
y

LA ESTADSTICA: DERIVADA DE LA CIENCIA MATEMATICA, ES LA CIENCIA DE LA RECOPILACIN, CLASIFICAION, PRESENTACIN E INTERPRETACIN DE DATOS. LA ESTADSTICA DESCRIPTIVA: ES LA CIENCIA ENCARGADA DE ANALIZAR, ESTUDIAR Y DESCRIBIR A LA TOTALIDAD DE INDIVIDUOS DE UNA POBLACIN. ESTA INCLUYE LAS TCNICAS QUE SE RELACIONAN CON EL RESUMEN Y LA DESCRIPCIN DE DATOS NUMERICOS, ESTOS PUEDEN SER GRAFICOS O PUEDEN INCLUIR ANLISIS MEDIANTE CALCULOS (SUS FUNCIONES SON DE DAR REGLAS Y NORMAS PARA DECIR COMO HAY QUE RECOPILAR DATOS, ORDENARLOS EN TABLAS, REPRESENTARLOS GRFICAMENTE Y REDUCIRLOS, ES DECIR, DAR MEDIDAS QUE PERMITAN MANEJARLOS).

POR EJEMPLO: CIERTA ESPECIE DE ANIMALES TIENE CADA AO UN NUMERO VARIABLE DE HIJOS. DURANTE UN AO SE OBSERVA UN CONJUNTO DE FAMILIAS ANOTNDOSE EL NUMERO DE HIJOS QUE HAN TENIDO: NUMERO DE 0 1 2 3 4 5 6 7 8

HIJOS NUMERO DE FAMILIAS 3 5 15 15 7 4 3 2 1

*Checar graficacin pagina.5 ASI TAMBIEN: SU FINALIDAD ES OBTENER INFORMACIN, ANALIZARLA, ELABORARLA Y SIMPLIFICARLA LO NECESARIO PARA QUE PUEDA SER INTERPRETADA CMODA Y RPIDAMENTE Y, POR TANTO, PUEDA UTILIZARSE EFICAZMENTE PARA EL FIN QUE SE DESEE (TOMA DE DESICIONES). EL PROCESO QUE SIGUE LA ESTADSTICA DESCRIPTIVA PARA EL ESTUDIO DE UNA CIERTA POBLACIN CONSTA DE LOS SIGUIENTES PASOS: y SELECCIN DE CARACTERES DIGNOS DE SER ESTUDIADOS. y MEDIANTE ENCUESTA O MEDICIN, OBTENCIN DEL VALOR DE CADA INDIVIDUO EN LOS CARACTERES SELECCIONADOS. y ELABORACIN DE TABLAS DE FRECUENCIAS, MEDIANTE LA ADECUADA CLASIFICACIN DE LOS INDIVIDUOS DENTRO DE CADA CARCTER. y REPRESENTACIN GRFICA DE LOS RESULTADOS (ELABORACIN DE GRFICAS ESTADSTICAS). y OBTENCIN DE PARMETROS ESTADSTICOS, NMEROS QUE SINTETIZAN LOS ASPECTOS MS RELEVANTES DE UNA DISTRIBUCIN ESTADSTICA. CONCLUSIN AL YA HABER ESTABLECIDO LO QUE ES LA ESTADSTICA DESCRIPTIVA, BASTA SEALAR SU ENORME UTILIDAD, YA QUE COMO LO MOSTRARON LOS EJEMPLOS, EN UN FUTURO EN EL CUAL, EN LUGAR DE UTILIZAR DATOS FICTICIOS, UTILICEMOS DATOS FIDEDIGNOS, YA SEA DENTRO DE NUESTRAS ACTIVIDADES, CUALQUIERA QUE ESTAS SEAN, ESTA CIENCIA NOS PROVEER DE HERRAMIENTAS SUFICIENTES PARA DESEMPEAR MEJOR NUESTRA LABOR. CABE RECALCAR, LA ESTADSTICA DESCRIPTIVA NOS AYUDA A ANALIZAR Y COMPRENDER DE MANERA EXPEDITA, LA INFORMACIN, LA CUAL ES IMPORTANTE PARA TOMAR LAS DECISIONES MAS ACERTADAS AL AFRONTAR DETERMINADA SITUACIN.

012345678

Introduccin:
La palabra "estadstica" suele utilizarse bajo dos significados distintos, a saber: 1 Como coleccin de datos numricos.- Esto es el significado ms vulgar de la palabra estadstica. Se sobrentiende que dichos datos numricos han de estar presentados de manera ordenada y sistemtica. Una informacin numrica cualquiera puede no constituir una estadstica, para merecer este apelativo, los datos han de constituir un conjunto coherente, establecido de forma sistemtica y siguiendo un criterio de ordenacin. Tenemos muchos ejemplos de este tipo de estadsticas. El Anuario Estadstico publicado por el Instituto Nacional de Estadstica, El Anuario de Estadsticas del Trabajo, 2 Como ciencia.- En este significado, La Estadstica estudia el comportamiento de los fenmenos de masas. Como todas las ciencias, busca las caractersticas generales de un colectivo y prescinde de las particulares de cada elemento. As por ejemplo al investigar el sexo de los nacimientos, iniciaremos el trabajo tomando un grupo numeroso de nacimientos y obtener despus la proporcin de varones. Es muy frecuente enfrentarnos con fenmenos en los que es muy difcil predecir el resultado; as, no podemos dar una lista ,con las personas que van a morir con una cierta edad, o el sexo de un nuevo ser hasta que transcurra un determinado tiempo de embarazo, Por tanto, el objetivo de la estadstica es hallar las regularidades que se encuentran en los fenmenos de masa.

Poblacin, elementos y caracteres.


Es obvio que todo estudio estadstico ha de estar referido a un conjunto o coleccin de personas o cosas. Este conjunto de personas o cosas es lo que denominaremos poblacin. Las personas o cosas que forman parte de la poblacin se denominan elementos. En sentido estadstico un elemento puede ser algo con existencia real, como un automvil o una casa, o algo ms abstracto como la temperatura, un voto, o un intervalo de tiempo. A su vez, cada elemento de la poblacin tiene una serie de caractersticas que pueden ser objeto del estudio estadstico. As por ejemplo si consideramos como elemento a una persona, podemos distinguir en ella los siguientes caracteres: Sexo, Edad, Nivel de estudios, Profesin, Peso, Altura, Color de pelo,Etc. Luego por tanto de cada elemento de la poblacin podremos estudiar uno o ms aspectos cualidades o caracteres. La poblacin puede ser segn su tamao de dos tipos: Poblacin finita: cuando el nmero de elementos que la forman es finito, por ejemplo el nmero de alumnos de un centro de enseanza, o grupo clase. Poblacin infinita: cuando el nmero de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos.. Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta poblacin podra considerarse infinita. Ahora bien, normalmente en un estudio estadstico, no se puede trabajar con todos los elementos de la poblacin sino que se realiza sobre un subconjunto de la misma. Este subconjunto puede ser una muestra, cuando se toman un determinado nmero de elementos de la poblacin, sin que en principio tengan nada en comn; o una subpoblacin, que es el subconjunto de la poblacin formado por los elementos de la poblacin que comparten una determinada caracterstica, por ejemplo de los alumnos del centro la subpoblacin formada por los alumnos de 3 ESO, o la subpoblacin de los varones.

Variables y atributos.
Como hemos visto, los caracteres de un elemento pueden ser de muy diversos tipos, por lo que los podemos clasificar en: dos grandes clases: Variables Cuantitativas. Variables Cualitativas o Atributos. Las variables cuantitativas son las que se describen por medio de nmeros, como por ejemplo el peso, Altura, Edad, Nmero de Suspensos

A su vez este tipo de variables se puede dividir en dos subclases: y Cuantitativas discretas. Aquellas a las que se les puede asociar un nmero entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo nmero de hermanos, pginas de un libro, etc. Cuantitativas continuas: Aquellas que no se pueden expresar mediante un nmero entero, es decir, aquellas que por su naturaleza admiten que entre dos valores cualesquiera la variable pueda tomar cualquier valor intermedio, por ejemplo peso, tiempo. etc.

No obstante en muchos casos el tratamiento estadstico hace que a variables discretas las trabajemos como si fuesen continuas y viceversa. Los atributos son aquellos caracteres que para su definicin precisan de palabras, es decir, no le podemos asignar un nmero. Por ejemplo Sexo Profesin, Estado Civil, etc. A su vez las podemos clasificar en: y y Ordenables: Aquellas que sugieren una ordenacin, por ejemplo la graduacin militar, El nivel de estudios, etc. No ordenables: Aquellas que slo admiten una mera ordenacin alfabtica, pero no establece orden por su naturaleza, por ejemplo el color de pelo, sexo, estado civil, etc.

Poblacin y muestra
En Estadstica se denomina poblacin al mundo ideal, terico cuyas caractersticas se quieren conocer y estudiar. Las poblaciones suelen ser muy extensas y es imposible observar a cada componente, por ello se trabaja con muestras o subconjuntos de esa poblacin. Por eso podemos definir como muestra a una parte o subconjunto de una poblacin. Por ejemplo, queremos conocer la opinin de los habitantes de una ciudad de 200.000 personas junto a la que se va a instalar un depsito de residuos txicos. Los ciudadanos mayores de 18 aos de dicha localidad conformaran la poblacin objeto de anlisis. Como sera costoso en tiempo y recursos el preguntar a cada ciudadano, cuyo nmero puede ascender a muchas decenas de miles de personas, lo que se hace es seleccionar una muestra de unas decenas o unos cientos de personas de esa poblacin y realizar la encuesta a sus componentes. Para seleccionar la muestra y que sea representativa existen mtodos adecuados.

También podría gustarte