Estadistica Descriptiva Una Variable
Estadistica Descriptiva Una Variable
Estadistica Descriptiva Una Variable
www.ugr.es/local/rruizb/cognosfera
M. Jorge Bolaos Carmona Departamento de Estadstica e I.O. Facultad de Biblioteconoma y Documentaci n !ni"ersidad de #ranada
1.INTRODUCCION El concepto de Estadstica es muy amplio, y sus aplicaciones directas o indirectas, muy numerosas; resulta difcil, por ello, dar una definicin. Sin embargo, la idea ms adecuada es considerar que incumbe a la Estadstica la recogida, ordenacin, resumen y anlisis de datos de cualquier tipo sobre colectivos, lo que significa que no tiene sentido pensar en un dato aislado o individual como terreno de trabajo de la Estadstica: es necesario, pues, considerar un grupo de elementos personas, animales, cosas, e!perimentos, etc." a los que se refieren los datos que se consideran. Este conjunto puede venir dado de dos formas que condicionan toda clasificacin interna de la Estadstica, y que son las siguientes: a" Poblacin, o conjunto de todos los elementos cuyo estudio nos interesa. Si se dispone de datos de una o ms variables sobre la poblacin completa, o se puede acceder a ellos, la Estadstica tendr como misin que la recogida sea adecuada, se ordenen, se estructuren y se resuman dic#os datos para su mejor comprensin, es decir, que se describan. Ello nos llevar a #ablar de Estadstica Descripti a. $or ejemplo, el conjunto de los varones mayores de %& a'os y residentes en una provincia sera una poblacin. b" !"estra, o conjunto de elementos de los que efectivamente se dispone de datos, y que es una parte a menudo peque'a" de la poblacin. (uando no se puede acceder a los datos de toda la poblacin, que es lo ms frecuente, y se debe trabajar con slo los de la muestra, a la simple descripcin de los datos se a'ade el inter)s por valorar #asta qu) punto los resultados de la muestra son e!trapolables o generali*ables a la poblacin; en consecuencia, ser necesario utili*ar no slo las t)cnicas de la Estadstica +escriptiva, siempre obligadas en todo caso para la comprensin de los resultados, sino tambi)n otras que permiten inferir afirmaciones sobre la poblacin a partir de los datos de la muestra y que constituyen la Estadstica Inferencial o ,nferencia Estadstica. $or ejemplo, el grupo de los varones mayores de %& a'os y residentes en una provincia que son usuarios de bibliotecas p-blicas sera una muestra de la poblacin citada en el prrafo anterior otra cosa es que la muestra fuese o no representativa del conjunto de tal poblacin". .os elementos fundamentales de la descripcin de una variable son los que siguen en los apartados siguientes, que se pueden resumir de esta forma: / / / En primer lugar, se #ar #incapi) en que lo que se estudia son en realidad las variables, lo que nos obligar a distinguir los tipos bsicos de ellas, porque tienen un tratamiento distinto en todo lo que sigue. .as distribuciones de frecuencia son necesarias en el paso siguiente para e!presar los resultados obtenidos mediante tablas estadsticas. .as grficas estadsticas dan una informacin similar a la de las tablas, pero de forma ms directa; de ellas trata otro apartado.
0inalmente, el resumen de la informacin se reali*a mediante las medidas de centrali*acin, dispersin y posicin.
#. TIPOS DE $%RI%&'ES. .o que se estudia en una muestra o poblacin es una serie de variables en cada individuo o elemento. .o usual es considerar primero las variables una a una, sin plantearse problemas de asociacin entre ellas, por lo que podemos pensar slo en una variable de cuyos datos imaginamos disponer en una muestra el n-mero de datos es el llamado 1ama'o de 2uestra, para el que #abitualmente se utili*a la letra n". .os tipos de variables, y consecuentemente las clases de datos que se pueden encontrar, son bsicamente las siguientes: 3" 4ariables CU%'IT%TI$%S, tambi)n llamadas (353(1E5ES, 435,36.ES (31E785,(3S o 315,691:S, que son aquellas que no necesitan n-meros para e!presarse; cada forma particular en que pueden presentarse se denomina modalidad. $or ejemplo, el se!o de una persona es una variable cualitativa y ;varn< o ;mujer< son sus -nicas modalidades. En consecuencia, para una variable cualitativa, cada dato no es ms que la informacin de que un determinado elemento de la muestra presenta una determinada modalidad. Entre la variables cualitativas cabe distinguir: a=" las variables cualitativas ORDIN%'ES, que son las que teniendo ms de dos modalidades tienen establecido un orden natural entre las mismas, de forma que sus modalidades se enuncian siguiendo una cierta ordenacin ascendente o descendente y no de otra manera. $or ejemplo, la variable ;gravedad del pronstico de lesiones traumticas< podra tener como orden natural entre sus modalidades ;leve<, ;moderado<, ;grave<, etc., pero nunca diramos ;grave<, ;leve<, ;moderado<, etc. en este orden. a>" las variables cualitativas PUR%S, que no tienen un orden natural preestablecido entre sus modalidades, y podemos utili*ar cualquier ordenacin para ellas, como por ejemplo el grupo sanguneo o la nacionalidad de una persona no #ay que confundirse con ordenaciones arbitrarias, como el orden alfab)tico, pensando que convierten en ordinales a las variables, ya que no significan una verdadera ordenacin natural de las modalidades". a?" las variables DICOTO!IC%S, que tienen slo dos modalidades posibles, y en las que ni siquiera tiene sentido plantearse si son o no ordinales; El #ec#o de tener slo dos modalidades les confiere caractersticas especiales. (abe citar como ejemplos el ya citado del se!o, el pertenecer o no a una asociacin, o en general cualquier situacin que slo admita una respuesta ;s o no<. 6" 4ariables CU%NTIT%TI$%S o @92E5,(3S, que son aquellas que necesitan n-meros para ser e!presadas, como la edad de alguien o el n-mero de pginas de un libro. (ada forma particular en que se presentan es un valor num)rico, y un dato es en estas variables un n-mero que refleja el valor de la variable en un elemento de la muestra. 1ambi)n pueden distinguirse al menos dos subtipos: b=" las variables cuantitativas DISCRET%S, cuyos valores son aislados #abitualmente n-meros enteros", de forma que pueden enumerarse y e!isten valores ;consecutivos< entre los que no puede #aber otro; $or ejemplo, un resumen puede tener ?AB ?&C, pero no ?AB.=D palabras. b>" las variables cuantitativas CONTINU%S, que pueden tomar cualquier valor num)rico, entero o decimal, de forma que tericamente entre dos valores posibles siempre se pueden encontrar otros entre %&.? Eg. y %&.A Eg. de peso siempre est %&.?D Eg., por ejemplo", aunque en la prctica el n-mero de cifras decimales est limitado y la variable se maneja en cierto modo como discreta. .a distincin entre los distintos tipos de variables es importante porque las t)cnicas a aplicar a cada uno pueden ser muy diferentes, y muc#os parmetros y clculos tienen sentido para las variables de un tipo y no para las de otro. Fay que tener en cuenta tambi)n que una misma variable de la realidad puede venir e!presada de diversas maneras, incluso como cualitativa o como cuantitativa, dependiendo de que usemos valores num)ricos o slo modalidades; pi)nsese, por ejemplo, en que la estatura puede darse en centmetros variable cuantitativa continua" o diciendo de alguien que es ;bajo<, ;mediano< o ;alto< variable cualitativa ordinal". En estos casos, debe quedar claro que la variable es en esencia cuantitativa y que su tratamiento
como cualitativa supone una p)rdida de calidad en la informacin, slo admisible si no podemos disponer de los datos num)ricos. (. DISTRI&UCIONES DE )RECUENCI% * T%&'%S EST%DISTIC%S. Sea cual sea el tipo de variable, lo que se tiene como informacin de una variable en una muestra es un n-mero finito n de datos, es decir, de valores o de anotaciones sobre qu) modalidad cualitativas" o qu) valor cuantitativas" tiene cada elemento de la muestra; a este conjunto de datos se le llama distribucin y, salvo cuando el tama'o de muestra n sea muy peque'o, se debe resumir para que el lector pueda comprender bien los resultados. 9n primer y obligado paso de ese resumen de datos es el simple recuento de las repeticiones de un mismo valor o modalidad; ello nos conduce al concepto fundamental de frecuencia, con dos enfoques: + )rec"encia absol"ta es el n-mero de veces que una modalidad o un valor de una variable aparece entre los datos de una muestra; si en una muestra de la variable ;nivel de estudios< aparecen =AG personas con nivel de estudios ;superiores<, diremos que =AG es la frecuencia absoluta de la modalidad ;superiores<. @aturalmente, el n-mero total de datos es n y, por tanto, la suma de las frecuencias absolutas de todas las modalidades o valores debe ser igual al tama'o muestral n. / )rec"encia relati a de una modalidad o valor de una variable es su frecuencia absoluta dividida entre el tama'o muestral, es decir, la proporcin de veces que aparece esa modalidad o valor entre todos los datos de la muestra; si la frecuencia absoluta =AG del ejemplo anterior corresponde a una muestra de >CCC personas, diremos que la frecuencia relativa de la modalidad 36 es =AGH>CCC I C.CDA. Es claro que la suma de las frecuencias relativas de todas las modalidades o valores debe ser =, ya que las absolutas suman n y estamos dividiendo entre n. Es muy #abitual e!presar las frecuencias relativas como porcentajes multiplicndolas por cien" y entonces la frecuencia relativa del ejemplo sera D.A J y la condicin de la suma sera que deben sumar =CC J, lo que se entiende mejor la frecuencia relativa es la parte del total de datos que corresponde a cada valor o modalidad". .as frecuencias absolutas y relativas son aplicables a cualquier tipo de variable, y de a# su importancia; adems, pese a su simplicidad, dan lugar a conceptos muy importantes, como el de proporcin, y son la base sobre la que se construye cualquier resumen de los datos. 9sando como ejemplo el grupo sanguneo en una muestra de doscientas personas, la tabla siguiente sirve para resumir lo que, si no, sera una tediosa lista de doscientos grupos sanguneos: 7rupo sanguneo de una muestra de >CC personas. 2odalidades : 3 6 36 1otales 0recuencia absoluta G& &? AG =A >CC 0recuencia relativa J" C.A>& A>.&J" C.>%& >%.&J" C.>AC >A.CJ" C.CDC D.CJ" =.CCC =CCJ"
9na tabla como esta se denomina distribucin de frecuencias, y puede incluir tambi)n las llamadas frecuencias acumulativas, que son la suma de las frecuencias del valor o modalidad que se considere y de todos los anteriores; puede #aber frecuencias acumulativas absolutas o relativas, y en todo caso slo tienen sentido con variables cuantitativas o cualitativas ordinales, ya que #ay que poder fijar cuales son los valores o modalidades ;anteriores<. 3s, por ejemplo, las frecuencias acumulativas no son definibles en el ejemplo del grupo sanguneo, que es una variable cualitativa pura. 4eamos un ejemplo donde s lo son, de una variable cuantitativa discreta. En este segundo ejemplo, cuya tabla se encuentra a continuacin, el n-mero n de datos es &CC y la variable toma seis valores distintos C,=,>,?,A y &" en la muestra. @o se deben confundir los valores de la
variable, que son el n-mero de visitas ninguna, una, dos, etc." de cada persona a la biblioteca en ese mes, con las frecuencias absolutas, que son el n-mero de personas cuyo n-mero de visitas es uno determinado: que >=C sea la frecuencia absoluta del valor C quiere decir que de entre las &CC personas consideradas en el estudio >=C no #an ido ninguna ve* a la biblioteca en ese mes, es decir, que el valor de la variable es KceroK para ellas; esta frecuencia absoluta >=C supone el A>J de &CC, por lo que C.A> A>J es la frecuencia relativa del valor C de la variable. 4isitas mensuales a una biblioteca de una muestra de &CC usuarios inscritos $alores C = > ? A & 1otales )rec. absol"ta >=C =DG %G >A =A % &CC )rec. relati a A>.CJ ?&.%J =?.%J A.GJ >.GJ =.>J =CCJ )rec. absol. ac","lati a >=C ?GG A&% AGC ABA &CC )rec. relat.ac","lati a A>.CJ DD.%J B=.>J B%.CJ BG.GJ =CC.CJ
$or lo que se refiere a las frecuencias acumuladas o acumulativas es lo mismo", y usando como ejemplo las que se recogen en la tabla, podemos observar que las frecuencias acumuladas del primer valor coinciden con las >=C y A>J ya comentadas para ese valor, lo que es lgico porque no #ay ning-n valor anterior con cuyas frecuencias sumarlas; a partir del segundo rengln s tenemos acumulacin ?GGI>=CL=DG y DD.%J I A>.CJ L ?&.%J", para el tercer valor se suman tres sumandos y as sucesivamente. @tese que las -ltimas frecuencias acumuladas tienen que coincidir con el n-mero de datos vlidos total en este ejemplo &CC" y con el =CCJ, ya que se #an sumado todas las frecuencias absolutas y relativas, respectivamente. En el caso de las variables continuas, el n-mero de valores distintos que puede tomar la variable es infinito, tericamente, y en la prctica puede ser bastante grande: pi)nsese que si medimos, por ejemplo, la estatura en centmetros de una muestra de personas adultas podemos tener fcilmente sesenta o setenta valores distintos. Esto provoca que a menudo las tablas tuvieran que ser muy e!tensas, con muc#simos renglones, lo que las #ara in-tiles por incomprensibles. $ara evitarlo, se #acen agrupaciones de varios valores por ejemplo, las estaturas =%C, =%=, =%>, =%? y =%A se pueden agrupar en el intervalo =%C/=%A"; de esta forma, se pueden encontrar tablas construdas agrupando los valores en intervalos cuando #ay muc#os valores entre el mnimo y el m!imo; el concepto importante es entonces el de marca de clase o valor medio del intervalo, que es, por ejemplo, =%> en el caso citado del intervalo =%C/=%A. 3dems, es muy conveniente que los intervalos tengan todos la misma longitud. En las tablas as, con clases, las frecuencias se dan para cada intervalo, pero no para cada valor de la variable; podemos saber, por ejemplo, que en una muestra #ay ?> personas que miden entre =%C y =%A cm., pero no cuntas de ellas miden en particular =%? cm.; #ay, por tanto, una p)rdida de informacin con respecto a lo que sera una tabla detallada. $or esta ra*n, y gracias a los avances de la ,nformtica que permiten almacenar muc#os valores y trabajar con ellos rpidamente, las tablas con intervalos ya no se usan, como #asta #ace pocos a'os, para reali*ar clculos sobre la variable, sino que su utilidad queda reducida a la mejor comprensin de las tablas y a la elaboracin de grficos. 1odo ello significa que las ganancias en comprensin al #acer intervalos se corresponden necesariamente con p)rdidas de informacin se pierde el detalle" y por ello para los cmputos num)ricos se usan los datos originales de uno en uno, mientras que para tablas y grficas es frecuente usar intervalos. -. .R%)IC%S EST%DISTIC%S .as distribuciones de frecuencias se presentan en tablas como las anteriores, o bien en grficas. .a representacin grfica se utili*a para facilitar al lector la comprensin de los resultados, pero no a'ade ninguna informacin sobre la que contendra una tabla de frecuencias; el objetivo de las grficas es que la informacin ;impacte< directamente al lector y que se e!prese el ;perfil< de la distribucin, pero no debe
olvidarse el rigor en aras de la est)tica: las grficas deben reflejar fielmente lo que tratan de representar, fundamentalmente las frecuencias de cada modalidad o valor. $or ello la regla fundamental para la construccin de una grfica es que: 'as /reas 0o longit"des1 2an de ser proporcionales a las frec"encias3 condicin ine!cusable para que una grfica sea correcta. 3dems, con carcter general puede recomendarse que el pie de la grfica e!plique convenientemente de qu) se trata, que no se intente representar demasiada informacin en una sola grfica, que los detalles sean lo suficientemente visibles, etc. E!isten diversos tipos de grficas, cada uno de ellos adecuado a un cierto tipo de variables, por lo que podemos clasificar las grficas atendiendo a estos tipos. 3s, para caracteres o variables (93.,131,43S se pueden mencionar: / El diagra,a de barras o rect/ng"los , consistente en asociar a cada modalidad de la variable un rectngulo cuya superficie refleje su frecuencia: las modalidades se suelen situar en #ori*ontal y la escala de frecuencias absolutas o relativas en vertical. Si las bases de los rectngulos se dibujan todas iguales, par cumplir la regla fundamental antes citada basta tomar como alturas de los rectngulos directamente las frecuencias, sin mayor complicacin el rectngulo de una modalidad con frecuencia D tendr altura D y as con todas". .os rectngulos suelen representarse separados en este tipo de grficas, que tambi)n pueden aparecer con las barras #ori*ontales y las modalidades situadas verticalmente. El diagra,a de sectores , que refleja como sectores de un crculo las frecuencias de cada modalidad. (omo el radio es constante en un crculo, para cumplir la regla fundamental de proporcionalidad basta #acer al ngulo de cada sector proporcional a la frecuencia, lo que se consigue multiplicando los ?%CM del crculo por la frecuencia relativa de cada modalidad. Este tipo de grficas es muy -til para comparar los resultados de una variable cualitativa en dos o ms muestras.
Fay otras grficas menos frecuentes pero igualmente vlidas para variables cualitativas; cabe citar los pictogra,as, en los que se representa una misma figura para cada modalidad pero con tama'o proporcional a las frecuencias pictograma por e!tensin" o una misma figura repetida tantas veces como sea necesario para reflejar la frecuencia de cada modalidad pictograma por repeticin", los cartogra,as, en los que se representa cada modalidad sobre puntos o regiones de un mapa, o los diagra,as de s"perficie , en los que se divide una figura geom)trica, generalmente un rectngulo, en tro*os proporcionales a las frecuencias. $or su parte, para variables (93@1,131,43S los tipos de grficas ms importantes son los siguientes: / $ara variables discretas, el diagra,a de seg,entos. .as variables discretas toman valores aislados, como puntos sueltos, en la ;recta de los n-meros<; )sta suele representarse #ori*ontalmente con los valores negativos a la i*quierda del cero y los positivos a la derec#a; por esos puntos sueltos, la grfica adecuada para las variables discretas es el diagrama de segmentos, en el que sobre cada valor de la variable se coloca verticalmente un segmento que tiene una longitud proporcional a su frecuencia; as se consigue que la abscisa #ori*ontal" refleje los valores y que la ordenada vertical" e!prese las frecuencias de la variable. Es lo mismo usar para ello frecuencias absolutas o relativas, ya que las dos clases de frecuencias son a su ve* proporcionales por la propia definicin de frecuencia relativa; por ello podemos #acer el diagrama con frecuencias absolutas o relativas, a voluntad. Nunto con el diagrama de segmentos, puede dibujarse una lnea quebrada que una los e!tremos superiores de los segmentos, que se llama polgono de frec"encias; a veces este polgono que matemticamente no es tal, sino una ;poligonal<" se representa slo, como si se #ubieran borrado los segmentos verticales. El polgono de frecuencias tambi)n puede usarse junto con:
El 2istogra,a o 2istogra,a de rect/ng"los, que es la grfica adecuada para representar variables cuantitativas continuas. Estas variables cubren tericamente con sus valores a la recta de los n-meros reales, o al menos de un cierto intervalo, de manera que ;infinitamente< junto a un valor se encontrara otro y no se producen ;saltos< entre ellos. En la prctica, esto se traduce en que casi siempre se maneja un gran n-mero de valores distintos y ello #ace poco adecuado para estas variables un diagrama de segmentos; por ello, y para respetar la continuidad de la variable, lo que se #ace es agrupar los valores en intervalos y grficamente se representan rectngulos yu!tapuestos cuyas bases descansan sobre la #ori*ontal y cuyas alturas son tales que el rea de cada rectngulo sea proporcional a la frecuencia de cada intervalo. 3 veces estos #istogramas son llamados errneamente diagramas de barras.
4. P%R%!ETROS DE UN% DISTRI&UCION Se trata de resumir ms la informacin de una tabla o de una grfica, y de encontrar algunos valores lo ms simples posible que nos permitan dar informacin sobre la muestra o comparar dos muestras entre s. $ara #acer ese resumen o informacin de los datos #ay tres enfoques fundamentales: / En primer lugar, dar un valor lo ms representativo posible de todos los valores de la muestra, que no sea, por tanto, ni de los ms bajos ni de los ms altos. 3s se crean las medidas parmetros de centrali*acin, tendencia central o posicin central. En segundo lugar, y como complemento a lo anterior, dar una valoracin de #asta qu) punto los datos se parecen entre s o bien estn muy diferenciados dispersos"; adems, cuanto ms se pare*can entre s los valores que nos salen, ms se parecern al representante o parmetro de centrali*acin que elijamos, y mejor sera )ste. $or todo esto conviene medir las diferencias internas de los datos mediante las medidas parmetros de dispersin. 0inalmente, en tercer lugar, se puede tambi)n tratar de medir qu) valor supera a una cierta porcin o proporcin de valores, o lo que es lo mismo, tratar de informar sobre la distribucin de la variable diciendo a cuntos de sus valores supera uno dado. $ara ello se usan los cuantiles como medidas parmetros de posicin.
+efiniremos a continuacin los ms importantes entre todos los parmetros de estos tres tipos y para ilustrar su clculo usaremos el ejemplo siguiente, donde los datos son el n-mero de #ermanos e!cluido )l mismo" de una muestra de =? ni'os; presentamos los datos ordenados de menor a mayor para mejor comprensin, pero en principio los datos nos vendran en cualquier orden. Supongamos que son los siguientes: C C C C = = = > > ? A & D
4amos a definir a#ora las medidas ms importantes: $rimer grupo: P%R%!ETROS DE CENTR%'I5%CION. Entre los parmetros de centrali*acin, tambi)n llamados de tendencia central o de posicin central, tres son las definiciones destacables: .a !OD%: es el valor de la variable que tiene mayor frecuencia en la muestra, es decir, el que se repite ms moda se asocia con lo ms frecuente". En nuestro ejemplo es el valor C, que tiene una frecuencia absoluta de cuatro, que es la ms grande. .a moda puede definirse para cualquier tipo de variables. 1ambi)n se puede #ablar de moda local o secundaria, que sera cualquier valor ms frecuente que sus adyacentes, es decir, con ms frecuencia que la que tengan el anterior y el posterior, lo que requiere al menos orden en los datos; no #ay ninguna moda secundaria en nuestro ejemplo. .a !EDI%N%: es el valor que est en el centro de la distribucin, es decir, el valor que supera a la mitad de los de la muestra y se ve superado por la otra mitad salvo empates en ambos casos"; se calcula buscando el valor de la muestra que ocupa el lugar nL="H>, con los datos ordenados. En nuestro ejemplo es el valor =,
que corresponde al s)ptimo lugar que deja seis por debajo y seis por encima". .a mediana no puede definirse para variables cualitativas puras, sino slo para ordinales y cuantitativas, ya que necesita un orden en los datos. .a !EDI% 2E+,3 35,12E1,(3: es el centro de gravedad de la distribucin, o fiel de la balan*a entre todos los datos. Se calcula sumando los datos y dividiendo entre el tama'o de la muestra, esto es, entre el n-mero de datos. En nuestro ejemplo, la suma de los datos es >% y el n-mero de ellos =?, de forma que la media vale >%H=? I >.CC ; por su propia naturale*a, la media slo es definible para variables cuantitativas, ya que si no #ay n-meros no se puede sumar. Es la ms importante de las medidas de centrali*acin y en general de todos los parmetros estadsticos y al ser centro de gravedad tiene la propiedad de que si #allamos las diferencias de cada dato con ella llamadas desviaciones", la suma de estas diferencias o desviaciones es S,E2$5E (E5: para cualquier distribucin de cualquier variable, lo que resulta clave para la definicin de las medidas de dispersin. En nuestro ejemplo, con media de >, las desviaciones que se obtienen restando cada dato menos la media" son: /> /> /> /> /= /= /= C C L= L> L? L&
que como puede calcularse suman cero las negativas, que proceden de datos inferiores a la media, suman O ==, y las positivas, que proceden de datos superiores a la media, suman L==, de modo que todas suman C". E!isten otras medidas de centrali*acin de uso menos frecuente, como la media ponderada que es una media aritm)tica con distintos pesos de importancia para los distintos datos", la media geom)trica ra* en)sima del producto de los datos" o la media armnica la inversa de la media aritm)tica de los inversos de los datos". Segundo grupo: P%R%!ETROS DE DISPERSION. $or su parte, las medidas de dispersin se basan en la idea de medir las diferencias entre unos datos y otros midiendo las diferencias de cada dato con la media, esto es, usando las desviaciones; sin embargo, como )stas siempre suman cero, es preciso considerar su valor absoluto o su cuadrado para que ello no ocurra seran ya todas positivas". .as ms importantes medidas de dispersin son las siguientes: .a DES$I%CION %&SO'UT% !EDI%: es la media aritm)tica de los valores absolutos de las desviaciones, por lo que se calcula tomando como positivas todas las desviaciones, sumndolas y dividiendo entre n; en nuestro ejemplo la suma de los valores absolutos no confundir con frecuencias absolutas, que no tiene nada que ver" sale >> y por tanto la desviacin absoluta media vale >>H=? I =.%B ; el tener que usar valores absolutos complica los desarrollos matemticos con este parmetro y por eso se usa poco, pese a su valor intuitivo. Es muc#o ms importante: .a $%RI%N5%: es la media aritm)tica de los cuadrados de las desviaciones, por lo que se calcula elevando al cuadrado cada desviacin, sumando esos cuadrados y dividiendo entre n; en nuestro ejemplo resulta &G la suma de cuadrados de las desviaciones, con lo que la varian*a es &GH=? I A.A% ; el cuadrado es matemticamente muc#o ms manejable que el valor absoluto, lo que #ace de la varian*a la reina de los parmetros de dispersin desde un punto de vista terico. Sin embargo, el #ec#o de que care*ca de interpretacin intuitiva y que sus unidades sean cuadradas P#ermanos cuadradosQ" #ace que es la prctica se use muc#o ms su ra* cuadrada, la DES$I%CION ST%ND%RD o DES$I%CION TIPIC%, con muc#o la ms usada de las medidas de dispersin, y que en nuestro ejemplo valdra >.==, con lo que el informe ms #abitual para nuestros datos dara una media de >.CC y la desviacin tpica de >.== como parmetros ms informativos. $or motivos difciles de e!plicar aqu, relacionados con cuestiones de inferencia estadstica, es ms recomendable usar el denominador n/= en lugar del n al calcular la varian*a y la desviacin tpica de una muestra, quedndose el n para el caso en que se conoce toda la poblacin; en nuestro ejemplo, pues, sera mejor calcular como varian*a &GH=> I A.G? y como desviacin standard su ra* cuadrada >.>C estos -ltimos seran la varian*a muestral o quasivarian*a y la desviacin tpica muestral y seran los utili*ados en la prctica, aunque la definicin terica sea con denominador n por ser la varian*a una KmediaK". 3 efectos comparativos entre distintas muestras e incluso entre distintas variables, se define:
El COE)ICIENTE DE $%RI%CION , que es el cociente, a menudo e!presado en tanto por ciento, entre la desviacin tpica y la media de una distribucin. Es una especie de desviacin tpica ;relativa<, y en nuestro ejemplo valdra >.>C==H>.CC I =.=CCC&& bien ==CC&.C&J ntese que no es un verdadero porcentaje, porque puede valer ms del =CCJ"; este resultado indicara muc#a dispersin en los datos del ejemplo en relacin con la media. 3dems de las citadas, la ms simple de las medidas de dispersin es el R%N.O, RECORRIDO %!P'ITUD, que es la diferencia entre el valor m!imo y el mnimo de la muestra, y que indica qu) e!tensin de la recta de los n-meros ocupan los datos de nuestra muestra. 1ercer grupo: CU%NTI'ES : $3532E15:S +E $:S,(,:@ .os cuantiles completan el cuadro de los parmetros de una distribucin. En cierto modo pueden ser considerados como medidas de centrali*acin de #ec#o la mediana es uno de ellos" y tambi)n como medidas de dispersin algunas pueden construirse a partir de ellos" pero en realidad son medidas de posicin. Se define el cuantil p como aquel valor de la variable que puede estar o no en la muestra" que supera al pJ de los datos de la muestra; resultan -tiles slo cuando la muestra es numerosa y permiten saber en que ;posicin< se encuentra un valor dado con respecto al conjunto de una muestra o poblacin. Se definen entre los ms importantes: .os CU%RTI'ES, que definen las cuartas partes de la muestra mediante tres ;cortes<: el primer cuartil deja por debajo al >&J de la distribucin, el segundo coincide con la mediana y el tercero deja por debajo al D&J de la distribucin. @o tienen muc#o sentido en muestras peque'as, pero en nuestro ejemplo valdran respectivamente C, = y ?.& que estn situados en las posiciones ;tercera y media<, s)ptima y ;d)cima y media< de los datos ordenados". .os DECI'ES, que dan nueve cortes para definir de die* en die* por ciento los valores de la distribucin; as, el primer decil deja por debajo una d)cima parte de la distribucin, el segundo dos d)cimas partes, etc., #asta nueve deciles. .os PERCENTI'ES, que son como los deciles pero de uno en uno por ciento, y por tanto son noventa y nueve; por ejemplo, el percentil ?D deja por debajo al ?DJ de la distribucin, y est claro que no tienen sentido en muestras tan peque'as como la de nuestro ejemplo, ya que trece elementos no se pueden ;partir< en cien partes. 1odos los cuantiles son definibles sobre variables cuantitativas o sobre cualitativas ordinales, porque requieren siempre que los datos est)n ordenados. .os cuantiles ms pr!imos al percentil &C, como la propia mediana o los cercanos a ella, pueden considerarse como parmetros de centrali*acin y sin embargo los ms lejanos al centro ayudan a medir la dispersin; por ejemplo, si restamos el tercer cuartil menos el primero obtenemos el R%N.O INTERCU%RT8'ICO, que es una medida de dispersin. (on el rango intercuartlico estamos midiendo la e!tensin que nos cubre la mitad central de nuestros datos; recu)rdese que el 53@7: era la e!tensin cubierta por toda la muestra ordenada se define como m!imo menos mnimo", mientras que el 53@7: ,@1E5(9351,.,(: es la e!tensin cubierta por la mitad central de los datos ordenados, e!cluyendo la cuarta parte inicial los que son inferiores al primer cuartil" y la cuarta parte final los que son superiores al tercer cuartil".
Cog n o S f e r a
www.ugr.es/local/rruizb/cognosfera