MODULO 4 Razonamiento Matemático
MODULO 4 Razonamiento Matemático
MODULO 4 Razonamiento Matemático
MÓDULO
4
Estadística descriptiva
Inicio del Módulo: Lunes de la semana 5
Término del Módulo: Domingo de la semana 6
Plan de aprendizaje
Objetivo
Introducción
El módulo 4 está dedicado al estudio de los principios, conceptos y técnicas básicas de la estadística
descriptiva. Se compone de dos temas, y a su análisis le dedicaremos las semanas quinta y sexta. Los
temas contienen los siguientes epígrafes:
• Dedícale al módulo, al menos, una hora y media diaria de estudio. Sé constante y lee
detenidamente el 100% de los contenidos.
• La primera tarea consiste en explicar en tus propias palabras la importancia y aplicaciones de la
estadística en general y de la estadística descriptiva en particular en tu futuro desempeño
profesional. Y la segunda tarea debes elaborar un cuadro comparativo sobre las características y
utilidad de la media aritmética, la mediana y la moda como medidas de tendencia central en la
estadística descriptiva.
• Visita los sitios de Internet recomendados y lleva a cabo las investigaciones sobre la materia
tratada.
• Si algo acerca de los contenidos o tareas no te queda claro, léelos de nuevo y trata de
comprenderlos. Si esto no resuelve tus dudas, recurre a la "Sección de dudas” y tu profesor titular
te responderá en un plazo máximo de 24 horas.
• Recuerda programar tus tiempos de manera tal que entregues tus tareas en las fechas señaladas,
en el lugar indicado y de la manera en que se te solicitan. La entrega tardía puede ocasionarte
contratiempos con la plataforma tecnológica, o alguna penalización.
• Es importante que si te enfermas o tienes algún problema justificable, lo hagas saber a tu profesor
titular, si es posible, el mismo día, a través de tu correo electrónico institucional con copia
a profesoresenlinea@clavijero.edu.mx. En este mensaje debes incluir, escaneado como
archivo adjunto, tu justificante médico para el caso de enfermedad. Si comunicas tu situación de
inmediato, será más sencillo que tu profesor titular te apoye, buscando soluciones viables para tu
caso.
• Aunque no se te asiente la calificación, es importante que realices la Autoevaluación, ya que te
mostrará los puntos débiles que puedes reforzar con estudio adicional.
Para poder evaluar tu desempeño en este módulo es imprescindible que realices todas las actividades
programadas por tu profesor.
Todos los productos entregables se consideran como bien elaborados siempre y cuando cumplan con los
criterios de evaluación especificados.
En la siguiente tabla se muestran las ponderaciones y fechas de entrega de los mismos.
Total: 24%
Referencias
Bibliográficas.
Electrónicas.
Medidas de tendencia central y medidas de dispersión. (n.d.). Extraído el 14 de Julio de 2011 desde
http://www.hiru.com/matematika/matematika_05900.html
Preguntas de estudio
Contenidos
4.1 Conceptos básicos de estadística
Introducción
Cuando coloquialmente se habla de Estadística, se suele pensar en una relación de datos numéricos
presentada de forma ordenada y sistemática. Esta idea es la consecuencia del concepto popular que existe
sobre el término y que cada vez está más extendido debido a la influencia de nuestro entorno, ya que hoy
día es casi imposible que cualquier medio de difusión, periódico, radio o televisión, no nos aborde
diariamente con cualquier tipo de información sobre accidentes de tráfico, índices de crecimiento de
población, turismo, tendencias políticas, etc.
Sólo cuando nos adentramos en un mundo más específico como es el campo de la investigación de las
Ciencias Sociales, Medicina, Biología, Psicología,... empezamos a percibir que la Estadística no sólo es
algo más, sino que se convierte en la única herramienta que, hoy en día, permite dar luz y obtener
resultados, y por tanto beneficios, en cualquier tipo de estudio, cuyos movimientos y relaciones, por su
variabilidad intrínseca, no pueden ser abordadas desde la perspectiva de las leyes deterministas.
Podríamos, desde un punto de vista más amplio, definir la Estadística como la ciencia que estudia cómo
debe emplearse la información y cómo dar una guía de acción en situaciones prácticas que entrañan
incertidumbre.
La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar
regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa
intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la
toma de decisiones y en su caso formular predicciones.
Podríamos, por tanto, clasificar la Estadística en Descriptiva, cuando los resultados del análisis no
pretenden ir más allá del conjunto de datos, e Inferencial cuando el objetivo del estudio es derivar las
conclusiones obtenidas a un conjunto de datos más amplio.
La Estadística Descriptiva
La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población,
altura de los estudiantes de una escuela, temperatura en los meses de verano, etcétera) y trata de extraer
conclusiones sobre el comportamiento de estas variables.
• Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad
de los alumnos de una clase).
• Variables bidimensionales: recogen información sobre dos características de la población (por
ejemplo: edad y altura de los alumnos de una clase).
• Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo:
edad, altura y peso de los alumnos de una clase).
• Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos
(puede ser 1, 2, 3...., etcétera, pero, por ejemplo, nunca podrá ser 3, 45).
• Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de
un vehículo puede ser 80,3 km/h, 94,57 km/h... etcétera.
Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:
• Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si
estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el
precio de la vivienda, cada vivienda es un individuo.
• Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten
información sobre el fenómeno que se estudia. Por ejemplo, si estudiamos el precio de la vivienda
en una ciudad, la población será el total de las viviendas de dicha ciudad.
• Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio de la vivienda
de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería
una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda
que es suficientemente representativo.
Representación de datos
Los datos son colecciones de un número cualquiera de observaciones relacionadas entre sí, para que sean
útiles se deben organizar de manera que faciliten su análisis, se puedan seleccionar tendencias, describir
relaciones, determinar causas y efectos y permitan llegar a conclusiones lógicas y tomar decisiones bien
fundamentadas; por esa razón es necesario conocer lo métodos de Organización y Representación, la
finalidad de estos métodos es permitir ver rápidamente todas las características posibles de los datos que
se han recolectado.
• Representación Tabular: Presenta las variables y las frecuencias con que los valores de éstas se
encuentran presentes en el estudio.
• Representación Gráfica: Se llaman gráficas a las diferentes formas de expresar los datos utilizando
los medios de representación que proporciona la geometría.
1. Arreglo de Datos. Es una forma de presentar los datos en un arreglo ascendente o descendente.
Ofrece las ventajas siguientes: describe los valores mínimos y máximos, en él se pueden dividir
los datos fácilmente en secciones, permite darse cuenta de los valores que aparecen más de una
vez, se puede observar la distancia entre valores consecutivos.
2. Diagrama de Puntos. Muestra la frecuencia con que aparece cada uno de los valores.
3. Diagrama de Tallo y Hoja. Es útil para realizar una exploración preliminar del conjunto, genera una
imagen adecuada de ellos sin perder información.
4. Distribución de Frecuencias. Es una forma de sintetizar los datos y consiste en valerse de una
tabla para clasificar los datos según su magnitud, en ella se señala el número de veces que
aparece cada uno de los valores. Cuando se dispone de un gran número de valores discretos o
cuando las variables son continuas, tiene sentido formar una tabla que presente la distribución de
frecuencias de los datos agrupados en intervalos o clases, de igual tamaño si es posible, sin
embargo, una tabla de este tipo supone una concentración de datos que produce pérdida de
información.
En caso de que el enlace no este activo para verlo haz clic aquí.
Distribución de frecuencias
• Clases o intervalos de clase: Grupo de valores que describen una característica. Deben incluir
todas las observaciones y ser excluyentes. Los intervalos contienen los límites de clase que son
los puntos extremos del intervalo. Se denominan intervalos cerrados, cuando contienen ambos
límites e intervalos abiertos si incluyen sólo un límite.
• Límites Reales: Sirven para mantener la continuidad de las clases.
• Anchura o tamaño del intervalo: Es la diferencia entre los límites reales de una clase.
• Número de clases: Es el número total de grupos en que se clasifica la información, se recomienda
que no sea menor que 5 ni mayor que 15.
• Marca de clase: Es el punto medio del intervalo de clase, se recomienda observar que los puntos
medios coincidan con los datos observados para minimizar el error.
• Frecuencia: Es el número de veces que aparece un valor.
• Frecuencia acumulada: Indica cuántos casos hay por debajo o arriba de un determinado valor o
límite de clase.
• Frecuencia relativa: Indica la proporción que representa la frecuencia de cada intervalo de clase
en relación con el total, es útil para comparar varias distribuciones con parámetros de referencia
uniformes.
• Frecuencia acumulada relativa: Indica la proporción de datos que se encuentra por arriba o debajo
de cierto valor o límite de clase.
Los gráficos son útiles porque ponen en relieve y aclaran las tendencias que no se captan fácilmente en la
tabla, ayudan a estimar valores con una simple ojeada y brinda una verificación gráfica de la veracidad de
las soluciones.
1. Histograma: Está formado por rectángulos cuya base es la amplitud del intervalo y tiene la
característica de que la superficie que corresponde a las barras es representativa de la cantidad
de casos o frecuencia de cada tramo de valores, puede construirse con clases que tienen el mismo
tamaño o diferente (intervalo variable). La utilización de los intervalos de amplitud variable se
recomienda cuando en alguno de los intervalos, de amplitud constante, se presente la frecuencia
cero o la frecuencia de alguno o algunos de los intervalos sean mucho mayores que la de los
demás, logrando así que las observaciones se hallen mejor repartidas dentro del intervalo.
2. Polígono de frecuencias: Se puede obtener uniendo cada punto medio (marca de clase) de los
rectángulos del histograma con líneas rectas, teniendo cuidado de agregar al inicio y al final marcas
de clase adicionales, con el objeto de asegurar la igualdad del áreas.
3. Curvas de frecuencia: No es más que la curva suavizada que se traza sobre el polígono y
representa la asimetría y la curtosis que tiene la distribución, permite visualizar un esquema más
claro del patrón de datos. Existen varios tipos de curva de frecuencia: Curvas J, Simétricas o
Asimétricas (sesgada a la derecha o a la izquierda), Unimodales, Bimodales y Multimodales.
4. Ojivas: Cuando se trata de relacionar observaciones en un mismo aspecto para dos colectivos
diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia, es necesario tener
una base estándar, la frecuencia relativa. La ojiva representa gráficamente la forma en que se
acumulan los datos y permiten ver cuántas observaciones se hallan por arriba o debajo de ciertos
valores. Es útil para obtener una medida de los cuartiles, deciles, percentiles.
Puedes ver ejemplos de estas representaciones gráficas en el documento anteriormente citado en este
mismo tema.
Introducción
Con estas medidas se persigue reducir en pocas cifras significativas el conjunto de observaciones de una
variable y describir con ellas ciertas características de los conjuntos, logrando una comparación más precisa
de los datos que la que se puede conseguir con tablas y gráficas.
Los promedios son una medida de posición que dan una descripción compacta de cómo están centrados
los datos y una visualización más clara del nivel que alcanza la variable, pueden servir de base para medir
o evaluar valores extremos o raros y brinda mayor facilidad para efectuar comparaciones.
Es importante poner en relieve que la notación de promedio lleva implícita la idea de variación y que este
número promedio debe cumplir con la condición de ser representativo de conjunto de datos.
El promedio como punto típico de los datos es el valor al rededor del cual se agrupan los demás valores de
la variable.
Media aritmética
Características de la media:
1. En su cálculo están todos los valores del conjunto de datos por lo que cada uno afecta la media.
2. La suma algebraica de las desviaciones de los valores individuales respecto a la media es cero.
3. La suma del cuadrado de las desviaciones de una serie de datos a cualquier número A es mínimo
si A = X
4. Aunque es confiable porque refleja todos los valores del conjunto de datos puede ser afectada por
los valores extremos, y de esa forma llegar a ser una medida menos representativa, por lo que si
la distribución es asimétrica, la media aritmética no constituye un valor típico.
La moda
Es el valor de un conjunto de datos que ocurre más frecuentemente, se considera como el valor más típico
de una serie de datos.
Para datos agrupados se define como Clase Modal el intervalo que tiene más frecuencia.
La moda puede no existir o no ser única, las distribuciones que presentan dos o más máximos relativos se
designan de modo general como bimodales o multimodales.
Características de la moda.
La mediana
Es el valor de la observación que ocupa la posición central de un conjunto de datos ordenados según su
magnitud. Es el valor medio o la media aritmética de los valores medios. La mediana es un valor de la
variable que deja por debajo de él un número de casos igual al que deja por arriba.
Geométricamente la mediana es el valor de la variable que corresponde a la vertical que divide al histograma
en dos áreas iguales.
Cuando determinados valores de un conjunto de observaciones son muy grandes o pequeños con respecto
a los demás, entonces la media aritmética se puede distorsionar y perder su carácter representativo, en
esos casos es conveniente utilizar la mediana como medida de tendencia central.
Características de la mediana
En ésta, para cada uno de los valores de xi se asigna un factor wi de peso, que depende de la importancia
que el investigador desee darle.
Xp = S ( xi wi) / S wi
Media geométrica
Útil cuando la variable cambia a lo largo del tiempo, esto es, en el cálculo del promedio de tasas, razones,
proporciones geométricas y relaciones de variables. Se utiliza en Matemáticas Financieras y Finanzas para
promediar números índices, tasas de cambio, etcétera.
La media geométrica de una serie de números es la raíz n-ésima del producto de esos números
M = n e (x 1 * x 2 * x 3 *.....*x n )
Se ve afectada por todos los números y valores extremos, pero en menor grado que la media aritmética, su
valor siempre es menor que el de ésta.
Media armónica
Se utiliza para el promedio de rendimientos y velocidades. La media armónica de una serie de números es
el recíproco de la media aritmética del recíproco de esos números.
1 / MH = [ S 1 / xi ] / n
Media cuadrática
Es la raíz cuadrada de la media aritmética de los cuadrados de los números, se usa eficientemente para
promediar los errores o desviaciones porque es más susceptible a los mismos.
MC = 2 e S [ xi 2 ] / n
Los cuantiles
Los cuantiles permiten hacer un análisis minucioso de la distribución, se utilizan generalmente cuando se
quiere ubicar un dato dentro del conjunto. Por ejemplo: ¿pertenece el dato x al 50% superior?, ¿al 10%
inferior?, ¿al 50% central?, etcétera.
Medidas de dispersión
Un rasgo principal de los datos es su dispersión o amplitud, que se refiere a su variabilidad, a la evaluación
de cuán separados o extendidos están estos datos, o bien cuánto difieren unos de otros.
Variación: Es el grado en que los datos numéricos tienden a extenderse alrededor de un valor, generalmente
el valor medio.
1. A menudo una medida de posición de un conjunto de datos se vincula con la indicación de cuán
típico o representativo es para la población y para ello es necesario contar con la información que
proporcionan las medidas de variación. Sólo el conocimiento de un estadístico de tendencia central
no aclara o define toda la distribución, además que no existe un valor de tendencia central ideal,
por lo que es significativo tener una idea de la dispersión de los valores y determinar si es mucha
o poca al rededor de la media, pues si la variación es muy grande, entonces esta medida de
tendencia central no es buena selección como valor típico.
2. La medida de tendencia central no indica la relación de un dato con los otros, es necesario para
ello las medidas de variabilidad o dispersión.
3. Al tratar problemas con datos dispersos se requiere conocer qué problemas puede esto traer, hasta
qué punto la dispersión tiene un riesgo aceptable o inaceptable en la toma de decisiones.
4. Al comparar dos distribuciones, por lo general, centramos la atención en la posición y en la
dispersión.
Rango
Mide la dispersión de la totalidad de los datos. Es la más obvia de las mediadas, ya que es la distancia
entre los valores máximo y mínimo.
El rango o recorrido da alguna idea del grado de variación que ocurre en la población, pero con frecuencia
los resultados pueden ser engañosos, pues éste depende de los valores extremos e ignora la variación de
las demás observaciones. Está afectado por ocurrencias raras o extraordinarias.
Intervalo interdecil
Mide la dispersión del 80% de los datos centrales y se obtiene de la diferencia entre el decil 9 y el decil 1,
evitando así los puntos extremos.
Intervalo intercuartil
Cuando aumenta la dispersión de una distribución de frecuencias, se amplía la distancia entre los cuartiles,
por lo que esta distancia puede usarse como base de una medida de variabilidad.
Desviación cuartílica
Si en una distribución simétrica se mide una distancia igual a la desviación cuartílica a ambos lados de un
punto ubicado en el centro de los cuartiles, el 50% de los valores estarán incluidos dentro de esos límites y
el valor del punto medio coincide con la mediana.
La ventaja de la desviación cuartílica es que evita los valores extremos utilizando únicamente la mitad
intermedia de los datos.
Desviación media
La desviación media o desviación absoluta promedio, es la media aritmética de las desviaciones absolutas
de cada una de las observaciones con respecto a su valor central, la media aritmética o la mediana.
DM =[ S | xi . X | ] / n
DM = [ S fi | xi - X | ] / S fi
Varianza
Otro tratamiento para evadir la suma cero de las desviaciones de las observaciones respecto a su media
aritmética consiste en recurrir al proceso de elevar al cuadrado estas desviaciones y sumar los cuadrados,
dividiendo la suma por el número de casos, a esta cantidad se le denomina varianza, y es la más importante
de las medidas de variación porque tiene la ventaja de no prescindir de los signos de las desviaciones, pero
al igual que la desviación media los valores extremos pueden distorsionarla.
S 2 = S ( xi - X ) 2 / n
S 2 = S fi (xi-X ) 2 / S fi
S 2 = S (xi-X) 2 / ( n)
S 2 = S fi ( xi-X ) 2 / ( S fi )
S 2 * = S (xi-X) 2 / ( n-1)
S 2 *= S fi ( xi-X ) 2 / ( S fi -1)
En inferencia, con una muestra tomada de una población grande se pretende descubrir cuánto varían los
datos alrededor de la media poblacional, si embargo, cuando no se conoce la media de la población, se
estima a partir de la media aritmética de la muestra y esto hace que parezca menos variable de lo que es
en realidad, al dividir por n-1 se está compensando por la variabilidad más pequeña que se observa en la
muestra, por lo que S 2 *, la suma de cuadrados dividida por n-1 es considerado un estimador más eficiente
para la varianza poblacional.
Desviación estándar
Cuando se utiliza la varianza como medida de dispersión, para salvar el problema de trabajar con distintas
dimensiones en la media y en la medida de variabilidad es necesario definir la desviación estándar como la
raíz cuadrada de la varianza.
La desviación estándar es útil para describir cuánto se apartan de la media de la distribución los elementos
individuales. Una medida de ello se denomina puntuación estándar, número de desviaciones a las que
determinada observación se encuentra con respecto a la media.
En la construcción de una tabla de una variable continua hay pérdida de información por el agrupamiento
de los valores en intervalos y se traduce en la discrepancia entre el valor de la desviación observada y
tabulada.
Cuando se necesita comparar dos o más series de datos a veces no es posible hacerlo con las medidas
absolutas, ya sea porque las unidades son diferentes o porque tienen diferente media, en estos casos
deben utilizarse cantidades relativas definidas generalmente como:
Criterios de ejecución:
Criterios de ejecución: