Estadistica e Informatica
Estadistica e Informatica
Estadistica e Informatica
1. Introducción
La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de
series de datos, generando unos resultados que se utilizan básicamente en dos contextos: la
toma de decisiones y la proyección de situaciones futuras.
Tradicionalmente la estadística se ha dividido en dos ramas diferentes:
la estadística descriptiva y,
la inferencia estadística.
La estadística descriptiva sirve para recoger, analizar e interpretar los datos. Mediante la
inferencia estadística se intenta determinar una situación futura basándose en información
pasada.
Tipos de variables
Dependiendo de cómo sea la característica que vamos a estudiar podemos encontrarnos
con dos tipos distintos de variables estadísticas:
Variables cualitativas, si los valores de la variable no se pueden medir, por ejemplo sexo,
estado civil, nivel de estudios, color de ojos,…
Variable cuantitativas, si los valores se pueden medir, por ejemplo, altura, edad, peso,…
A su vez las variables cuantitativas pueden ser:
discretas, si los valores que toma la variable son aislados, por ejemplo edad,
número de hermanos,…
continua, si la variable puede tomar todos los valores de un intervalo, por ejemplo
peso, altura, temperatura,…
1
ESTADISTICA Y LA INFORMATICA 2010
Al ser tratados con Excel, los valores de las variables cualitativas aparecerán
normalmente como textos, mientras que las cuantitativas serán números, enteros o con
decimales en el caso discreto, o intervalos, en el caso continuo.
Tablas estadísticas
Una vez determinada la población, las características que quieren analizarse y
seleccionada la muestra, llega el momento de recoger los datos y de organizarlos en tablas.
Las tablas de frecuencias resumen numéricamente, la información sobre el carácter
estadístico que queremos estudiar.
Antes de construir una tabla de frecuencias, vamos a definir los elementos que suelen
aparecer en ella:
La frecuencia absoluta fi, de un valor xi, es el número de veces que se repite
dicho valor.
La frecuencia relativa hi del valor xi es el cociente entre la frecuencia absoluta
del xi y el número total de valores, N.
fi
hi=
N
La frecuencia absoluta acumulada Fi del valor xi, es la suma de todas las
frecuencias absolutas de todos los valores anteriores a xi, más la frecuencia
absoluta de xi.
Fi= f1+f2+…+fi
La frecuencia relativa acumulada Hi del valor xi es la suma de todas las
frecuencias relativas de todos los valores anteriores a xi, más la frecuencia
relativa de xi
Hi=h1+h2+…+hi
El porcentaje pi de un valor se obtiene multiplicando por 100 la frecuencia
relativa del valor xi.
2
ESTADISTICA Y LA INFORMATICA 2010
Así es como se construye con Excel una tabla de frecuencias:
Introducimos en la primera columna (A) las distintas modalidades si el carácter es
cualitativo (Figura 2), o bien, los valores de la variable estadística discreta. (Figura 3)
3
ESTADISTICA Y LA INFORMATICA 2010
En la segunda columna (B) introducimos los valores de la frecuencia absoluta fi.
¿Cómo?
En la celda C3 escribimos = B3 y en la celda C4 escribimos =C3 + B4. A
continuación copiamos la fórmula, situando el puntero del ratón en la esquina inferior
derecha de esta celda y cuando el puntero del ratón se convierta en + y arrastramos hasta la
casilla última casilla.
Veamos ahora cómo podemos construir una tabla de frecuencias cuando la variable es
continua o está agrupada en intervalos o clases.
En la primera columna (A) escribimos los intervalos o clases [a, b), en la columna B
el extremo de la izquierda a y en la C el extremo de la derecha b. En la columna D, vamos a
calcular la marca de clase, escribimos la fórmula =(B3+C3)/2 y la copiamos.
4
ESTADISTICA Y LA INFORMATICA 2010
3. GRÁFICOS ESTADÍSTICOS
Según el tipo de variable, la representación gráfica más utilizada en cada caso es…
Variable cualitativa: diagrama de sectores (En Excel… circular)
Variable cuantitativa discreta: diagrama de barras (columnas).
Variable cuantitativa continua: histograma (columnas)
Asistente para gráficos que nos guiará a lo largo de toda la creación del gráfico.
Para variables estadísticas cualitativas, dibujaremos un diagrama de sectores, de la
siguiente forma:
5
ESTADISTICA Y LA INFORMATICA 2010
Paso 1 de 4: tipo de gráfico. Nos aparece un cuadro de diálogo con dos fichas, en la ficha
Tipos estándar (que es la que aparece por defecto), hacemos clic en Circular, elegimos el
Subtipo que queramos (elegimos el Circular o el Circular en 3D) y hacemos clic en
siguiente.
Paso 2 de 4: datos de origen. En este paso debemos indicar los datos que vamos a
representar, para ello, hacemos clic en el botón que aparece al final del cuadro Rango de
datos, y seleccionamos el rango A2:B6 (pinchamos y arrastramos desde la celda A2 hasta la
B6), una vez hecho esto, hacemos clic en el botón
Nos aparece una vista previa del gráfico y hacemos clic en Siguiente.
6
ESTADISTICA Y LA INFORMATICA 2010
Paso 4 de 4: Ubicación del gráfico. En este último paso elegiremos si queremos insertar el
gráfico como objeto, en esta misma hoja, o si queremos insertarlo en una hoja nueva.
Elegimos la opción que deseemos y hacemos clic en Finalizar.
Paso 1 de 4: tipo de gráfico. Nos aparece un cuadro de diálogo con dos fichas, en la ficha
Tipos estándar (que es la que aparece por defecto), hacemos clic en Columnas, elegimos el
Subtipo que queramos (elegimos el primero, Columnas apiladas) y hacemos clic en
siguiente.
Paso 2 de 4: datos de origen. Indicamos los datos que vamos a representar; hacemos clic en
el botón que aparece al final del cuadro Rango de datos, y seleccionamos el rango
A2:B8 (pinchamos y arrastramos desde la celda A2 hasta la B8), una vez hecho esto,
7
ESTADISTICA Y LA INFORMATICA 2010
Activamos la ficha Serie (haciendo clic sobre ella), hacemos clic sobre la Serie 1 y la
8
ESTADISTICA Y LA INFORMATICA 2010
Paso 3 de 4: opciones de gráfico; escribimos el título del gráfico; En el Eje de categorías
(X) la variable estadística que representamos, en este caso Hijos, y en el Eje de valores (Y):
la frecuencia absoluta, relativa, o lo que estemos representando.
En la ficha Leyenda, quitamos la leyenda.
Una vez que tenemos hecho el gráfico, podemos poner más finas las barras, hacemos clic
en la primera barra y a continuación hacemos clic con el botón derecho del ratón sobre
dicha barra, elegimos el menú Formato de serie de datos…, hacemos clic sobre la ficha
Opciones y en Ancho de rango: seleccionamos 500. Hacemos clic en Aceptar.
Después podemos cambiar los colores de las barras, el color del fondo, la escala de los ejes,
etc.
Para construir el histograma, hacemos lo mismo que para el caso de la variable
estadística discreta. La única diferencia es que ahora tenemos que hacer las barras más
gruesas, así que Ancho de rango: seleccionamos 0.
El polígono de frecuencias se obtiene uniendo la parte superior de las barras del
diagrama (los puntos medidos de los rectángulos del histograma). Investiga cómo se podría
9
ESTADISTICA Y LA INFORMATICA 2010
hacer, es decir, que tipo de gráfico de los que incorpora Excel, nos permite obtener este
gráfico.
Una pista: inténtalo en Tipos personalizados.
X́ =
∑ xi. fi
N
En la tabla de frecuencias añadiremos una nueva columna con los productos xi.fi⋅
- Mediana (Me): es el valor de la variable que deja por encima y por debajo, el
mismo número de datos, es decir, es el valor central de la variable. No existe una
fórmula para calcular la medida, sino una serie de normas. Tampoco se puede
calcular para variables cualitativas.
Cálculo de la mediana: Se busca en la columna de la frecuencia absoluta acumulada
el primer valor que supere la mitad de los datos (N/2), la mediana será el valor que
10
ESTADISTICA Y LA INFORMATICA 2010
se corresponda con esta frecuencia absoluta acumulada, o también se busca en la
columna de frecuencias relativas acumuladas el primer valor que supera a 0,5.
Ejemplo:
Dicho de otra manera, se llama desviación media a la suma de las diferencias entre
los datos y la media, en valor absoluto, dividido entre el número de datos. Es decir,
en la tabla de frecuencias añadiremos una columna con estas diferencias ( Xi− X́ ) . fi,
11
ESTADISTICA Y LA INFORMATICA 2010
después sumamos y dividimos entre N. El valor absoluto se calcula con la función
=ABS().
Varianza (s2): es la media aritmética de los cuadrados de las desviaciones respecto de la
media. Se representa
❑2=
∑ ( Xi− X́)2 . fi
N
❑2=+ √ ❑2
∑ Xi 2 . fi
❑= 2
− X́ 2
N
En la figura siguiente verás las columnas que añadimos para calcular estas medidas de
centralización y de dispersión. Veamos:
12
ESTADISTICA Y LA INFORMATICA 2010
13