Conceptos Básicos de Estadística
Conceptos Básicos de Estadística
Conceptos Básicos de Estadística
Estadística
La estadística es la ciencia encargada de estudiar los datos. Esta incluye recolectar, analizar y
describir los datos para llegar a conclusiones sobre un fenómeno en particular.
La estadística emplea herramientas matemáticas y de probabilidades, con las cuales desarrolla
métodos y modelos para analizar los datos. Estos métodos estadísticos se aplican en diversas
áreas de las ciencias naturales y sociales, la publicidad y el mercadeo, en las industrias y el
entretenimiento.
De allí que tras un análisis estadístico se pueda comprender un hecho, tomar decisiones,
estudiar problemas sociales, ofrecer soluciones en determinados casos, deducir relaciones en
una población, entre otros.
Tipos de Estadísticas
Los tipos de estadística se puede subdividir en dos grandes ramas: descriptiva e inferencial.
Estadística descriptiva: Se refiere a los métodos de recolección, organización, resumen y
presentación de un conjunto de datos. Se trata principalmente de describir las
características fundamentales de los datos y para ellos se suelen utilizar indicadores,
gráficos y tablas.
Estadística inferencial: Se trata de un paso más allá de la mera descripción. Se refiere a
los métodos utilizados para poder hacer predicciones, generalizaciones y obtener
conclusiones a partir de los datos analizados teniendo en cuenta el grado de
incertidumbre existente.
Estadística paramétrica: Se caracteriza porque asume que los datos tienen una
determinada distribución o se especifican determinados parámetros que deberían
cumplirse. Así, por ejemplo, en un análisis paramétrico podemos trabajar bajo el
supuesto de que la población se distribuye como una Normal (hay que justificar nuestro
supuesto) y luego sacar conclusiones bajo el supuesto que esta condición se cumple.
Estadística no paramétrica: En ella no es posible asumir ningún tipo de distribución
subyacente en los datos ni tampoco un parámetro específico. Un ejemplo de este tipo
de análisis es la prueba binomial.
Población
Una población estadística (o, en un ámbito clara y abiertamente referido al mundo de la estadística,
simplemente como población), es el conjunto de elementos que son de interés para un experimento,
un estudio o una consideración de algún tipo. Los elementos que lo componen pueden ser por ejemplo
individuos, animales, fenómenos u eventos.
De hecho, todas las formas de estudio estadístico aspiran a dar información sobre una población
determinada de antemano, ya sea real y existente (como el total de votantes de un país), o hipotética
(como el total de veces que arrojemos al aire una moneda).
Por lo tanto, la población estadística representa el universo de los elementos a considerar, o sea, su
totalidad plena, y en ello se distingue de una muestra estadística. Esta última es una porción de dicho
universo, o sea, un subconjunto de la población, que se toma para análisis ya que resulta mucho más
pequeño y manejable que el total, pero aun así representativo del mismo.
Las muestras estadísticas se estudian para obtener conclusiones probables respecto de poblaciones
estadísticas cuyo estudio individual y detallado sería prácticamente imposible.
Por ejemplo, si un frasco contiene 50 monedas de cinco céntimos y otras 50 de diez, la población
estadística será de 100 monedas, ya que al meter la mano y sacar una muestra, habrá ese número total
de elementos, entre los cuales tomar un puñado.
Constituye un total de elementos de interés estadístico por alguna razón, del cual se
pueden tomar muestras representativas.
Puede ser más o menos uniforme o heterogénea, y del mismo modo puede estar
constituida por elementos reales o imaginarios, finitos o virtualmente ilimitados.
No debe confundirse con muestra estadística.
Población estadística finita. Como su nombre lo indica, está constituida por una cantidad delimitada y
abarcable de elementos, que en un instante determinado del tiempo equivale a un número concreto.
Por ejemplo: la cantidad de automóviles en circulación en una ciudad un lunes por la mañana.
Población estadística infinita. En cambio, este tipo de poblaciones estadísticas poseen un número
virtualmente ilimitado de elementos, es decir, no tienen un fin determinado en un momento dado, ya
sea porque realmente son ilimitados, o porque su número es tan grande, que jamás podríamos saberlo
con certeza. Por ejemplo: la cantidad de átomos de sodio en el universo.
La lógica detrás de la toma de una muestra estadística es que, dadas las condiciones propicias, puede
estudiarse un conjunto muy voluminoso a través de porciones más pequeñas que resulten
representativas, o sea, que sean más o menos proporcionales al resto.
Por ejemplo, si deseamos estudiar el universo de los millones de electores de un país, deberemos tomar
una muestra lo suficientemente amplia como para llevarnos, en un grupo reducido de unos pocos
cientos de personas, un reflejo de las opiniones políticas que hay en la población entera. Así, de una
población de millones de individuos, estudiaríamos una muestra de cientos de ellos.
Dichas muestras se obtienen a través de diferentes técnicas estadísticas, que garantizan a través de
distintos mecanismos una aleatoriedad adecuada para el menor sesgo posible en la selección, es decir,
la mayor posible objetividad que permita obtener aproximaciones válidas al universo estadístico. Si, por
el contrario, se obtiene una muestra sesgada, las conclusiones posibles serán menos fidedignas y por lo
tanto menos útiles.
Obviamente, toda muestra forma parte de una población, de modo que si se tienen varias poblaciones,
se deberán tener también varias muestras. El muestreo es el proceso de obtención de una muestra
estadística y es común en disciplinas tan diferentes como la demografía, la biología o la política.
Muestreo
El muestreo es el proceso de selección de una porción de datos que pertenecen a un conjunto de
elementos denominado población o universo. Esta porción seleccionada se conoce como muestra.
Esta técnica estadística permite a los investigadores estudiar grandes conjuntos de datos. Esto supone
que la consideración de la totalidad de los elementos es fundamental para realizar conclusiones,
pues todos influyen en el comportamiento o fenómeno estudiado. Por lo tanto, el muestreo reduce la
población a sus componentes más representativos, con el fin de simplificar el análisis.
El muestreo estadístico, además, se puede definir como una herramienta de representación del
comportamiento de una población, lo que lo convierte en una etapa fundamental de las investigaciones
propias de la estadista descriptiva e inferencial.
En este último caso, a partir del muestreo se puede deducir una característica que está presente en una
población, sin necesidad de recurrir al estudio completo de la misma.
El principal objetivo del muestreo estadístico es resumir un bloque de información, recopilando los
elementos más representativos del mismo, y dar lugar a las conclusiones de una investigación.
Tanto el muestreo como la muestra garantizan que, con cierta precisión, se obtenga una visión real del
comportamiento o fenómeno que se presenta en una población estudiada. De esta manera, se acude,
únicamente, a una porción del conjunto de datos, lo que reduce la cantidad de esfuerzo que se debe
realizar para llevar a cabo un análisis apropiado.
Aunque son términos similares, son piezas fundamentales en cualquier estudio estadístico y se
complementan entre sí, la muestra y el muestreo son conceptos diferentes. Por esta razón, al realizar
una investigación, es importante reconocer su diferencia, para llevar a cabo un correcto tratamiento de
los datos.
El muestreo estadístico se refiere a la técnica o procedimiento que se lleva a cabo para la recopilación
de datos que representan a una población, mientras que la muestra es la variable o el resultado de este
proceso. En otras palabras, el muestreo es un proceso y la muestra, el dato concluyente.
El muestreo estadístico se clasifica en dos grupos, principalmente, según la influencia que tienen los
investigadores del estudio sobre la manipulación de los datos recopilados. Estos son:
Generalmente, es el tipo de muestreo más utilizado, pues permite obtener un bloque de información
sin haber recibido ninguna modificación arbitraria, la cual puede influir en el resultado final de la
investigación.
Muestreo aleatorio
Es el tipo de muestreo probabilístico más frecuente, y se le denomina también como muestreo con
reemplazo. En este caso, la muestra seleccionada se conforma por un número indeterminado de
variables seleccionadas de manera aleatoria, a partir de unos números generados al azar, los cuales
serán asignados, indeterminadamente, a los datos de la población, es decir, reemplazando.
En este caso, se adopta un sistema para seleccionar los datos que formarán parte de la muestra.
Primero, se aplica la siguiente fórmula:
Los datos recopilados, en este tipo de muestreo probabilístico, se dividen en diversos grupos de
acuerdo a ciertas características que tengan en común. Se calcula el porcentaje de datos que representa
cada grupo con respecto a la totalidad del conjunto, y se aplica la siguiente fórmula: (porcentaje / 100) *
n. El resultado de esta operación se repite para cada grupo y se redondea, de manera que su suma sea
igual a n.
Esto se hace para identificar la cantidad de datos de cada grupo que debe hacer parte de la muestra,
donde, el resultado de la fórmula, representa qué número de datos deben ser tomados de ese grupo en
específico.
Es similar al muestreo estratificado, sin embargo, los grupos ya están conformados previamente según
cierta clasificación establecida.
Muestreo no aleatorio
Muestreo no aleatorio o no probabilístico
Se trata de otro método de muestreo estadístico, donde los investigadores especifican, arbitrariamente,
los aspectos fundamentales de la muestra. Incluso, en este caso, se seleccionan, directamente, los datos
que formarán parte de la muestra.
En este tipo de muestreo, los datos de la muestra se toman arbitrariamente, y los motivos de la
selección nacen, únicamente, de las razones del investigador.
Se le denomina bola de nieve o en cadena debido a que la información se obtiene a partir de una
persona encargada de contactar con otras, que a su vez se comunican con otros individuos. De esta
manera, ciertos datos que no están al alcance del equipo investigador se pueden obtener sencillamente.
Muestreo discrecional
Para este tipo de muestreo, lo que se busca son personas o elementos que, según la opinión del equipo,
aporten a la investigación y a las conclusiones a las que se desea llegar.
Variable
Una variable estadística es una característica de una muestra o población de datos que puede adoptar
diferentes valores que puede adoptar diferentes valores.
Cuando hablamos de variable estadística estamos hablando de una cualidad que, generalmente adopta
forma numérica. Por ejemplo, la altura de Juan es de 180 centímetros. La variable estadística es la altura
y está medida en centímetros.
También podríamos, por ejemplo, decir que el beneficio de una empresa ha sido de 22.300 dólares el
último año. En este caso, la variable sería el beneficio y estaría medido en dólares. Ambas variables son
del tipo cuantitativo (se expresan con un número)
Claro que no todas las variables estadísticas son iguales y, por supuesto, no todas se pueden (en
principio) expresar en forma de número. Así, otra variable que podríamos encontrarnos es el color de
ojos de una persona. Por ejemplo, Juan tiene los ojos verdes y Andrés los tiene azules. La variable sería
el color de ojos y sería una variable cualitativa. Es decir, no se expresa con número.
Tipos de variables
Aunque hay decenas de tipos de variables estadísticas, por norma general podemos encontrarnos dos
tipos de variables:
Además, cada una de estas variables podría tener más subtipos, ya que tenemos variables de
tipo económico, categóricas, dicotómicas, dependientes, independientes y cardinales. Es decir, como
ya hemos dicho, muchos tipos de variables estadísticas. Por ejemplo, podríamos tener una variable
estadística de tipo cuantitativo, discreta y dependiente.
Adicionalmente, también debemos aclarar que el hecho que las variables cualitativas se expresen con
nombre no quiere decir que no puedan ser parte de un modelo matemático. Así pues, podríamos crear
una variable cuantitativa a partir de una variable cualitativa. Por ejemplo, para el color de ojos
podríamos asignar un 1 si tiene los ojos azules, un 2 si tiene los ojos verdes y un 3 si tiene los ojos
marrones. O, en otros casos, podríamos también convertir variables dicotómicas que indica SI o NO, en 1
o 0.
Ejemplos de variables
Un ejemplo de variable cuantitativa serían las horas que trabaja un empleado a lo largo de la semana.
Otro ejemplo podría ser el número de kilómetros que realiza un ciclista profesional a lo largo de la
temporada.
Ejemplo de variable continua
Las variables continuas son aquellas que toman valores infinitos dentro de un intervalo como puede ser
el tiempo que un corredor tarda en recorrer los 100 metros lisos. Un ejemplo más puede ser el peso de
un paquete de espaguetis.
Podríamos mencionar el número de helados vendidos en una heladería o el número de clases que da un
profesor a lo largo del curso lectivo.
Los asistentes a un concierto que tienen entradas diferenciadas por la zona en la que se ubiquen como
pista, grada o zona VIP sería una variable cualitativa.
El resultado obtenido por los diferentes pilotos en una carrera de coches de Fórmula 1 seria una variable
ordinal. Otro ejemplo podría ser la calificación otorgada por los jueces de un campeonato de gimnasia
rítmica.
El color de ojos de una persona, azules, marrones o verdes es un ejemplo de este tipo de variable. Un
ejemplo más sería el estado civil de una persona o su sexo.
Niveles de Medición
El primer paso en el análisis de datos es simplemente entender lo que estos significan. Esto se facilita
clasificando cada variable según su nivel de medición. El nivel de medición se refiere a la relación entre
los valores que se asignan a los atributos de una variable.
Una variable es cualquier cantidad que puede ser medida y cuyo valor varía a través de la población. Por
ejemplo, si consideramos una población de estudiantes, la nacionalidad del estudiante, género,
calificaciones, etc. son todas las variables definidas, y su valor correspondiente diferirá para cada
estudiante.
Si queremos calcular el salario promedio de los ciudadanos de un país, podemos salir y registrar el
salario de todas y cada una de las personas para calcular el promedio o elegir un muestreo aleatorio de
toda la población y calcular el salario promedio para esa muestra, y luego usar las pruebas estadísticas
para obtener conclusiones para una población más amplia.
El tipo de prueba estadística que puede utilizarse para llegar a una conclusión sobre la población en
general depende del nivel de medición de la variable considerada. El nivel de medición de una variable
no es otra cosa que la naturaleza matemática de una variable o cómo se mide una variable.
Los números se pueden agrupar en 4 tipos o niveles: nominal, ordinal, por intervalos y de razón.
El nivel nominal es apenas una medida. Se refiere a la cualidad más que a la cantidad. Un nivel nominal
de medición es simplemente una cuestión de diferenciar por nombre, por ejemplo, 1 = hombre, 2 =
mujer.
Aunque estamos usando los números 1 y 2, estos no indican cantidad. La categoría binaria de 0 y 1
utilizada para las computadoras es un nivel nominal de medición.
Otros valores nominales son números de seguro social, códigos postales y números de teléfono.
Este nivel se refiere al orden en la medición. Una escala ordinal indica la dirección, además de
proporcionar información nominal. Bajo/Medio/Alto o Más Rápido/Más Lento son ejemplos de niveles
ordinales de medición.
Calificar una experiencia con un “9” en una escala de 1 a 10 nos indica que fue mejor que una
experiencia calificada con un “6”.
La escala de intervalo proporciona información sobre el orden y también poseen intervalos iguales. Del
ejemplo anterior, si supiéramos que la distancia entre 1 y 2 es la misma que entre 7 y 8 en nuestra
escala de calificación de 10 puntos, entonces tendríamos una escala de intervalo.
Un ejemplo de una escala de intervalo es la temperatura, medida en una escala Fahrenheit o Celsius. Un
grado representa la misma cantidad subyacente de calor, independientemente de dónde ocurra en la
escala.
Construir bajo estos niveles de medición requiere de una comprensión más profunda de principios
matemáticos y estadísticos. Sin embargo, es importante comprender los diferentes niveles de medición
al utilizar e interpretar escalas.
Intervalo de tiempo de día – intervalos iguales; reloj analógico (12 horas), la diferencia entre la 1 y 2 pm
es la misma que la diferencia entre las 11 y 12 am.
Además de poseer las cualidades de las escalas nominal, ordinal y de intervalo, una escala de razón tiene
un cero absoluto (un punto donde no existe ninguna de las cualidades que se están midiendo).
Utilizar una escala de razón permite hacer comparaciones como ser el doble de alto, o la mitad de alto
de una persona. El tiempo de reacción (cuánto tiempo tarda en responder a una señal de algún tipo)
utiliza una escala de medición de razón, el tiempo.
Aunque el tiempo de reacción de un individuo siempre es mayor que cero, conceptualizamos un punto
cero en el tiempo y podemos afirmar que una respuesta de 24 milisegundos es dos veces más rápida
que un tiempo de respuesta de 48 milisegundos.
De razón- el tiempo de 24 horas tiene un 0 absoluto (medianoche); 14 en punto está dos veces más lejos
de la medianoche que las 7 en punto.
El nivel de medición para una determinada variable se define por la categoría más alta que puede
alcanzar. Por ejemplo, categorizar a alguien como extrovertido (sociable) o introvertido (tímido) es una
escala nominal.
Si clasificamos a las personas 1= tímido, 2= ni tímido ni sociable, 3=sociable, entonces tenemos un nivel
de medición ordinal.
En cuanto a si tenemos o no una escala de razón de timidez, aunque pudiéramos medir cero timideces,
sería difícil elaborar una escala en la que nos sintiéramos cómodos diciendo que una persona es 3 veces
más tímida que otra.
El nivel de medición de intervalo o de razón es conveniente porque podemos utilizar los procedimientos
estadísticos más potentes para las Medias y Desviaciones Estándar.
Para tener esta ventaja, con frecuencia los datos ordinales se tratan como si fueran de intervalo; por
ejemplo, escalas subjetivas de calificación (1= muy malo, 2= malo, 3= regular, 4= bueno, 5= excelente).
Probablemente la escala no cumple con los requisitos de los intervalos iguales, no sabemos si la
diferencia entre 2 (malo) y 3 (regular) es la misma que la diferencia entre 4 (bueno) y 5 (excelente). Para
aprovechar las técnicas estadísticas más potentes, los investigadores muchas veces asumen que los
intervalos son iguales.
Parámetro
Se conoce como parámetro al dato que se considera como imprescindible y orientativo para lograr
evaluar o valorar una determinada situación. A partir de un parámetro, una cierta circunstancia puede
Por dar algunos ejemplos concretos: “Si nos basamos en los parámetros habituales, resultará imposible
comprender esta situación”, “El paciente está evolucionando de acuerdo a los parámetros
esperados”, “Estamos investigando, pero no hay parámetros que nos permitan establecer una relación
con el caso anterior”, “La actuación del equipo en el torneo local es el mejor parámetro para realizar
Para el ámbito de las matemáticas, los parámetros consisten en variables que permiten reconocer,
dentro de un conjunto de elementos, a cada unidad por medio de su correspondiente valor numérico.
Un parámetro estadístico es aquel formado por una función establecida sobre los valores numéricos de
una comunidad. Se trata, por lo tanto, de una cifra representativa que permite modelizar un plano real.
La utilidad de los parámetros estadísticos se encuentra ante la dificultad para manipular un elevado
número de datos individuales de una misma sociedad. Este tipo de parámetros permite obtener un
Estadígrafo
Un estadígrafo es un estadístico: un individuo que se especializa en estadística. La estadística, en tanto,
Los estadígrafos, en definitiva, son expertos en estas cuestiones. Pueden obtener los datos numéricos a
través de encuestas, investigaciones y otras metodologías y luego los estudian para generar
La primera tarea del estadígrafo es la recolección de los datos. Esos números son la materia prima que
le sirve para desarrollar un análisis y así llegar a una conclusión, vinculada al comportamiento y a las
La noción de estadígrafo, por otra parte, puede emplearse con referencia a la variable que permite la
matemática que, partiendo de ciertos datos, posibilita llegar a un número real como conclusión según la
estimación de parámetros.
una característica que a veces fluctúa y que varía con la posibilidad de adoptar diversos valores. Estos
últimos se pueden observar o medir, según las necesidades. Para que una variable adquiera un valor es
necesario que se relacione con otras, o sea, que se incluya en una hipótesis o una teoría, momento en el
A la colección de los datos correspondientes a las características de todos los valores o individuos
investigados se la denomina población. De esa población se obtiene una muestra: una parte
Retomando la idea de estadígrafo, se trata de una medida descriptiva que resulta inherente a
la muestra. El estadígrafo suele utilizarse para estimar el parámetro, que es la medida descriptiva
inherente al conjunto de la población. Todos estos conceptos son usados por los profesionales de las
resume un gran volumen de datos que se pueden derivar de la observación de las variables, definidas
más arriba. Por lo general se usa una fórmula aritmética para calcular el parámetro, la cual se consigue
de los datos de la población. Dado que la estadística tiene como principal objetivo elaborar un modelo
Podemos reconocer más de un tipo de estadígrafo, algunos de los cuales repasaremos a continuación.
Podemos comenzar por el de tendencia central, también conocido como de posición. Es el que sirve
para describir la posición en la que se encuentra una distribución de frecuencias en torno a un valor de
la variable que se está estudiando. Es normal que se ubiquen en el centro, y de ahí uno de sus nombres
(«central»).
Por otro lado, tenemos el estadígrafo de la variabilidad o de dispersión, que se da cuando hay
distribuciones diferentes pero que con valores iguales para varios de sus estadígrafos de tendencia
otras mediciones estadísticas, precisamente por las similitudes, que pueden ser engañosas.
También existe el estadígrafo de deformación o de asimetría, que se enfoca en el estudio del grado de
simetría que se puede apreciar en las distribuciones. A su vez, este tipo de estadígrafo reconoce otras