Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
0% encontró este documento útil (0 votos)
56 vistas30 páginas

8 - Interferencia Estadistica

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 30

Muestreo

Introducción
Si se desea estudiar las características de los elementos de una población, dicho
estudio se puede realizar a través de una muestra, observando algunos elementos de
la población.

1- A una población se la define como un conjunto finito o infinito de


elementos, donde N indica el número de elementos de la misma.

2- Una muestra es un subconjunto formado por algunos elementos de la


población, donde n indica el número de elementos que la conforman.

3- Un parámetro se define como una constante indeterminada e indica una


característica poblacional.

4- Muestreo es el proceso de aprender algo acerca de la población sobre la


base de una muestra extraída de ella.

5- Un estimador o estadístico es una característica muestral, que se obtiene a


partir de los elementos de la muestra. A partir del valor del estadístico se
puede inferir el valor del parámetro, es decir generalizar o inferir a nivel de
población.

Ejemplo:

Se desea realizar una investigación de mercado para determinar cuál es el


consumo promedio de un determinado artículo de las familias de esta ciudad.

 Variable en estudio (X): consumo del artículo


 Parámetro (μ): consumo promedio de dicho artículo
 Población (N): todas las familias de la ciudad
 Muestra (n): las familias encuestadas
 Estimador (x): consumo promedio
Ventajas

1- Una de las ventajas del muestreo frente al censo es la economía y rapidez,


ya que reduce el tiempo, el costo y el personal necesario para realizar la
muestra.
2- Entre las otras ventajas, está la obtención de resultados precisos sobre la
base a procedimientos correctos. Hoy casi todas las encuestas estadísticas,
tanto para la toma de decisiones en los negocios como el desarrollo de
teorías sociales y económicas, se realizan basándose en muestras.

3- En algunos casos la población a investigar puede ser muy grande o infinita,


por lo que el muestreo es el único procedimiento posible. Por ejemplo, si se
desea determinar las preferencias de los consumidores por algún artículo en
particular o de los electores por algún candidato presidencial.

4- En otros casos, la medición de los elementos de la población requiere la


destrucción de los mismos. Por ejemplo, si se desea estudiar la duración
promedio en horas de un lote de lamparitas eléctricas.

5- Otra ventaja es la calidad del estudio, ya que al tener menos elementos que
analizar en la muestra, se reducen los errores de codificación, tabulación y
manipuleo de los datos, por lo que se mejora la precisión de los resultados
obtenidos.

6- Por último, el muestreo puede ser más eficiente que el censo, ya que el error
total, de muestreo y de no muestreo, puede llegar a ser menor en la muestra
y los resultados obtenidos pueden utilizarse con un cierto grado de
confianza.

Desventajas

1- Entre las desventajas, se puede mencionar el riesgo con que se estima el


valor del parámetro, ya que el nivel de confianza generalmente es del 90, 95
ó 99%, pero nunca con un 100%.

2- Otra desventaja es que en algunos estudios se necesita un equipo


interdisciplinario, como ser estadísticos, sociólogos, economistas, etc.,
dependiendo de las variables a manejar en la muestra.

3- En una muestra, al tener menos de elementos a analizar, se reduce el error


de no muestreo y se puede manejar el error de muestreo poniéndolo dentro
de límites que no invaliden las decisiones que se tomen y así aumentar la
precisión de los resultados. Realizar un censo no significa que se anule el
error, ya que el error de muestreo desaparece, pero queda el error de no
muestreo.
Modelos de muestreo
Los modelos de muestreo pueden agruparse en muestreo al azar y no al azar.
El primero, también llamado muestreo probabilístico, es el proceso de seleccionar la
muestra teniendo en cuenta la aleatoriedad.

El muestreo probabilístico establece una probabilidad conocida de incluir en


la muestra todos los elementos de la población. Al seleccionar la muestra por
métodos probabilísticos, éstos aseguran la representatividad de la muestra y permiten
estimar los valores de los parámetros con un cierto grado de confianza.

El muestreo no al azar, también llamado dirigido o digitado, es un proceso


de selección de muestra sin uso del azar, sino en base al juicio personal del
investigador. En una muestra dirigida se desconoce la probabilidad de selección de
cada elemento. La precisión de los resultados depende del juicio personal del experto,
por lo que es esencial el conocimiento de la población por parte del muestreo. Cuanto
más homogénea sea la población, más representativa será la muestra.

Este tipo de muestreo no probabilístico exige personal menos entrenado y tiene


menor costo que el muestreo al azar, pero presenta una gran desventaja en la
generalización debido a que el error cometido en la estimación del parámetro no se
puede evaluar cuantitativamente.

Modelos de muestreo probabilísticos


1) Muestreo simple al azar

Es un procedimiento de muestreo que genera muestras simples al azar, en la


cual las n unidades de la muestra son escogidas independientemente y las N unidades
de la población tienen la misma probabilidad de ser incluidas en la muestra.

Si el muestreo se hace con reposición o con reemplazo, todos los elementos de


la población tienen la misma probabilidad (1/N) de ser seleccionados y se regresan a
la misma luego de ser examinados. Si el muestreo es sin reposición o sin reemplazo,
todos los elementos tienen la misma probabilidad de selección en cada extracción,
pero ésta dependerá de los elementos que fueron extraídos anteriormente puesto que
no son regresados a la población luego de ser analizados.

El muestreo aleatorio simple es representativo cuando la población es


homogénea. También es un procedimiento práctico si la población no es muy grande
y si no es costoso encontrar las unidades de muestreo. Por otro lado, puede presentar
distorsiones en cuanto a la representatividad al no proveer un número suficiente de
casos para grupos especiales.
2) Muestreo estratificado

En este tipo de muestreo se divide a la población en grupos denominados


estratos, tomando una muestra en cada estrato por métodos simples al azar.

Cuando la población es heterogénea, sus elementos son clasificados de acuerdo


a ciertas variables en subpoblaciones o estratos, de modo que éstos sean internamente
homogéneos. Por ejemplo: ingreso por categorías ocupacional, tasa de desempleo por
ciudad, etc.

Una muestra estratificada es proporcional cuando el número de unidades


extraídas de cada estrato es proporcional al tamaño de éste. Este procedimiento es
eficiente cuando las dispersiones no difieren sustancialmente en los distintos estratos.

Una muestra estratificada desproporcionada asigna mayor representatividad a


un estrato con una gran dispersión y menor representatividad a un estrato con
pequeña variación. También puede tomar un número igual de unidades en cada
estrato, o dar menor representatividad a los estratos más costosos, etc.

La estratificación es eficiente en poblaciones heterogéneas o altamente


asimétricas, tales como datos por ingresos o ventas al por menor. Al estratificar se
persigue que:

1- Dentro de cada estrato haya la mayor uniformidad posible y,

2- Entre los distintos estratos las dispersiones sean lo más grande posible,

Luego se puede obtener una muestra de menos elementos que con el muestreo
simple al azar.

Este tipo de muestreo elimina los errores entre estratos, si están bien
determinados para que sean homogéneos.

Entre las desventajas, una es que puede no proveer un número suficiente de


casos para estratos pequeños. Por otro lado, presenta una desventaja económica
importante: requiere altos costos y tiempo de selección de la muestra.
3) Muestreo de etapas múltiples
Muestreo por áreas o conglomerados

En el muestreo agrupado o por áreas, se divide a la población en grupos,


denominados conglomerados (cluster) y se extrae una muestra de ellos que
representan a la población. Es decir que los conglomerados se denominan unidades
primarias y son las unidades de muestreo que contienen las unidades de análisis o
unidades elementales que conforman la muestra.

Por ejemplo: del total de N cajas de un depósito, se seleccionan m cajas


(cluster) que contienen s artículos cada una, para estudiar el porcentaje de artículos
defectuosos mediante una muestra de n = m.s artículos.

Muestreo bietápico

De la población clasificada en áreas o conglomerados, se seleccionan una


muestra de las áreas (1 etapa) y dentro de cada una de las áreas seleccionadas, se
toma una muestra de unidades elementales (2da etapa).

Por ejemplo: de todos los depósitos de una ciudad, se seleccionan algunos de


ellos y entre los depósitos elegidos, se eligen m cajas conteniendo s artículos a
analizar, para estudiar el porcentaje de artículos defectuosos en la muestra de n = m.s
artículos.

Muestreo polietápico

En el primer caso considerado anteriormente (3.a) el muestreo se denomina en


una sola etapa; en el segundo caso (3.b), muestreo en dos etapas o submuestreo; si el
muestreo comprende más de dos etapas, se denomina muestreo polietápico o en
múltiples etapas.

Por ejemplo: estudios sociales o económicos realizados a nivel geográfico.

Un muestreo por áreas eficiente presenta:

1) diferencias entre las unidades elementales del mismo grupo lo más grande
posible y

2) diferencias entre los grupos lo más pequeñas posibles.

Este tipo de muestreo presenta bajos costos y tiempos de realización de la


muestra, sobre todo porque concentra las encuestas en áreas próximas. Algunas
desventajas técnicas son que exige tratamientos estadísticos complejos y se produce
una pérdida de precisión y del carácter aleatorio del muestreo.
Muestreo sistemático

Para obtener una muestra sistemática de n elementos, se enumeran los N
elementos de la población de 1 a N y se determina el intervalo de muestreo (k)
haciendo el cociente N / n . Luego se escoge al azar un número (i) del primer
intervalo de muestreo tal que 0 < i < k Los elementos de la muestra serán: i , i + k , i
+ 2 k , . . . , i + ( n - 1 ) .k

Por ejemplo:

Suponiendo una población de N = 890 elementos, de la cual se desea extraer


una muestra sistemática de n = 50 elementos.

Calculando k = N / n = 890 / 50 = 17,8 y suponiendo que se eligió al azar i =


12 los 50 elementos de la muestra son los siguientes elementos enumerados de la
población: 012, 030, 048, 065, 083, 101, . . . , 884.

El muestreo sistemático tiene la ventaja de la sencillez en el diseño, siendo


fácil de escoger cada unidad de una lista o archivo de la población.

Al realizar este tipo de muestreo, se corre el riesgo de que, si hay algún tipo de
vicio en las unidades de la población, puede influir en la muestra si es coincidente
con el módulo k.

Por ejemplo: en un proceso productivo se extraen n unidades cada hora de


producción, determinándose el número de artículos defectuosos. Si la máquina que
los produce presenta un mal funcionamiento periódico, dicha cantidad de defectuosos
podría estar sesgada.

La muestra sistemática no es una muestra simple al azar ya que las unidades de


muestreo escogidas no son independientes, sino que es una muestra por agrupación
en una sola etapa porque cada elemento de la población pertenece a un solo grupo.

Para el ejemplo anterior, los elementos de cada uno de los 17 grupos son:

1° grupo: 001, 019, 037, 054, . . . , 873


2° grupo: 002, 020, 038, 055, . . . , 874
.......
17° grupo: 017, 035, 053, 070, . . . , 889.

Para este tipo de muestreo, como un solo grupo es elegido al azar, no se pueden
calcular los errores estadísticos ya que hay una sola selección.
Proceso de selección de la muestra
El número de unidades de la muestra (n) varía de uno a todos los elementos de
la población (N). El tamaño de la muestra depende de la variabilidad de la población
y del grado de precisión requerido.

La elección de una muestra al azar asegura la aleatoriedad del procedimiento


de muestreo, el cual consiste en hacer una lista completa de todos los elementos de la
población, para luego escoger los elementos de la muestra por medio de una tabla de
dígitos al azar.

Enumerados los elementos de la población de 1 a N, se determina el tamaño de


la muestra n, se elige un dígito cualquiera de la tabla y luego los siguientes dígitos se
eligen de manera vertical u horizontal, hasta completar los n elementos de la muestra.

Ejemplo:

Suponiendo una población de N = 890 elementos, de la cual se desea extraer


una muestra simple al azar de n = 50 elementos. Los elementos de la población están
identificados con los números del 001 al 890.

Suponiendo que en la tabla se presentó la siguiente sucesión de dígitos al azar:

34 86 88 15 52 01 54 03 54 55 05 01 48 11 73 etc.

Luego, el 1° elemento de la muestra es el elemento número 348 de la


población; el 2°, el 688 ; el 3° , el 155 ; etc.… hasta completar los 50 elementos de la
muestra.

Otra forma de seleccionar una muestra es a través de un generador de dígitos


pseudoaleatorios en una computadora o calculadora científica. En este caso los
números aleatorios (Random) generados, aparecen comprendidos entre 0 y 1.

Supongamos la siguiente secuencia: 0,0769 0,0580 0,8886 0,7894 . . ..

Para obtener los n elementos de la muestra, se multiplica cada número aleatorio


por el tamaño de la población (N).

Luego para el ejemplo anterior, el 1° elemento de la muestra es el 068 ( 0,0769


. 890 ) de la población; el 2° elemento, el 052 ; el 3°, el 791; etc.
Distribución en el muestreo
La selección de muestras probabilísticas es importante porque todas las
muestras posibles extraídas de una misma población arrojan distintos valores de los
estadísticos. Así, un estadístico calculado a partir de una muestra al azar, es una
variable aleatoria que presenta una cierta distribución de probabilidad denominada
distribución en el muestreo.

Por ejemplo, supongamos la variable (X) número de hijos por familia, donde
los N valores de la población son: 1 2 3 4 (N = 4).

El siguiente parámetro indica el promedio de hijos por familia:

Luego, en función de las distintas muestras al azar de igual tamaño que se


pueden extraer de una población y obtener para cada muestra distintos valores de
estadísticos, éstos se pueden considerar variables aleatorias.

Un estadístico, como toda variable aleatoria, presenta una distribución de


probabilidad denominada distribución en el muestreo, con esperanza
matemática y variancia definidas.

Teorema central del límite (De Moivre)


Dada una población con media y variancia 2, ambas finitas, entonces la
distribución en el muestreo de la media aritmética tiende a la distribución Normal,
con la misma media poblacional y variancia partida el tamaño de la muestra, cuando
éste aumenta.

Es decir:
Distribución en el muestreo
Dada una variable aleatoria x que presenta una distribución Normal en la
población, con media y variancia σ 2.

Es decir: x ~ N (µ; σ2 ) con E ( x ) = µ y V ( x ) = σ 2

Sean x 1 , x 2 , . . . , x n n variables aleatorias correspondientes a una muestra


de tamaño n extraída de dicha población.

1) Sea la media aritmética el estimador de la media poblacional, donde:

2) Sea la variancia muestral S2 el estimador de la variancia poblacional σ2,


donde:
3) Dada una variable aleatoria x que presenta una distribución Normal en la
población, con media y variancia 2 desconocida.

Es decir: x ~ N (µ; σ 2 ) con E (x ) =µ y σ 2 desconocida

La diferencia entre las medias muestral y poblacional, dividida por el cociente


entre el desvío standard muestral y la raíz cuadrada del tamaño de la muestra define
una variable t que presenta una distribución t de Student con (n-1) grados de libertad.

4) Si la población es finita, las observaciones no son independientes, por lo


tanto, la variancia de la media muestral presentará la siguiente expresión:

En la práctica, si la fracción de muestreo n / N 0.05, se considera que la


población es infinita, por lo que el factor de corrección para poblaciones finitas se
puede despreciar.

5) Sea una muestra de tamaño n extraída de una población finita dicotómica,


entonces la variable aleatoria x que indica el número de éxitos, presenta una
distribución Binomial si las extracciones son con reposición o una distribución
Hipergeométrica si las extracciones son sin reposición. Considerando una
distribución Binomial, la variable aleatoria x presenta las siguientes características:

E( x ) = n P y V ( x ) = nPQ
donde x indica el número de éxitos y P Q son las proporciones poblacionales
de éxito y fracaso respectivamente. Sea la proporción muestral p el estimador de la
proporción poblacional P, dado por la siguiente expresión:

Ejemplo:

Se tienen los siguientes valores en la población:

2 4 6 8 10

Calcular la esperanza y variancia de la media muestral si se extrae una


muestra de 2 elementos:

1. con reposición
2. sin reposición

Dada la población de tamaño N = 5, los parámetros son:


a) Si se realizan dos extracciones con reposición, se tiene las siguientes
muestras posibles:
La esperanza matemática de la media muestral es la media poblacional. Es
decir: E ( x )µ

La variancia de la media muestral es igual a la variancia poblacional dividida el


tamaño de la muestra. Es decir:

b) Si se realizan dos extracciones sin reposición:


Propiedades de los estimadores
Insesgamiento: Un estimador es insesgado o no viciado cuando la esperanza
del estimador es igual al parámetro. Por ejemplo:

 La media muestral es un estimador insesgado de µ ya que E ( x ) = µ


 La variancia muestral definida como:

Consistencia: Un estimador es consistente cuando la probabilidad de que el


estimador tienda al parámetro tiende a uno, a medida que aumenta el tamaño de la
muestra. Por ejemplo: La media muestral es un estimador consistente de la media
poblacional, ya que:

Eficiencia: De dos estimadores de un mismo parámetro, será más eficiente el


que tiene menor variancia. Por ejemplo: La media muestral x es un estimador
eficiente de la media poblacional ya que tiene variancia mínima por propiedad de la
x.

Sufiencia: Un estimador es suficiente si contiene toda la información posible


proporcionada por la muestra, relativa al valor verdadero del parámetro. Es decir que
el estimador transmite tanta información de la muestra cómo es posible acerca del
parámetro, de modo que no será proporcionada más información por cualquier otro
estimador calculada de la misma muestra. Luego, los valores de la muestra no
proporcionan más información sobre el parámetro. Esta propiedad significa que la
distribución de las variables de la muestra debe ser independiente del parámetro.
Matemáticamente se comprueba cuando la función de densidad conjunta de la
muestra puede factorizarse en dos funciones: una que dependa solamente del
estimador y otra que dependa solamente del parámetro. Por ejemplo: la media
muestral x es un estimador suficiente de la media poblacional.
Error de muestreo
Se desea lograr un buen estimador, es decir que el valor del estimador se
encuentre, con una alta probabilidad de suceder, muy cerca del valor verdadero del
parámetro. Esto requiere que la distribución en el muestreo del estimador se
concentre lo más posible alrededor del valor del parámetro, lo cual significa que la
dispersión del estimador sea lo más pequeña posible. Los estimadores están sujetos a
un cierto error de muestreo, el cual está dado por el desvío standard de la distribución
en el muestreo.

La precisión con que se estima un parámetro se mide en términos del error de


muestreo, ya que cuanto menor sea su valor, mayor será la precisión con que
muestras repetidas de una población reproducirán una estimación de un parámetro
poblacional.
Estimación de parámetros
Introducción
La teoría de la Inferencia estadística trata de métodos por los cuales se extrae
una muestra de una población y en base a ella se puede:

 Estimar el valor del parámetro desconocido (Método de estimación)

 Determinar si el parámetro es o no igual que cierto valor preestablecido


(Método de prueba de hipótesis).

La inferencia estadística es una herramienta fundamental en investigaciones


científicas, formulación de políticas y toma de decisiones en los negocios. Por
ejemplo: estimación de los rendimientos de distintos tipos de inversión;
determinación de niveles generales de precios, ventas, ingresos y costos, etc.
Estimación puntual
Sea x una variable aleatoria cuya distribución f (x, O) en la población tiene
parámetro O.

Se extrae una muestra de tamaño n de dicha población, obteniéndose x1, x 2 , .


. , x n valores. Sea el estadístico

O ˆ = f (x1, x 2,. . ., x n) el estimador de O

Con el valor del estadístico calculado en la muestra se obtiene una estimación


puntual, con la cual se pretende inferir el valor del parámetro O en la población. Así,
un estimador es un estadístico, y una estimación puntual es cualquiera de sus valores.

Los parámetros y estimadores más usuales son:

Ejemplo:

De una población de 40 artículos, se extrae una muestra de 6. Los pesos


obtenidos (en Kg) son:

10 13 16 12 9 10

Estimar puntualmente el peso promedio de los artículos suponiendo una


distribución Normal para la variable peso.

X = peso x ~ N ( u, o 2 ) donde,

 u = peso promedio poblacional (Parámetro)


 N = 40 artículos (Elementos de la población)
 n = 6 artículos (Elementos de la muestra)
 Luego x = peso promedio muestral (Estimador)

La estimación puntual será:


Estimación por intervalos
Para realizar una estimación por intervalos, se establece un intervalo de
posibles valores del estimador, con una cierta probabilidad de que dicho intervalo
contenga el verdadero valor del parámetro. Una estimación por intervalos es la
estimación de un parámetro por un intervalo al azar, llamado intervalo de
confianza, tal que la probabilidad de que L1 <= O <= L 2 es igual a 1 - a.

En símbolos:

Los dos límites del intervalo de confianza se calculan teniendo en cuenta el


valor del estimador (estimación puntual), el error de muestreo (desvío estándar del
estimador) y la probabilidad de que el intervalo cubra el valor verdadero del
parámetro (nivel de confianza).

Un intervalo de confianza da una probabilidad de 1 - α de que el parámetro que


se estima se encuentre el intervalo [L 1 ; L 2]. Por ejemplo, si 1 - α es igual a 0,95,
esto significa que 95 de cada 100 intervalos cubrirán el verdadero valor del parámetro
y 5 de 100 de ellos no.

Intervalo de confianza para la media


poblacional μ
El intervalo de confianza para la media poblacional μ está dado por:

Donde:

Distribución Normal. Variancia poblacional conocida:


Distribución Normal. Variancia poblacional desconocida

Distribución no Normal. Tamaño de la muestra grande

Distribución no Normal. Tamaño de la muestra chica

Intervalo de confianza para la proporción


poblacional P
El intervalo de confianza para la proporción poblacional P está dado por:
Intervalo de confianza para la variancia
poblacional σ 2
El intervalo de confianza para la variancia poblacional σ 2 está dado por:

Ejemplos:

1) La Cámara de Comercios de Mar del Plata desea estimar el gasto promedio


por turista y por visita a dicha ciudad. Se escogió para ello una muestra simple al azar
de 100 turistas que dio un gasto promedio de $ 200 con una dispersión de $ 80. Se
desea construir un intervalo de confianza del 90% para el gasto promedio.

 x = gasto por turista


 μ = gasto promedio poblacional
 μ = x = $ 200 Gasto promedio muestral
 Sx = $ 80 Variancia muestral
 n = 100 Tamaño de muestra grande

Intervalo de confianza:

El gasto promedio por turista y por visita se encuentra entre $ 187 y $ 213 con una
confianza del 90%.
2) De una población de 40 artículos, se extrae una muestra de 6.Los pesos
obtenidos (en Kg) son:
10 13 16 12 9 10
Estimar por intervalo de confianza el peso promedio de los artículos
suponiendo una distribución Normal para la variable peso y un nivel de confianza del
95%.

El peso promedio de los 40 artículos se encuentra comprendido entre 9,15 y 14,19


Kg con una confianza del 95%.

3) De una población de 400 personas se extrae una muestra simple al azar de


60 personas, obteniéndose 40 personas fumadoras. Estimar por intervalo de confianza
del 95% la proporción de fumadores.

El porcentaje de fumadores se encuentra comprendido entre el 56 y 78 % con una


confianza del 95%.
4) Una fábrica que produce piezas electrónicas de precisión está interesada en
la variación del peso de las mismas. Para ello extrae una muestra de 10 piezas y
calcula la variabilidad del peso, obteniendo que es de 0,0026 gr2 . Con un error del
5%, estimar por intervalos el valor de la dispersión poblacional del peso de las piezas
fabricadas, suponiendo una distribución normal para el peso.

La dispersión del peso de las piezas electrónicas se encuentra comprendida entre


0,035 y 0,093 gr. con una confianza del 95%.

5) De una población de 2.000 artículos, se extrajo una muestra de 58,


obteniéndose los pesos ( en Kg) de los mismos, que aparecen en la siguiente tabla:

Estimar puntualmente y por intervalo de confianza del 99% el peso promedio y


total de los 2.000 artículos
El peso promedio de los 2.000 artículos se encuentra comprendido entre 10.53 y
11.29 kg., mientras que el peso total se encuentra entre 21.055 y 22.585 kg con una
confianza del 99%.

Fórmulas
Test de hipótesis
Introducción
El test o prueba de hipótesis es una afirmación respecto a alguna característica
desconocida de una población de interés. La esencia de probar una hipótesis
estadística es el decidir si la afirmación se encuentra apoyada por la evidencia
muestral.
La afirmación involucra ya sea a un parámetro o a alguna forma funcional no
conocida de la distribución a partir de la cual se obtiene una muestra aleatoria. La
decisión acerca de si los datos muestrales apoyan estadísticamente la afirmación se
toma a con base en la probabilidad, y si esta es mínima, entonces será rechazada.
El test de hipótesis es un caso especial relacionado principalmente con la
elección de uno de dos cursos de acción posibles. Como toda distribución de
población es inalcanzable, se elige entre dichos cursos con base a la información de la
muestra.
Por ejemplo: Las dimensiones críticas de una pieza de máquina que ha de ser
acoplada a otras piezas para montar una máquina completa son especificadas como
Normal con una media de 2,5 mm. Si la pieza es demasiada corta o larga, no encaja.
El gerente de planta decide continuar con el proceso de montaje a menos que se
encuentre una evidencia sustancial de que la dimensión media no es de 2,5 mm.
¿Cómo debe decidirse si el proceso continúa en operación?

Hipótesis estadísticas
Si la afirmación es estadísticamente aceptable con base a la evidencia muestral,
entonces se asume que el valor promedio es de 2,5 y se deja que el proceso continúe.
Por otro lado, si la afirmación no está apoyada por la evidencia muestral, el gerente
de la planta puede decidir detener el proceso para llevar a cabo los ajustes necesarios.

A la afirmación de que μ = 2,5 se denomina hipótesis nula (H0) y se simboliza: H 0 ) μ = 2,5


Esta hipótesis es simple, porque asigna valores particulares a los parámetros
desconocidos e identifica la forma de la distribución. De otra forma es compuesta.
Una hipótesis nula debe considerarse como verdadera a menos que exista suficiente
evidencia en contra. La hipótesis nula se prueba contra la alternativa (H1), la cual
refleja el valor posible o intervalo de valores del parámetro de interés si la hipótesis
nula es falsa.
Errores
Las posibles decisiones que pueden tomarse con respecto a la hipótesis nula H
0 ) μ = 2,5 Una vez extraída la muestra y observado el resultado, se debe decidir entre
las siguientes alternativas:

 La hipótesis nula puede ser verdadera o falsa. Si se acepta una hipótesis


cierta o si se rechaza una hipótesis falsa, no se comete ningún error.

 Si se rechaza una hipótesis nula cierta, se comete un error denominado


error de tipo I, cuya probabilidad se simboliza D. Luego, D es la
probabilidad de cometer un error de tipo I, es decir la probabilidad de
rechazar una hipótesis nula verdadera (rechazar mal).

 Si no se rechaza una hipótesis nula falsa, se comete un error denominado


error de tipo II, cuya probabilidad se simboliza con E. Luego, β es la
probabilidad de cometer un error de tipo II, es decir la probabilidad de
aceptar una hipótesis nula falsa (aceptar mal).

 Si la hipótesis nula es cierta, sólo puede cometerse un error de tipo I; si


la hipótesis nula es falsa, sólo puede cometerse un error de tipo II. No
pueden cometerse ambos errores en forma simultánea.

Estadístico de prueba
Una prueba de una hipótesis estadística con respecto a alguna característica
desconocida de la población, es cualquier regla para decidir si se rechaza la hipótesis
nula con base en una muestra aleatoria de la población. La decisión se basa en un
estadístico de prueba cuya distribución en el muestreo sea conocida en el supuesto
que la hipótesis nula sea cierta.
Reglas de decisión para el test a una cola
por derecha
Para ciertos valores del estadístico de prueba, la decisión será rechazar la
hipótesis nula. Estos valores conforman la región critica.

Veamos el siguiente ejemplo: H 0 ) μ = 2,5 H 1 ) μ > 2,5

Supongamos que n es suficientemente grande de manera que la distribución en


el muestreo de la media, dado que H0 es cierta, es:

Interpretación de D: Si el valor de P es 2.5, y si se tomasen muchas muestras de


tamaño n de la población, debe esperarse que en un 100D% de las veces, se
encuentre un valor del estadístico de prueba x mayor al c x , y de esta forma
debe rechazarse H0.

La probabilidad D del error de tipo I también se conoce como el nivel de


significación. Esto implica que la evidencia muestral es tal que garantiza el rechazo
de H0 a un nivel dado de D. El procedimiento de prueba se construye de manera tal
que la hipótesis nula sea no rechazada. Sin embargo, con la inclusión de la hipótesis
alternativa, probar una hipótesis estadística es proporcionar una decisión entre H0 y
H1. Para ello se clasifica el campo de variación en dos subconjuntos:

1- Región crítica o de rechazo: que contiene los resultados no favorables a la


hipótesis nula.
2- Región de no rechazo: que contiene los resultados favorables a la hipótesis
nula.
Se trata de minimizar ambos errores, pero éstos varían en forma inversamente
proporcional. En la práctica, se especifica el valor de D y se elige la región de
rechazo de manera que se minimice E. Por esta razón se dice “no rechazar H0“ más
que “aceptar H1“ cuando la evidencia muestral no apoya el rechazo de la hipótesis
nula.

Ejemplo:

Una estación de TV considera que la proporción de televidentes de una serie


que se proyecta a la tarde no es superior al 2%. Para verificar tal afirmación se extrae
una muestra aleatoria encontrando una proporción del 0.05. Verificar la hipótesis con
un nivel de confianza del 90%.

Por lo tanto, la proporción de televidentes de una serie que se proyecta a la tarde es


superior al 2%, a un nivel de significación del 10%.
Regla de decisión para el test a una cola
por izquierda
En una región de la provincia de Santa Fe, la cosecha promedio de maíz fue de
5.4 toneladas por ha. Para un año dado en el que el clima fue particularmente bueno,
se seleccionaron 9 parcelas en forma aleatoria, arrojando una cosecha promedio de
5.2 toneladas por ha., para la misma variedad de maíz. Si la producción por ha. se
distribuye normal con una desviación estándar de 0.43 toneladas. A un nivel de
significación del 0.05, ¿existe alguna razón para creer que este año la producción será
no inferior que la producción promedio normal?

Luego, la producción será inferior que la producción promedio normal, a un nivel de


significación del 5%.
Regla de decisión para el test a dos colas
Un fabricante espera que el contenido medio de su producto sea de 260 gr.
Supone que la variabilidad del contenido es de 100 gr2 . Para comprobarlo, toma una
muestra de 36 envases, obteniéndose un peso medio de 267 gr. Realizar la prueba de
hipótesis con un nivel de significación del 5 %.

Luego, el contenido medio del producto no es de 260 gr, con una confianza del 95%.

Fórmulas
¿Se puede a partir de valores muestrales
inferir o aproximar los valores de la población
que les dio origen, con la suficiente certeza?
A partir de valores muestrales y técnicas de inferencia rastrearemos los valores
poblacionales correspondientes y en el caso en que no den valores poblacionales
corroborar esas afirmaciones con cierto nivel de certeza.

Referencias Bibliográficas
Modulo 4: Interferencia estadística – Universidad Kennedy

También podría gustarte