Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Estimación de Razón, Regresión y Diferencia: Bulmaro Juárez Hernández

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 35

Estimación de razón, regresión y diferencia

Bulmaro Juárez Hernández

Otoño de 2020

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 1 / 35


Introducción

La estimación de la media y el total de la población en los capítulos


anteriores se basa en una muestra de medidas de respuesta, yl , y2 , . . . , yn ,
obtenida por muestreo aleatorio simple, muestreo aleatorio estraticado o
muestreo aleatorio por conglomerados. A veces, otras variables están
estrechamente relacionadas con la respuesta y. Al medir y, y una o más
variables auxiliares, se puede obtener información adicional para estimar la
media poblacional. Probablemente esté familiarizado con el uso de variables
auxiliares para estimar la media de una respuesta y. Es básico para el
concepto de correlación y proporciona un medio para el desarrollo de una
ecuación de predicción que relaciona a y y a x por el método de mínimos
cuadrados. Este tema se trata normalmente en cursos introductorios de
estadística.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 2 / 35


Los temas anteriomente tratados en el curso presentan estimadores simples
de parámetros poblacionales utilizando las medidas de respuesta
yl , y2 , . . . , yn ; sin embargo, el énfasis principal se pone en el diseño de la
encuesta por muestreo (muestreo aleatorio simple y estraticado). En
contraste, en esta sección se presentan tres nuevos métodos de estimación
basados en el uso de una variable auxiliar x. Los métodos se denominan
estimación de razón, regresión y diferencia. Los tres requieren la medición
de dos variables, y y x, en cada elemento de la muestra. Se puede emplear
varios diseños de muestreo junto con la estimación de razón, regresión o
diferencia, pero aquí discutimos principalmente el muestreo aleatorio simple.
Las ideas básicas de cómo estas técnicas se trasladan al muestreo aleatorio
estraticado se ilustran, sin embargo, para la estimación de razones.
En esta parte, las fórmulas de varianza se vuelven lo sucientemente
tediosas que mostrarlas detalladamente a mano se vuelve menos útil que
en los capítulos anteriores. En su lugar, le mostramos versiones
conceptuales de las fórmulas y se deja su cálculo con las herramientas que
se han proporcionado.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 3 / 35


Encuestas que requieren el uso de estimadores de razon

Para la estimación eciente del total de una población a veces requiere el


uso de variables auxiliares. Se ilustrará el uso de un estimador de razón
para una de estas situaciones. El precio al por mayor que se paga por las
naranjas en envíos grandes se basa en el contenido de azúcar de la carga. El
contenido exacto de azúcar no se puede determinar antes de la compra y
extracción del jugo de toda la carga; sin embargo, se puede estimar. Un
método para estimar esta cantidad es estimar primero el contenido medio
de azúcar por naranja, µy , y luego multiplicar por el número de naranjas N
en la carga. Por lo tanto, se podrían muestrear aleatoriamente n naranjas
de la carga para determinar el contenido de azúcar y para cada una. El
promedio de estas medidas de la muestra, yl , y2 , . . . , yn , estimará µy ; Ny
estimará el contenido total de azúcar para la carga, τy .
Desafortunadamente, este método no es factible porque requiere mucho
tiempo y es costoso determinar N (es decir, contar el número total de
naranjas en la carga).

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 4 / 35


Se puede evitar la necesidad de conocer N si se observan los dos hechos
siguientes. Primero, el contenido de azúcar de una naranja individual, y,
está estrechamente relacionado con su peso x; en segundo lugar, la relación
entre el contenido de azúcar total τy y el peso total de la carga del camión
τx es igual a la relación entre el contenido medio de azúcar por naranja, µy ,
y el peso medio µx . Así,

µy Nµy τy
= = .
µx Nµx τx

Resolviendo para el contenido total de azúcar de la carga, se tiene

µy
τy = τx .
µx

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 5 / 35


Se puede estimar µy y µx usando y y x los promedios de los contenidos y
pesos de azúcar para la muestra de n naranjas. Además, podemos medir τx ,
el peso total de las naranjas en el camión. Entonces, una estimación de la
relación del contenido total de azúcar τy es

y
τby = τx ,
x
o equivalentemente (multiplicando el numerador y denominador por n),
Pn
ny 1 yi
τby = τx = Pi=
n τx .
nx i=1 xi

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 6 / 35


En este caso, se desconoce el número de elementos en la población, N, y
por lo tanto, no podemos usar el estimador simple Ny del total poblacional
τy . Por lo tanto, es necesario un estimador de razones o su equivalente para
lograr el objetivo de la estimación. Sin embargo, si se conoce N, tenemos la
opción de utilizar el estimador Ny o el estimador de razón para estimar τy .
Si y y x están altamente correlacionados, es decir, si x aporta información
para la predicción de y, el estimador de razón debería ser mejor que Ny , el
cual depende únicamente de y.
Además del total poblacional τy , a menudo existen otros parámetros de
interés. Es posible que deseemos estimar la media de la población µy
mediante un procedimiento de estimación de razón. Por ejemplo, suponga
que deseamos estimar el contenido promedio de azúcar por naranja en un
envío grande. Se podría usar la media muestral y para estimar µy . Sin
embargo, si x e y están correlacionados, un estimador de razón que usa
información de la variable auxiliar x frecuentemente proporciona un
estimador más preciso de µy .

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 7 / 35


La razón poblacional es otro parámetro que puede ser de interés para un
investigador. Por ejemplo, suponga que se quiere estimar la razón de las
ventas totales de automóviles para el primer trimestre de este año con el
número de ventas durante el período correspondiente del año anterior. Sea
τx el número total de ventas del primer trimestre del año pasado y sea τy el
número total de ventas del mismo período de este año. Nos interesa
estimar la razón
τy
R= .
τx
El concepto de estimación de razón se utiliza en el análisis de datos de
muchas encuestas importantes y prácticas utilizadas por investigadores
gubernamentales, empresariales y académicos. Por ejemplo, el Índice
Nacional de Precios al Consumidor (INPC) es en realidad una proporción
de los costos de compra de un conjunto jo de artículos de calidad y
cantidad constantes durante dos momentos. Actualmente, el IPC compara
los precios actuales con los del período 1982-1984. El INPC se basa, en
parte, en datos recopilados cada mes o cada dos meses de
aproximadamente 24.000 establecimientos

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 8 / 35


(tiendas, hospitales, estaciones de servicio, etc.) seleccionados de muchas
áreas del país. El INPC se utiliza principalmente como medida de inación.
La Encuesta de población actual ajusta las cifras de desempleo por edad,
sexo y raza mediante una técnica de estimación de razones. Por ejemplo, la
relación entre el número de afroamericanos desempleados y el número de
afroamericanos en la fuerza laboral para un área de muestra se puede
ampliar a una medida del número de afroamericanos desempleados en un
área más grande multiplicando esa proporción de muestra por el número de
los afroamericanos en la fuerza laboral del área más grande.
El Índice de Venta al Menudeo de Nielsen puede proporcionar razones de
precios de venta promedio para dos marcas competidoras de un producto o
para un solo producto en dos momentos. El SAMI puede proporcionar
razones de volumen total de existencias para dos marcas competidoras.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 9 / 35


Los pronósticos a menudo emplean una técnica de estimación de razones.
Por ejemplo, la relación entre las ventas totales del primer período del año
actual y un total similar del año pasado se puede multiplicar por las ventas
totales del año pasado para estimar las ventas totales de este año. Se
utilizan métodos similares para pronosticar el crecimiento de la población.
En las auditorías de las empresas para el cumplimiento de la recaudación de
impuestos sobre las ventas y el uso, las cuentas suelen ser voluminosas y el
muestreo puede ahorrar tiempo y dinero. El método de porcentaje de error
que se usa a menudo para analizar dichos datos de auditoría calcula la
proporción de dólares totales de error en las cuentas muestreadas dividido
por los montos totales en dólares de todas las cuentas muestreadas. Luego,
esta tasa de error se multiplica por los montos totales en dólares de todas
las cuentas de la población para llegar al total de dólares de error. Se puede
encontrar más información sobre el muestreo en las auditorías de impuestos
sobre las ventas y el uso en Yancey (2002).

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 10 / 35


Como se puede ver, las posibles aplicaciones de la estimación de
proporciones son innitas. Sin embargo, ahora cambiamos nuestro énfasis a
la construcción de estimadores para µy , τy y R, y proporcionamos ejemplos
numéricos de cada uno. Siempre que sea apropiado, se realizarán
comparaciones con los estimadores de estos parámetros presentados en
capítulos anteriores.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 11 / 35


Estimación de razones mediante muestreo aleatorio

simple

Supongamos que se extrae una muestra aleatoria simple de tamaño n de


una población nita que contiene N elementos. Entonces, ¾cómo
estimamos la media de una población µy , un total τy o una razón R ,
utilizando información muestral sobre y y una variable auxiliar x ?
Estimador de la razón poblacional R:

Pn
1 yi y
r = Pi= n = . (1)
i=1 xi x

n  1 sr2
 Pn    
i= 1 yi
V (r ) = V Pn = 1− , (2)
µ2x n
b b
i=1 xi N
donde
− rxi )2
Pn
2 i=1 (yi
sr = . (3)
n−1

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 12 / 35


Si se desconoce la media poblacional µx para x, se usa x2 para aproximar a
µ2x en la Ecuación (2). Esta aproximación funciona bien cuando x se estima
con precisión. En particular, generalmente se sugiere que las aproximaciones
de varianza funcionan bien cuando el coeciente de variación de la media
DS(x)
de x (cv (x) = x ) es pequeño (es decir, menor que 0.10).

Ejemplo

La Encuesta de Vivienda del gobierno de EE. UU. mantiene un registro de


muchos aspectos de las características de la vivienda en Estados Unidos,
incluidos los costos mensuales de propiedad de la vivienda y el valor de las
viviendas. Un aspecto de la encuesta rastrea 47 áreas estadísticas
metropolitanas (AEMs) a lo largo del tiempo al muestrear un subconjunto
de ellas cada cuatro años aproximadamente. La encuesta de 2002 muestreó
las 13 AEM enumeradas en la siguiente Tabla. También se enumeran los
costos mensuales típicos de la propiedad de la vivienda (sin incluir el
mantenimiento) para 2002 y 1994, así como los valores típicos de las casas
en esos dos años, respectivamente. Estos datos son sólo para casas
ocupadas por sus propietarios.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 13 / 35
Utilice estos datos para estimar R, la razón de los costos medios típicos
mensuales para 2002 en comparación con los de 1994 para las 47 AEM y
calcule un margen de error apropiado.

Tabla: Costos y valores de la vivienda en una muestra de AEM (ocupada por el


propietario)
Costo típico

por mes Valor típico

MAE 2002 1994 2002 1994


AnaheimSanta Ana, CA 1363 1087 300,000 216,962
Bualo, NY 670 571 92,402 85,378
Charlotte, NC-SC 761 518 125,551 86,763
Columbus, OH 746 612 135,208 92,664
Dallas, TX 991 770 126,492 87,615
Fort WorthArlington, TX 798 655 99,230 70,759
Kansas City, MO-KS 728 552 116,778 78,542
MiamiFort Lauderdale, FL 842 710 136,774 97,058
Milwaukee, WI 849 656 143,281 101,407
Phoenix, AS 885 636 140,490 88,269
Portland, OR-WA 986 676 179,311 127,731
Riverside-San Bernardino-Ontario, CA 934 773 164,870 123,491
San Diego, CA 1167 829 297,458 176,277
n Media Mediana DS
y = 2002 mensualmente 13 901.5 880.6 192.5
x = 1994 mensualmente 13 695.8 676.4 148.5
y − rx 13 0.0 -2.9 67.8
SOURCE: American Housing Survey, http://www.census.gov/hhes/

www/housing/ahs/metropolitandata.html.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 14 / 35


Como sabe, una regla esencial del análisis de datos es primero trazar los
datos. En la siguiente Figura se muestra un diagrama de dispersión de los
datos de 2002 versus 1994. La fuerte tendencia lineal positiva aquí es
importante para que la técnica de estimación de la relación funcione bien.
Ninguno de los puntos de datos se desvía mucho de este patrón lineal.

Figura: Gráco de dispersión para los datos del Ejemplo 1


Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 15 / 35
Los estadísticos resumidos de la Tabla anterior muestran las medias y las
desviaciones estándar de los valores de y y de x. Tenga en cuenta que sr es
simplemente la desviación estándar de las desviaciones y − rx , que también
se muestra en el resumen de la tabla. (¾Por qué estas desviaciones tienen
un promedio de 0?) Los cálculos sencillos que utilizan las fórmulas (1) y (2)
producen lo siguiente:

y 901.5
r= = = 1.296.
x 695.8
s
n  1 sr2
q   
2 Vb (r ) = 21−
N x2 n
s
67.82
 
13 1
=2 1− = 2(0.023) = 0.046.
47 695.82 13

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 16 / 35


Por tanto, cualquier valor de R en el intervalo 1.30 ± 0.05, o (1.25, 1.35),
sería consistente con los datos observados (pensando en términos de un
intervalo de conanza aproximado del 95 %), asumiendo que los datos
provienen de una muestra aleatoria de los 47 AEM. En otras palabras, se
estima que el costo mensual típico de la vivienda en AEM aumentó
aproximadamente un 30 %, más o menos un 5 %, en el período de ocho
años de 1994 a 2002.
¾Qué pasa con la línea en la gráca de la Figura 1? Esta no es la línea de
regresión de mínimos cuadrados habitual, sino más bien la línea que pasa
por el origen y el punto (x, y ). En otras palabras, es la recta que pasa por
el origen con pendiente r.
El análisis de los datos sobre el valor de la vivienda se deja como un
ejercicio.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 17 / 35


Los intervalos de conanza de muestras grandes basados en la teoría de la
distribución normal, como ya se introdujo, también se aplican en el caso de
estimación de razones. Así, por ejemplo, un intervalo de conanza
q
aproximado del 90 % para la razón R es de la forma: r ± 1.645 Vb (r ).
La varianza estimada de r se puede escribir de muchas formas. Una que es
particularmente útil para las comparaciones de estimadores de razón con
otros estimadores involucra el coeciente de correlación ρ entre x e y. Esta
correlación puede estimarse mediante
sxy
ρb = , donde,
sx sy
n
1 X
sxy = (xi − x)(yi − y )
n−1
i=1
n
1
sx2 = (xi − x)2
X
n−1
i=1
n
1
sy2 = (yi − y )2 .
X
n−1
i=1
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 18 / 35
El coeciente de correlación juega un papel clave en discusiones posteriores.
Ahora, se puede escribir,
 
1 −f 1
Vb (r ) = (sy2 + r 2 sx2 − 2r ρbsx sy ),
n µ2x
n
donde f = , es la fracción de muestreo. Si µx se reemplaza por x, lo cual
N
se requiere frecuentemente en la practica cuando µx es desconosido,
entonces la formula de la varianza puede ser escrita como,

sy2 s2
!
1 −f 2 sx sy
Vb (r ) = r 2 + x2 − 2ρ2
n y x x ·y
1 −f 2
= r ((cv (x))2 + (cv (y ))2 − 2ρbcv (x)cv (y ), )
n
donde cv (x) representa el coeciente de variación de x , denido por

sx
cv (x) = .
x
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 19 / 35
El coeciente de variación es una medida útil de la variación porque
muestra la relación entre el tamaño de la desviación estándar y el tamaño
de la media. Una desviación estándar de, digamos, 10 unidades podría
considerarse bastante grande para mediciones con una media de 20, pero
no tan grande para mediciones con una media de 200.
La técnica de razón para estimar el total de una población τy se aplicó al
estimar el contenido total de azúcar de un camión lleno de naranjas. El
estimador simple Ny no es aplicable porque no se conoce N, el número
total de naranjas en el camión. El siguiente procedimiento de estimación de
razón se puede aplicar para estimar τy si N se conoce o no.
Estimador de razón para el total poblacional τby :
Pn
yi
τby = Pni=1 (τx ) = r τx . (4)
i=1 xi

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 20 / 35


Estimador de la varianza de τby :

sr2
 
n 1
τy ) = (τx )2 Vb (r ) = (Nµx )2

Vb (b 1−
N µ2x n
n  s2
= N2

r
1 − . (5)
N n
donde µx τx son
y la media y el total poblacional, respectivamente, para la
característica X , y
− rxi )2
Pn
2 i=1 (yi
sr = ,
n−1
se debe conocer τx para estimar τy al usar el procedimiento de estimación
de razón. Si no se conoce N ni µx , la varianza se estima por;

sr2
 
n 1
τy ) = (τx )2 Vb (r ) = (τx )2

Vb (b 1− .
N x 2x n

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 21 / 35


Ejemplo (2)

En un estudio para estimar el contenido total de azúcar de un camión lleno


de naranjas, se extrajo jugo y se pesó una muestra aleatoria de n = 10
naranjas, obteniéndose una cantidad de azucar igual a 0.246 libras, un peso
de 4.35 libras y sr2 = 0.00242 . Se encontró que el peso total de todas las
naranjas, obtenido pesando primero el camión cargado y luego descargado,
era de 1800 libras. Estime τy , el contenido total de azúcar de las naranjas y
establezca un límite en el error de estimación.
El diagrama de dispersión, dado en la siguiente Figura, muestra una fuerte
asociación positiva entre el contenido de azúcar y el peso, lo que hace que el
estimador de razón sea una opción razonable. El contenido de azúcar de una
naranja generalmente se registra en grados brix, que es una medida de la cantidad
de libras de sólidos (principalmente azúcar) por 100 libras de jugo. Para nuestros
cálculos, usaremos las libras reales por naranja. Se puede obtener una estimación
de τy utilizando la Ecuación (4):
0.246
Pn
1 yi
τby = r τx = Pi= (τx ) = (1800) = 101.78libras.
n
i=1 xi 4.35
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 22 / 35
Figura: Gráco de dispersión para los datos del contenido de azúcar 2

Se puede encontrar un límite en el error de estimación si usamos una


versión modicada de la Ecuación (5). Dado que N es desconocido pero
grande en
 este ejemplo, asumimos que la corrección por población nita,
 n
1 − está cerca de la unidad. Esta suposición es razonable porque
N
esperamos al menos N = 400 naranjas incluso en un camión pequeño.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 23 / 35


La media muestral debe usarse en lugar de µx en la ecuación. (5), porque
se desconoce µx . Con estos ajustes, el límite se vuelve

s   
q
1 1
2 Vb (b
τy ) = 2 τ2 s2
x
n x2 r
s   
1 1
=2 (18002 ) (0.00242 ) = 6.3.
10 0.4352

En resumen, la estimación de razón del contenido total de azúcar del


camión de naranjas es τby = 101.79 libras, con un límite en el error de
estimación de 6.3. Estamos seguros de que el contenido de azúcar total τy
se encuentra en el intervalo: 101.79 ± 6.3, esto es, el intervalo
(95.49, 108.09) en libras.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 24 / 35


Recuerde que el tamaño de la población N se conoce con frecuencia. En
consecuencia, el investigador debe decidir bajo qué condiciones el uso del
estimador de razón τby = r τx es mejor que el uso del estimador
correspondiente Ny , donde ambos estimadores se basan en un muestreo
aleatorio simple. Generalmente, r τx posee una varianza menor que Ny
cuando existe una fuerte correlación positiva entre x e y (donde ρ, el
1
coeciente de correlación entre x e y, ). Intuitivamente,
es mayor que
2
esta armación tiene sentido porque en la estimación de la razón estamos
usando la información adicional proporcionada por la variable auxiliar x.
Si un investigador está interesado en la media poblacional en lugar del total
poblacional, el procedimiento de estimación de razón correspondiente se
muestra en las siguientes Ecuaciones (6) y (7).

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 25 / 35


Estimador de razón de la media poblacional µ
by :
Pn
1 yi
by = Pi=
µ n (µx ) = r µx . (6)
i=1 xi

Estimador de la varianza de µ
by :

n  sr2
µy ) = (µx )2 Vb (r ) =

Vb (b 1 − , (7)
N n
donde,
− rxi )2
Pn
2 i=1 (yi
sr = .
n−1

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 26 / 35


Ejemplo (3)

Uno de los principales usos de la estimación de razones es la actualización de


información a lo largo del tiempo. Un ejemplo simple de esto se puede ver en la
forma en que los pronosticadores de cultivos agrícolas pueden usar una muestra
de datos actuales para actualizar los informes de cultivos completos de años
anteriores. El cultivo utilizado en este ejemplo es la caña de azúcar, un cultivo
económico importante para solo cuatro estados (Florida, Hawai, Louisiana y
Texas) y se cultiva en aproximadamente 32 condados de todos esos estados.
Supongamos que estamos cerca del nal de 1999 y no tenemos datos completos
sobre la cosecha de caña de azúcar para ese año de todos los condados. Sin
embargo, tenemos datos completos para todos los condados para el año 1997.
Además, tenemos los recursos para recopilar información preliminar de seis
condados de muestra. La Tabla siguiente muestra los acres reales cosechados y la
producción total (en toneladas) de caña de azúcar en los seis condados
muestreados. Al vericar los registros completos de 1997, podemos encontrar que
el promedio de acres cosechados por condado en los 32 condados fue de 27,752
acres. La producción media por condado fue de 967,839 toneladas.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 27 / 35
Utilice estos datos para estimar la supercie media de caña de azúcar en los
32 condados para 1999 y calcule un margen de error apropiado.

Solución: La gráca de los datos de la muestra, que se ve en la Figura

siguiente, muestra una fuerte tendencia positiva en la relación entre los


valores de la supercie cultivada para los dos años. Esto es un buen augurio
para la estimación de razones.
La herramienta de Excel muestra que:

µ
by = r µ
bx = 1.091(27, 752) = 30, 278.

Como se conoce la media poblacional de x, se puede aplicar la Ecuación


(7) directamente, resultando en una desviación estándar de 1263.
Se estima que la supercie media por condado es de 30,278 acres más o
menos alrededor de 2(1263) = 2526 acres. Cualquier valor de la población
en este intervalo sería consistente con los datos de la muestra observados.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 28 / 35


Tabla: Acres de caña de azúcar cosechados y producción para 1997 y 1999;
condados muestreados
1999 1997

Estado Condado Supercie en acres Producción (toneladas) Supercie en acres Producción (toneladas)
FL Hendry 57,000 2,012,100 54,000 2,008,000
HI Kauai 13,900 917,000 12,300 1,141,000
LA Saint Landry 15,500 470,000 9100 270,000
LA Calcasieu 3900 120,000 1700 45,000
LA Iberia 59,900 1,900,000 57,200 1,655,000
TX Cameron 10,400 335,300 12,900 382,500
FUENTE: Servicio Nacional de Estadísticas Agrícolas; http://www.usda.gov/nass/

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 29 / 35


Figura: Supercie de caña de azúcar en 1999 contra 1997

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 30 / 35


Ejemplo (4)

Una compañía desea estimar la cantidad promedio de dinero µy pagado a los


empleados por gastos médicos durante los primeros tres meses del año en curso,
los reportes del promedio por trimestres están disponibles en los informes scales
del año anterior. Una muestra aleatoria de 100 registros de empleados se
seleccionó de una población de 1000 empleados. Los resultados de la muestra se
resumen a continuación. Use los datos para estimar µy y establezca un límite para
el error de estimación. Se tiene: n = 100, N = 1000.
n
Total para el trimestre actual: yi = 1750.
X

i=1
n
Total para el trimestre correspondiente del año anterior: xi = 1200.
X

i=1
Total poblacional τx para el trimestre correspondiente del año anterior:
τx = 12, 500.
100 100 100
yi2 = 31, 650.00, xi2 = 15, 620.00, y xi yi = 22, 059.35.
X X X

i=1 i=1 i=1


Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 31 / 35
Solución: El estimador de µy es: µ
by = r µx , donde,
τx 12, 500
µx = = = 12.5.
N 1000
P 100
1 yi 1750
Así que, µ
by = Pi=
100 (µx ) = (12.5) = 18.23.
1200
i=1 xi
El límite para el error de estimación se puede encontrar usando la Ecuación
(7), esto es:

n  sr2
q r

2 Vb (b
µ) = 2 1− . (8)
N n
Luego, calculando,

n n n n
2 2 2 2
X X X X
(yi − rxi ) = yi + r xi − 2r yi xi
i=1 i=1 i=1 i=1
= 31, 650 + (1.4583)2 (15, 620) − (2.9166)(22, 059.35) = 441.68

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 32 / 35


sr2 1 441.64
De lo anterior, Se tiene: = = 0.0446 y
n 100 99

q s 
100
2 Vb (b
µ) = 2 1 − (0.0446) = 0.42.
1000

Por lo tanto se estima que la cantidad promedio de dinero pagado a los


empleados por gastos médicos es $ 18.23. También se confía en que el
error para estimar µy es menor que $ 0.42.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 33 / 35


Para recordar las fórmulas para la estimación de razón de la media, total o
razón poblacionales, se hacen las siguientes asociaciones. La razón muestral
r está dada por la fórmula:

Pn
1 yi
r = Pi=
n . (9)
i=1 xi

Luego los estimadores de R, τy , y µy son:

Rb = r (10)

τby = r τx (11)

µ
by = r µx . (12)

Por lo tanto, sólo se necesita conocer la fórmula de r y su relación con µx ,


y τx .

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 34 / 35


Se pueden obtener varianzas aproximadas si recuerda la fórmula básica:

− rxi )2
  Pn
n 1 i=1 (yi

Vb (r ) = 1− . (13)
N nµ2x n−1

Entonces,

τy ) = τx2 Vb (r ),
Vb (b y (14)

Vb (bµy ) = µ2 Vb (r ).
x (15)

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia Otoño de 2020 35 / 35

También podría gustarte