Probabilidad y Estadística

Probabilidad y Estadística
Estadística descriptiva (Tema 1)

Estadística: colección de métodos para planificar y realizar experimentos o estudios, obtener datos y luego
analizar, interpretar y formular una conclusión basada en esos datos. Ciencia de los datos. Actúa como nexo entre los
modelos matemáticos y los fenómenos reales.
Estadística descriptiva: resumen de conjuntos de datos representados en la muestra. Ofrece un sentido de la

ubicación del centro de los datos, de la variabilidad en los datos y de la naturaleza general de la distribución de
observaciones en la muestra.
Estadística inferencial: utiliza los datos de una muestra para inferir algo acerca de una población.
Población: conjunto de todos los individuos o elementos individuales de un tipo específico. A veces representa
un sistema científico.
Población finita: puede ser físicamente listada.
Población infinita: no puede ser físicamente listada.
Muestra: conjunto de observaciones. Subconjunto de una población.
Muestra aleatoria simple: elegida por un método en el que cada colección de n elementos de la
población tiene la misma probabilidad de formar la muestra.
Muestra de conveniencia: no se selecciona por un método aleatorio bien definido, sino que se eligen
deliberadamente los elementos a ser estudiados.
Tamaño muestral: indica el número de elementos en una muestra.
Muestra sesgada: cuando la muestra tomada de una población no refleja a la población original, sino a una
región confinada de la misma.
Variabilidad del muestreo: dos muestras diferentes de una misma población serán, por lo general, diferentes
entre sí.
Variables
Unidad experimental: elemento de la población. Es aquella sobre la cual se efectúan mediciones o se intenta
clasificar en categorías.
Dato: toda característica de una unidad experimental que se registra durante un proceso de medición u
observación.
Clasificación de variables
Categóricas o Cualitativas:
Nominales o Naturales: sus valores no se pueden ordenar.
Ordinales o Arbitrarias: sus valores se pueden ordenar.
Dicotómicas o Binarias: presencia o ausencia de una categoría.
Numéricas o Cuantitativas:
Discretas: toman valores separados entre sí, por alguna cantidad. Toman un número finito de
valores en un rango predeterminado.
Continuas: mediciones efectuadas sobre cada unidad experimental. Pueden tomar infinitos
valores en un rango predeterminado.
Medición: Asignación de números o códigos a las observaciones mediante el empleo de una escala apropiada.
Escala: Herramienta sobre la que se referencian los datos observados en una medición.
Para variables categóricas:
Escala nominal: clasifica las unidades en categorías.
Escala ordinal: ordena las categorías según un criterio.
Para variables numéricas:
Escala de intervalo: asigna una medición de distancia entre los valores de la variable.
Escala de razón: escala de intervalo adicionando el cero, o punto de origen.
Distribución de frecuencias
Frecuencia absoluta (f): número de veces que se repite un dato en particular. La suma de las frecuencias
absolutas es igual al número de datos u observaciones.
Distribución de frecuencias o tabla de frecuencias: arreglo tabular de los datos por clases junto con sus
correspondientes frecuencias de clase.
Frecuencia absoluta acumulada (F): número resultante de sumar la frecuencia de la clase (de la cual se desea
saber su frecuencia) con las frecuencias de las clases que la anteceden.
Frecuencia absoluta relativa (fr): cociente entre la frecuencia de la clase (f) y el número total de datos (n).
Frecuencia acumulada relativa (Fr): cociente entre la frecuencia absoluta acumulada de la clase (F) y el
número total de datos (n).
Distribución de frecuencias para datos cuantitativos continuos

Intervalo de clase: rango de valores en que se ha decidido agrupar parcialmente los datos.
Frecuencia del intervalo (f): cantidad de datos que quedan comprendidos dentro de un intervalo de clase.
Amplitud del intervalo (h): la diferencia entre el límite superior y el límite inferior del intervalo de clase.
Construcción de una distribución de frecuencias
K: número de intervalos de clase. n: tamaño de la muestra.
1. Se determina el número de intervalos.
Sturges: 𝐾 ≈ 1 + 3,322 × log 𝑛
Raíz: 𝐾 ≈ √𝑛
Tabla valores ideales
2. Se determina la amplitud de los intervalos.

𝑟𝑎𝑛𝑔𝑜 𝑋𝑚á𝑥 − 𝑋𝑚í𝑛
ℎ= =
𝐾 𝐾
Rango: diferencia entre el mayor y el menor valor observado que toma la variable en estudio.
3. El primer intervalo debe contener el menor de los datos, y el ultimo intervalo el mayor de los
datos. Criterio: se usan intervalos cerrados a la izquierda y abiertos a la derecha.
4. Se construye la distribución de frecuencias.
Representación gráfica:
Histograma: representación visual de los datos. Se evidencian tres aspectos fundamentales:
1. Forma
2. Acumulación o tendencia posicional
3. Dispersión o variabilidad.
Polígono de frecuencias: Se obtiene al trazar una curva que une los puntos medios de cada uno de los
elementos del histograma. Con él es posible observar las características de la distribución.
Gráfico de tendencias acumuladas: Ídem al histograma, pero para las frecuencias acumuladas de la
distribución.
Polígono de frecuencias acumuladas u ojiva: Se obtiene al realizar el trazado de una curva por los puntos
finales (ubicados a la derecha) de las barras del gráfico de tendencias acumuladas.
Distribución de frecuencias para datos cuantitativos discretos.

Los intervalos poseen valores enteros y los diagramas que representan gráficamente a la distribución
son bastones verticales para las frecuencias puntuales u horizontales para las frecuencias acumuladas.
Distribución de frecuencias para datos cualitativos

Se procede a la clasificación por sus cualidades y frecuencias.
Medidas descriptivas numéricas

Estadístico: medida descriptiva numérica calculada a partir de datos de la muestra.
Parámetro: medida descriptiva numérica que representa una población.
Medidas de tendencia central

Son promedios. Tienden a situarse en el centro del conjunto ordenado.
̅ ): únicamente para variables numéricas.
Media aritmética (𝑿
1. Para datos sin agrupar: cociente entre la suma de todos los valores y el número total de ellos.
𝑋1 + 𝑋2 + 𝑋3 + ⋯ + 𝑋𝑛 ∑𝑛𝑖=1 𝑋𝑖
𝑋̅ = =
𝑛 𝑛
2. Para datos agrupados en una tabla de frecuencias:
∑𝐾
𝑖=1 𝑋𝑖 × 𝑓𝑖
𝑋̅ = ; 𝑓𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠
𝑛
3. Para datos agrupados en intervalos de clase:
∑𝐾
𝑖=1 𝑀𝑐 × 𝑓𝑖
𝑋̅ = ; 𝑀𝑐: 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒
𝑛
Propiedades:
1. La suma de las desviaciones de un conjunto de números respecto de su media aritmética

es cero.
2. Si todos los valores de la variable están multiplicados por una constante, su media
aritmética quedará multiplicada por ese número.
Mediana (Me): medida que ocupa la posición central de la distribución cuyos datos se encuentran organizados
en orden de magnitud. Valor que divide a los datos en dos partes iguales.
Variables categóricas ordinales:

𝑛+1
Número de datos impar: 𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 = 2
𝑛 𝑛
Número de datos par: 𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛1 = 2 ; 𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛2 = 2 + 1
Variables numéricas sin agrupar:
Número de datos impar: 𝑀𝑒 = 𝑋𝑛+1

2
𝑋𝑛 +𝑋𝑛
+1
2 2
Número de datos par: 𝑀𝑒 =
2
Variables numéricas agrupadas:

𝑛+1 𝑛
1. Se obtiene el orden de la mediana: 𝑂𝑟𝑑𝑒𝑛 = (𝑝𝑎𝑟) 𝑢 𝑂𝑟𝑑𝑒𝑛 = (𝑖𝑚𝑝𝑎𝑟)
2 2
2. Se determina la clase a la que pertenece la mediana (primera frecuencia absoluta mayor
que el orden).
(𝑂𝑟𝑑𝑒𝑛−𝐹𝑎 )×ℎ
3. Se determina la mediana: 𝑀𝑒 = 𝑎 +
𝑓𝑐
a: extremo inferior de la clase a la cual pertenece la mediana.
Fa: frecuencia acumulada de la clase inferior a la que contiene la mediana.
h: amplitud de la clase.
fc: frecuencia absoluta de la clase a la que pertenece la mediana.
Modo (Mo): valor de la variable que presenta la mayor frecuencia en una distribución.
Variables categóricas: se observan las tablas de frecuencias. Obtención de forma visual.
Variables cuantitativas sin agrupar: Obtención de forma visual.
Variables cuantitativas agrupadas en intervalos de clase:
1. Se obtiene la clase modal (la que posee el mayor número de repeticiones)

2 𝑓
2. Se calcula el valor del modo: 𝑀𝑜 = 𝑎 + 𝑓 +𝑓 ×ℎ
1 2
a: extremo inferior de la clase modal.
f1: frecuencia absoluta de la clase anterior a la modal.
f2: frecuencia absoluta de la clase posterior a la modal.
h: amplitud de la clase modal
Consideraciones generales:
1. La media aritmética utiliza más información que la mediana. Para calcular la media aritmética nos
servimos de la totalidad de los datos, en tanto que para mediana sólo de los datos centrales.
2. Siempre que una distribución sea fuertemente asimétrica, la mediana será por lo general más
apropiada que la media aritmética.
Medidas de dispersión
Dan la idea de la separación o concentración de los valores de una variable. Se emplean junto con las
medidas de tendencia central para definir o caracterizar una serie dada.
Rango: la diferencia entre los extremos (máximo y mínimo) del conjunto de datos.
𝑅 = 𝑋𝑀𝐴𝑋 − 𝑋𝑀𝐼𝑁
Varianza: grado de dispersión de los valores de la variable con respecto a su media.
Varianza poblacional:
∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2
𝜎2 =
𝑛
Varianza muestral:
Para datos sin agrupar:
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆2 =
𝑛−1
Para datos agrupados en intervalos de clase:
∑𝐾 ̅ 2
𝑖=1(𝑀𝑐𝑖 − 𝑋 )
𝑆2 = × 𝑓𝑖
𝑛−1
Desviación típica o estándar: la raíz cuadrada de la varianza, medida en unidades del conjunto de datos. Es la
medida de desviación que más se utiliza.
Coeficiente de variación: permite comparar dos variables, ya que no depende de las unidades de medición de
las mismas. Es una unidad de medida relativa sin unidades.
𝑠
𝐶𝑉 =
𝑋̅
Medidas de orden o posición
Cuantiles: valores que dividen al conjunto de datos en partes iguales.
Cuartiles: cuando se divide el conjunto ordenado de datos en cuatro partes iguales.

𝑛+1
𝑄1 = 𝑋𝑞1 → 𝑞1 = 4
3×(𝑛+1)
𝑄3 = 𝑋𝑞3 → 𝑞3 = 4
Octiles: cuando se divide el conjunto ordenado de datos en ocho partes iguales.
Deciles: cuando se divide el conjunto ordenado de datos en diez partes iguales.
Percentiles: cuando se divide el conjunto ordenado de datos en cien partes iguales.
Técnicas de exploración de datos

Diagrama de tallo y hojas: ayuda a visualizar una lista de números. Cada elemento de la lista se divide en dos
partes: un tallo, que consta de uno o dos dígitos del extremo izquierdo (dígitos principales), y la hoja, que consta del
siguiente digito (digito secundario). Se forma el tallo con cada digito principal sin repetir y se organizan las hojas por
cada valor del tallo.
Profundidades: número de hojas acumuladas que hay desde el extremo más próximo del lote hasta la
línea (digito principal) considerada. En la línea que contiene el dato medio del lote se indica entre paréntesis la
cantidad de hojas que hay en ella.
Diagrama de caja: gráfica que incluye la mediana (segundo cuartil), el primer y tercer cuartil, y cualquier dato
atípico que se presente en un lote de datos.
 Se determinan los valores de los tres cuartiles.

 Se calcula la distancia intercuartil:
𝑑𝑐 = 𝑄3 − 𝑄1
 Se definen los puntos de corte:

3 3
① 𝑄3 + 2 × 𝑑𝑐 ② 𝑄1 − 2 × 𝑑𝑐
 Se grafican los bigotes: máximo y mínimo valor del conjunto que no superan los puntos de
corte.
 Datos atípicos: valores que superan los puntos de corte.
 Datos atípicos extremos: valores menores que 𝑄1 − 3 × 𝑑𝑐 o mayores que 𝑄3 + 3 × 𝑑𝑐
Probabilidad (Tema 2)
Probabilidad: existencia de incertidumbre sobre un evento.
Experimento: cualquier proceso que genere datos iniciales.
Experimento aleatorio: cuando el mismo se efectúa de acuerdo a un conjunto bien definido de reglas, puede
repetirse y el resultado depende exclusivamente de la casualidad.
Espacio muestral: conjunto de todos los resultados posibles de un experimento estadístico.
Espacio muestral discreto: contiene una cantidad finita de posibilidades (valores que puede tomar la
variable).
Espacio muestral continuo: contiene un número infinito de posibilidades, con una cantidad infinita de
números existentes en un intervalo cualquiera.
Elemento o punto muestral: cada resultado del espacio muestral.
Evento: subconjunto o parte de un espacio muestral.
Evento simple: subconjunto que contiene solamente un elemento del espacio muestral.
Evento compuesto: unión de eventos simples.
Operaciones:
𝐴=∅ Suceso imposible
𝐴 + 𝐴′ = 𝑆 Complemento de A (A’ = AC = Ā) (S: Espacio muestral)
𝐴∩𝐵 =𝐶 Intersección (elementos comunes)
𝐴∪𝐵 =𝐶 Unión (suma de ambos eventos)
𝐴∩𝐵 =∅ ⇔ A y B son mutuamente excluyentes
𝐴∪𝐵 =𝑆 ⇔ A y B son colectivamente exhaustivos
Técnicas de enumeración
Principio de multiplicación: para varios sucesos consecutivos independientes, la cantidad de formas en las
que se puede realizar el procedimiento que consta de dicha ejecución consecutiva es igual al producto de las
respectivas cantidades de los sucesos independientes.
Principio de adición: para varios sucesos que no pueden ser realizados conjuntamente, las formas en las que
se puede producir el evento es igual a la suma de las posibilidades de cada suceso.
Permutación: es un arreglo de todos, o parte de, los elementos de un conjunto. Cantidad de todos los posibles
arreglos u órdenes de un grupo de objetos.
𝑃𝑛 = 𝑛!
Combinación: cantidad de formas posibles de seleccionar “x” objetos de un total de “n”, sin importar el orden.
𝑛 𝑛!
𝐶𝑛,𝑥 = 𝐶𝑛𝑥 = ( ) =
𝑥 𝑥! × (𝑛 − 𝑥)!
Binomio de Newton:
𝑛
𝑛
(𝑎 + 𝑏) = ∑ ( ) × 𝑎𝑘 × 𝑏 𝑛−𝑘
𝑛
𝑘
𝑘=0
Pirámide de coeficientes:
1 2 1
1 3 3 1
Teorías de la probabilidad
Teoría clásica: si un experimento puede producir “n” resultados igualmente probables, y si “na” de estos
resultados corresponden al evento “A”, la probabilidad de que ocurra “A” es:
𝑛𝑎
𝑃(𝐴) =
𝑛
Teoría de las frecuencias relativas: si un suceso puede ocurrir de “n” maneras mutuamente excluyentes e
igualmente verosímiles, y “na” es el número de casos que un suceso “A” ocurre, entonces:
𝑛𝑎
𝑃(𝐴) =
𝑛
Definiciones:
Muestreo con reemplazo o sustitución: luego de extraer un elemento para estudiarlo, se lo regresa
nuevamente al total de la muestra.
Muestreo sin reemplazo o sustitución: luego de extraer un elemento para estudiarlo, no se lo

devuelve a la muestra.
Teoría personalista o subjetiva: probabilidades en función de información previa y opiniones.
Teoría axiomática: dado un experimento aleatorio descrito por el espacio muestral “S”, la probabilidad es una
función “P()” que asigna a cada evento un número real no negativo, indicado como “P(E)” (la probabilidad de E).
Axioma 1: 𝑃(𝐸) ≥ 0 ∀𝐸
Axioma 2: 𝑃(𝑆) = 1
Axioma 3: 𝑃(𝐸 ∪ 𝐹) = 𝑃(𝐸) + 𝑃(𝐹) ⇔ 𝐸∩𝐹 =∅
Por lo tanto: La probabilidad de un evento A es la suma de los pesos de todos los puntos
muestrales de A.
Teoremas importantes:
𝑃(∅) = 0
𝑃(𝐴̅) = 1 − 𝑃(𝐴)
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴 ∪ 𝐵 ∪ 𝐶) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶) − 𝑃(𝐴 ∩ 𝐵) − 𝑃(𝐵 ∩ 𝐶) − 𝑃(𝐶 ∩ 𝐴) + 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶)
𝑆𝑖 𝐴 ⊂ 𝐵 ⇒ 𝑃(𝐴) ≤ 𝑃(𝐵)
𝑆𝑖 𝐴 ⊂ 𝐵 ⇒ 𝑃(𝐵 − 𝐴) = 𝑃(𝐵) − 𝑃(𝐴)
Probabilidad marginal: si un experimento tiene n resultados probables, y un evento A contiene na elementos,

la probabilidad de que ocurra A es:
𝑛𝑎
𝑃(𝐴) =
𝑛
Probabilidad conjunta: es la ocurrencia de dos sucesos al mismo tiempo.
𝑛 𝑎 ∩ 𝑛𝑏
𝑃(𝐴 ∩ 𝐵) =
𝑛
Probabilidad condicional: es la probabilidad de ocurrencia del suceso “A”, dado que ocurrió el suceso “B”:
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) =
𝑃(𝐵)
Ley multiplicativa de la probabilidad: a partir de la probabilidad condicional se puede escribir que:
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵) × 𝑃(𝐴|𝐵)
El orden en el que se presentan las probabilidades es indiferente.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐴) × 𝑃(𝐵|𝐴)

𝑃(𝐴 ∩ 𝐵 ∩ 𝐶) = 𝑃(𝐴) × 𝑃(𝐵|𝐴) × 𝑃(𝐶|𝐴 ∩ 𝐵)
Sucesos independientes: dos sucesos son independientes si y solo si la probabilidad conjunta es igual al
producto de las probabilidades marginales. Cuando dos sucesos son independientes, la ocurrencia de uno no afecta la
probabilidad de ocurrencia del otro.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵)

Regla de eliminación: si los eventos B1, B2, …, Bk constituyen una división del espacio muestral “S”, de tal forma
que P(Bi) ≠ 0 (para i = 0, 1, …, k), entonces para cualquier evento “A” de “S” se tiene que:
𝑘 𝑘
𝑃(𝐴) = ∑ 𝑃(𝐵𝑖 ∩ 𝐴) = ∑ 𝑃(𝐵𝑖 ) × 𝑃(𝐴|𝐵𝑖 )

𝑖=1 𝑖=1
Regla de Bayes: partiendo de la regla de la eliminación, y en las mismas condiciones:

𝑃(𝐵𝑟 ∩ 𝐴) 𝑃(𝐵𝑟 ) × 𝑃(𝐴|𝐵𝑟 )
𝑃(𝐵𝑟 |𝐴) = = 𝑘
𝑃(𝐴) ∑𝑖=1 𝑃(𝐵𝑖 ) × 𝑃(𝐴|𝐵𝑖 )
Variable aleatoria discreta (Tema 3)

Variable aleatoria: función definida en un espacio muestral que asocia un número real a cada elemento del
espacio muestral.
Variable aleatoria discreta: puede surgir por conteo de objetos/observaciones en cada elemento del espacio
muestral.
Espacio muestral discreto: aquel que contiene una cantidad finita de posibilidades, o una cantidad infinita,
pero contable. La variable aleatoria definida en ese espacio se denomina variable aleatoria discreta.
Función de cuantía o masa: función 𝑓(𝑥𝑖 ) = 𝑃(𝑋 = 𝑥𝑖 ) que cumple, para todo resultado posible:
𝑓(𝑥) ≥ 0
∑∀𝑥 𝑓(𝑥) = 1
𝑃(𝑋 = 𝑥) = 𝑓(𝑥)
Función de probabilidad acumulada: distribución F(x), dada por:
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑓(𝑥𝑖 )

∀𝑥𝑖 ≤𝑥
Propiedades:
 𝐹(−∞) = 0
 𝐹(∞) = 1
 Siempre es una función creciente
Esperanza o media:
𝐸[𝑋] = ∑∀𝑥 𝑥 × 𝑓(𝑥)

Varianza o variancia:
𝑉[𝑋] = ∑∀𝑥(𝑥 − 𝐸[𝑋])2 × 𝑓(𝑥) = 𝐸[𝑋 2 ] − (𝐸[𝑋])2

Distribución binomial: proviene de ensayos u experimentos aleatorios que implican dos resultados posibles
mutuamente excluyentes. La ocurrencia o presencia de una característica se denomina éxito (p), y la no ocurrencia
fracaso (q = 1 – p). Cada ensayo se repite en iguales condiciones. Siendo “n” el número de ensayos independientes
realizados, la probabilidad de que existan “x” éxitos es:
𝑛
( ) × 𝑝 𝑥 × 𝑞 𝑛−𝑥 𝑥 = 0, 1, 2, … , 𝑛
𝑥
𝑃(𝑋 = 𝑥) = 𝑏(𝑥, 𝑛, 𝑝) = {
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑙𝑢𝑔𝑎𝑟
𝐸[𝑋] = 𝑛 × 𝑝
 𝑋 ~ 𝑏(𝑥, 𝑛, 𝑝) → {
𝑉[𝑋] = 𝑛 × 𝑝 × 𝑞
 La probabilidad de éxito “p” es constante para todas las ejecuciones.
Distribución geométrica: conociendo la probabilidad “p” de resultar un ensayo independiente en éxito,

implica la probabilidad del número de ensayos “x” en el que ocurre el primer éxito. Siendo “q” la probabilidad de
fracaso (q = 1 – p):
𝑃(𝑋 = 𝑥) = 𝑔(𝑥, 𝑝) = 𝑝 × 𝑞 𝑥−1 𝑥 = 1, 2, 3, … , ∞
1
𝐸[𝑋] =
𝑝
𝑋 ~ 𝑔(𝑥, 𝑝) → 𝑞
𝑉[𝑋] = 2
{ 𝑝
Distribución hipergeométrica: es la probabilidad de seleccionar “x” éxitos de entre los “k” artículos
denominados éxitos, y “n – x” fracasos de entre los “N – k” artículos denominados fracasos, cuando se selecciona una
muestra de tamaño “n” de entre los “N” artículos, sin reposición.
(𝑘𝑥) × (𝑁−𝑘
𝑛−𝑥
)
𝑥 = 0, 1, 2, … , max(𝑛, 𝑘)
𝑃(𝑋 = 𝑥) = ℎ(𝑥, 𝑁, 𝑛, 𝑘) = (𝑁
𝑛
)
{ 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑙𝑢𝑔𝑎𝑟
𝑘
𝐸[𝑋] = 𝑛 ×
𝑋 ~ ℎ(𝑥, 𝑁, 𝑛, 𝑘) → { 𝑁
𝑘 𝑘 𝑁−𝑛
𝑉[𝑋] = 𝑛 × × (1 − ) × ( )
𝑁 𝑁 𝑁−1
𝑁−𝑛
Donde 𝑁−1 es el factor de corrección que tiende a 1 cuando “n” es pequeño comparado con “N”. Si
𝑛 𝑛
“N” es muy grande, se convierte en 1 − 𝑁 , donde 𝑁 se denomina tasa de muestreo.
Distribución de Poisson: deviene de los experimentos de mismo nombre, que retornan el número de éxitos
que ocurren en un intervalo de tiempo dado o en una región especificada. Expresa la probabilidad de que ocurran un
número específico de eventos durante un cierto período o en una determinada región, indicado por “t”.
𝑒 −𝜆 × 𝜆𝑥
𝑥 = 0, 1, 2, … , ∞
𝑃(𝑋 = 𝑥) = 𝑝(𝑥, 𝜆) = 𝑥!
{ 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑙𝑢𝑔𝑎𝑟
Donde λ es el promedio esperado de éxitos que ocurre en el periodo de tiempo o en la región
determinada.
Se puede determinar el valor de la misma de la siguiente forma:
𝜆 =𝛼×𝑡
Donde α es el promedio de éxitos que ocurre por unidad de tiempo u área/longitud/etc.
𝐸[𝑋] = 𝜆
𝑋 ~ 𝑃𝑜(𝜆) → {
𝑉[𝑋] = 𝜆
La distribución de Poisson es un caso especial de la distribución binomial, cuando:
𝑛→∞ ; 𝑝→0 ; 𝜆 = 𝑐𝑡𝑒.
𝑛 𝑒 −𝜆 × 𝜆𝑥
lim ( ) × 𝑝 𝑥 × 𝑞 𝑛−𝑥 =
𝑃(𝑋 = 𝑥) = 𝑛→∞
𝑝→0
𝑥 𝑥!
𝑛𝑝→𝜆
Para valores grandes de λ, se puede aproximar la distribución de Poisson a una Normal con μ=0 y σ=1
Aproximaciones:
De Hipergeométrica a Binomial: cuando “n/N” es pequeño. Se transforma una distribución con

dependencia en una distribución con independencia.
De Binomial a Poisson: cuando “n” es muy grande y “p” es muy chico.
Variable aleatoria bidimensional: dado n espacio con dos variables aleatorias “X” e “Y”, la distribución de
ocurrencia conjunta:
𝑓(𝑥, 𝑦) = 𝑃(𝑋 = 𝑥, 𝑌 = 𝑦)
Proporciona a probabilidad de que ambos resultados ocurran al mismo tiempo.
Covarianza: para las variables aleatorias “X” e “Y”, con distribución de probabilidad conjunta, y sus
respectivas esperanzas E[X] y E[Y], la covarianza se define como:
𝜎𝑥𝑦 = 𝐸[𝑋𝑌] − 𝐸[𝑋] × 𝐸[𝑌]
Si las variables son independientes, 𝐸[𝑋𝑌] = 𝐸[𝑋] × 𝐸[𝑌] , por lo tanto, la covarianza es igual
a 0.
Variable aleatoria continua (Tema 4)

Variable aleatoria continua: surge por mediciones realizadas sobre los elementos del espacio muestral.
Espacio muestral continuo: aquel que contiene un número infinito de posibilidades, igual a la cantidad de
puntos en un segmento de recta. La variable definida en este espacio se denomina variable aleatoria continua.
Función de densidad de probabilidad: aquella que cumple:
𝑓(𝑥) ≥ 0
∞
∫−∞ 𝑓(𝑥)𝑑𝑥 = 1
𝑏
𝑃(𝑎 < 𝑋 < 𝑏) = ∫𝑎 𝑓(𝑥)𝑑𝑥
𝑎
Dado lo anterior, la función de densidad en un punto es igual a 0 (∫𝑎 𝑓(𝑥)𝑑𝑥 = 0)
Distribución acumulada:
𝑥
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫ 𝑓(𝑡)𝑑𝑡
−∞
𝑃(𝑎 < 𝑋 < 𝑏) = 𝐹(𝑏) − 𝐹(𝑎)

Propiedades:
 𝐹(−∞) = 0
 𝐹(∞) = 1
 𝐹(𝑥) 𝑒𝑠 𝑢𝑛𝑎 𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑐𝑟𝑒𝑐𝑖𝑒𝑛𝑡𝑒
Esperanza o media:
∞
𝐸[𝑋] = ∫−∞ 𝑓(𝑥)𝑑𝑥
Varianza o variancia:
∞
𝑉[𝑋] = ∫−∞(𝑥 − 𝐸[𝑋])2 × 𝑓(𝑥)𝑑𝑥 = 𝐸[𝑋 2 ] − (𝐸[𝑋])2
Distribución uniforme o rectangular: presenta una probabilidad constante dentro de un rango de datos para
el cual está definida. Su función de densidad es:
1
𝑎≤𝑥≤𝑏
𝑓(𝑥) = { 𝑏−𝑎
0 𝑒𝑛 𝑜𝑡𝑟𝑎 𝑝𝑎𝑟𝑡𝑒
𝑏 + 𝑎 (𝑏 − 𝑎)2
𝑋 ~𝑅( , )
2 12
𝑋 ~ 𝑅( 𝐸[𝑋] , 𝑉[𝑋] )
Distribución exponencial: probabilidad de que pase un determinado tiempo hasta que ocurra el primer evento
de Poisson. Su función de densidad está dada por:
𝜆 × 𝑒 −𝜆𝑥 𝑥≥0
𝑓(𝑥) = {
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑙𝑢𝑔𝑎𝑟
1 1
𝑋 ~ 𝐸𝑥𝑝 ( , )
𝜆 𝜆2
Distribución normal: es la distribución de variable aleatoria continua más importante en todo el campo de la
estadística. La ecuación matemática para la distribución de probabilidad depende de los parámetros μ y σ 2 (media y
varianza muestral).
1 1 𝑥−𝜇 2
− ×( )
𝑓(𝑥) = 𝑛(𝑥, 𝜇, 𝜎) = 𝑁(𝜇, 𝜎 2 ) = ×𝑒 2 𝜎
√2𝜋 × 𝜎
𝑋 ~ 𝑁(𝜇, 𝜎 2 )
𝑋 ~ 𝑁(𝐸[𝑋], 𝑉[𝑋])
Propiedades de la distribución Normal:
 El modo ocurre en x = μ.
 La curva es simétrica alrededor de su eje vertical (en x = μ).
 La curva tiene puntos de inflexión en x = μ ± σ. Es cóncava hacia abajo si μ – σ < X < μ + σ,
y es cóncava hacia arriba en cualquier otro punto.
 La curva es asintótica al eje horizontal en cualquiera de las dos direcciones, alejándose de
la media.
 El área total bajo la curva, y arriba del eje horizontal, es igual a 1.
Función acumulada:
𝑥 1 𝑡−𝜇 2
1 − ×( )
𝐹(𝑥) = ∫ × 𝑒 2 𝜎 𝑑𝑡
−∞ 𝜎 × √2𝜋
lim 𝐹(𝑥) = 1 ; lim 𝐹(𝑥) = 0

𝑥→∞ 𝑥→−∞
Estandarización: dado que el proceso para obtener las probabilidades para distintos casos de la
distribución normal es tedioso, se hace necesaria la tabulación de las áreas de la curva normal para una referencia
rápida. Sin embargo, es imposible tabular de forma separada distribuciones con cada valor de μ y σ posibles. Por lo
tanto, se procede a transformar todas las observaciones de cualquier variable aleatoria normal “X” en un conjunto de
observaciones de una variable aleatoria normal “Z”, con media igual a 0 y varianza 1, proceso conocido como
estandarización, y la distribución obtenida, distribución normal estándar.
𝑋−𝜇
𝑍=
𝜎
𝑋 ~ 𝑁(𝜇, 𝜎 2 ) ; 𝑍 ~ 𝑁(0,1)
Propiedad reproductiva: sean dos distribuciones normales, cuyas variables aleatorias “X” e “Y”,
independientes, se distribuyen de acuerdo a:
𝑋 ~ 𝑁(𝜇𝑥 , 𝜎𝑥2 ) ; 𝑌 ~ 𝑁(𝜇𝑦 , 𝜎𝑦2 )
Una variable aleatoria “M”, que se identifica como:
𝑀 =𝑋+𝑌
Se distribuirá de acuerdo a:
𝑀 ~ 𝑁(𝜇𝑥 + 𝜇𝑦 , 𝜎𝑥2 + 𝜎𝑦2 )
Aproximaciones:
De la distribución binomial mediante la normal: es posible realizar aproximaciones muy precisas de

frecuencias acumuladas de la distribución binomial, mediante el uso de una distribución normal representativa,
siempre que 𝑛 → ∞ y p no sea muy cercana a 0 o 1.
Si “X” es una variable aleatoria binomial con media μ = np y variancia σ2 = npq, entonces la forma límite
de la distribución de “Z”:
𝑋 − 𝑛𝑝
𝑍=
√𝑛𝑝𝑞
Cuando 𝑛 → ∞, es la distribución normal estándar n(z, 0, 1).
𝑍 ~ 𝑁(𝑛𝑝, 𝑛𝑝𝑞)
Sera necesario un factor de corrección de ± 0,5 debido al hecho de que en una distribución normal
(continua) no se incluye al valor extremo.
Teoría de muestras (Tema 5)

Teoría de muestras: es el estudio de las relaciones entre una población y una muestra extraída de la misma.
A través de este proceso se realiza un estudio de la muestra obtenida y, con los resultados de dicho estudio, se pueden
realizar inferencias de la población que la contenía.
Población: la totalidad de las observaciones que interesan al estudio. El tamaño de la población se define como
el número de observaciones que contiene. Cada observación es un valor de la variable aleatoria “X” que tiene alguna
distribución de probabilidad.
𝑋 ~ 𝑓(𝐸[𝑋], 𝑉[𝑋])
Muestra: subconjunto de una población. Las mismas deben realizarse de forma aleatoria para evitar un
procedimiento sesgado, que luego pueda resultar en una subestimación o sobreestimación de alguna característica
de la población. Por cada muestra de tamaño “n” de una población con función de probabilidad “f(x)” deben definirse
“n” variables aleatorias independientes “Xi” (una por cada elemento de la muestra, donde i = 1, 2, 3, …, n), cuyas
distribuciones de probabilidades son idénticas a la de la población. Fruto del estudio de los elementos que componen
la muestra, se obtendrán “xi” valores observados, de todos los posibles que pueden tomar las “n” variables de la
muestra.
Estadístico: se define como cualquier función de las variables aleatorias que constituyen una muestra
aleatoria. Depende únicamente de la muestra aleatoria observada. Puede ser descrito también como cualquier valor
calculado a partir de una muestra aleatoria.
𝑥
Media muestral: 𝑋̅ = ∑𝑛𝑖=1 𝑛𝑖
Rango: 𝑅 = 𝑋𝑚á𝑥 − 𝑋𝑚í𝑛

(𝑥𝑖 −𝑋̅)2
Varianza muestral: 𝑆 2 = ∑𝑛𝑖=1
𝑛−1
Distribución muestral: distribución de probabilidad de un estadístico.
Distribución de medias:
𝑛
𝑥𝑖
𝐸[𝑋̅] = 𝐸 [∑ ] = 𝐸[𝑋] = 𝜇
𝑛
𝑖=1
𝑛
𝑥𝑖 1 𝜎2
𝑉[𝑋̅] = 𝑉 [∑ ] = × 𝑉[𝑋] =
𝑛 𝑛 𝑛
𝑖=1
Teorema central del límite: si X̅ es la media de una muestra aleatoria de tamaño “n”, tomada
de una población con media “μ” y varianza finita “σ2”, entonces su distribución es:
𝑋̅ − 𝜇
𝑍=𝜎
⁄ 𝑛
√
Y en el límite, cuando “n” tiende a infinito, es la distribución normal estandarizada N(0, 1).
Distribución Chi-cuadrada: si S2 es la varianza de una muestra aleatoria de tamaño “n”, tomada de

una población que tiene varianza σ2, entonces la variable aleatoria:
(𝑛 − 1) × 𝑆 2
𝑈=
𝜎2
Tiene una distribución chi cuadrada con “n – 1” grados de libertad.
𝑈 ~ χ2𝛼,(𝑛−1)
La probabilidad de que una muestra produzca un valor de “U” mayor que un cierto valor específico es
2 2
igual al área bajo la curva a la derecha de ese valor. El 95% de la probabilidad está comprendida entre 𝜒0,975 y 𝜒0,025 .
Distribución “t” de Student: sea “Z” una variable aleatoria normal estándar y “V” una variable
aleatoria chi cuadrada con “v” grados de libertad, y siendo “Z” y “V” independientes, entonces la variable aleatoria
“T”, dada por:
𝑍
𝑇=
√𝑉⁄𝑣
Tiene una distribución “t” de “v” grados de libertad.
La mayoría de las veces no se conoce la variancia de la población que se está estudiando. Para muestras
grandes (n ≥ 30), se produce una buena estimación de “σ2” al calcular el valor de “S2”. Sin embargo, si el tamaño
de la muestra es pequeño, los valores de “S2” fluctuarán considerablemente, y la distribución de la variable
aleatoria “Z” se desviará de forma apreciable de la distribución normal estándar. En estos casos se trata con
un estadístico “T”:
𝑋̅ − 𝜇
𝑇=
𝑆⁄
√𝑛
Que tiene una distribución “t” de “n – 1” grados de libertad.
Distribución “F” de Fisher: el estadístico “F” se define como la razón de dos variables aleatorias
independientes chi cuadrada (V1 y V2), cada una dividida por su número de grados de libertad (v1 y v2):
𝑉1⁄
𝑣1
𝐹=
𝑉2⁄
𝑣2
Que se distribuye según una distribución “F” de v1 y v2 grados de libertad.
𝐹 ~ 𝐹𝛼,(𝑣1 , 𝑣2 )
Propiedades:
 Si 𝑃(𝐹 < 𝐹1 ) = 𝛼 , entonces 𝐹1 = 𝐹𝛼,(𝑣1 , 𝑣2 )

1
 𝐹𝛼,(𝑣1 , 𝑣2 ) = 𝐹
1−𝛼,(𝑣2 , 𝑣1 )
Distribución de cociente de varianzas: se emplea la distribución “F”. Si (S1)2 y (S2)2 son las varianzas de
dos muestras aleatorias independientes de tamaños “n1” y “n2”, tomadas de dos poblaciones normales con varianzas
(σ1)2 y (σ2)2 respectivamente, entonces:
𝑆1 2⁄ 2
𝜎 2 𝑆1 × 𝜎2 2
𝐹= 2 1 = 2 ~ 𝐹𝛼,(𝑣1 , 𝑣2 )
𝑆2 ⁄ 𝑆2 × 𝜎1 2
𝜎2 2
Distribución de diferencia de medias:
1. Varianzas poblacionales conocidas

Poblaciones normales
𝐸[𝑋̅1 − 𝑋̅2 ] = 𝜇1 − 𝜇2
𝜎1 2 𝜎2 2
𝑉[𝑋̅1 − 𝑋̅2 ] = +
𝑛1 𝑛2
(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )
𝑍= ~ 𝑁(0, 1)
𝜎1 2 𝜎2 2
√
𝑛1 + 𝑛2
2. Varianzas poblacionales conocidas

Poblaciones no normales
Solamente si n1 y n2 son grandes:
(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )

𝑍= ~ 𝑁(0, 1)
𝜎2 𝜎2
√ 1 + 2
𝑛1 𝑛2
3. Varianzas poblacionales desconocidas

Poblaciones normales
Se suponen ambas varianzas iguales
(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )

𝑡= ~ 𝑡𝑛1 +𝑛2 −2
1 1
𝑆𝑐 √𝑛 + 𝑛
1 2
Donde Sc es la varianza conjunta o combinada:
(𝑛1 − 1) × 𝑆1 2 + (𝑛2 − 1) × 𝑆2 2
𝑆𝑐 = √
𝑛1 + 𝑛2 − 2
4. Varianzas poblacionales desconocidas

Poblaciones no normales
(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )

𝑍= ~ 𝑁(0, 1)
2 2
√𝑆1 + 𝑆2
𝑛1 𝑛2
Estimación (Tema 6)
Estimación puntual: definida como un único valor θ̂ del estadístico Θ
̂ referido a un parámetro θ de la
población.
Estimador: el estadístico Θ ̂ que se utiliza para obtener la estimación puntual. Denominada también función
de decisión. En un caso ideal, se encontrará un estimador que represente al parámetro de forma exacta. A diferencia
de lo anterior, de forma general, no se espera que se logre estimar el parámetro de la población sin error (dado que
el mismo es función de varias variables aleatorias muestrales), sino que dicha estimación no se encuentre muy alejada
del valor real. Por lo tanto, se dice que:
θ̂ = θ + 𝑒𝑟𝑟𝑜𝑟 𝑑𝑒 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛
Buen estimador o estimador preciso: aquel que produzca solo pequeñas diferencias de estimación.
Propiedades de un buen estimador:
 Insesgado: un estadístico Θ ̂ es un estimador insesgado del parámetro θ si, para todo valor
posible de θ, se tuviese que:
̂] = 𝜃
𝐸[Θ
Si el estimador no es insesgado, entonces la diferencia:
̂] − 𝜃
𝐸[Θ
Es conocida como sesgo de Θ ̂.
 Eficiente: aquel estadístico, de varios estimadores insesgados considerados, cuya distribución
muestral posee la menor variancia, o variancia mínima.
 Suficiente: aquel estimador que resume toda la información relevante contenida en la
muestra, de forma tal que ningún otro estimador pueda proporcionar información adicional
sobre el parámetro desconocido de la población.
 Consistente: cuando el estimador converge al valor verdadero del parámetro cuando el
tamaño de la muestra tiende a infinito. Para estimadores insesgados:
̂] = 0
lim 𝑉[Θ
𝑛→∞
Método de máxima verosimilitud: empleado para elegir un buen estimador, a partir de su influencia en la
función de verosimilitud, cuando el parámetro a estimar es desconocido.
Función de verosimilitud: suponiendo una variable aleatoria “X” con función de probabilidad f(x, Θ),
donde “Θ” es un parámetro desconocido, y teniendo una muestra aleatoria de tamaño “n”, de donde se obtienen “xi”
(i = 1, 2, …, n) valores observados, se define como función de verosimilitud de la muestra a:
𝑛
ℒ(Θ) = 𝑓(𝑥1 , Θ) × 𝑓(𝑥2 , Θ) × … × 𝑓(𝑥𝑛 , Θ) = ∏ 𝑓(𝑥𝑖 , Θ)

𝑖=1
Que es la función de densidad conjunta o función de masa de probabilidad conjunta de la variable

aleatoria “X”. En la práctica se suele usar el logaritmo de dicha función:
𝑛
ℓ̂(Θ) = ln ℒ(Θ) = ∑ ln 𝑓(𝑥𝑖 , Θ)

𝑖=1
Estimador de máxima verosimilitud (EMV): aquel valor de Θ (denominado θ0) que maximiza la función
de verosimilitud ℓ̂(Θ) de la muestra.
Intervalos de confianza: se define al intervalo formado por dos valores “θi” y “θs” del parámetro Θ, de tal
forma que la probabilidad encerrada en el mismo sea igual a “1 – α”:
𝑃(𝜃𝑖 < Θ < 𝜃𝑠 ) = 1 − 𝛼

“La probabilidad de que θi y θs encierren a Θ es 1 – α”
Siendo “1 – α” el coeficiente o grado de confianza del intervalo, y los valores “θi” y “θs” los límites de
confianza inferior y superior.
Variable fundamental: variable aleatoria que cumple con lo siguiente:
 Depende únicamente del parámetro al que se le construye el intervalo.

 Depende del estimador de máxima verosimilitud.
 Debe tener una distribución fija y conocida, independiente del parámetro.
Intervalo de confianza para la media:
1. Población normal con σ2 conocida:
𝑋̅ − 𝜇
𝑍= → 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑓𝑢𝑛𝑑𝑎𝑚𝑒𝑛𝑡𝑎𝑙
𝜎/√𝑛
El mejor intervalo de confianza es el que tiene menor longitud. Dado que una distribución
simétrica implica un intervalo de confianza simétrico, se demuestra que su longitud es mínima cuando sus extremos
son iguales, pero de signo contrario.
𝑃(−𝑧1 < 𝑍 < 𝑧1 ) = 1 − 𝛼
𝑋̅ − 𝜇
𝑃 (−𝑧1−𝛼 < 𝜎 < 𝑧1−𝛼 ) = 1 − 𝛼
2 ⁄ 𝑛 2
√
𝜎 𝜎
𝑃 (𝑋̅ − 𝑧1−𝛼 × < 𝜇 < 𝑋̅ + 𝑧1−𝛼 × )=1−𝛼
2 √𝑛 2 √𝑛
Por lo que el intervalo de confianza para la media con varianza poblacional conocida queda
expresado como:
𝜎
𝜇 = 𝑋̅ ± 𝑧1−𝛼 ×
2 √𝑛
El error del intervalo “E” y la longitud del intervalo “L” se definen como:
𝜎
𝐸 = 𝑧1−𝛼 × ; 𝐿 = 2𝐸
2 √𝑛
2. Población normal con σ2 desconocida:
Se hace uso de una variable fundamental “t”:
𝑋̅ − 𝜇
𝑡= ~ 𝑡(𝑛−1)
𝑆/√𝑛
𝑋̅ − 𝜇
𝑃 (−𝑡1−𝛼 < < 𝑡1−𝛼 ) = 1 − 𝛼
2 𝑆⁄ 2
√𝑛
𝑆 𝑆
𝑃 (𝑋̅ − 𝑡1−𝛼 × < 𝜇 < 𝑋̅ + 𝑡1−𝛼 × )=1−𝛼
2 √𝑛 2 √𝑛
Por lo que el intervalo de confianza para la media con varianza poblacional desconocida queda
expresado como:
𝑆
𝜇 = 𝑋̅ ± 𝑡1−𝛼 ×
2 √𝑛
Intervalo de confianza para la varianza:
Se hace uso de una variable fundamental “U”, que tiene una distribución chi cuadrada de “n – 1”
grados de libertad, y se emplea como estimador insesgado de la varianza poblacional a “S2”.
(𝑛 − 1) × 𝑆 2
𝑈= ~ χ2(𝑛−1)
𝜎2
(𝑛 − 1) × 𝑆 2
𝑃 (χ2𝛼 < 2
2
< χ1− 𝛼) = 1 − 𝛼
2 𝜎 2
Se invierten los términos de la probabilidad, invirtiéndose además los operadores de la inecuación:
1 𝜎2 1
𝑃( < < 2) = 1 − 𝛼
χ2 𝛼 (𝑛 − 1) × 𝑆 2
χ𝛼
1−
2 2
(𝑛 − 1) × 𝑆 2 (𝑛 − 1) × 𝑆 2
𝑃( < 𝜎2 < )=1−𝛼
χ2 𝛼 χ2𝛼
1−
2 2
Intervalo de confianza para proporciones (1 población):

𝑝̂ − 𝑃
𝑍= ~ 𝑁(0, 1)
√𝑃 × 𝑄⁄𝑛
𝑝̂ − 𝑃
𝑃 −𝑧1−𝛼 < < 𝑧1−𝛼 =1−𝛼
2 2
√𝑃 × 𝑄⁄𝑛
( )
𝑃×𝑄 𝑃×𝑄
𝑃 (𝑝̂ − 𝑧1−𝛼 × √ < 𝑃 < 𝑝̂ + 𝑧1−𝛼 × √ )=1−𝛼
2 𝑛 2 𝑛
Debido a la aparición de “P” y “Q”, parámetros a estimar, en el intervalo de confianza, se realiza una
aproximación empleando sus estimadores “𝑝̂ ” y “𝑞̂”:
𝑝̂ × 𝑞̂ 𝑝̂ × 𝑞̂
𝑃 (𝑝̂ − 𝑧1−𝛼 × √ < 𝑃 < 𝑝̂ + 𝑧1−𝛼 × √ )=1−𝛼
2 𝑛 2 𝑛
Intervalos de confianza para dos poblaciones:
Intervalo de confianza para diferencia de medias:
1. Poblaciones normales con σ12 y σ22 conocidas:
(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )

𝑍= ~ 𝑁(0, 1)
𝜎2 𝜎2
√ 1 + 2
𝑛1 𝑛2
𝜎1 2 𝜎2 2 𝜎1 2 𝜎2 2
𝑃 ((𝑋̅1 − 𝑋̅2 ) − 𝑧1−𝛼 × √ + < 𝜇1 − 𝜇2 < (𝑋̅1 − 𝑋̅2 ) + 𝑧1−𝛼 × √ + )=1−𝛼
2 𝑛1 𝑛2 2 𝑛1 𝑛2
Este intervalo de confianza puede ser empleado también cuando no se posee conocimiento
de la normalidad de las poblaciones y se desconocen las varianzas poblacionales, reemplazando σ12 y σ22 por S12 y S22
cuando n1 y n2 son grandes.
2. Poblaciones normales con σ12 y σ22 desconocidas:
Se suponen las varianzas poblacionales iguales
(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )

𝑡= ~ 𝑡𝑛1 +𝑛2 −2
1 1
𝑆𝑐 √ +
𝑛1 𝑛2
(𝑛1 − 1) × 𝑆1 2 + (𝑛2 − 1) × 𝑆2 2
𝑆𝑐 = √
𝑛1 + 𝑛2 − 2
1 1 1 1
𝑃 ((𝑋̅1 − 𝑋̅2 ) − 𝑡1−𝛼 × 𝑆𝑐 √ + < 𝜇1 − 𝜇2 < (𝑋̅1 − 𝑋̅2 ) + 𝑡1−𝛼 × 𝑆𝑐 √ + ) = 1 − 𝛼
2 𝑛1 𝑛2 2 𝑛1 𝑛2
Intervalo de confianza para cociente de varianzas: se emplea una variable fundamental “v”:
𝑆1 2 × 𝜎2 2
𝑣= ~ 𝐹(𝑛1 −1,𝑛2 −1)
𝑆2 2 × 𝜎1 2
𝑆1 2 1 𝜎1 2 𝑆1 2 1
𝑃( × < 2< 2× )=1−𝛼
𝑆2 2 𝐹1−𝛼,(𝑛
1 −1,𝑛2 −1)
𝜎2 𝑆2 𝐹𝛼,(𝑛 −1,𝑛 −1)
1 2
2 2
𝑆1 2 1 𝜎1 2 𝑆1 2
𝑃( 2× < < × 𝐹1−𝛼,(𝑛 −1,𝑛 −1) ) = 1 − 𝛼
𝑆2 𝐹1−𝛼,(𝑛 𝜎2 2 𝑆2 2 2 2 1
2 1 −1,𝑛2 −1)
Intervalo para proporciones de dos poblaciones:

(𝑝1 − 𝑝2 ) − (𝑃1 − 𝑃2 )
𝑍= ~ 𝑁(0, 1)
√𝑃1 × 𝑄1⁄𝑛 + 𝑃2 × 𝑄2⁄𝑛
1 2
𝑝̂1 × 𝑞̂1 𝑝̂2 × 𝑞̂2 𝑝̂1 × 𝑞̂1 𝑝̂2 × 𝑞̂2

𝑃 ((𝑝1 − 𝑝2 ) − 𝑧1−𝛼 × √ + < (𝑃1 − 𝑃2 ) < (𝑝1 − 𝑝2 ) + 𝑧1−𝛼 × √ + )=1−𝛼
2 𝑛1 𝑛2 2 𝑛1 𝑛2
Contrastes de Hipótesis (Tema 7)

Hipótesis estadística: proposición o supuesto sobre un conjunto de parámetros de una o más poblaciones.
También es posible considerarla como una proposición sobre la distribución de probabilidad de una variable aleatoria
(bondad de ajuste).
En cualquier problema de contraste de hipótesis, hay dos hipótesis contradictorias:
Hipótesis nula (H0): es la afirmación que se supone al principio como cierta. Se expresa como una
afirmación de igualdad:
𝐻0 : 𝜃 = 𝜃0
Donde θ0 es un número especificado, denominado valor nulo del parámetro. El mismo se determina
a partir de:
 Experiencias pasadas o conocimiento del proceso.

 Teorías o modelos que se relacionan con el proceso bajo estudio.
 Consideraciones externas (especificaciones de diseño o ingeniería, obligaciones
contractuales).
Hipótesis alternativa (H1): aseveración contradictoria a la hipótesis nula. Tendrá alguna de las
siguientes formas:
Hipótesis alternativas unilaterales
 𝐻1 : 𝜃 < 𝜃0
 𝐻1 : 𝜃 > 𝜃0
Hipótesis alternativa bilateral
 𝐻1 : 𝜃 ≠ 𝜃0
Los problemas siempre se formularán de tal forma que desde el principio se favorezca una de las
afirmaciones (hipótesis nula). La misma no se rechazará a menos que la evidencia muestral la contradiga y proporcione
un fuerte respaldo a la aseveración alternativa. Si la muestra no contradice de forma contundente a la hipótesis nula,
se continúa con la suposición de su veracidad.
Contraste de hipótesis: procedimiento de prueba, con base en datos muestrales, para decidir si se rechaza o
no la hipótesis nula.
Estadístico de prueba: función de los datos muestrales en la que se basará la decisión (rechazar o no la
hipótesis nula)
Región crítica o de rechazo: conjunto de los valores del estadístico de prueba para los que se rechazará la
hipótesis nula.
Región de aceptación: conjunto de los valores del estadístico de prueba para los que no se rechazará la
hipótesis nula.
Valores críticos: valores de frontera entre la región crítica y la de aceptación.
Errores en el contraste de hipótesis:
Error tipo I: cuando se rechaza la hipótesis nula, siendo esta verdadera. Se define a la probabilidad de
cometer el error del tipo I de un determinado test de hipótesis al único valor “α” (dado que existe un único valor θ 0),
denominado nivel de significancia de la prueba:
𝑃(𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼) = 𝛼
Es posible reducir el valor de “α” al aumentar la región de aceptación o el tamaño de la
muestra con la que se realiza el test de hipótesis.
Error tipo II: cuando no se rechaza la hipótesis nula, siendo esta falsa. La probabilidad de cometer
error del tipo II se denota con “β”. El valor de “β” es imposible de determinar a menos que se considere un valor de
parámetro específico para la hipótesis alternativa (H1: θ = θ1). Por consiguiente, existe un valor de “β” distinto para
cada valor del parámetro consistente con la hipótesis alternativa (ya que el mismo puede variar).
𝑃(𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼𝐼) = 𝛽

La probabilidad de cometer error del tipo II aumenta rápidamente a medida que el valor
verdadero del parámetro al que se le realiza el contraste de hipótesis (θ) tiende al valor hipotético (θ0). Al igual que
con “α”, es posible reducir la probabilidad de cometer error del tipo II aumentando el tamaño de la muestra.
Ambos errores están relacionados. Una disminución en la probabilidad de cometer un tipo de error
significa un aumento en la probabilidad de cometer el otro.
Potencia de la prueba: se define como la probabilidad de rechazar la hipótesis nula cuando la hipótesis
alternativa es verdadera. El valor de la potencia de la prueba está dado por “1 – β”.
Prueba de hipótesis de una cola: cuando la hipótesis alternativa es unilateral.
Prueba de hipótesis de dos colas: cuando la hipótesis alternativa es bilateral.
Procedimiento del contraste de hipótesis:
 Establecer la hipótesis nula y alternativa.

 Elegir un nivel de significancia “α” fijo.
 Seleccionar un estadístico de prueba adecuado y establecer la región critica con base en “α”.
 Rechazar H0 si el estadístico de prueba cae en la región crítica, caso contrario, no rechazar H0.
Test de hipótesis de la media con varianza conocida:
Estadístico de prueba: 𝑋̅
𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0
Estandarizando:
𝑋̅ − 𝜇0
𝑍=
𝜎/√𝑛
𝑋̅ − 𝜇0
𝑃 (−𝑧1−𝛼 < 𝜎 < 𝑧1−𝛼 ) = 1 − 𝛼
2 ⁄ 𝑛 2
√
𝜎 𝜎
𝑃 (𝜇0 − 𝑧1−𝛼 × < 𝑋̅ < 𝜇0 + 𝑧1−𝛼 × )=1−𝛼
2 √𝑛 2 √𝑛
Por lo tanto, nuestros valores críticos son:
𝜎 𝜎
𝑎 = 𝜇0 − 𝑧1−𝛼 × ; 𝑏 = 𝜇0 + 𝑧1−𝛼 ×
2 √𝑛 2 √𝑛
Test de hipótesis para la media con varianza desconocida:
Estadístico de prueba: 𝑋̅
𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0
𝑋̅ − 𝜇0
𝑡=
𝑆/√𝑛
𝑋̅ − 𝜇0
𝑃 (−𝑡1−𝛼 < < 𝑡1−𝛼 ) = 1 − 𝛼
2 𝑆⁄ 2
√𝑛
𝑆 𝑆
𝑃 (𝜇0 − 𝑡1−𝛼 × < 𝑋̅ < 𝜇0 + 𝑡1−𝛼 × )=1−𝛼
2 √𝑛 2 √𝑛
𝑆 𝑆
𝑎 = 𝜇0 − 𝑡1−𝛼 × ; 𝑏 = 𝜇0 + 𝑡1−𝛼 ×
2 √𝑛 2 √𝑛
Test de hipótesis para la varianza:
Estadístico de prueba: S2
𝐻0 : 𝜎 2 = 𝜎02
𝐻1 : 𝜎 2 > 𝜎02
(𝑛 − 1) × 𝑆 2
𝑈= ~ χ2(𝑛−1)
𝜎02
(𝑛 − 1) × 𝑆 2 2
𝑃( 2 < χ1−𝛼,(𝑛−1) )=1−𝛼
𝜎0
2 𝜎02
𝑃 (𝑆 2 < χ1−𝛼,(𝑛−1) × )=1−𝛼
(𝑛 − 1)
2 𝜎02
𝑐 = χ1−𝛼,(𝑛−1) ×
(𝑛 − 1)
Test de hipótesis para proporciones:
Es posible trabajar con una aproximación a una distribución normal cuando el tamaño de la muestra
es grande.
Estadístico de prueba: 𝑝̂
𝐻0 : 𝑝 = 𝑝0
𝐻1 : 𝑝 ≠ 𝑝0
𝑝̂ − 𝑝0
𝑍= ~ 𝑁(0, 1)
√𝑝0 × 𝑞0⁄𝑛
𝑝0 × 𝑞0 𝑝0 × 𝑞0
𝑎 = 𝑝0 − 𝑧1−𝛼 × √ ; 𝑏 = 𝑝0 + 𝑧1−𝛼 × √
2 𝑛 2 𝑛
Test de hipótesis de diferencia de medias con varianzas conocidas:
Estadístico de prueba: 𝑋̅1 − 𝑋̅2
𝐻0 : 𝜇1 − 𝜇2 = 𝑑0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝑑0
(𝑋̅1 − 𝑋̅2 ) − 𝑑0
𝑍=
𝜎1 2 𝜎2 2
√
𝑛1 + 𝑛2
𝜎1 2 𝜎2 2 𝜎1 2 𝜎2 2
𝑃 (𝑑0 − 𝑧1−𝛼 × √ + < 𝑋̅1 − 𝑋̅2 < 𝑑0 + 𝑧1−𝛼 × √ + )= 1−𝛼
2 𝑛1 𝑛2 2 𝑛1 𝑛2
𝜎1 2 𝜎2 2 𝜎1 2 𝜎2 2
𝑎 = 𝑑0 − 𝑧1−𝛼 × √ + ; 𝑏 = 𝑑0 + 𝑧1−𝛼 × √ +
2 𝑛1 𝑛2 2 𝑛1 𝑛2
Test de hipótesis de diferencia de medias con varianzas desconocidas
Se suponen las varianzas poblacionales iguales
Estadístico de prueba: 𝑋̅1 − 𝑋̅2
𝐻0 : 𝜇1 − 𝜇2 = 𝑑0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝑑0
(𝑋̅1 − 𝑋̅2 ) − 𝑑0
𝑡= ~ 𝑡𝑛1 +𝑛2−2
1 1
𝑆𝑐 √ +
𝑛1 𝑛2
(𝑛1 − 1) × 𝑆1 2 + (𝑛2 − 1) × 𝑆2 2
𝑆𝑐 = √
𝑛1 + 𝑛2 − 2
1 1 1 1
𝑃 (𝑑0 − 𝑡1−𝛼 × 𝑆𝑐 √ + < 𝑋̅1 − 𝑋̅2 < 𝑑0 + 𝑡1−𝛼 × 𝑆𝑐 √ + ) = 1 − 𝛼
2 𝑛1 𝑛2 2 𝑛1 𝑛2
1 1 1 1
𝑎 = 𝑑0 − 𝑡1−𝛼 × 𝑆𝑐 √ + ; 𝑏 = 𝑑0 + 𝑡1−𝛼 × 𝑆𝑐 √ +
2 𝑛1 𝑛2 2 𝑛1 𝑛2
Test de hipótesis para diferencias de proporciones:
Estadístico de prueba: 𝑃̂1 − 𝑃̂2
𝐻0 : 𝑝1 − 𝑝2 = 𝑑0
𝐻1 : 𝑝1 − 𝑝2 ≠ 𝑑0
(𝑝1 − 𝑝2 ) − (𝑃1 − 𝑃2 )
𝑍= ~ 𝑁(0, 1)
√𝑃1 × 𝑄1⁄𝑛 + 𝑃2 × 𝑄2⁄𝑛
1 2
Test de hipótesis para cociente de varianzas:

𝑆2
Estadístico de prueba: 𝑆12
2
𝜎12
𝐻0 : =𝑘
𝜎22
𝜎12
𝐻1 : ≠𝑘
𝜎22
𝑆1 2 × 𝜎2 2
𝑣= ~ 𝐹(𝑛1 −1,𝑛2 −1)
𝑆2 2 × 𝜎1 2
𝑆1 2 × 𝜎2 2
𝑃 (𝐹𝛼 < < 𝐹1−𝛼 ) = 1 − 𝛼
2 𝑆2 2 × 𝜎1 2 2
𝑆1 2 1
𝑃 (𝐹𝛼 < 2 × < 𝐹1−𝛼 ) = 1 − 𝛼
2 𝑆2 𝑘 2
𝑆1 2
𝑃 (𝑘 × 𝐹𝛼 < < 𝑘 × 𝐹1−𝛼 ) = 1 − 𝛼
2 𝑆2 2 2
𝑎 = 𝑘 × 𝐹𝛼,(𝑛 ; 𝑏 = 𝑘 × 𝐹1−𝛼,(𝑛
2 1 −1,𝑛2 −1) 2 1 −1,𝑛2 −1)
Prueba de Bondad de Ajuste

Contraste de hipótesis para determinar si una población posee una cierta distribución de probabilidad
específica, hipotética. Con la prueba de bondad de ajuste se analiza el ajuste de las frecuencias de ocurrencia reales,
observadas en una muestra, de la población con las frecuencias esperadas, según la distribución de probabilidades
supuesta. Por lo tanto, suponiendo una variable aleatoria poblacional “X”, con distribución de frecuencias “f(x)”, se
definen las hipótesis como:
𝐻0 : 𝑋 ~𝑓(𝑥)
𝐻1 : 𝑋 ≁ 𝑓(𝑥)
Las pruebas de bondad de ajuste se basan en la cantidad:
𝑘
(𝜃𝑖 − 𝑒𝑖 )2 2
𝑈=∑ ~ 𝜒1−𝛼,(𝑘−𝑟−1)
𝑒𝑖
𝑖=1
Donde “k” es el número de celdas (intervalos de clase o valores de la v.a.d.), “θi” las frecuencias
observadas de cada celda, “ei” las frecuencias esperadas, y “r” el número de parámetros estimados en la prueba. Se
debe tener en cuenta al realizar la prueba de bondad de ajuste que las frecuencias esperadas de cada celda sean
iguales o mayores a 5, agrupándose las celdas adyacentes caso contrario.
Obteniendo el valor de “U”, se procede a realizar un test de hipótesis sobre dicha variable a una cola,
modificándose nuestras hipótesis a:
2
𝐻0 : 𝑈 < 𝜒1−𝛼,(𝑘−𝑟−1)
2
𝐻1 : 𝑈 ≥ 𝜒1−𝛼,(𝑘−𝑟−1)
Dado esto, se procede a calcular el valor del límite crítico y se lo compara con el valor de “U” obtenido.
En base a esto se decide el rechazo o no de la hipótesis nula original. Las frecuencias esperadas “ei” se obtienen de la
siguiente manera:
 Para distribuciones discretas: 𝑒𝑖 = 𝑛 × 𝑃(𝑥 = 𝑖)
𝑛 × 𝑃(−∞ < 𝑥 < 𝑥𝑠𝑢𝑝 ) 𝑃𝑎𝑟𝑎 𝑒𝑙 𝑝𝑟𝑖𝑚𝑒𝑟 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜

 Para distribuciones continuas: 𝑒𝑖 = {𝑛 × 𝑃(𝑥𝑖𝑛𝑓 < 𝑥 < 𝑥𝑠𝑢𝑝 ) 𝑃𝑎𝑟𝑎 𝑙𝑜𝑠 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠 𝑖𝑛𝑡𝑒𝑟𝑚𝑒𝑑𝑖𝑜𝑠
𝑛 × 𝑃(𝑥𝑖𝑛𝑓 < 𝑥 < ∞) 𝑃𝑎𝑟𝑎 𝑒𝑙 ú𝑙𝑡𝑖𝑚𝑜 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
Regresión y correlación (Tema 8)

Regresión: se emplea para resolver problemas que implican conjuntos de variables de las cuales se sabe que
tienen alguna relación inherente entre sí, desarrollando un método de pronóstico. Dentro de las variables relacionadas
se pueden distinguir las que dependen, en alguna forma, de los valores que toman las otras variables y, por lo general,
se desea conocer su distribución de probabilidades o relación, denominadas variables dependientes o respuestas. Las
variables de las cuales dependen las anteriores se denominan variables independientes o regresores.
Análisis de regresión: es el estudio para encontrar la mejor relación entre una respuesta y un regresor,
cuantificando la fuerza de dicha relación, y empleando métodos que permitan predecir los valores de la respuesta
dados los valores del regresor.
Regresión múltiple: cuando existe más de una variable independiente que ayuda a explicar a la respuesta.
Regresión simple: análisis del caso con un solo regresor.
Regresión lineal simple: trata el caso de una sola variable regresora “x” para una respuesta “Y”, en el que la
relación entre ambas es lineal:
𝑌 = 𝛽0 + 𝛽1 × 𝑥
Donde β0 es la intersección (ordenada al origen) y β1 la pendiente.
Se denota una muestra aleatoria de tamaño “n” mediante el conjunto {(𝑥𝑖 , 𝑦𝑖 ); 𝑖 = 1, 2, … , 𝑛}. Por la
naturaleza de los procesos a los que se le realiza una regresión, si se toman muestras adicionales con los mismos
valores de “x”, se esperaría que los valores de “y” fueran variando. Por lo tanto, los valores “𝑦𝑖 ” en el par ordenado
“(𝑥𝑖 , 𝑦𝑖 )” son valores de cierta variable aleatoria “Yi”. Dado esto, debe existir un componente aleatorio en la ecuación
que relaciona las variables, generándose un modelo estadístico, en donde “Y” se relaciona con “x” por medio de:
𝑌 = 𝛽0 + 𝛽1 × 𝑥 + 𝜖
Siendo 𝜖 el error aleatorio o alteración aleatoria, una variable aleatoria que se supone se encuentra
distribuida con 𝐸[𝜖] = 0 y 𝑉[𝜖] = 𝜎 2 , denominándose a 𝜎 2 varianza residual. La esperanza cero de la variable implica
que para una “x” específica, los valores de “Y” se distribuyen alrededor de la recta verdadera o recta de regresión.
Supuestos:
 La variable “x” es una variable matemática, es decir no es aleatoria, no está sujeta a errores.
 La variable “Y” es una variable aleatoria, es la que se mide en el experimento y está sujeta a
errores.
 Las variables “Y1, Y2, …, Yn” se consideran variables aleatorias independientes.
 Para cada “xi”, la distribución de “Yi” es normal con:
𝐸[𝑌𝑖 ] = 𝛼 + 𝛽 × 𝑥𝑖
𝑉[𝑌𝑖 ] = 𝜎 2
 La varianza σ2 es constante.
Recta de regresión ajustada: empleada para estimar los coeficientes de regresión, mediante el uso de los
estimadores “b0” para “β0” y “b1” para “β1”. La recta se define como:
𝑦̂ = 𝑏0 + 𝑏1 × 𝑥
Residual: es un error de ajuste del modelo que emplea la recta de regresión ajustada. Dado un conjunto de
datos de regresión “{(𝑥𝑖 , 𝑦𝑖 ); 𝑖 = 1, 2, … , 𝑛}” y un modelo ajustado “𝑦̂ = 𝑏0 + 𝑏1 × 𝑥”, el i-ésimo residual “ei” es dado
por:
𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 , 𝑖 = 1, 2, … , 𝑛
Si un conjunto de “n” residuales es grande, entonces el ajuste del modelo no es bueno. Los residuales son
indicadores de un ajuste adecuado.
Método de los mínimos cuadrados: consiste en el cálculo de los estimadores “b0” y “b1” de forma tal que la
suma de los cuadrados de los residuales (denominada suma de los cuadrados del error, SCE) sea mínima.
𝑛 𝑛 𝑛
𝑆𝐶𝐸 = ∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑(𝑦𝑖 − 𝑏0 − 𝑏1 × 𝑥𝑖 )2

𝑖=1 𝑖=1 𝑖=1
Derivando con respecto a “b0” y “b1”, igualando a cero y reacomodando los términos se obtienen las
denominadas ecuaciones normales:
𝑛 𝑛 𝑛 𝑛 𝑛
𝑛 × 𝑏0 + 𝑏1 × ∑ 𝑥𝑖 = ∑ 𝑦𝑖 ; 𝑏0 × ∑ 𝑥𝑖 + 𝑏1 × ∑ 𝑥𝑖2 = ∑ 𝑥𝑖 × 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
Las cuales se resuelven simultáneamente para obtener ecuaciones de cálculo para “b0” y “b1”.
Es posible comprobar que los estimadores de mínimos cuadrados para “β0” y “β1” son insesgados.
Regresión múltiple (curvilínea): modelo de regresión en donde se emplea más de una variable independiente.
Cuando el mismo es lineal en los coeficientes se denomina modelo de regresión lineal múltiple.
𝑦 = 𝛽0 + 𝛽1 × 𝑥1 + ⋯ + 𝛽𝑘 × 𝑥𝑘
La respuesta estimada se obtiene a partir de la ecuación de regresión:
𝑦̂ = 𝑏0 + 𝑏1 × 𝑥1 + ⋯ + 𝑏𝑘 × 𝑥𝑘
Donde cada coeficiente de regresión “βi” se estima por medio de “bi”, a partir de los datos muestrales, usando
el método de los mínimos cuadrados.
Modelo de regresión polinomial: modelo de regresión lineal múltiple:
𝑦 = 𝛽0 + 𝛽1 × 𝑥 + β2 × 𝑥 2 + ⋯ + 𝛽𝑘 × 𝑥 𝑘
Cuya ecuación de regresión polinomial es:
𝑦̂ = 𝑏0 + 𝑏1 × 𝑥 + 𝑏1 × 𝑥 2 + ⋯ + 𝑏𝑘 × 𝑥 𝑘
Regresión no lineal:
Modelo de regresión exponencial: modelo de regresión no lineal:
𝑦 = 𝛽0 × 𝛽1 𝑥
𝑦̂ = 𝑏0 × 𝑏1 𝑥
Si tanto “b0” como “b1” son positivos:
ln 𝑦̂ = ln 𝑏0 + 𝑥 × ln 𝑏1
Quedando un modelo de regresión lineal. Se pueden estimar los parámetros estimando sus
logaritmos.
Modelo de regresión potencial:
𝑦 = 𝛽0 + 𝑥 𝛽1
𝑦̂ = 𝑏0 + 𝑥 𝑏1
Si tanto “b0” como “x” son positivos:
ln 𝑦̂ = ln 𝑏0 + 𝑏1 × ln 𝑥
Correlación: caso particular de regresión, en donde se supone que tanto “X” como “Y” son variables aleatorias
y que las mediciones “{(𝑥𝑖 , 𝑦𝑖 ); 𝑖 = 1, 2, … , 𝑛}” son observaciones de una población que tiene la función de densidad
conjunta “𝑓(𝑥, 𝑦)”.
Análisis de correlación: aquel en donde se intenta medir la fuerza de las relaciones entre dos variables
por medio de un solo número denominado coeficiente de correlación.
Coeficiente de correlación de la población: se señala con “ρ”:
𝜎2 2
𝜎𝑋2
𝜌2 = 1 − = 𝛽1 ×
𝜎𝑌2 𝜎𝑌2
Siendo “σ2” la varianza de la distribución condicional de “Y” para valores fijos de “X”, y las
varianzas restantes las independientes respectivamente. Valores cercanos a la unidad de dicho parámetro (±1) indican
una buena correlación o asociación lineal, mientras que valores cercanos a cero indican poca o ninguna correlación.
Este coeficiente es estimado por “r”, denominado coeficiente de correlación muestral:
𝑆𝑥𝑥 𝑆𝑥𝑥
𝑟 = 𝑏1 × √ =
𝑆𝑦𝑦 √𝑆𝑥𝑥 × 𝑆𝑦𝑦

Probabilidad y Estadística - Resumen

Cargado por

Copyright:

Formatos disponibles

Probabilidad y Estadística - Resumen

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Probabilidad y Estadística - Resumen

Cargado por

Copyright:

Formatos disponibles

Estadística descriptiva (Tema 1)

Estadística descriptiva: resumen de conjuntos de datos representados en la muestra. Ofrece un sentido de la

Población finita: puede ser físicamente listada.

Población infinita: no puede ser físicamente listada.

Muestra: conjunto de observaciones. Subconjunto de una población.

Tamaño muestral: indica el número de elementos en una muestra.

Nominales o Naturales: sus valores no se pueden ordenar.

Ordinales o Arbitrarias: sus valores se pueden ordenar.

Dicotómicas o Binarias: presencia o ausencia de una categoría.

Para variables categóricas:

Escala nominal: clasifica las unidades en categorías.

Escala ordinal: ordena las categorías según un criterio.

Para variables numéricas:

Escala de razón: escala de intervalo adicionando el cero, o punto de origen.

Distribución de frecuencias para datos cuantitativos continuos

Construcción de una distribución de frecuencias

K: número de intervalos de clase. n: tamaño de la muestra.

1. Se determina el número de intervalos.

Sturges: 𝐾 ≈ 1 + 3,322 × log 𝑛

Tabla valores ideales

2. Se determina la amplitud de los intervalos.

Distribución de frecuencias para datos cuantitativos discretos.

Distribución de frecuencias para datos cualitativos

Medidas descriptivas numéricas

Parámetro: medida descriptiva numérica que representa una población.

Medidas de tendencia central

1. La suma de las desviaciones de un conjunto de números respecto de su media aritmética

Variables categóricas ordinales:

Variables numéricas sin agrupar:

Número de datos impar: 𝑀𝑒 = 𝑋𝑛+1

Variables numéricas agrupadas:

a: extremo inferior de la clase a la cual pertenece la mediana.

Fa: frecuencia acumulada de la clase inferior a la que contiene la mediana.

fc: frecuencia absoluta de la clase a la que pertenece la mediana.

Variables categóricas: se observan las tablas de frecuencias. Obtención de forma visual.

Variables cuantitativas sin agrupar: Obtención de forma visual.

Variables cuantitativas agrupadas en intervalos de clase:

1. Se obtiene la clase modal (la que posee el mayor número de repeticiones)

a: extremo inferior de la clase modal.

f1: frecuencia absoluta de la clase anterior a la modal.

f2: frecuencia absoluta de la clase posterior a la modal.

h: amplitud de la clase modal

Para datos sin agrupar:

Cuartiles: cuando se divide el conjunto ordenado de datos en cuatro partes iguales.

Octiles: cuando se divide el conjunto ordenado de datos en ocho partes iguales.

Deciles: cuando se divide el conjunto ordenado de datos en diez partes iguales.

Percentiles: cuando se divide el conjunto ordenado de datos en cien partes iguales.

Técnicas de exploración de datos

 Se determinan los valores de los tres cuartiles.

 Se definen los puntos de corte:

Experimento: cualquier proceso que genere datos iniciales.

Espacio muestral: conjunto de todos los resultados posibles de un experimento estadístico.

Elemento o punto muestral: cada resultado del espacio muestral.

Evento: subconjunto o parte de un espacio muestral.

Evento compuesto: unión de eventos simples.

𝐴=∅ Suceso imposible

𝐴 + 𝐴′ = 𝑆 Complemento de A (A’ = AC = Ā) (S: Espacio muestral)

𝐴∩𝐵 =𝐶 Intersección (elementos comunes)