Estimación por intervalo-3

XS3310 Teoría Estadística
I Semestre 2024

Prof. Shu Wei Chou Chen

Escuela de Estadística, UCR.

¿Qué vamos a discutir hoy?

  • Hemos visto hasta ahora sobre
    • Estimadores puntuales.
    • Intervalos de confianza clásicos.
  • Ahora:
    • Otros intervalos de confianza clásicos.
    • Intervalos de confianza para muestras grandes.
    • Funciones estabilizadores de varianza.

Ejemplo de un IC para \(\mu\) (\(\sigma^2\) desconocida)

Ejemplo: Se toma el tiempo en milisegundos para que los nervios se recuperen después de administrar una droga a 4 ratones: \(1.7, 1.6, 1.8, 1.9\). Suponga que la población es nornal, entonces calcule un intervalo de confianza para el promedio este tiempo a un 90% de confianza.

Solución: Para este caso tenemos que \(\bar{X} = 1.75\) y \(S^{2} = 0.017\) y \(S = \sqrt{0.017} = 0.13\).

En este caso vamos a tomar una \(t_{0.95,3} = 2.353 \ (\alpha/2 = 0.1/2 = 0.05\))

\[\begin{align*} & P\left(\bar{X}- t_{0.95,3} \cdot \frac{s}{\sqrt{4}} \leq \mu \leq \bar{X}+ t_{0.95,3} \cdot \frac{s}{\sqrt{n}}\right) \\ & = P\left(1.75- 2.353 \cdot \frac{0.13}{2} \leq \mu \leq 1.75+ 2.353 \cdot \frac{0.13}{2} \right) \\ &= P\left(1.597 \leq \mu \leq 1.903 \right) = 0.9. \end{align*}\]

Por lo que, con una confianza del 90%, el intervalo \([1.597, 1.903]\) contiene al verdadero valor de \(\mu\).

Ejemplo de un IC para \(\mu_1-\mu_2\)

Ejemplo: En un hospital se realiza un estudio sobre la influencia del estrés en el peso de los bebés al nacer. Se consideran dos grupos de mujeres embarazadas: aquellas que viven en el campo y aquellas que viven en la ciudad, y se obtienen los siguientes datos sobre el peso de sus hijos.

\[\begin{equation*} \begin{array}{|c|c||c|c|} \hline & \text { Muestra } & \begin{array}{c} \text { Peso medio } \\ \text { de los bebés } \end{array} & \begin{array}{c} \text { Desviación } \\ \text { estándar } \end{array} \\ \hline \text { campo } & \mathrm{n}_{1}=320 & \overline{\mathrm{X}}_{1}=3.8 & \sigma_{1}=0.6 \\ \hline \text { ciudad } & \mathrm{n}_{2}=240 & \overline{\mathrm{X}}_{2}=3.4 &\sigma_{2}=0.8 \\\hline\end{array}\end{equation*}\]

Asumiendo que los datos son normales, determine cómo influye que la madre viva en el campo o en la ciudad en el peso de su hijo al nacer, utilizando un intervalo de confianza para la diferencia de medias con un nivel de confianza del 95%.

Solución:

Intervalo de confianza del \(95 \%\) :

\(1-\alpha=0.95 \Rightarrow \alpha=1-0,95=0,05\)

Buscamos en el la tabla de normales aquel valor que cumpla \(P(Z\leq z_{1-\alpha / 2}) = 1-0.05/2 = 0.975\)

Obtenemos que \(\Rightarrow z_{1-\alpha / 2}=z_{0.975}=1.96\)

\[\begin{align*}&\left(\left(\overline{\mathrm{X}}_{1}-\overline{\mathrm{X}}_{2}\right)-z_{1-\alpha / 2}\sqrt{\frac{\sigma_{1}^{2}}{\mathrm{n}_{1}}+\frac{\sigma_{2}^{2}}{\mathrm{n}_{2}}},\left(\overline{\mathrm{X}}_{1}-\overline{\mathrm{X}}_{2}\right)+z_{1-\alpha / 2}\sqrt{\frac{\sigma_{1}^{2}}{\mathrm{n}_{1}}+\frac{\sigma_{2}^{2}}{\mathrm{n}_{2}}}\right)\\&=\left((3.8-3.4)-1.96 \sqrt{\frac{0.6^{2}}{320}+\frac{0.8^{2}}{240}},(3.8-3.4)+1.96\sqrt{\frac{0.6^{2}}{320}+\frac{0.8^{2}}{240}}\right)\\&=[0.279,0.520]\end{align*}\]

IC para poblaciones normales

  • Intervalo de confianza para \(\sigma^2\).
  • Intervalo de confianza para \(\frac{\sigma^2_{1}}{\sigma^2_{2}}\).

Intervalo de confianza para \(\sigma^2\)

  • Nos interesa constuir un intervalo de confianza de probabilidad \(1-\alpha\) para la variancia poblacional, \(\sigma^2\).

  • En este caso nuestra población sigue siendo Normal con parámetros \(\mu\) y \(\sigma^2\), donde ambos parámetros son desconocidos.

  • Considere la variable pivote:

\[U = \frac{(n-1)S^{2}}{\sigma^2}\]

  • Sabemos que \(U \sim \chi^{2}_{(n-1)}\). Por lo tanto esta variable aleatoria cumple todas las condiciones necesarias para ser un pivote.

  • Ahora debemos encontrar los valores de \(a\) y \(b\) tales que:

\[P(U < a) = \frac{\alpha}{2} \qquad P(U > b) = \frac{\alpha}{2}.\]

  • Sabemos que

\[P(a \leq U \leq b) = P\left( \chi^{2}_{\frac{\alpha}{2}, n-1} \leq U \leq \chi^{2}_{1-\frac{\alpha}{2}, n-1} \right) = 1 -\alpha.\] - Ahora despejamos \(\sigma^2\):

\[\begin{align*}P(a \leq U \leq b) &= P\left( \chi^{2}_{\frac{\alpha}{2}, n-1} \leq\frac{(n-1)S^{2}}{\sigma^2} \leq \chi^{2}_{\frac{1-\alpha}{2}, n-1} \right) \\ &= P\left( \frac{(n-1)S^{2}}{\chi^{2}_{1-\frac{\alpha}{2}, n-1}} \leq \sigma^2 \leq \frac{(n-1)S^{2}}{\chi^{2}_{\frac{\alpha}{2}, n-1}} \right) = 1 - \alpha\end{align*}\]

  • Por lo tanto, con una confianza del \((1 - \alpha)\%\) el intervalo \(\left[ \frac{(n-1)S^{2}}{\chi^{2}_{1-\frac{\alpha}{2}, n-1}} , \frac{(n-1)S^{2}}{\chi^{2}_{\frac{\alpha}{2}, n-1}} \right]\) incluye el valor de \(\sigma^2\).

Intervalo de confianza para \(\frac{\sigma^2_{1}}{\sigma^2_{2}}\)

  • Ahora volvemos al caso donde tenemos dos poblaciones independientes, una de las cuales es \(N(\mu_{1}, \sigma^{2}_{1})\) y la otra es \(N(\mu_{2}, \sigma^{2}_{2})\). Supongase que se obtiene una muestra \(X_{1}, X_{2}, ... , X_{n}\) de la primera población y otra \(Y_{1}, Y_{2}, ... , Y_{m}\) de la segunda. Nuestro interés yace en encontrar una estimación por intervalo, con probabilidad \(1-\alpha\), para el parámetro \(\frac{\sigma^2_{1}}{\sigma^2_{2}}\).

  • Recordemos la forma de una distribución F: \[F =\frac{\frac{V}{v_1}}{\frac{W}{v_2}}\]

donde \(V \sim \chi^{2}_{(v_1)}\) y \(W \sim \chi^{2}_{(v_2)}\).

  • Sabemos de antemano que \(\frac{(n - 1)S^{2}_{1}}{\sigma^{2}_{1}} \sim \chi^{2}_{(n-1)}\) y \(\frac{(m - 1)S^{2}_{2}}{\sigma^{2}_{2}} \sim \chi^{2}_{(m-1)}\).

  • Podemos usar estas variables aleatorias en la construcción de una F que incluya el parámetro de interés: \[F = \frac{\frac{\frac{(n - 1)S^{2}_{1}}{\sigma^{2}_{1}}}{n-1}}{\frac{\frac{(m - 1)S^{2}_{2}}{\sigma^{2}_{2}}}{m-1}} = \frac{S^{2}_{1}}{S^{2}_{2}} \cdot \frac{\sigma^{2}_{2}}{\sigma^{2}_{1}} \sim F_{(n-1,m-1)}.\]

  • Esta variable aleatoria cumple todas las condiciones para ser un pivote y podemos usarla para encontrar los valores de \(a\) y \(b\).

\[P(a \leq F \leq b) = P\left( F_{\frac{\alpha}{2}, n-1,m-1} \leq F \leq F_{1-\frac{\alpha}{2}, n-1,m-1} \right)\] \[= P\left( F_{\frac{\alpha}{2}, n-1,m-1} \leq \frac{S^{2}_{1}}{S^{2}_{2}} \cdot \frac{\sigma^{2}_{2}}{\sigma^{2}_{1}} \leq F_{1-\frac{\alpha}{2}, n-1,m-1} \right)= 1 -\alpha.\]

  • Finalmente podemos proceder a despejar y obtenemos el siguiente intervalo:

\[\left[ \frac{\frac{S^{2}_{1}}{S^{2}_{2}}}{F_{1-\frac{\alpha}{2}, n-1, m-1}} , \frac{\frac{S^{2}_{1}}{S^{2}_{2}}}{F_{\frac{\alpha}{2}, n-1, m-1}} \right]\]

el cual incluye el valor de \(\frac{\sigma^{2}_{1}}{\sigma^{2}_{2}}\) con una confianza del \((1-\alpha)\%\).

Ejemplo de un IC para \(\sigma^2_1/\sigma^2_2\)

Ejemplo: Un instituto de investigaciones agronómicas siembra, en cinco parcelas diferentes, dos tipos de maíz híbrido. Las producciones en quintales métricos por hectárea son:

\[\begin{equation*} \begin{array}{|l|c|c|c|c|c|} \hline \text{Tipo de maíz} & 1 & 2 & 3 & 4 & 5 \\ \hline \text { Híbrido I } & 90 & 85 & 95 & 76 & 80 \\ \hline \text { Híbrido II } & 84 & 87 & 90 & 92 & 90 \\ \hline \end{array} \end{equation*}\]

Construir un intervalo de confianza para el cociente de varianzas con una confianza de 0,9.

Solución: Asumiendo que las poblaciones son normales defina \(\mathrm{X}_{1}\equiv\) ‘Producción de maíz del híbrido I’ que sigue una \(\mathrm{N}\left(\mu_{1},\sigma_{1}^2\right)\) y \(\mathrm{X}_{2} \equiv\) ’ Producción de maíz del híbrido II’ que sigue una distribución \(\mathrm{N}\left(\mu_{2}, \sigma_{2}^2\right)\)

Entonces

x1 = c(90,85,95,76,80)
x2 = c(84,87,90,92,90)
var(x1);var(x2)
[1] 57.7
[1] 9.8
razon = var(x1)/var(x2)
(a=qf(0.05,4,4))
[1] 0.1565378
(b=qf(0.95,4,4))
[1] 6.388233
IC=c(razon/b,razon/a)
round(IC,4)
[1]  0.9217 37.6124

Intervalos de confianza para muestras grandes

  • Recordemos que cuando \(n \to +\infty\) el Teorema del Límite Central nos dice que \(\overline{X}\) converge en distribución a una \(N(\mu, \frac{\sigma^2}{n})\), sin ningún supuesto de la población (solamente con media y variancia finita).

  • Por lo tanto, si queremos hacer una estimación por intervalo para \(\mu\), suponiendo que conocemos el valor de \(\sigma^2\), podemos hacer uso del siguiente pivote:

\[Z_{n} = \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\] para muestras grandes. Y es conocida como una variable pivote asintótica.

  • Existen varios estimadores que son equivalentes a la forma de \(\overline{X}\) como por ejemplo \(\hat{p}\), cuya variancia es \(\frac{p(1-p)}{n}\).

  • Nótese que este intervalo supone que conocemos la varancia poblacional de nuestra población. Sin embargo, podemos hacer uso del Teorema de Slutsky1 para mantener el pivote que converge en distribución a una \(N(0,1)\), si conocemos un estimador consistente para la variancia poblacional.

Ejemplo: Se registraron los tiempos de compra de \(n=64\) clientes seleccionados al azar en un supermercado local. El promedio y variancia de los 64 tiempos de compra fueron 33 minutos y 256 minutos\(^{2}\), respectivamente. Estime \(\mu\), el verdadero promedio de tiempo de compra por cliente, con un coeficiente de confianza de \(1-\alpha=.90\).

Solución: Para muestras grandes, por el TLC,

\[Z_{n} = \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \xrightarrow{\text{d}} N(0,1).\]

Luego, por el T. Slutsky,

\[Z_{n}^* = \frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}} \xrightarrow{\text{d}} N(0,1).\] Es decir, si \(n\) es suficientemente grande,

\[P(a \leq Z_n^* \leq b) \approx P(-Z_{1-\frac{\alpha}{2}} \leq Z^*_n \leq Z_{1-\frac{\alpha}{2}} ) \approx 1-\alpha.\]

El intervalo tiene la forma: \[\begin{equation}\bar{x} \pm z_{1-\alpha / 2}\left(\frac{\sigma}{\sqrt{n}}\right) \approx \bar{x} \pm z_{1-\alpha / 2}\left(\frac{s}{\sqrt{n}}\right)\end{equation}\]

De la tabla de normales se deduce que \(z_{1-\alpha/2} = z_{0.95} = 1.645\).

Por lo tanto el intervalo es

\[\begin{align*}& \left[ 33-1.645\left(\frac{16}{8}\right), 33+1.645\left(\frac{16}{8}\right) \right]= \left[29.71, 36.29\right]\end{align*}\]

Ejemplo: Suponga que tienen datos de tiempos de espera en minutos en un banco con \(n=25\) clientes. La distribución del tiempo se observa que sigue una distribución \(Poisson(\theta)\) con \(\bar{X} = 5\). ¿Cual es el intervalo de confianza para \(\theta\) a un \(95\%\)?

Solución: Recuerde que si \(X\) es \(Poisson(\theta)\), entonces \(E[X] = Var(X) = \theta\).

Por el TLC se tiene que

\[\begin{equation} \bar{X} \pm z_{\alpha / 2}\left(\frac{\sigma}{\sqrt{n}}\right) \approx \bar{X} \pm z_{\alpha / 2}\left(\frac{\sqrt{\theta}}{\sqrt{n}}\right) \approx \bar{X} \pm z_{\alpha / 2}\left(\frac{\sqrt{\bar{X}}}{\sqrt{n}}\right)\end{equation}\]

\[\begin{align*}& \left[5-1.96\left(\frac{\sqrt{5}}{5}\right), 5+1.96\left(\frac{\sqrt{5}}{5}\right) \right] \\&= \left[ 4.12, 5.88\right]\end{align*}\]

Funciones estabilizadoras de varianza

  • El caso anterior requería hacer el uso del Teorema de Slutsky para aproximar la variancia poblacional.

  • ¿Existe otra forma sin esa suposición?

  • ¿Cómo transformar \(\hat{\theta}\) para que tenga variancia constante?

Ejemplo: Retomemos el caso de los clientes en el banco.

  • En este caso hicimos el supuesto de normalidad y aproximamos la varianza con \(\overline{X}\).

  • Por el método Delta, se tiene que para \(g\left(\bar{X}_{n}\right)\) \[\sqrt{n}\left(g(\overline{X}) - g(\mu)\right) \stackrel{d}{\to} N\left(0,\sigma^2\left( g^{\prime}(\mu) \right)^2\right)\]

\[\begin{equation*}\left(g^{\prime}(\mu) \sigma\right)^{2}=g^{\prime}(\mu)^{2}\sigma^{2}(\mu)\end{equation*}\]

  • Si se desea que la varianza sea constante con respecto a \(\mu\),

\[\begin{equation*} \begin{aligned} g^{\prime}(u)^{2} \sigma^{2}(\mu) &=1 \\ \Longrightarrow g^{\prime}(\mu) &=\frac{1}{\sigma(\mu)} \quad(\sigma(\mu)>0) \\ \Longrightarrow g(\mu) &=\int_{a}^{\mu} \frac{1}{\sigma(x)} \ dx \end{aligned}\end{equation*}\]

donde \(a\) es una constante arbitraria que hace la integral finita (y fácil de calcular).

  • Del ejemplo anterior, recuerde que \(\sigma^{2}=\theta\), entonces se podría tomar que \(\sigma=\sqrt{\theta}\) por lo tanto definimos

\[g(\theta)=\int_{0}^{\theta} \frac{d x}{\sqrt{x}}=2 \sqrt{\theta}\]

  • Por el método Delta, sabemos que

\[Z_n = \sqrt{n}\left( 2 \bar{X}_{n}^{\frac{1}{2}} - 2 \theta^{\frac{1}{2}} \right) \stackrel{d}{\to} N(0,1)\]

  • Entonces, para \(n\) grande,

\[P(a \leq Z_n \leq b) \approx P\left[-Z_{1-\frac{\alpha}{2}} \leq \sqrt{n}\left( 2 \bar{X}_{n}^{\frac{1}{2}} - 2 \theta^{\frac{1}{2}} \right) \leq Z_{1-\frac{\alpha}{2}} \right] \approx 1-\alpha.\]

  • Despejando \(\theta\),

\[ P\left[\left(\bar{X}^{1/2}-\frac{Z_{1-\frac{\alpha}{2}}}{2\sqrt{n}} \right)^2 \leq \theta \leq \left(\bar{X}^{1/2}+\frac{Z_{1-\frac{\alpha}{2}}}{2\sqrt{n}} \right)^2 \right] \approx 1-\alpha.\]

  • Se concluye que el intervalo de confianza de 0.95 para \(\theta\) es

\[\left[\left(\bar{X}^{1/2}-\frac{Z_{1-\frac{\alpha}{2}}}{2\sqrt{n}} \right)^2, \left(\bar{X}^{1/2}+\frac{Z_{1-\frac{\alpha}{2}}}{2\sqrt{n}} \right)^2 \right]\]

Usando los valores que teníamos anteriormente tenemos que

\[\left[\left(5^{1/2}-\frac{1.96}{2\sqrt{25}} \right)^2, \left(5^{1/2}+\frac{1.96}{2\sqrt{25}} \right)^2 \right] = [4.16, 5.91] \]

Lab03

Lab03

Práctica de Intervalos de Confianza

  1. La vida útil de cierto aparato de aire acondicionado sigue una distribución de Rayleigh, cuya función de densidad es: \[f(x|\theta) = \frac{x}{\theta^2} \exp{\left( \frac{-x^2}{2\theta^2} \right)} , x>0.\] y \(f(x|\theta)=0, x \leq 0\). Suponga que \(X_1, X_2, \dots , X_n\) es una muestra aleatoria correspondiente a la vida útil de \(n\) aparatos de aire acondicionado:
  1. Determine un estadístico suficiente para \(\theta\).

  2. Obtenga el estimador de máxima verosimilitud para \(\theta\).

  3. Considere el pivote \(\frac{1}{\theta^2} \sum_{j=1}^{n}X_j^2\) para construir un intervalo de confianza para \(\theta\) con una confianza del \((1- \alpha)\%\).

  1. ¿Cuál es la relación entre el estimador de máxima verosimilitud obtenido en b) con la estimación por intervalo obtenido en c).

  2. Considere la muestra aleatoria de \(n = 15\) datos de una distribución \(U(0,1)\) que se ofrece, para simular una muestra aleatoria de \(15\) datos de una distribución de Rayleigh con \(\theta =10\). Encuentre un intervalo de confianza del 95% para estimar \(\theta\).

¿Qué discutimos hoy?

Intervalos de confianza para variancias, para muestras grandes. Aplicación de método delta.

Aquí terminamos el tema 3.

El próximo tema es Contraste de hipótesis.