Ejemplo: Se toma el tiempo en milisegundos para que los nervios se recuperen después de administrar una droga a 4 ratones: \(1.7, 1.6, 1.8, 1.9\). Suponga que la población es nornal, entonces calcule un intervalo de confianza para el promedio este tiempo a un 90% de confianza.
Solución: Para este caso tenemos que \(\bar{X} = 1.75\) y \(S^{2} = 0.017\) y \(S = \sqrt{0.017} = 0.13\).
En este caso vamos a tomar una \(t_{0.95,3} = 2.353 \ (\alpha/2 = 0.1/2 = 0.05\))
\[\begin{align*} & P\left(\bar{X}- t_{0.95,3} \cdot \frac{s}{\sqrt{4}} \leq \mu \leq \bar{X}+ t_{0.95,3} \cdot \frac{s}{\sqrt{n}}\right) \\ & = P\left(1.75- 2.353 \cdot \frac{0.13}{2} \leq \mu \leq 1.75+ 2.353 \cdot \frac{0.13}{2} \right) \\ &= P\left(1.597 \leq \mu \leq 1.903 \right) = 0.9. \end{align*}\]
Por lo que, con una confianza del 90%, el intervalo \([1.597, 1.903]\) contiene al verdadero valor de \(\mu\).
Ejemplo: En un hospital se realiza un estudio sobre la influencia del estrés en el peso de los bebés al nacer. Se consideran dos grupos de mujeres embarazadas: aquellas que viven en el campo y aquellas que viven en la ciudad, y se obtienen los siguientes datos sobre el peso de sus hijos.
\[\begin{equation*} \begin{array}{|c|c||c|c|} \hline & \text { Muestra } & \begin{array}{c} \text { Peso medio } \\ \text { de los bebés } \end{array} & \begin{array}{c} \text { Desviación } \\ \text { estándar } \end{array} \\ \hline \text { campo } & \mathrm{n}_{1}=320 & \overline{\mathrm{X}}_{1}=3.8 & \sigma_{1}=0.6 \\ \hline \text { ciudad } & \mathrm{n}_{2}=240 & \overline{\mathrm{X}}_{2}=3.4 &\sigma_{2}=0.8 \\\hline\end{array}\end{equation*}\]
Asumiendo que los datos son normales, determine cómo influye que la madre viva en el campo o en la ciudad en el peso de su hijo al nacer, utilizando un intervalo de confianza para la diferencia de medias con un nivel de confianza del 95%.
Solución:
Intervalo de confianza del \(95 \%\) :
\(1-\alpha=0.95 \Rightarrow \alpha=1-0,95=0,05\)
Buscamos en el la tabla de normales aquel valor que cumpla \(P(Z\leq z_{1-\alpha / 2}) = 1-0.05/2 = 0.975\)
Obtenemos que \(\Rightarrow z_{1-\alpha / 2}=z_{0.975}=1.96\)
\[\begin{align*}&\left(\left(\overline{\mathrm{X}}_{1}-\overline{\mathrm{X}}_{2}\right)-z_{1-\alpha / 2}\sqrt{\frac{\sigma_{1}^{2}}{\mathrm{n}_{1}}+\frac{\sigma_{2}^{2}}{\mathrm{n}_{2}}},\left(\overline{\mathrm{X}}_{1}-\overline{\mathrm{X}}_{2}\right)+z_{1-\alpha / 2}\sqrt{\frac{\sigma_{1}^{2}}{\mathrm{n}_{1}}+\frac{\sigma_{2}^{2}}{\mathrm{n}_{2}}}\right)\\&=\left((3.8-3.4)-1.96 \sqrt{\frac{0.6^{2}}{320}+\frac{0.8^{2}}{240}},(3.8-3.4)+1.96\sqrt{\frac{0.6^{2}}{320}+\frac{0.8^{2}}{240}}\right)\\&=[0.279,0.520]\end{align*}\]
Nos interesa constuir un intervalo de confianza de probabilidad \(1-\alpha\) para la variancia poblacional, \(\sigma^2\).
En este caso nuestra población sigue siendo Normal con parámetros \(\mu\) y \(\sigma^2\), donde ambos parámetros son desconocidos.
Considere la variable pivote:
\[U = \frac{(n-1)S^{2}}{\sigma^2}\]
Sabemos que \(U \sim \chi^{2}_{(n-1)}\). Por lo tanto esta variable aleatoria cumple todas las condiciones necesarias para ser un pivote.
Ahora debemos encontrar los valores de \(a\) y \(b\) tales que:
\[P(U < a) = \frac{\alpha}{2} \qquad P(U > b) = \frac{\alpha}{2}.\]
\[P(a \leq U \leq b) = P\left( \chi^{2}_{\frac{\alpha}{2}, n-1} \leq U \leq \chi^{2}_{1-\frac{\alpha}{2}, n-1} \right) = 1 -\alpha.\] - Ahora despejamos \(\sigma^2\):
\[\begin{align*}P(a \leq U \leq b) &= P\left( \chi^{2}_{\frac{\alpha}{2}, n-1} \leq\frac{(n-1)S^{2}}{\sigma^2} \leq \chi^{2}_{\frac{1-\alpha}{2}, n-1} \right) \\ &= P\left( \frac{(n-1)S^{2}}{\chi^{2}_{1-\frac{\alpha}{2}, n-1}} \leq \sigma^2 \leq \frac{(n-1)S^{2}}{\chi^{2}_{\frac{\alpha}{2}, n-1}} \right) = 1 - \alpha\end{align*}\]
Ahora volvemos al caso donde tenemos dos poblaciones independientes, una de las cuales es \(N(\mu_{1}, \sigma^{2}_{1})\) y la otra es \(N(\mu_{2}, \sigma^{2}_{2})\). Supongase que se obtiene una muestra \(X_{1}, X_{2}, ... , X_{n}\) de la primera población y otra \(Y_{1}, Y_{2}, ... , Y_{m}\) de la segunda. Nuestro interés yace en encontrar una estimación por intervalo, con probabilidad \(1-\alpha\), para el parámetro \(\frac{\sigma^2_{1}}{\sigma^2_{2}}\).
Recordemos la forma de una distribución F: \[F =\frac{\frac{V}{v_1}}{\frac{W}{v_2}}\]
donde \(V \sim \chi^{2}_{(v_1)}\) y \(W \sim \chi^{2}_{(v_2)}\).
Sabemos de antemano que \(\frac{(n - 1)S^{2}_{1}}{\sigma^{2}_{1}} \sim \chi^{2}_{(n-1)}\) y \(\frac{(m - 1)S^{2}_{2}}{\sigma^{2}_{2}} \sim \chi^{2}_{(m-1)}\).
Podemos usar estas variables aleatorias en la construcción de una F que incluya el parámetro de interés: \[F = \frac{\frac{\frac{(n - 1)S^{2}_{1}}{\sigma^{2}_{1}}}{n-1}}{\frac{\frac{(m - 1)S^{2}_{2}}{\sigma^{2}_{2}}}{m-1}} = \frac{S^{2}_{1}}{S^{2}_{2}} \cdot \frac{\sigma^{2}_{2}}{\sigma^{2}_{1}} \sim F_{(n-1,m-1)}.\]
Esta variable aleatoria cumple todas las condiciones para ser un pivote y podemos usarla para encontrar los valores de \(a\) y \(b\).
\[P(a \leq F \leq b) = P\left( F_{\frac{\alpha}{2}, n-1,m-1} \leq F \leq F_{1-\frac{\alpha}{2}, n-1,m-1} \right)\] \[= P\left( F_{\frac{\alpha}{2}, n-1,m-1} \leq \frac{S^{2}_{1}}{S^{2}_{2}} \cdot \frac{\sigma^{2}_{2}}{\sigma^{2}_{1}} \leq F_{1-\frac{\alpha}{2}, n-1,m-1} \right)= 1 -\alpha.\]
\[\left[ \frac{\frac{S^{2}_{1}}{S^{2}_{2}}}{F_{1-\frac{\alpha}{2}, n-1, m-1}} , \frac{\frac{S^{2}_{1}}{S^{2}_{2}}}{F_{\frac{\alpha}{2}, n-1, m-1}} \right]\]
el cual incluye el valor de \(\frac{\sigma^{2}_{1}}{\sigma^{2}_{2}}\) con una confianza del \((1-\alpha)\%\).
Ejemplo: Un instituto de investigaciones agronómicas siembra, en cinco parcelas diferentes, dos tipos de maíz híbrido. Las producciones en quintales métricos por hectárea son:
\[\begin{equation*} \begin{array}{|l|c|c|c|c|c|} \hline \text{Tipo de maíz} & 1 & 2 & 3 & 4 & 5 \\ \hline \text { Híbrido I } & 90 & 85 & 95 & 76 & 80 \\ \hline \text { Híbrido II } & 84 & 87 & 90 & 92 & 90 \\ \hline \end{array} \end{equation*}\]
Construir un intervalo de confianza para el cociente de varianzas con una confianza de 0,9.
Solución: Asumiendo que las poblaciones son normales defina \(\mathrm{X}_{1}\equiv\) ‘Producción de maíz del híbrido I’ que sigue una \(\mathrm{N}\left(\mu_{1},\sigma_{1}^2\right)\) y \(\mathrm{X}_{2} \equiv\) ’ Producción de maíz del híbrido II’ que sigue una distribución \(\mathrm{N}\left(\mu_{2}, \sigma_{2}^2\right)\)
Entonces
Recordemos que cuando \(n \to +\infty\) el Teorema del Límite Central nos dice que \(\overline{X}\) converge en distribución a una \(N(\mu, \frac{\sigma^2}{n})\), sin ningún supuesto de la población (solamente con media y variancia finita).
Por lo tanto, si queremos hacer una estimación por intervalo para \(\mu\), suponiendo que conocemos el valor de \(\sigma^2\), podemos hacer uso del siguiente pivote:
\[Z_{n} = \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\] para muestras grandes. Y es conocida como una variable pivote asintótica.
Existen varios estimadores que son equivalentes a la forma de \(\overline{X}\) como por ejemplo \(\hat{p}\), cuya variancia es \(\frac{p(1-p)}{n}\).
Nótese que este intervalo supone que conocemos la varancia poblacional de nuestra población. Sin embargo, podemos hacer uso del Teorema de Slutsky1 para mantener el pivote que converge en distribución a una \(N(0,1)\), si conocemos un estimador consistente para la variancia poblacional.
Ejemplo: Se registraron los tiempos de compra de \(n=64\) clientes seleccionados al azar en un supermercado local. El promedio y variancia de los 64 tiempos de compra fueron 33 minutos y 256 minutos\(^{2}\), respectivamente. Estime \(\mu\), el verdadero promedio de tiempo de compra por cliente, con un coeficiente de confianza de \(1-\alpha=.90\).
Solución: Para muestras grandes, por el TLC,
\[Z_{n} = \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \xrightarrow{\text{d}} N(0,1).\]
Luego, por el T. Slutsky,
\[Z_{n}^* = \frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}} \xrightarrow{\text{d}} N(0,1).\] Es decir, si \(n\) es suficientemente grande,
\[P(a \leq Z_n^* \leq b) \approx P(-Z_{1-\frac{\alpha}{2}} \leq Z^*_n \leq Z_{1-\frac{\alpha}{2}} ) \approx 1-\alpha.\]
El intervalo tiene la forma: \[\begin{equation}\bar{x} \pm z_{1-\alpha / 2}\left(\frac{\sigma}{\sqrt{n}}\right) \approx \bar{x} \pm z_{1-\alpha / 2}\left(\frac{s}{\sqrt{n}}\right)\end{equation}\]
De la tabla de normales se deduce que \(z_{1-\alpha/2} = z_{0.95} = 1.645\).
Por lo tanto el intervalo es
\[\begin{align*}& \left[ 33-1.645\left(\frac{16}{8}\right), 33+1.645\left(\frac{16}{8}\right) \right]= \left[29.71, 36.29\right]\end{align*}\]
Ejemplo: Suponga que tienen datos de tiempos de espera en minutos en un banco con \(n=25\) clientes. La distribución del tiempo se observa que sigue una distribución \(Poisson(\theta)\) con \(\bar{X} = 5\). ¿Cual es el intervalo de confianza para \(\theta\) a un \(95\%\)?
Solución: Recuerde que si \(X\) es \(Poisson(\theta)\), entonces \(E[X] = Var(X) = \theta\).
Por el TLC se tiene que
\[\begin{equation} \bar{X} \pm z_{\alpha / 2}\left(\frac{\sigma}{\sqrt{n}}\right) \approx \bar{X} \pm z_{\alpha / 2}\left(\frac{\sqrt{\theta}}{\sqrt{n}}\right) \approx \bar{X} \pm z_{\alpha / 2}\left(\frac{\sqrt{\bar{X}}}{\sqrt{n}}\right)\end{equation}\]
\[\begin{align*}& \left[5-1.96\left(\frac{\sqrt{5}}{5}\right), 5+1.96\left(\frac{\sqrt{5}}{5}\right) \right] \\&= \left[ 4.12, 5.88\right]\end{align*}\]
El caso anterior requería hacer el uso del Teorema de Slutsky para aproximar la variancia poblacional.
¿Existe otra forma sin esa suposición?
¿Cómo transformar \(\hat{\theta}\) para que tenga variancia constante?
Ejemplo: Retomemos el caso de los clientes en el banco.
En este caso hicimos el supuesto de normalidad y aproximamos la varianza con \(\overline{X}\).
Por el método Delta, se tiene que para \(g\left(\bar{X}_{n}\right)\) \[\sqrt{n}\left(g(\overline{X}) - g(\mu)\right) \stackrel{d}{\to} N\left(0,\sigma^2\left( g^{\prime}(\mu) \right)^2\right)\]
\[\begin{equation*}\left(g^{\prime}(\mu) \sigma\right)^{2}=g^{\prime}(\mu)^{2}\sigma^{2}(\mu)\end{equation*}\]
\[\begin{equation*} \begin{aligned} g^{\prime}(u)^{2} \sigma^{2}(\mu) &=1 \\ \Longrightarrow g^{\prime}(\mu) &=\frac{1}{\sigma(\mu)} \quad(\sigma(\mu)>0) \\ \Longrightarrow g(\mu) &=\int_{a}^{\mu} \frac{1}{\sigma(x)} \ dx \end{aligned}\end{equation*}\]
donde \(a\) es una constante arbitraria que hace la integral finita (y fácil de calcular).
\[g(\theta)=\int_{0}^{\theta} \frac{d x}{\sqrt{x}}=2 \sqrt{\theta}\]
\[Z_n = \sqrt{n}\left( 2 \bar{X}_{n}^{\frac{1}{2}} - 2 \theta^{\frac{1}{2}} \right) \stackrel{d}{\to} N(0,1)\]
\[P(a \leq Z_n \leq b) \approx P\left[-Z_{1-\frac{\alpha}{2}} \leq \sqrt{n}\left( 2 \bar{X}_{n}^{\frac{1}{2}} - 2 \theta^{\frac{1}{2}} \right) \leq Z_{1-\frac{\alpha}{2}} \right] \approx 1-\alpha.\]
\[ P\left[\left(\bar{X}^{1/2}-\frac{Z_{1-\frac{\alpha}{2}}}{2\sqrt{n}} \right)^2 \leq \theta \leq \left(\bar{X}^{1/2}+\frac{Z_{1-\frac{\alpha}{2}}}{2\sqrt{n}} \right)^2 \right] \approx 1-\alpha.\]
\[\left[\left(\bar{X}^{1/2}-\frac{Z_{1-\frac{\alpha}{2}}}{2\sqrt{n}} \right)^2, \left(\bar{X}^{1/2}+\frac{Z_{1-\frac{\alpha}{2}}}{2\sqrt{n}} \right)^2 \right]\]
Usando los valores que teníamos anteriormente tenemos que
\[\left[\left(5^{1/2}-\frac{1.96}{2\sqrt{25}} \right)^2, \left(5^{1/2}+\frac{1.96}{2\sqrt{25}} \right)^2 \right] = [4.16, 5.91] \]
Determine un estadístico suficiente para \(\theta\).
Obtenga el estimador de máxima verosimilitud para \(\theta\).
Considere el pivote \(\frac{1}{\theta^2} \sum_{j=1}^{n}X_j^2\) para construir un intervalo de confianza para \(\theta\) con una confianza del \((1- \alpha)\%\).
¿Cuál es la relación entre el estimador de máxima verosimilitud obtenido en b) con la estimación por intervalo obtenido en c).
Considere la muestra aleatoria de \(n = 15\) datos de una distribución \(U(0,1)\) que se ofrece, para simular una muestra aleatoria de \(15\) datos de una distribución de Rayleigh con \(\theta =10\). Encuentre un intervalo de confianza del 95% para estimar \(\theta\).
Intervalos de confianza para variancias, para muestras grandes. Aplicación de método delta.
Aquí terminamos el tema 3.
El próximo tema es Contraste de hipótesis.