Contraste de hipótesis-2

XS3310 Teoría Estadística
I Semestre 2024

Prof. Shu Wei Chou Chen

Escuela de Estadística, UCR.

¿Qué vamos a discutir hoy?

  • Hemos visto hasta ahora sobre

    -Todo sobre estimadores puntuales + pivotes e intervalos de confianza, y una

    • Introducción a los contrastes de hipótesis.
  • Ahora:

    • Contrastes de hipótesis: función de potencia, tamaño del contraste, el valor p.

Contrastes de hipótesis

Tenemos un parámetro \(\theta\) que es desconocido pero podemos decir que pertenece a un espacio paramétrico \(\Omega\); este espacio incluye todos los posibles valores que \(\theta\) podría tomar. Suponga que dividimos \(\Omega\) en dos subconjuntos disjuntos \(\Omega_0\) y \(\Omega_1\) tales que:

\[\Omega_{0} \cap \Omega_{1} = \emptyset~~~~~ \wedge~~~~~ \Omega_{0} \cup \Omega_{1} = \Omega.\]

Si dividimos \(\Omega\) de esta manera entonces es de esperar que \(\theta\) se encuentre en \(\Omega_{0}\) o en \(\Omega_{1}\) (no puede estar en los dos al mismo tiempo).

Así, podemos tener:

  • una hipótesis nula tal que \(H_{0}: \theta \in \Omega_{0}\)
  • y una hipótesis alternativa tal que \(H_{1}: \theta \in \Omega_{1}\).

El procedimiento que sigue consiste en contrastar estas hipótesis mediante una regla de decisión que favorece una hipótesis sobre la otra al cumplirse cierta condición y viceversa si la condición no se cumple.

Contrastes de hipótesis

Definición 4.1: Región crítica. Consideremos las hipótesis \(H_{0}: \theta \in \Omega_{0}\) y \(H_{1}: \theta \in \Omega_{1}\). Sea \(X_{1}, X_{2}, ... , X_{n}\) una muestra aleatoria seleccionada sobre una distribución con parámetros desconocido \(\theta\). Sea \(S\) el espacio muestral para el vector aleatorio n-dimensional \(\textbf{X} = \left\lbrace X_{1}, X_{2}, ... , X_{n} \right\rbrace\) es decir, \(S\) es el resultado de todas las posibles muestras aleatorias de tamaño \(n\). Sea \(\delta\) un contraste que consiste en dividir el espacio muestral \(S\) en dos subconjuntos, el primero de ellos contiene los valores de \(\textbf{X}\) para los cuales se rechaza \(H_{0}\) y se denomina como la región crítica del contraste, denotada como \(RC_{\delta}\).

  • Dos características que tienen los contrastes: la potencia y el tamaño.

Contrastes de hipótesis

Definición 4.2: Función potencia. Sea \(X_{1}, X_{2}, ... , X_{n}\) una muestra aleatoria de una población con parámetro desconocido \(\theta\) y sea \(RC_{\delta}\) la región crítica de un contraste \(\delta\) respecto a \(\theta\). La potencia del contraste, denotada \(\operatorname{Potencia}_\delta(\theta)\), es la probabilidad que el contraste \(\delta\) indique rechazar \(H_{0}\) para un valor dado de \(\theta\): \[\operatorname{Potencia}_\delta(\theta)=\operatorname{Potencia}(\theta) = P(\textbf{X} \in RC | \theta).\]

Contrastes de hipótesis

Ejemplo: Sea \(X_{1}, X_{2}, ... , X_{4}\) una muestra aleatoria de una población Normal con media desconocida \(\mu\) y variancia 1. Suponga que se tienen las hipótesis \(H_{0}: \mu = 1\) y \(H_{1}: \mu = -1\).

Para contrastar estas hipótesis se va a rechazar \(H_{0}\) si \(\left\lbrace \bar{X}<0\right\rbrace\). Obtenga la función potencia para todos los valores de \(\mu\) dentro de \(\Omega\).

Solución: En este caso todo el espacio paramétrico \(\Omega\) se compone solo por dos valores de \(\mu\): \(\mu = 1\) y \(\mu = -1\). Por lo tanto debemos calcular la Potencia para cada uno de estos valores. Empezaremos por la Potencia en \(\mu = 1\):

\(\operatorname{Potencia}(1) = P(\bar{X} < 0 | \mu = 1) = P\left( \frac{\bar{X} - 1}{\frac{1}{\sqrt{4}}} < \frac{0 - 1}{\frac{1}{\sqrt{4}}} \right) = P(Z < -2) \approx 0.023\)

Seguimos con la Potencia para \(\mu = -1\):

\(\operatorname{Potencia}(-1) = P(\bar{X} < 0 | \mu = -1) = P\left( \frac{\bar{X} + 1}{\frac{1}{\sqrt{4}}} < \frac{0 + 1}{\frac{1}{\sqrt{4}}} \right) = P(Z < 2) \approx 0.977\)

Error Tipo I y Error Tipo II

\(H_0\) cierto \(H_0\) falso
Aceptar \(H_0\) Acierto Error Tipo II
Rechazar \(H_0\) Error Tipo I Acierto

Definición 4.5: Probabilidad de Error Tipo I y Error Tipo II Para un espacio paramétrico \(\Omega\), dividido en dos subconjuntos disjuntos \(\Omega_0\) y \(\Omega_1\), de un parámetro \(\theta\), se define la probabilidad de cometer el error tipo I, denotada como \(\alpha(\delta)\) como: \[\alpha(\delta) = P(\text{rechazar } H_{0} \text{ cuando } H_{0} \text{ es cierta}) \] \[= P\left( \textbf{X} \in RC_{\delta} | \theta \in \Omega_0 \right) = \operatorname{Potencia}\left(\theta | \theta \in \Omega_0 \right).\]

Por otra parte la probabilidad de cometer el error tipo II, denotada como \(\beta(\delta)\), se define como:

\[\beta(\delta) = P(\text{no rechazar } H_{0} \text{ cuando} H_{0} \text{ es falsa} ) = P\left( \textbf{X} \in RC_{\delta}^{c} | \theta \in \Omega_1 \right)\] \[= 1 - P\left( \textbf{X} \in RC_{\delta} | \theta \in \Omega_1 \right) = 1 - \operatorname{Potencia}(\theta |\theta \in \Omega_1 ).\]

Error Tipo I y Error Tipo II

En el ejemplo anterior podemos observar que solo tenemos un valor para la probabilidad de cada tipo de error. En ese caso:

\(\alpha(1) = \operatorname{Potencia}(1) = 0.023\)

\(\beta(-1) = 1 - \operatorname{Potencia}(-1) = 1 - 0.977 = 0.023\)

Por pura coincidencia ambos errores tienen la misma probabilidad en el ejemplo anterior. A continuación veremos otra forma de describir un contraste.

Tamaño del contraste

Definición 4.7: Tamaño del contraste. Para las hipótesis dadas: \(H_{0}: \theta \in \Omega_{0}\) y \(H_{1}: \theta \in \Omega_{1}\), sea un contraste \(\delta\). Se denomina el tamaño del contraste al valor \(\alpha_c\) dado por: \[\alpha_c = \sup_{\theta \in \Omega_0} \operatorname{Potencia}_\delta(\theta).\]

Es decir, el tamaño de un contraste es la máxima probabilidad de cometer un Error Tipo I.

  • Para la mayoría de los contrastes su tamaño se va a encontrar en los límites de \(\Omega_{0}\). De no ser ese el caso podríamos derivar \(\alpha(\delta)\) y ver si alcanza algún máximo dentro de su dominio.

Figura 1: Ilustración de una función de potencia.

Contrastes de hipótesis

Ejemplo: Suponga que se selecciona una muestra aleatoria \(X_{1}, X_{2}, ... , X_{n}\) sobre una distribución Uniforme en \((0,\theta)\), con \(\theta\) desconocido y mayor a cero. Con esta muestra se desea contrastar las hipótesis:

\[H_{0}: 3 \leq \theta \leq 4 \qquad \qquad \ \ \Omega_{0} = \left[3,4\right]\]

\[H_{1}: \theta < 3 \quad o \quad \theta > 4 \qquad \qquad\qquad \Omega_{1} = \left]0,3\right[ \cup \left]4,+\infty\right[\]

En este caso utilizaremos a \(X_{(n)}\) para crear la región crítica. Sabemos que \(X_{(n)}\) es el estimador de máxima verosimilitud de \(\theta\) y que siempre será menor a \(\theta\) (aunque con muestras grandes se va a aproximar mucho). Supongamos que por estas razones vamos a aceptar \(H_0\) si \(2.9 \leq X_{(n)} \leq 3.9\) y se rechaza en caso contrario. Entonces la región crítica del contraste incluye todas las muestras \(\textbf{X}\) para las cuales \(X_{(n)} < 2.9\) o \(X_{(n)} > 3.9\), es decir, \(RC_{\delta} = \left\lbrace \textbf{X} |X_{(n)} \in \textbf{X} \text{ y } X_{(n)} < 2.9 \text{ o } X_{(n)} > 3.9 \right\rbrace\).

Determine una expresión para la función potencia de este contraste.

Contrastes de hipótesis

Solución: Recordemos que la función potencia se define como la probabilidad de rechazar la hipótesis nula, es decir, de que la muestra se encuentre en la región crítica:

\(\operatorname{Potencia}(\theta) = P(\textbf{X} \in RC_{\delta} ) = P\left(X_{(n)} < 2.9 \text{ o } X_{(n)} > 3.9 \right) =\)

\(P\left(X_{(n)} < 2.9\right) + P\left(X_{(n)} > 3.9\right) = F_{X_{(n)}}(2.9) + 1 - F_{X_{(n)}}(3.9)\)

Recordemos que en este caso \(X_{(n)} \sim \operatorname{Potencial}(n,\theta)\), por lo tanto su función de distribución viene dada por:

\[F_{X_{(n)}}(x) = \begin{cases} 0\quad si \quad x \leq 0 \\ \left(\dfrac{x}{\theta}\right)^{n} \quad si\quad 0<x<\theta \\ 1\quad si\quad x \geq \theta \end{cases}\]

Contrastes de hipótesis

La evaluación de la expresión anterior va a depender del valor de \(\theta\), ya que dependiendo de este se va a evaluar la función de distribución en distintos argumentos. En este ejemplo tenemos tres casos distintos:

  • Si \(0 < \theta \leq 2.9\):

\(F_{X_{(n)}}(2.9) = 1 \qquad \text{y} \qquad F_{X_{(n)}}(3.9) = 1\)

\(\Rightarrow \operatorname{Potencia}(\theta) = 1 + 1 - 1 = 1\)

  • Si \(2.9 \leq \theta \leq 3.9\):

\(F_{X_{(n)}}(2.9) = \left(\dfrac{2.9}{\theta}\right)^{n} \quad \text{y} \quad F_{X_{(n)}}(3.9) = \left(\dfrac{3.9}{\theta}\right)^{n} = 1\)

\(\Rightarrow \operatorname{Potencia}(\theta) = \left(\dfrac{2.9}{\theta}\right)^{n} + 1 - 1 = \left(\dfrac{2.9}{\theta}\right)^{n}\)

Contrastes de hipótesis

  • Finalmente, si \(\theta > 3.9\):

\(F_{X_{(n)}}(2.9) = \left(\dfrac{2.9}{\theta}\right)^{n} \quad \text{y} \quad F_{X_{(n)}}(3.9) = \left(\dfrac{3.9}{\theta}\right)^{n}\)

\(\Rightarrow \operatorname{Potencia}(\theta) = \left(\dfrac{2.9}{\theta}\right)^{n} + 1 - \left(\dfrac{3.9}{\theta}\right)^{n}\)

De esta manera podemos resumir la función potencia en la siguiente expresión:

\(\operatorname{Potencia}(\theta) = \begin{cases} 1 \quad si \quad 0 < \theta \leq 2.9 \\ \left(\dfrac{2.9}{\theta}\right)^{n} \quad si \quad 2.9 < \theta \leq 3.9 \\ \left(\dfrac{2.9}{\theta}\right)^{n} + 1 - \left(\dfrac{3.9}{\theta}\right)^{n} \quad si \quad \theta > 3.9 \end{cases}\)

Contrastes de hipótesis

Podemos graficar la forma de esta función para un tamaño de muestra dado. La siguiente figura muestra la forma de la Potencia con \(n = 10\), con \(\Omega_{0}\) delimitado por las líneas rojas punteadas.

Contrastes de hipótesis

  • De la Figura anterior podemos detallar que el tamaño de contraste se encuentra cuando \(\theta = 3\). Con \(n = 10\) tenemos que el tamaño del contraste sería: \[\alpha_c = \operatorname{Potencia}(3) = \left(\frac{2.9}{3}\right)^{10} = 0.712\]

Contrastes de hipótesis

Podemos decir que para una muestra de tamaño 10, este contraste tiene una máxima probabilidad de cometer un Error Tipo I de 0.712. Como un ejemplo adicional podemos calcular la probabilidad de cometer Error Tipo 2 para algún valor de \(\theta\) en \(\Omega_{1}\). Para propósitos del ejemplo usaremos \(\theta = 5\):

\[\beta(5) = 1 - \operatorname{Potencia}(5) = 1 - \left( \left(\dfrac{2.9}{5}\right)^{10} + 1 - \left(\dfrac{3.9}{5}\right)^{10} \right) = 0.079\]

Un uso que tiene el tamaño como una característica del contraste es que podemos definir una región crítica para un tamaño de contraste dado.

Tamaño del contraste

Ejemplo: Sea \(X_{1}, X_{2}, ... , X_{n}\) una muestra aleatoria tal que \(X_j \sim N(\mu, 1)\). Se desea contrastar las hipótesis \(H_{0}: \mu = 5\) contra la alternativa \(H_{1}: \mu > 5\). La región crítica se define como \(RC_{\delta} = \left\lbrace \textbf{X} | \bar{X} > c \right\rbrace\). Encuentre el valor de \(c\) para que este contraste tenga un tamaño igual a 0.10.

Solución: Note que el contraste se rechaza cuando \(\bar{X}\) es mayor que \(c\), por lo tanto podemos definir la potencia de la siguiente forma:

\(\operatorname{Potencia}(\mu) = P(\bar{X} > c | \mu) = P\left( Z > \sqrt{n}(c-\mu) \right)\)

Sabemos que el tamaño del contraste se define como la máxima probabilidad de cometer Error Tipo I, pero en este caso solo tenemos una probabilidad de Error Tipo I, que sucede cuando \(\mu = 5\). Por lo tanto:

\(\alpha_c = \operatorname{Potencia}(5) = P\left( Z > \sqrt{n}(c-5) \right) = 0.10\)

Contrastes de hipótesis

Podemos utilizar las tablas para buscar el valor de la normal estándar que acumula a su derecha una probabilidad de 0.10 (que equivale a una probabilidad acumulada a su izquierda de 0.90). Por lo tanto tenemos que

\(\sqrt{n}(c-5) = 1.28\)

\(\Rightarrow c = 5 + \frac{1.28}{\sqrt{n}}\)

Una observación importante de resaltar es que si tenemos una distribución de probabilidad discreta no es posible encontrar un tamaño de contraste para cualquier valor de \(c\), ya que las variable aleatorias discretas tienen probabilidades acumuladas a solo ciertos valores. Esto se puede solucionar por medio de contrastes aleatorizados, que dependen del lanzamiento de una moneda con cierta probabilidad de caer escudo, o con bootstrap (que veremos al final de esta sección).

Contrastes de hipótesis

  • Otro punto importante de destacar es que en la práctica usualmente utilizamos la hipótesis nula puntual \(H_{0}: \theta = \theta_0\) ya que esta no pierde generalidad.
  • Supongamos que se quiere contrastar \(H_{0}: \theta \leq \theta_0\) contra \(H_{1}: \theta > \theta_0\). En casi todos los casos la función potencia de un contraste es monótona en todo el dominio de \(\theta\); en este caso sería una función creciente.
  • Ya que el tamaño se define como la máxima potencia en \(\Omega_{0}\) esto va a suceder en su extremo derecho, el cual es \(\theta_0\). Esto ocasiona que el contraste tenga el mismo tamaño a que si la hipótesis nula hubiera sido \(H_{0}: \theta = \theta_0\).
  • Por lo tanto en la práctica es más común encontrar la hipótesis nula formulada en \(\theta_0\), siendo este el valor de \(\Omega_{0}\) más próximo a \(\Omega_{1}\).

Valor p

El Valor p es una herramienta que se puede utilizar para contrastar hipótesis que tiene características que pueden solucionar algunos problemas con los contrastes anteriores. Por ejemplo, no todos los contrastes van a tener un tamaño de contraste exacto (como en los casos donde las variables aleatorias son discretas.) Por otro lado, ni el tamaño ni la potencia están directamente relacionados con los datos observados. El valor p corrige estos problemas. Para propósitos del curso definiremos el valor p como:

Definición 4.8: Valor p. Sea \(T = T(X_{1}, X_{2}, ... , X_{n})\) un estadístico y considere \(H_{0}: \theta = \theta_0\) contra \(H_{1}: \theta < \theta_0\) (o \(H_{1}: \theta > \theta_0\)). Suponga que el contraste rechaza \(H_0\) si \(T \leq k\) (o \(T>k\)). Sea \(t = T(x_{1}, x_{2}, ... , x_{n})\) un valor observado de \(T\). Se define el valor p, denotado \(\operatorname{pval}(t)\), como:

\[\operatorname{pval}(t) = P(T\leq t | \theta = \theta_0), \text{ o } \operatorname{pval}(t) = P(T > t | \theta = \theta_0),\] respectivamente.

Valor p

  • Nótese que de esta manera no hay ningún problema si la distribución de \(T\) es discreta o continua, pues la probabilidad puede ser calculada sin ningún problema.
  • Formalmente, el valor p se conoce como la probabilidad, bajo la hipótesis nula, de observar nuestro estadístico de prueba o un valor más extremo.
    • Si el valor p es grande entonces nuestro estadístico de prueba es un valor muy común de \(T\) y se sitúa en el centro de la distribución, brindando así evidencia a favor de la hipótesis nula.
    • Si el valor p es pequeño entonces el estadístico de prueba es un valor poco común de T, situándose en las colas de su distribución, y por lo tanto brindando evidencia en contra de \(H_0\) y a favor de \(H_1\).
  • Como altos valores p dan evidencia a favor de \(H_0\) y bajos valores dan evidencia en contra, sería posible idear un contraste de hipótesis que consista en rechazar \(H_0\) si \(\operatorname{pval}(t) < \alpha\). Si la distribución de T es continua entonces el valor de α sería un tamaño de contraste exacto.
  • En la práctica así es cómo se utiliza el valor p, comparándolo contra el nivel de significancia (tamaño del contraste) y decidiendo si se rechaza o no la hipótesis nula.

Valor p

Ejemplo: Encuentre el valor p para la prueba anterior, suponiendo que \(\bar{x} = 5,21\) y \(n = 4\).

Solución: Recordemos que el contraste consistía en rechazar \(H_0: \mu = 5\) a favor de \(H_1:\mu > 5\) si \(x > 5 + \frac{1,28}{\sqrt{n}}\). Por lo tanto el valor p consiste en encontrar la siguiente probabilidad:

\[\operatorname{pval}(5,21) = P(\bar{X} > 5,21|\mu = 5) = P(Z > \sqrt{4}(5,21 − 5)))\] \[= P(Z > 0,42) = 0,337\]

Por lo tanto si comparamos este valor contra el tamaño de contraste que utilizamos anteriormente \((0.10)\), decimos que no hay suficiente evidencia estadística para rechazar la hipótesis nula de que \(\mu = 5\), ya que \(\operatorname{pval}(5,21) = 0,337 > 0,10 = \alpha_0\). Esta conclusión es consistente con el contraste que consiste en comparar \(\bar{x}\) contra \(5 + \frac{1,28}{\sqrt{n}}\). En este caso el valor crítico sería \(5.64\), por lo que nuestro estadístico de prueba es menor y entonces no rechazamos la hipótesis nula.

Valor p

Existen algunas malas interpretaciones del valor p que no debemos cometer en la práctica. Por lo tanto concluyo esta discusión con dos advertencias:

  • El valor p no es la probabilidad de que la hipótesis nula sea cierta. La hipótesis nula es un valor de θ fijo y por lo tanto es cierta o no lo es; no existen probabilidades en este ámbito.

  • El valor p no es la probabilidad de cometer un Error Tipo I, dado los datos. El cálculo del valor p no tiene nada que ver con la decisión de aceptar o rechazar la hipótesis nula; es simplemente la probabilidad de una cola de la distribución muestral de T que se puede usar para cuantificar la evidencia de los datos a favor de \(H_0\). No obstante, sí se puede usar el valor p para tomar decisiones, pero entonces obviamente en esos caso no sería la probabilidad de Error Tipo I.

  • En algunos casos el valor p se conoce como el “tamaño del contraste observado” pues su cálculo es similar al del tamaño del contraste pero utilizando el estadístico de prueba en lugar del valor crítico. No obstante esta es una interpretación que no me gusta pues tiende a confundir la interpretación de un valor p con las interpretaciones erróneas mencionadas anteriormente.

Lo que Fisher dijo de p < 0.05