Pruebas de hipótesis para una población

Se llaman pruebas paramétricas las que están soportadas en supuestos que por lo general corresponden a la distribución de la variable que trabajamos

Sobre una media

Dependiendo de las condiciones podemos optar por tres diferentes EdeP para la realización de la prueba para una media, aunque tenemos una cuarta posibilidad en el caso de realizarla mediante un método no paramétrico:

Parámetro \(\mu\)

Hipótesis

dos colas	cola inferior	cola superior
\(H_o : \mu = \mu_{o}\)	\(H_o : \mu \geq \mu_{o}\)	\(H_o : \mu \leq \mu_{o}\)
\(H_a : \mu \neq \mu_{o}\)	\(H_a : \mu < \mu_{o}\)	\(H_a : \mu > \mu_{o}\)

Estadísticos de prueba

\(Z_{o} = \dfrac{\bar{x}-\mu_{o}}{\sigma / \sqrt{n}} \sim N(0,1\)	\(T_{o} = \dfrac{\bar{x}-\mu_{o}}{s / \sqrt{n}} \sim t_{v: n-1}\)	\(Z_{o} = \dfrac{\bar{x}-\mu_{o}}{s / \sqrt{n}} \sim N(0,1)\)
Supuestos:
\(X\) es normal y la varianza es conocida	\(X\) es normal y la varianza es desconocida	\(n >>\) el tamaño de muestra es grande y por el TLC \(\bar{X}\) se aproxima a una distribución normal

Ejemplo

Para una muestra de \(n=50\) de la edad de los participantes de la Carrera La Luz inicialmente se verifica si su distribución es normal con el fin de determinar que prueba utilizar. Cumplido este supuesto y al no tener conocimiento del valor de la varianza utilizaremos una prueba t para una media

# x=sample(CarreraLuz22_c2$edad, 50)  # Muestra de tamaño n=50
x=c(37, 36, 36, 27, 21, 24, 31, 29, 29, 29, 31, 26, 34, 39, 33, 27, 30, 29, 28, 34, 39, 36, 34, 27, 38, 32, 27, 27, 32, 38, 27, 31, 38, 36, 33, 18, 25, 26, 33, 34, 35, 35, 33, 34, 30, 39, 27, 35, 31, 36)
shapiro.test(x)  # prueba de normalidad


    Shapiro-Wilk normality test

data:  x
W = 0.96305, p-value = 0.1194

t.test(x,                         #  
alternative = "two.sided", # tipo de prueba
mu = 31,                  # valor a contrastar
conf.level = 0.90)         # nivel de confianza


    One Sample t-test

data:  x
t = 0.76215, df = 49, p-value = 0.4496
alternative hypothesis: true mean is not equal to 31
90 percent confidence interval:
 30.37613 32.66387
sample estimates:
mean of x 
    31.52

Para tomar una decisión sobre las hipótesis de acuerdo con los resultados podemos utilizar tres reglas:

Regla 1

Si el Estadístico de Prueba cae en la Región de Rechazo, entonce se rechaza la \(H_{o}\) y se acepta \(H_{a}\) como verdadera. Si por el contrario el Estadístico de Prueba NO cae en la Región de Rechazo, entonces NO se rechaza \(H_{o}\), no existe suficiente evidencia para rechazarla, asumimos que \(H_{o}\) es verdad.

En este caso es necesario determinar la Región de Rechazo (\(RdeR\)) de acuerdo al tipo de hipótesis y a la distribución del estadístico de prueba. En esta caso estamos realizando una prueba de dos colas, para un estadístico de prueba con distribución t-Student con 99 grados de libertad.

Región de Rechazo

Para determinar la Región de Rechazo, a a prtir del nivel de significancia asumido, se buscan los percentiles \(t_{0.025; v=59}\) y \(t_{0.975;v=59}\) para la distribución t-Student.

# t = 0.76215, df = 49, p-value = 0.4496    # resultado 
qt(c(0.025,0.975),99)

[1] -1.984217  1.984217

# remotes::install_github("iamamutt/ggdistribute")
library(ggdistribute)
p=ggdistribution(dt, seq(-3, +3, 0.1), df = 99, colour = "blue")
p=ggdistribution(dt, seq(-3, qt(0.025,99), 0.1), df = 99, colour = 'blue', fill="red", p=p)   
p=ggdistribution(dt, seq(qt(0.975,99),+3, 0.1), df = 99, colour = 'blue', fill="red", p=p)+ 
ggtitle("Región de rechazo : (-Inf, -1.984217)  (1.984217, +Inf)")
p

Conclusión

Como el Estadístico de Prueba (t = 0.76215) NO cae en la Región de Rechazo, entonces NO rechazamos \(Ho\), asumimos \(Ho\) es verdadera, es decir ASUMIMOS que \(\mu\) de las edades es igual a 31 años.

Regla 2

Si \(\alpha > \text{valor-p}\) entonces rechazamos \(H_{o}\), se acepta \(H_{a}\) como verdadera. Si por el contrario \(\alpha < \text{valor-p}\), no rechazamos \(H_{o}\), asumimos que \(H_{o}\) es verdad.

Valor-p

El valor-p corresponde al área delimitada por el \(EdeP\) en el sentido que indica la \(RdeR\) de la prueba a contrastar. Es decir que corresponde a la probilidad máxima de cometer error tipo I.

Gil, Jacky F.; Castañeda, Javier A (2005) lo definen como :

El resultado de la prueba de hipótesis se basa principalmente en el cálculo, en términos de probabilidad, de la fuerza de los hallazgos a favor de la hipótesis nula. Esta probabilidad recibe el nombre de valor-p, y se define como la probabilidad de cometer un falso positivo por efecto del azar, cuando la hipótesis nula es verdadera.

Conclusión

Como el valor de \(\alpha > valor-p\) (\(0.05 > p-value = 0.4496\) ) entonces No se rechaza \(H_o\), se asume que \(Ho\) es verdad. ASUMIMOS que \(\mu\) de las edades es igual a 31 años.

Regla 3

El valor-p se interpreta como el error que puedo cometer al rechazar \(Ho\), siendo esta verdadera (cometer error tipo I). Si este valor es considerado como pequeño, rechazo \(Ho\), se acepta \(H_a\). Si por el contrario se considera este valor grande, entonce no rechazo \(Ho\), asumo que \(Ho\) es verdad.

Conclusión

En este caso valoramos si el valor-p (p-value = 0.4496) si es grande o pequeño. En esta caso se puede considerar que su valor es muy grande y por lo tanto no nos atrevemos a rechazar \(H_o\), asumimos que \(H_o\) es verdadera, ASUMIMOS que \(\mu\) de las edades es igual a 31 años.

NOTA

Al aplicar las últimas dos reglas (2 y 3) no se requiere la construcción de una \(RdeR\) para tomar la decisión. Solo con revisar el valor-p entregado por la prueba y aplicar la regla se toma la decisión. En adelante utilizaremos las reglas 2 y 3 dado que al ejecutar las funciones en R nos suministra información sobre valor-p.

Sobre una proporción

Ho: \(p = p_{o}\)

Ha :\(p \leq p_{o}\)

Estadístico de prueba

\[Z = \dfrac{\dfrac{x}{n}-p_{o}}{\sqrt{\dfrac{p_{o}(1-p_{o})}{n}}} \sim N(0,1) \]

En este caso debemos tener en cuenta que la muestra sea mayor a 30 con el fin de tener estimaciones mas robustas para estimar la proporción poblacional.

Ejemplo

Una empresa al seleccionar su personal, lo somete a un curso de entrenamiento. Por su experiencia se conoce que el 76% de los aspirantes aprueban el curso. Durante el último proceso, los encargados efectúan cambios al programa de entrenamiento, con el fin de realizar una selección más exigente. Para esta versión se inscriben 40 aspirantes de los cuales lo aprueban el proceso 24. ¿Podría afirmarse que los cambios realizados en el programa de entrenamiento reducen la selección?

Debemos realizar una prueba de cola inferior debido al sentido que tienen la afirmación que queremos verificar los cambios realizados en el programa de entrenamiento reducen la selección.

\(H_o: p \geq 0.76\)

\(H_a: p < 0.76\)

prop.test(24, 40, p = 0.76,
alternative = "less",
conf.level = 0.95)


    1-sample proportions test with continuity correction

data:  24 out of 40, null probability 0.76
X-squared = 4.7711, df = 1, p-value = 0.01447
alternative hypothesis: true p is less than 0.76
95 percent confidence interval:
 0.0000000 0.7282033
sample estimates:
  p 
0.6

Conclusión

Como el valor-p (p-value = 0.01447) es menor que el nivel de significancia (\(\alpha=0.05\)), rechazamos la hipótesis nula, aceptamos la hipótesis alterna. Podemos afirmar que \(p<0.76\) . Tienen razón al afirmar que los cambios realizados en el proceso de selección provocaron una disminución significativa en la proporción de aprobación.

Sobre una varianza

\(H_o: \sigma^{2} = \sigma^{2}_{o}\)

\(H_a: \sigma^{2} \neq \sigma^{2}_{o}\)

Estadístico de prueba

\[X^{2} =\dfrac{(n-1) s^{2}}{\sigma^{2}_{o}} \sim \chi^{2}_{v: n-1}\]

Ejemplo

Un fabricante de baterías para celulares afirma que el tiempo de duración de sus baterías se distribuyen aproximadamente normal con una desviación estándar de 9 horas. Un comprador antes de realizar un pedido de este producto solicita al fabricante una muestra de 10 baterías para verificar la información que le esta dando. Con este propósito son enviadas al laboratorio y se obtienen los siguientes datos Es cierta la información suministrada por el fabricante? (información: 11.1, 15.6, 11.1, 7.5, 7.9, 14.7, 6.3, 8.5, 8.0 , 7.6)

library(ggdistribute)
pRdeR=qchisq(c(0.025,0.975),9)
p=ggdistribution(dchisq, seq(0, 30, 0.1), df = 9, colour = 'blue')
p=ggdistribution(dchisq, seq(0, pRdeR[1], 0.1), df = 9, colour = 'blue', fill="blue", p=p)
p=ggdistribution(dchisq, seq(pRdeR[2], 30, 0.1), df = 9, colour = 'blue', fill="blue", p=p)+
ggtitle("Región de rechazo:  (0; 2.70) (19.0, Inf) ")
p
pRdeR

t=c(11.1, 15.6, 11.1, 7.5, 7.9, 14.7, 6.3, 8.5, 8.0 , 7.6)
varx=var(t)
EdeP=(length(t)-1)*varx/81
EdeP

[1] 1.135074

Conclusión

Como el Estadístico de Prueba (1.135074) caen en la Región de Rechazo, entonces rechazamos la hipótesis nula, aceptamos la hipótesis alterna como verdadera.

Podemos entonce concluir que \(\sigma^{2} \neq 81\)

Resumen

Estadístico de prueba

	Una población
(1)		\(Z_{o} =\dfrac{\bar{X}-\mu_{o}}{\sigma/\sqrt{n}}\sim N(0,1)\)
(2)		\(Z_{o} =\dfrac{\bar{X}-\mu_{o}}{s/\sqrt{n}} \sim N(0,1)\)
(3)		\(T_{o} = \dfrac{\bar{X}-\mu_{o}}{s/\sqrt{n}} \sim t_{v=n-1}\)
(4)		\(X^{2}_{o} = \dfrac{(n-1)S^{2}}{\sigma_{o}^{2}} \sim \chi^{2}_{v=n-1}\)
(5)		\(Z_{o} = \dfrac{X-n \hspace{.1cm} p_{o}}{\sqrt{n \hspace{.1cm }p_{o}}} \sim N(0,1)\)
		\(Z_{o} = \dfrac{\widehat{p}-p_{0}}{\sqrt{p_{o}(1-p_{o})/n}} \sim N(0,1)\)

Reglas de decisión

Regla1:	Si el Estadístico de Prueba cae en la Región de Rechazo, entonce se rechaza la \(H_{o}\) y se acepta \(H_{a}\) como verdadera. Si por el contrario el Estadístico de Prueba NO cae en la Región de Rechazo, entonces NO se rechaza \(H_{o}\), no existe suficiente evidencia para rechazarla, asumimos que \(H_{o}\) es verdad.
Regla2:	Si \(\alpha >\) valor-p entonces rechazamos \(H_{o}\), se acepta \(H_{a}\). Si por el contrario \(\alpha<\) `valor-p`, no rechazamos \(H_{o}\), asumimos que \(H_{o}\) es verdad.
Regla3:	El valor-p se interpreta como el error que puedo cometer al rechazar \(H_{o}\), siendo esta verdadera (cometer error tipo I). Si este valor es considerado como pequeño, rechazo \(H_{o}\), se acepta \(H_{a}\). Si por el contrario se considera este valor grande, entonce no rechazo \(H_{o}\), asumo que \(H_{o}\) es verdad.

Tipos de pruebas

Dos colas	\(H_{o}: \theta = \theta_{o}\) vs \(H_{o}: \theta \neq \theta_{o}\)
Cola superior	\(H_{o}: \theta \leq \theta_{o}\) vs \(H_{o}: \theta > \theta_{o}\)
Cola inferior	\(H_{o}: \theta \geq \theta_{o}\) vs \(H_{o}: \theta < \theta_{o}\)

Pruebas de hipótesis para una población

Métodos y Simulación Estadística

Sobre una media

Ejemplo

Regla 1

Conclusión

Regla 2

Valor-p

Conclusión

Regla 3

Conclusión

NOTA

Sobre una proporción

Ejemplo

Conclusión

Sobre una varianza

Ejemplo

Conclusión

Resumen

Estadístico de prueba

Reglas de decisión

Tipos de pruebas