Bootstrapping es una técnica utilizada en estadísticas inferenciales que trabajan en la construcción de muestras aleatorias de conjuntos de datos individuales una y otra vez. El bootstrap permite calcular medidas como media, mediana,modo, intervalos de confianza, etc. del muestreo.
A continuación se muestra el proceso de arranque:
- Seleccione el número de muestras de arranque.
- Seleccione el tamaño de cada muestra.
- Para cada muestra, si el tamaño de la muestra es menor que la muestra elegida, seleccione una observación aleatoria del conjunto de datos y añádala a la muestra.
- Mida la estadística en la muestra.
- Mida la media de todos los valores de muestra calculados.
Métodos de arranque
Hay 2 métodos de arranque:
- Remuestreo residual: Este método también se denomina remuestreo basado en modelos. Este método asume que el modelo es correcto y que los errores son independientes y se distribuyen de forma idéntica. Después de cada remuestreo, las variables se redefinen y se utilizan nuevas variables para medir las nuevas variables dependientes.
- Pares de arranque: En este método, las variables dependientes e independientes se utilizan juntas como pares para el muestreo.
Tipos de Intervalos de confianza en el arranque
El intervalo de confianza (IC) es un tipo de valor computacional calculado sobre datos de muestra en estadísticas. Produce un rango de valores o un intervalo donde el valor verdadero está seguro. Hay 5 tipos de intervalos de confianza en el arranque de la siguiente manera:
- Básico: También se conoce como Intervalo de percentil inverso y se genera utilizando cuantiles de distribución de datos de arranque. Matemáticamente,
donde,
representa el intervalo de confianza, principalmente
representa coeficientes de arranque
representa percentil de coeficientes de arranque - Normal: El CI normal se da matemáticamente como,
donde,
representa un valor del conjunto de datos t
b es el sesgo de la estimación de arranque, es decir.,
representa cuantil de distribución de arranque
representa un error estándar de - Stud: En el CI estudiado, los datos se normalizan con el centro en 0 y la desviación estándar 1 corrigiendo el sesgo de la distribución.
- El CI percentil Perc es similar al CI básico, pero con una fórmula diferente,
- BCa: Este método se ajusta tanto al sesgo como a la asimetría, pero puede ser inestable cuando los valores atípicos son extremos. Mathematically,
La sintaxis para realizar bootstrapping en programación en R es la siguiente:
Sintaxis: parámetros de arranque (datos, estadísticas, R)
:
data representa el conjunto de datos
statistic representa las funciones estadísticas que se realizarán en el conjunto de datos
R representa el número de muestras
Para obtener más información sobre argumentos opcionales de la función boot()
, use el comando siguiente:
help("boot")
Ejemplo:
install.packages(
"boot"
)
library(boot)
bootFunc <
-
function(data, i){
df <
-
data
c(cor(df, df),
median(df),
mean(df)
)
}
b <
-
boot(mtcars, bootFunc, R
=
100
)
print
(b)
boot.ci(b, index
=
1
)
Producto:
ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints