Bootstraping is a technique used in inferential statistics that work on building random samples of single datasets again and again. O Bootstrapping permite calcular medidas como média, mediana, modo, intervalos de confiança, etc. da amostragem.
segue-se o processo de inicialização:
- Seleccione o número de amostras de ‘bootstrap’.
- Seleccione o tamanho de cada amostra.
- para cada amostra, se o tamanho da amostra for menor que a amostra escolhida, então selecione uma observação aleatória do conjunto de dados e adicione-a à amostra.
- mede a estatística na amostra.
- medir a média de todos os valores calculados da amostra.
Métodos de Inicialização
Existem 2 métodos de inicialização:
- Residual de Reamostragem: Este método é também chamado de modelo baseada em reamostragem. Este método assume que o modelo é correto e os erros são independentes e distribuídos identicamente. Após cada nova amostragem, as variáveis são redefinidas e novas variáveis são usadas para medir as novas variáveis dependentes.
- pares de Bootstrap: neste método, variáveis dependentes e independentes são usadas em conjunto como pares para amostragem.
tipos de intervalos de confiança em Inicialização
intervalo de confiança (IC) é um tipo de valor computacional calculado sobre uma amostra de dados estatísticos. Produz uma gama de valores ou um intervalo em que o verdadeiro valor reside com certeza. Existem 5 tipos de intervalos de confiança na inicialização como se segue:
- básico: É também conhecido como intervalo de percentil reverso e é gerado usando quantidades de distribuição de dados bootstrap. Matematicamente,
em que,
representa intervalo de confiança, principalmente
representa coeficientes de arranque
representa percentil de coeficientes de arranque - Normal: o IC Normal é dado matematicamente como,
em que,
representa um valor do conjunto de dados t
B é o enviesamento da estimativa de bootstrap.,
representa gráfico quantil da distribuição bootstrap
representa o erro padrão do - Cravo: Em studentized CI, os dados são normalizados com centro em 0 e desvio padrão 1 corrigindo a distorção de distribuição.
- Perc – percentil CI é semelhante ao IC básico, mas com diferentes fórmulas,
- BCa: este método ajusta-se tanto para o viés quanto para a excentricidade, mas pode ser instável quando os valores anómalos são extremos. Mathematically,
A sintaxe para executar a inicialização em R de programação é o seguinte:
Sintaxe: boot(dados, estatística, R)
Parâmetros:
os dados representam o conjunto de dados
a estatística representa as funções estatísticas a executar no conjunto de dados
R representa o número de amostras
para aprender sobre argumentos mais opcionais da função boot()
, use below command:
help("boot")
exemplo:
install.packages(
"boot"
)
library(boot)
bootFunc <
-
function(data, i){
df <
-
data
c(cor(df, df),
median(df),
mean(df)
)
}
b <
-
boot(mtcars, bootFunc, R
=
100
)
print
(b)
boot.ci(b, index
=
1
)
Resultado:
ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints