GeeksforGeeks

Bootstrapping är en teknik som används i inferentiell statistik som arbetar med att bygga slumpmässiga prover av enstaka dataset om och om igen. Bootstrapping gör det möjligt att beräkna åtgärder som medelvärde, median, läge, konfidensintervall etc. av provtagningen.
Följande är processen för bootstrapping:

  • Välj antal bootstrap-prover.
  • Välj storlek på varje prov.
  • för varje prov, om provets storlek är mindre än det valda provet, välj sedan en slumpmässig observation från datauppsättningen och Lägg till den i provet.
  • Mät statistiken på provet.
  • Mät medelvärdet av alla beräknade provvärden.

metoder för Bootstrapping

det finns 2 metoder för bootstrapping:

  • Restsampling: denna metod kallas också som modellbaserad omsampling. Denna metod förutsätter att modellen är korrekt och fel är oberoende och distribueras identiskt. Efter varje omsampling omdefinieras variabler och nya variabler används för att mäta de nya beroende variablerna.
  • Bootstrap-par: i denna metod används beroende och oberoende variabler tillsammans som par för provtagning.

typer av konfidensintervall i Bootstrapping

konfidensintervall (CI) är en typ av beräkningsvärde beräknat på ett urval data i statistik. Det producerar ett intervall av värden eller ett intervall där sant värde ligger i säkert. Det finns 5 typer av konfidensintervall i bootstrapping enligt följande:

  • grundläggande: Det är också känt som omvänd Percentilintervall och genereras med användning av kvantiler av bootstrap-datafördelning. Matematiskt,

    \vänster (2 \ widehat {\theta} - \theta_ {(1 - \ alpha / 2)}^{*}, 2 \widehat {\theta} - \theta_ {(\alpha / 2)}^{ * } \ höger)

    där,

    \alfa representerar konfidensintervall, mestadels  \ alfa = 0.95
    \theta^{ * } representerar bootstrapped koefficienter
    \theta_ {(1- \ alpha / 2)}^{*} representerar1-\alfa / 2 percentilen av bootstrapped koefficienter

  • Normal: Normal CI ges matematiskt som,

    \börja{array}{c} t_{0} - b \ pm Z_ {\alpha} \cdot \mathrm{se}^ { * } \ \ 2 t_{0} - t^ { * } \ pm Z_ {\alpha} \cdot \ mathrm{se}^ { * } \ end{array}

    där,
    t_{0} representerar ett värde från dataset t
    b är bias av bootstrap uppskattning dvs.,

    \mathbf{b}=\mathbf{t}^{ * } - \mathbf{t}_{\mathrm{o}}
    Z_ {\alpha} representerar 1 - \alpha / 2 kvantil av bootstrap distribution
     se^{ * } representerar standardfel på t^{*}

  • Stud: i studentiserad CI normaliseras data med centrum vid 0 och standardavvikelse 1 som korrigerar fördelningens skev.
  • PERC-percentil CI liknar grundläggande CI men med olika formel,

    \vänster (\theta_{(\alpha / 2)}^{*}, \theta_ {(1- \ alfa / 2)}^{ * } \ höger)

  • BCa: denna metod justerar för både förspänning och skevhet men kan vara instabil när avvikare är extrema. Mathematically,

    \left(\theta_{0}+\frac{\theta_{0}+\theta_{\alpha}}{1-a\left(\theta_{0}-\theta_{\alpha}\right)}, \theta_{0}+\frac{\theta_{0}+\theta_{(1-\alpha)}}{1-a\left(\theta_{0}-\theta_{(1-\alpha)}\right)}\right)

syntaxen för att utföra bootstrapping i R-Programmering är som följer:

Syntax: boot (data, statistik, R)

parametrar:
data representerar dataset
statistik representerar statistikfunktioner som ska utföras på dataset
R representerar antal prover

för att lära dig mer valfria argument för boot() funktion, använd kommandot nedan:

help("boot")

exempel:

install.packages("boot")
library(boot)
bootFunc <- function(data, i){
df <- data
c(cor(df, df),
median(df),
mean(df)
)
}
b <- boot(mtcars, bootFunc, R = 100)
print(b)
boot.ci(b, index = 1)



Utgång:

ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints
Artikel Tags:



+