GeeksforGeeks

a Bootstrapping az inferenciális statisztikákban használt technika, amely egyes adatkészletek véletlenszerű mintáinak felépítésén dolgozik újra és újra. A Bootstrapping lehetővé teszi olyan intézkedések kiszámítását, mint az átlag, a medián, a mód, a konfidencia intervallumok stb. a mintavétel.
a következő a bootstrapping folyamata:

  • válassza ki a bootstrap minták számát.
  • válassza ki az egyes minták méretét.
  • minden minta esetében, ha a minta mérete kisebb, mint a kiválasztott minta, akkor válasszon ki egy véletlenszerű megfigyelést az adatkészletből, és adja hozzá a mintához.
  • mérje meg a statisztikát a mintán.
  • mérje meg az összes számított mintaérték átlagát.

módszerek Bootstrapping

vannak 2 módszerek bootstrapping:

  • maradék Újramintavétel: ezt a módszert modellalapú újramintavételezésnek is nevezik. Ez a módszer feltételezi, hogy a modell helyes, és a hibák függetlenek és azonos eloszlásúak. Minden újramintavétel után a változók újradefiniálódnak, és új változókat használnak az új függő változók mérésére.
  • Bootstrap Párok: ebben a módszerben a függő és független változókat együtt használják párként a mintavételhez.

a konfidencia intervallumok típusai a Bootstrappingben

a konfidencia intervallum (CI) a statisztikai mintaadatok alapján kiszámított számítási érték típusa. Értéktartományt vagy intervallumot hoz létre, ahol a valódi érték biztosan rejlik. Vannak 5 a konfidencia intervallumok típusai a bootstrappingben az alábbiak szerint:

  • alap: Fordított percentilis intervallumnak is nevezik, és a bootstrap adateloszlás kvantiliseinek felhasználásával állítják elő. Matematikailag,

    \left (2 \ widehat {\theta}- \ theta_ {(1 - \ alpha / 2)}^{*}, 2 \widehat{\theta}- \ theta_ {(\alpha / 2)}^{ * } \ right)

    ahol,

    \alpha jelentése konfidencia intervallum, többnyire  \ alpha = 0.95
    \a Theta^{*} a
     \ theta_ {(1 - \alpha / 2)}^{*} 1-\alpha / 2 a bootstrapped együtthatók percentilise

  • normál: a normál CI matematikailag így van megadva,

    \{array}{C} T_{0}-b \pm z_{\alpha} \cdot \mathrm{se}^{*} \\ 2 t_{0}-t^{*} \pm z_{\alpha} \ cdot \ mathrm{se}^ { * } \ end{array}

    ahol a
     t_{0} a T adatkészletből származó értéket képviseli
    b a bootstrap becslés torzítása, azaz.,

    \mathbf{b} = \ mathbf{t}^{ * }- \ mathbf{t} _ {\mathrm{o}}
    Z_{\alpha} jelentése  1- \ alpha / 2 a bootstrap Eloszlás kvantilise
     se^{ * } jelentéset standard hibája^{*}

  • Stud: a studentizált CI-ben az adatok normalizálódnak a 0-os középponttal és az 1-es szórással, korrigálva az eloszlás ferdeségét.
  • percentilis CI hasonló az alap CI-hez, de eltérő képlettel,

    \left (\theta_{(\alpha / 2)}^{*}, \theta_ {(1 - \ alpha / 2)}^{ * } \ right)

  • BCa: ez a módszer mind az elfogultsághoz, mind a ferdeséghez igazodik, de instabil lehet, ha a kiugró értékek szélsőségesek. Mathematically,

    \left(\theta_{0}+\frac{\theta_{0}+\theta_{\alpha}}{1-a\left(\theta_{0}-\theta_{\alpha}\right)}, \theta_{0}+\frac{\theta_{0}+\theta_{(1-\alpha)}}{1-a\left(\theta_{0}-\theta_{(1-\alpha)}\right)}\right)

a rendszerindítás végrehajtásának szintaxisa az R programozásban a következő:

szintaxis: boot (adat, statisztika, R)

paraméterek:
az adatok az adatkészletet képviselik
a statisztika az adatkészleten végrehajtandó statisztikai függvényeket képviseli
R a minták számát jelenti

a boot() függvény további opcionális argumentumainak megismeréséhez használja az alábbi parancsot:

help("boot")

példa:

install.packages("boot")
library(boot)
bootFunc <- function(data, i){
df <- data
c(cor(df, df),
median(df),
mean(df)
)
}
b <- boot(mtcars, bootFunc, R = 100)
print(b)
boot.ci(b, index = 1)



Kimenet:

ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints
Cikk-Címkék:



+