GeeksforGeeks

Bootstrapping è una tecnica utilizzata nelle statistiche inferenziali che lavorano sulla costruzione di campioni casuali di singoli set di dati ancora e ancora. Il bootstrap consente di calcolare misure come media, mediana, modalità, intervalli di confidenza, ecc. del campionamento.
Di seguito è riportato il processo di bootstrap:

  • Selezionare il numero di campioni di bootstrap.
  • Selezionare la dimensione di ciascun campione.
  • Per ogni campione, se la dimensione del campione è inferiore al campione scelto, selezionare un’osservazione casuale dal set di dati e aggiungerla al campione.
  • Misurare la statistica sul campione.
  • Misura la media di tutti i valori del campione calcolati.

Metodi di Bootstrap

Esistono 2 metodi di bootstrap:

  • Ricampionamento residuo: questo metodo è anche chiamato come ricampionamento basato sul modello. Questo metodo presuppone che il modello sia corretto e che gli errori siano indipendenti e distribuiti in modo identico. Dopo ogni ricampionamento, le variabili vengono ridefinite e nuove variabili vengono utilizzate per misurare le nuove variabili dipendenti.
  • Coppie Bootstrap: in questo metodo, le variabili dipendenti e indipendenti vengono utilizzate insieme come coppie per il campionamento.

Tipi di intervalli di confidenza nel Bootstrap

L’intervallo di confidenza (CI) è un tipo di valore computazionale calcolato su un campione di dati nelle statistiche. Produce un intervallo di valori o un intervallo in cui il vero valore si trova di sicuro. Ci sono 5 tipi di intervalli di confidenza in bootstrap come segue:

  • Base: È anche noto come intervallo percentile inverso e viene generato utilizzando quantili di distribuzione dei dati bootstrap. Matematicamente,

    \a sinistra(2 \widehat{\theta}-\theta_{(1-\alpha / 2)}^{*}, 2 \widehat{\theta}-\theta_{(\alpha / 2)}^{*}\right)

    dove,

    \alfa rappresenta l’intervallo di confidenza, per lo più \alpha = 0.95
    \theta^{*} rappresenta bootstrap coefficienti
    \theta_{(1-\alpha / 2)}^{*} rappresenta 1-\alpha / 2 percentile di bootstrap coefficienti

  • Normale: Normale CI è matematicamente dato come,

    \begin{array}{c} t_{0}-b \pm Z_{\alpha} \cdot \mathrm{se}^{*} \\ 2 t_{0}-t^{*} \pm Z_{\alpha} \cdot \mathrm{se}^{*} \end{array}

    dove
    t_{0} rappresenta un valore da dataset t
    b è il pregiudizio di bootstrap stima cioè,

    \mathbf{b}=\mathbf{t}^{*}-\mathbf{t}_{\mathrm{o}}
    Z_{\alpha} rappresenta 1-\alpha / 2 quantile della distribuzione bootstrap
    se^{*} rappresenta l’errore standard dit^{*}

  • Stud: In studentizzati CI, i dati sono normalizzati, con centro in 0 e deviazione standard 1 correggere il disallineamento di distribuzione.
  • Perc – Percentile CI è simile al CI di base, ma con formula diversa,

    \sinistra (\theta_ {(\alpha / 2)}^{*}, \theta_ {(1 - \ alpha / 2)}^{*} \ right)

  • BCa: Questo metodo regola sia la distorsione che l’asimmetria, ma può essere instabile quando i valori anomali sono estremi. Mathematically,

    \left(\theta_{0}+\frac{\theta_{0}+\theta_{\alpha}}{1-a\left(\theta_{0}-\theta_{\alpha}\right)}, \theta_{0}+\frac{\theta_{0}+\theta_{(1-\alpha)}}{1-a\left(\theta_{0}-\theta_{(1-\alpha)}\right)}\right)

La sintassi per eseguire il bootstrap in R di programmazione è il seguente:

Sintassi: boot(dati, statistiche, R)

Parametri:
i dati rappresentano il set di dati
la statistica rappresenta le funzioni statistiche da eseguire sul set di dati
R rappresenta il numero di campioni

Per ulteriori informazioni sugli argomenti opzionali della funzione boot(), utilizzare il comando sotto:

help("boot")

Esempio:

install.packages("boot")
library(boot)
bootFunc <- function(data, i){
df <- data
c(cor(df, df),
median(df),
mean(df)
)
}
b <- boot(mtcars, bootFunc, R = 100)
print(b)
boot.ci(b, index = 1)



Uscita:

ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints
Tag Articolo :



+