GeeksforGeeks

Le Bootstrapping est une technique utilisée dans les statistiques inférentielles qui permet de créer encore et encore des échantillons aléatoires d’ensembles de données uniques. L’amorçage permet de calculer des mesures telles que la moyenne, la médiane, le mode, les intervalles de confiance, etc. de l’échantillonnage.
Voici le processus d’amorçage:

  • Sélectionnez le nombre d’échantillons d’amorçage.
  • Sélectionnez la taille de chaque échantillon.
  • Pour chaque échantillon, si la taille de l’échantillon est inférieure à celle de l’échantillon choisi, sélectionnez une observation aléatoire dans l’ensemble de données et ajoutez-la à l’échantillon.
  • Mesurez la statistique sur l’échantillon.
  • Mesurez la moyenne de toutes les valeurs de l’échantillon calculées.

Méthodes d’amorçage

Il existe 2 méthodes d’amorçage:

  • Rééchantillonnage résiduel : Cette méthode est également appelée rééchantillonnage basé sur un modèle. Cette méthode suppose que le modèle est correct et que les erreurs sont indépendantes et distribuées de manière identique. Après chaque rééchantillonnage, les variables sont redéfinies et de nouvelles variables sont utilisées pour mesurer les nouvelles variables dépendantes.
  • Paires d’amorçage: Dans cette méthode, les variables dépendantes et indépendantes sont utilisées ensemble comme paires pour l’échantillonnage.

Types d’intervalles de confiance en amorçage

L’intervalle de confiance (IC) est un type de valeur de calcul calculée sur un échantillon de données statistiques. Il produit une plage de valeurs ou un intervalle où la vraie valeur se trouve à coup sûr. Il existe 5 types d’intervalles de confiance dans l’amorçage comme suit:

  • De Base: Il est également connu sous le nom d’intervalle de centile inverse et est généré à l’aide de quantiles de distribution de données bootstrap. Mathématiquement,

    \ gauche(2\widehat {\theta} -\theta_ {(1-\alpha / 2)}^{*}, 2 \ widehat {\theta} -\theta_ {(\alpha/2)} ^{*}\ right)

    où,

    \ alpha représente l’intervalle de confiance, principalement  \alpha= 0.95
    \ theta^{*} représente les coefficients d’amorçage
     \theta_{(1-\alpha / 2)}^{*} représente  1-\alpha/ 2 centile des coefficients d’amorçage

  • Normal: CI normal est mathématiquement donné comme,

    \ début {tableau}{c} t_{0}-b\pm Z_{\alpha}\cdot\mathrm{se}^{*}\\2 t_{0}-t^{*}\pm Z_{\alpha}\cdot\mathrm{se}^{*}\end { tableau}

    où,
     t_{0} représente une valeur de l’ensemble de données t
    b est le biais de l’estimation bootstrap, c’est-à-dire,

    \ mathbf{b} = \mathbf{t}^{*} - \mathbf{t} _ {\mathrm{o}}
     Z_ {\alpha} représente  1-\alpha/2 quantile de la distribution d’amorçage
     se^{*} représente l’erreur type de  t^{*}

  • Stud: Dans l’IC studentisé, les données sont normalisées avec un centre à 0 et un écart type 1 corrigeant l’inclinaison de la distribution.
  • L’IC Perc–percentile est similaire à l’IC de base mais avec une formule différente,

    \ à gauche (\theta_ {(\alpha / 2)}^{*}, \ theta_ {(1-\alpha/2) } ^{*} \ droite)

  • BCa: Cette méthode s’adapte à la fois au biais et à l’asymétrie, mais peut être instable lorsque les valeurs aberrantes sont extrêmes. Mathematically,

    \left(\theta_{0}+\frac{\theta_{0}+\theta_{\alpha}}{1-a\left(\theta_{0}-\theta_{\alpha}\right)} , \theta_{0}+\frac{\theta_{0}+\theta_{(1-\alpha)}}{1-a\left(\theta_{0}-\theta_{(1-\alpha)}\right)}\right)

La syntaxe pour effectuer l’amorçage dans la programmation R est la suivante:

Syntaxe: Paramètres boot(data, statistic, R)

:
data représente l’ensemble de données
statistic représente les fonctions statistiques à exécuter sur l’ensemble de données
R représente le nombre d’échantillons

Pour en savoir plus sur les arguments facultatifs de la fonction boot(), utilisez la commande ci-dessous:

help("boot")

Exemple:

install.packages("boot")
library(boot)
bootFunc <- function(data, i){
df <- data
c(cor(df, df),
median(df),
mean(df)
)
}
b <- boot(mtcars, bootFunc, R = 100)
print(b)
boot.ci(b, index = 1)



Sortie:

ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints
Mots clés de l’article:



+