continuiamo a scrutare e aggiornare le nostre metriche, e come parte di questo processo, abbiamo messo a confronto i vari offensivo metriche uno con l’altro.
Due delle metriche su cui abbiamo effettuato il check-in sono ponderate su Base Average (wOBA), reso popolare da Tango et al nel libro nel 2007, e Su Base-Plus-Slugging (OPS), una statistica resa popolare da The Hidden Game of Baseball, pubblicato da Pete Palmer e John Thorn nel 1984. Poiché i confronti tra questi due hanno un po ‘ di storia, ho pensato di iniziare questa serie aggiornando quei confronti.
Qualche breve background
OPS è semplice, almeno nel concetto. Prendi la percentuale di base di un battitore (OBP)—che certamente non è molto di una percentuale—aggiungila alla loro percentuale di slugging (SLG)—sicuramente non una percentuale reale (le statistiche di baseball possono essere molto strane) – e la somma di questi due numeri ti dà “OPS.”
wOBA è più complicato. wOBA assegna “pesi lineari” a vari eventi di battuta di baseball; pesi lineari sono il numero medio di corse segnato in un mezzo inning dopo tale evento si verifica. Per wOBA, questi valori di esecuzione vengono quindi ridimensionati per metterli sulla stessa scala generale di OBP, il che significa garantire che tutti gli out siano uguali a 0. Questo ridimensionamento aggiuntivo non è necessario, ma gli autori del libro hanno pensato che sarebbe stato utile (o almeno più persuasivo) avere OBP e wOBA sulla stessa scala.
Coloro che hanno letto il libro sanno che gli autori non sono impressionati da OPS: si lamentano che OBP e SLG hanno componenti sovrapposti, denominatori diversi, e che OPS sostanzialmente sottovaluta l’importanza di OBP. In altre parole, gli autori del libro vedono OPS come un’approssimazione nella migliore delle ipotesi, utile solo come statistica “gateway”, se così fosse. A loro avviso, gli analisti focalizzati sulla precisione non dovrebbero usare OPS.
Quale metrica è “Migliore”?
Con questa introduzione, torniamo indietro di cinque anni a un post che ha iniziato una discussione interessante.
Nel luglio 2013, Cyril Morong, professore di economia al San Antonio College, ha voluto confrontare le prestazioni di OPS e wOBA nel predire il punteggio di corsa. Questa è una cosa difficile da fare per i singoli battitori, poiché a differenza dei lanciatori, non esiste un analogo “run-generated” per RA9. Per ottenere un pool definito di run con cui lavorare, Morong è andato di un livello “up” alle tariffe di team run. Poiché tutti gli individui sono associati a una squadra quando battono, e la produzione media ponderata di tutti i battitori squadra dà un generale OPS o wOBA per la squadra, possiamo invece guardare le OPS squadra media o squadra wOBA e confrontarlo con la squadra media corre segnato per aspetto piatto.
Quando ha fatto questo, Morong ha trovato qualcosa di interessante. Guardando tutte le squadre delle stagioni 2010-2012, ha scoperto che il team OPS era correlato leggermente meglio ai tassi di produzione del team rispetto al team wOBA, anche se wOBA era ovviamente comunemente pensato per essere superiore a OPS. La sua scoperta è stata contestata nella sezione commenti del suo post, quindi ha eseguito nuovamente il confronto, questa volta per le stagioni 2003-2012. OPS ha vinto di nuovo.
La discussione è migrata al blog di Tom Tango, dove è andata in alcune direzioni interessanti. (Tango è l’autore principale del libro). Una domanda irrisolta era se la differenza di prestazioni tra OPS e wOBA fosse semplicemente all’interno del margine di errore, o in altre parole, non significativamente diversa. Anche una scoperta di equivalenza sembra significativa, ma se OPS in realtà si adatta meglio al punteggio della squadra, sarebbe ancora più notevole. Per quanto possiamo dire, quella particolare domanda non è mai stata risolta pubblicamente.
Permettici di aiutare. Ci piace l’idea di usare le correlazioni per i confronti statistici, perché le correlazioni sono matematicamente equivalenti all’errore quadrato medio radice normalizzato, ma sono riportate su una scala che è facile da capire per il lettore. Usando una robusta correlazione bayesiana di Pearson, che sembra essere ancora più robusta della correlazione di Spearman che abbiamo usato in precedenza, abbiamo preso tutte le stagioni di battuta della squadra da 1980-2016 e abbiamo confrontato le prestazioni di team OPS contro team wOBA nei rispettivi attacchi a team runs/PA.
Abbiamo eseguito questi confronti in modalità standard che tendono a suscitare il nostro interesse:
- Prestazioni Descrittive: la correlazione tra la metrica e lo stesso anno la squadra corre/PA;
- Affidabilità delle Prestazioni: la correlazione tra la metrica e l’anno seguente; e
- Prestazioni Predittive: la correlazione tra la metrica e l’anno successivo viene eseguito/PA.
Poiché abbiamo codificato l’analisi in Stan (ok, ok, abbiamo usato brms), otteniamo le incertezze per queste correlazioni come sottoprodotto naturale dell’inferenza multivariata bayesiana. Cosa vediamo quando confrontiamo oltre 1.000 stagioni di team OPS / wOBA a team runs / PA? Ecco i risultati:
OPS/wOBA di Squadra Gira/PA (1980-2016)
Metrica | Descrittivo | Desc_Err | Sicurezza | Rel_Err | Predittivo | Pred_Err |
OPS | 0.944 | 0.003 | 0.63 | 0.020 | 0.59 | 0.021 |
wOBA | 0.933 | 0.004 | 0.62 | 0.019 | 0.58 | 0.021 |
Il ritrovamento di Morong non era un’anomalia. In parole povere, team OPS misura meglio la produzione del team che colpisce il team di team wOBA: le prestazioni descrittive sono comodamente al di fuori del margine di errore sia per le statistiche, sia per le misure di affidabilità e prestazioni predittive, mentre all’interno dei rispettivi margini di errore, mostrano tendenze simili.
Come notato sopra, se OPS avesse semplicemente abbinato wOBA, questo si sarebbe sentito degno di nota, in particolare se OPS è così mal costruito come sostiene il Libro. Eppure, la tendenza nel corso di diversi decenni, attraverso periodi di tempo di punteggio alto e basso, dimostra che OPS non si limita a tenere il proprio contro wOBA: in realtà fa “meglio.”
Ma cosa significa per OPS essere “migliore”?
A livello di squadra, la conclusione è abbastanza chiara: per misurare le prestazioni di colpire raw, OPS probabilmente è la metrica composita migliore da usare.
Se ciò che ti interessa è la prestazione individuale, tuttavia, la superiorità di OPS diventa meno chiara.
Nel thread del blog collegato sopra, Tom Tango, autore principale del libro, sostiene (nel commento n. 32) che OPS ha un vantaggio ingiusto (e irrilevante) in quanto non conta le mosche sacrificali come apparizioni di piatti (perché OBP non le conta e OPS è costruito su OBP). Come tale, OPS a) può essere tacitamente accreditare battitori per la fortuna di essere in una squadra con compagni di squadra che ottengono sulla base, e b) potrebbe quindi sopravvalutare il valore offensivo individuale di un giocatore.
Questo è un buon punto, anche se non del tutto soddisfacente. Sembra improbabile che sacrifice flies da solo possa spiegare la costante differenza di prestazioni. (Quando abbiamo rieseguito il confronto sopra escludendo le mosche sacrificali da OBP / OPS, i risultati erano fondamentalmente gli stessi). Inoltre, se le mosche sacrifice fossero il driver del (piccolo) vantaggio di OPS nel montaggio del punteggio di team run, allora le statistiche come wOBA dovrebbero probabilmente fare un lavoro migliore riflettendo la meccanica delle mosche sacrificali. Sacrificio vola, dopo tutto, non colpire se stessi. Generare palle di volo fuori campo è un’abilità, e alcuni battitori (di solito quelli migliori) sono molto meglio di altri.
In altre parole, gli out di fly-ball probabilmente sono meno dannosi per una squadra rispetto agli out di ground-ball, e questa differenza, per quanto piccola, può valere la pena riflettere, anche per i singoli stimatori offensivi basati su pesi lineari. Distinguere terra-ball outs da outfield fly-ball outs è anche facile da fare, anche senza traverse o dati palla battuta, date le diverse posizioni di fielding coinvolti.
Forse per questo motivo, lo stimatore multinomiale penalizzato di Scott Powers distingue tra terra-ball e fly-ball out. wOBA, tuttavia, rifiuta di distinguere così, forse per garantire che tutti gli out siano uguali a 0, proprio come fanno per OBP. Questa è una scelta di design, e non irragionevole, soprattutto perché gli autori del libro sono sinceri sulla loro decisione di farlo. Ma non è l’unica scelta, ed è possibile che nel fare questa particolare scelta, wOBA sta lasciando una certa precisione sul tavolo. Nella misura in cui OPS incorpora questa precisione aggiuntiva, per quanto goffamente, questo fatto è notevole e dovrebbe essere riconosciuto come tale a suo merito.
Andare avanti
Il nostro punto qui non è quello di costringerti a scegliere tra OPS, wOBA o altre varianti come True Average, poiché tutte ti serviranno generalmente bene. Piuttosto, stiamo cercando di gettare le basi per ulteriori discussioni su come misurare le metriche offensive e per ricordare i tipi di problemi a cui dovremmo pensare mentre confrontiamo le metriche offensive.
La maggior parte delle metriche offensive composite fa un buon lavoro nel misurare la qualità del battitore, almeno a livello di squadra, ma ci sono differenze che riflettono sia la qualità della loro costruzione che le scelte che i loro creatori hanno fatto. Nelle prossime settimane, discuteremo perché alcune di queste scelte possono avere conseguenze sorprendenti.
Molte grazie al team BP Stats per la revisione e la discussione tra pari.
Grazie per aver letto
Questo è un articolo gratuito. Se ti è piaciuto, prendere in considerazione la sottoscrizione di Baseball Prospetto. Gli abbonamenti supportano la ricerca e l’analisi del baseball pubblico in corso in un ambiente sempre più proprietario.
Iscriviti ora