vi fortsetter å granske og oppdatere våre beregninger, og som en del av den prosessen har vi sammenlignet ulike støtende beregninger med hverandre.
To av beregningene vi har sjekket inn på, er vektet På Base Average (wOBA), popularisert Av Tango et al i Boken i 2007, Og On-Base-Plus-Slugging (OPS), en statistikk popularisert Av The Hidden Game Of Baseball, utgitt Av Pete Palmer Og John Thorn i 1984. Fordi sammenligninger mellom disse to har litt historie, trodde jeg vi ville starte denne serien ved å oppdatere disse sammenligningene.
Noen Kort Bakgrunn
OPS er grei, i hvert fall i konsept. Du tar en batter on-base prosent (OBP)—som riktignok ikke er mye av en prosentandel—legge den til sin slugging prosent (SLG)—definitivt ikke en reell prosentandel (baseball statistikk kan være veldig rart) – og summen av disse to tallene gir deg «OPS.»
wOBA er mer komplisert. wOBA tildeler «lineære vekter» til ulike baseball batting hendelser; lineære vekter er gjennomsnittlig antall runs scoret i en halv inning etter en slik hendelse inntreffer. For wOBA blir disse kjøreverdiene deretter skalert for å sette dem på samme generelle skala som OBP, noe som betyr at alle outs er lik 0. Denne ekstra skaleringen er ikke nødvendig, men forfatterne av Boken trodde Det ville være nyttig (eller i det minste mer overbevisende) Å ha OBP og wOBA på samme skala.
de som har lest Boken, vet at forfatterne ikke er imponert over OPS: de klager over AT OBP og SLG har overlappende komponenter, forskjellige denominatorer, og AT OPS vesentlig undervurderer BETYDNINGEN AV OBP. Med Andre ord, forfatterne av Boken ser OPS som en tilnærming i beste fall, bare nyttig som en» gateway » – statistikk, hvis det. Etter deres syn bør analytikere fokusert på nøyaktighet ikke bruke OPS.
Hvilken Metrisk Er «Bedre»?
med den introduksjonen, la oss gå tilbake fem år til et innlegg som startet en interessant diskusjon.
i juli 2013 ønsket cyril Morong, en økonomiprofessor Ved San Antonio College, å sammenligne ytelsen TIL OPS og wOBA i å forutsi run scoring. Dette er en vanskelig ting å gjøre for individuelle batters, siden i motsetning til mugger, er DET ingen «run-generert» analog TIL RA9. For å få et definert basseng av løp å jobbe med, Gikk Morong ett nivå «opp» til team run-priser. Fordi alle individer er tilknyttet et lag når de bat, og den veide gjennomsnittlige produksjonen av alle lagbatterier gir en samlet OPS eller wOBA for laget, kan vi i stedet se på gjennomsnittlig team OPS eller team wOBA og sammenligne det med gjennomsnittlig lagløp scoret per plate utseende.
Da Han gjorde Dette, Fant Morong noe interessant. Ser på alle lag fra 2010-2012 sesongene, fant han at team OPS korrelerte litt bedre til team run produksjonsrater enn team wOBA—selv om wOBA selvfølgelig var vanlig å være overlegen TIL OPS. Hans funn ble utfordret i kommentarfeltet i innlegget hans, så han kjørte sammenligningen igjen, denne gangen for 2003-2012 sesongene. OPS vant igjen.
diskusjonen flyttet over Til Tom Tangos blogg, hvor Den gikk i noen interessante retninger. (Tango er hovedforfatter av Boken). Et uløst spørsmål var om forskjellen i ytelse MELLOM OPS og wOBA bare var innenfor feilmarginen, eller med andre ord, ikke meningsfullt annerledes. Selv et funn av ekvivalens virker meningsfylt, men HVIS OPS faktisk passer til team run scoring bedre, ville det være enda mer bemerkelsesverdig. Så vidt vi kan fortelle, ble det aktuelle spørsmålet aldri løst offentlig.
Tillat oss å hjelpe. Vi liker ideen om å bruke korrelasjoner for statistiske sammenligninger, fordi korrelasjoner er matematisk ekvivalente med normalisert rot gjennomsnittlig kvadrert feil, men rapporteres på en skala som er lett for leseren å forstå. Ved å bruke en robust Bayesiansk Pearson-korrelasjon, som ser ut til å være enda mer robust enn Spearman-korrelasjonen vi har brukt tidligere, tok vi alle lagets batting sesonger fra 1980-2016, og sammenlignet ytelsen til team OPS versus team wOBA i deres respektive passer til team runs/PA.
vi kjørte disse sammenligningene på de vanlige måtene som pleier å interessere oss:
- Beskrivende Ytelse: korrelasjonen mellom metriske og samme års team kjører / PA;
- Pålitelighetsytelse: korrelasjonen mellom metriske og seg selv i det følgende året; og
- Prediktiv Ytelse: korrelasjonen mellom metriske og følgende års løp/PA.
fordi vi kodet analysen I Stan (ok, ok, vi brukte brms), får vi usikkerhetene for disse korrelasjonene som et naturlig biprodukt Av Bayesiansk multivariat slutning. Hva ser vi når vi sammenligner over 1000 sesonger av team OPS / wOBA til team runs / PA? Her er resultatene:
OPS / wOBA Til Team Runs / PA (1980-2016)
Metrisk | Beskrivende | Desc_Err | Pålitelighet | Rel_Err | Pred_err | Pred_Err |
OPS | 0.944 | 0.003 | 0.63 | 0.020 | 0.59 | 0.021 |
wOBA | 0.933 | 0.004 | 0.62 | 0.019 | 0.58 | 0.021 |
Morongs funn var ikke en anomali. Enkelt sagt, team OPS gjør bedre måle team treffer produksjon enn team wOBA: den beskrivende ytelsen er komfortabelt utenfor feilmarginen for både statistikk, og pålitelighet og prediktive resultatmål, mens innenfor sine respektive feilmarginer, viser lignende trender.
som nevnt ovenfor, hadde OPS bare matchet wOBA, ville det ha følt nyhetsverdi, spesielt HVIS OPS er så dårlig konstruert som Boken hevder. Og likevel viser trenden over flere tiår, over tidsperioder med høy og lav scoring, at OPS ikke bare holder sin egen mot wOBA: det gjør faktisk » bedre.»
Men Hva Betyr DET FOR OPS å være «Bedre»?
på lagnivå er konklusjonen ganske klar: FOR å måle rå slagprestasjon, ER OPS sannsynligvis den bedre sammensatte metriske å bruke.
hvis det som interesserer deg er individuell ytelse, blir imidlertid ops overlegenhet mindre klar.
I bloggtråden som er koblet over, Hevder Tom Tango, hovedforfatter av Boken, (i kommentar nr. 32) At OPS har en urettferdig (og irrelevant) fordel ved at DEN ikke teller offerfluer som plateopptredener (FORDI OBP ikke teller dem, og OPS er bygget PÅ OBP). SOM sådan kan OPS a) stille kreditere batters for fortuiteten til å være på et lag med lagkamerater som kommer på base, og b) kan derfor overvurdere den individuelle offensive verdien av en spiller.
Dette er et godt poeng, men ikke helt tilfredsstillende. Det virker usannsynlig at offer flyr alene kunne forklare den konsekvente forskjellen i ytelse. (Når vi re-løp sammenligningen ovenfor unntatt offer fluer FRA OBP / OPS, resultatene var i utgangspunktet den samme). Videre, hvis offer fluer var føreren AV OPS’ (liten) fordel i passende team run scoring, så burde statistikk som wOBA uten tvil gjøre en bedre jobb som gjenspeiler mekanikken til offer fluer. Offer flyr, tross alt, ikke slå seg selv. Generere outfield fly baller er en ferdighet, og noen batters (vanligvis de bedre) er mye bedre på det enn andre.
på en annen måte er fly-ball outs sannsynligvis mindre skadelig for et lag enn bakken-ball outs, og den forskjellen, men liten, kan være verdt å reflektere, selv for individuelle lineære vektbaserte offensive estimatorer. Distinguishing ground-ball outs fra outfield fly-ball outs er også lett å gjøre, selv uten stringers eller batted-ball data, gitt de forskjellige fielding posisjoner involvert.
Kanskje av Denne grunn skiller Scott Powers straffede multinomiale estimator mellom bakkeball og fly-ball outs. wOBA, derimot, avslår å så skille, kanskje for å sikre at alle outs lik 0, akkurat som DE gjør FOR OBP. Dette er et designvalg, og ikke en urimelig, spesielt siden bokens forfattere er oppriktige om deres beslutning om å gjøre det. Men det er ikke det eneste valget, og det er mulig at wOBA gir litt nøyaktighet på bordet ved å gjøre dette valget. I den grad OPS inkorporerer denne ekstra nøyaktigheten, men klumpete, er dette faktum bemerkelsesverdig og bør anerkjennes som sådan til sin kreditt.
Fremover
vårt poeng her er ikke å tvinge deg til å velge MELLOM OPS, wOBA eller andre varianter som True Average, siden alle av dem vanligvis vil tjene deg godt. Snarere prøver vi å legge grunnlaget for videre diskusjon om hvordan offensive beregninger kan måles, og for å minne deg på hvilke typer problemer vi burde tenke på når vi sammenligner offensive beregninger.
de fleste sammensatte offensive beregninger gjør en god jobb med å måle hitter-kvalitet, i hvert fall på lagnivå, men det er forskjeller som gjenspeiler både kvaliteten på konstruksjonen og valgene deres skapere har gjort. I de kommende ukene vil vi diskutere hvorfor noen av disse valgene kan ha forbløffende konsekvenser.
MANGE takk TIL BP Stats Team for peer review og diskusjon.
Takk for at du leser
Dette er en gratis artikkel. Hvis du likte det, vurdere å abonnere På Baseball Prospekt. Abonnementer støtter pågående offentlig baseballforskning og analyse i et stadig mer proprietært miljø.
Abonner nå