Prospekt Feature: OPS og voba, kort revideret

Billedkredit: USA Today Sports

vi fortsætter med at undersøge og opdatere vores målinger, og som en del af denne proces har vi sammenlignet forskellige offensive målinger med hinanden.

to af de målinger, vi har tjekket ind på, er vægtet på Basisgennemsnittet, populariseret af Tango et al i bogen i 2007 og on-Base-Plus-Slugging (OPS), en statistik populariseret af det skjulte spil Baseball, udgivet af Pete Palmer og John Thorn i 1984. Fordi sammenligninger mellem disse to har lidt af en historie, jeg troede, vi ville starte denne serie ved at opdatere disse sammenligninger.

nogle korte baggrund

OPS er ligetil, i det mindste i koncept. Du tager en batters on-base procent (OBP)—som ganske vist ikke er meget af en procentdel—tilføj det til deres slugging procent (SLG)—absolut ikke en reel procentdel (baseball statistik kan være meget mærkeligt) – og summen af disse to tal giver dig “OPS.”

voba er mere kompliceret. lineære vægte er det gennemsnitlige antal løb scoret i en halv inning efter en sådan begivenhed indtræffer. Disse køreværdier skaleres derefter igen for at sætte dem i samme generelle skala som OBP, hvilket betyder at sikre, at alle outs er ens 0. Denne yderligere skalering er ikke nødvendig, men forfatterne af bogen mente, at det ville være nyttigt (eller i det mindste mere overbevisende) at have OBP og voba i samme skala.

de, der har læst bogen, ved, at forfatterne ikke er imponeret over OPS: de klager over, at OBP og SLG har overlappende komponenter, forskellige nævnere, og at OPS i det væsentlige undervurderer vigtigheden af OBP. Med andre ord ser forfatterne af bogen OPS som en tilnærmelse i bedste fald, kun nyttig som en “port” statistik, hvis det. Efter deres opfattelse burde analytikere fokuseret på nøjagtighed ikke bruge OPS.

hvilken metrisk er “bedre”?

med den introduktion, lad os gå fem år tilbage til et indlæg, der startede en interessant diskussion.

i juli 2013, Cyril Morong, en økonomi professor ved San Antonio College, ønskede at sammenligne resultaterne af OPS og voba i forudsige køre scoring. Dette er en vanskelig ting at gøre for individuelle lagkager, da der i modsætning til kander ikke er nogen “run-genereret” analog til RA9. For at få en defineret pulje af kørsler til at arbejde med, Morong gik et niveau “op” til team run satser. Fordi alle individer er forbundet med et hold, når de batter, og den vægtede gennemsnitlige produktion af alle holdslag giver en samlet OPS eller voba for holdet, Vi kan i stedet se på det gennemsnitlige hold OPS eller team voba og sammenligne det med det gennemsnitlige holdløb scoret pr.

da han gjorde dette, fandt Morong noget interessant. Ser man på alle hold fra sæsonerne 2010-2012, fandt han, at team OPS korrelerede lidt bedre med team run—produktionshastigheder end team voba-selvom voba selvfølgelig almindeligvis blev anset for at være bedre end OPS. Hans fund blev udfordret i kommentarsektionen i hans indlæg, så han kørte sammenligningen igen, denne gang for sæsonerne 2003-2012. OPS vandt igen.

diskussionen migreret over til Tom Tango blog, hvor det gik i et par interessante retninger. (Tango er hovedforfatteren af bogen). Et uløst spørgsmål var, om forskellen i ydeevne mellem OPS og voba kun var inden for fejlmargenen, eller med andre ord, ikke meningsfuldt anderledes. Selv en konstatering af ækvivalens virker meningsfuld, men hvis OPS faktisk passer til team run, der scorer bedre, ville det være endnu mere bemærkelsesværdigt. Så vidt vi kan fortælle, blev det pågældende spørgsmål aldrig offentligt løst.

Tillad os at hjælpe. Vi kan godt lide ideen om at bruge korrelationer til statistiske sammenligninger, fordi korrelationer matematisk svarer til normaliseret rod gennemsnitlig kvadreret fejl, men rapporteres på en skala, der er let for læseren at forstå. Ved hjælp af en robust Bayesian Pearson-korrelation, som ser ud til at være endnu mere robust end den Spearman-korrelation, vi tidligere har brugt, tog vi alle holdslagsæsoner fra 1980-2016 og sammenlignede udførelsen af team OPS versus team voba i deres respektive passer til holdkørsler/PA.

vi kørte disse sammenligninger på de standardmåder, der har tendens til at interessere os:

  • beskrivende ydeevne: korrelationen mellem det metriske og samme års holdkørsler/PA;
  • Pålidelighedsydelse: korrelationen mellem metrikken og sig selv i det følgende år; og
  • forudsigelig ydeevne: korrelationen mellem metrikken og det følgende års kørsler/PA.

fordi vi kodede analysen i Stan (ok, ok, vi brugte brms), får vi usikkerheden for disse korrelationer som et naturligt biprodukt af Bayesian multivariate inferens. Hvad ser vi, når vi sammenligner over 1.000 sæsoner af team OPS med team runs/PA? Her er resultaterne:

OPS / voba til Team Runs / PA (1980-2016)

metrisk beskrivende Desc_Err pålidelighed Rel_Err prædiktiv Pred_Err
OPS 0.944 0.003 0.63 0.020 0.59 0.021
København 0.933 0.004 0.62 0.019 0.58 0.021

Morongs fund var ikke en anomali. Den beskrivende ydeevne er komfortabelt uden for fejlmargenen for begge statistikker, og pålideligheden og forudsigelige præstationsmål, mens de inden for deres respektive fejlmarginer viser lignende tendenser.

som nævnt ovenfor, hvis OPS blot havde matchet voba, ville det have følt sig nyhedsværdigt, især hvis OPS er så dårligt konstrueret som bogen hævder. Og stadigvæk, tendensen over flere årtier, på tværs af tidsperioder med høj og lav score, viser, at OPS ikke blot holder sin egen mod voba: det gør det faktisk “bedre.”

men hvad betyder det for OPS at være “bedre”?

på holdniveau er konklusionen ret klar: til måling af rå slagpræstation er OPS sandsynligvis den bedre sammensatte metric at bruge.

hvis det, der interesserer dig, er individuel præstation, bliver Ops overlegenhed mindre klar.

i blogtråden, der er linket ovenfor, hævder Tom Tango, hovedforfatter af bogen (i kommentar NR. 32), at OPS har en uretfærdig (og irrelevant) fordel, idet den ikke tæller offerfluer som pladeoptræden (fordi OBP ikke tæller dem, og OPS er bygget på OBP). Som sådan kan OPS a) stiltiende kreditere slagere for fortuiteten ved at være på et hold med holdkammerater, der kommer på basen, og b) kunne derfor overvurdere den individuelle offensive værdi af en spiller.

dette er et godt punkt, men ikke helt tilfredsstillende. Det forekommer usandsynligt, at offerfluer alene kunne forklare den konsekvente forskel i ydeevne. (Da vi kørte sammenligningen ovenfor med undtagelse af offerfluer fra OBP/OPS, var resultaterne stort set de samme). Desuden, hvis offerfluer var føreren af OPS’ (lille) fordel ved montering af team run scoring, så burde statistikker som f.eks. Offer fluer, trods alt, ikke rammer sig selv. Generering af flyvebolde er en færdighed, og nogle lagkager (normalt de bedre) er meget bedre til det end andre.

sagt på en anden måde er fly-ball outs sandsynligvis mindre skadelige for et hold end ground-ball outs, og den forskel, uanset hvor lille den er, kan være værd at reflektere, selv for individuelle lineære vægtbaserede offensive estimatorer. At skelne ground-ball outs fra outfield fly-ball outs er også let at gøre, selv uden stringers eller batted-ball data, givet de forskellige feltpositioner involveret.

måske af denne grund skelner Scott magters straffede multinomiale estimator mellem ground-ball og fly-ball outs. men, afviser at så skelne, måske for at sikre, at alle outs lige 0, ligesom de gør for OBP. Dette er et designvalg, og ikke en urimelig, især da forfatterne af bogen er ærlige om deres beslutning om at gøre det. Men det er ikke det eneste valg, og det er muligt, at ved at gøre dette særlige valg, forlader vi en vis nøjagtighed på bordet. I det omfang OPS inkorporerer denne ekstra nøjagtighed, dog klodset, denne kendsgerning er bemærkelsesværdig og burde anerkendes som sådan til sin kredit.

fremad

vores punkt her er ikke at tvinge dig til at vælge mellem Ops, voba eller andre varianter som True Average, da alle af dem generelt vil tjene dig godt. Hellere, vi forsøger at lægge grunden til yderligere diskussion om, hvordan stødende målinger kan måles, og for at minde dig om de typer problemer, vi burde tænke på, når vi sammenligner stødende målinger.

de fleste sammensatte offensive målinger gør et godt stykke arbejde med at måle hitterkvalitet, i det mindste på holdniveau, men der er forskelle, der afspejler både kvaliteten af deres konstruktion og de valg, deres skabere har taget. I de kommende uger vil vi diskutere, hvorfor nogle af disse valg kan have forbløffende konsekvenser.

mange tak til BP Stats Team for fagfællebedømmelse og diskussion.

Tak fordi du læste

dette er en gratis artikel. Hvis du nød det, overveje at abonnere på Baseball Prospekt. Abonnementer understøtter løbende offentlig baseballforskning og-analyse i et stadig mere proprietært miljø.

Abonner nu



+