Prospekt funktion: OPS och wOBA, kort Revisited

bildkredit: USA Today Sports

vi fortsätter att granska och uppdatera våra mätvärden, och som en del av den processen har vi jämfört olika offensiva mätvärden med varandra.

två av de mätvärden vi har checkat in på är viktade på Basgenomsnittet (wOBA), populariserat av Tango et al i boken 2007, och On-Base-Plus-Slugging (OPS), en statistik populariserad av det dolda spelet Baseball, publicerad av Pete Palmer och John Thorn 1984. Eftersom jämförelser mellan dessa två har lite historia trodde jag att vi skulle börja den här serien genom att uppdatera dessa jämförelser.

lite kort bakgrund

OPS är enkelt, åtminstone i koncept. Du tar en smet ’ s on-base procent (OBP)—vilket visserligen inte är mycket av en procentandel—Lägg till den i deras slugging procent (SLG)—definitivt inte en riktig procentandel (basebollstatistik kan vara väldigt konstigt) – och summan av dessa två siffror ger dig ”OPS.”

wOBA är mer komplicerat. wOBA tilldelar” linjära vikter ” till olika basebollhändelser; linjära vikter är det genomsnittliga antalet körningar som görs i en halv inning efter att en sådan händelse inträffar. För wOBA, dessa körvärden skalas sedan om för att sätta dem i samma allmänna skala som OBP, vilket innebär att alla outs är lika med 0. Denna ytterligare skalning är inte nödvändig, men bokens författare tyckte att det skulle vara användbart (eller åtminstone mer övertygande) att ha OBP och wOBA i samma skala.

de som har läst boken vet att författarna inte är imponerade av OPS: de klagar på att OBP och SLG har överlappande komponenter, olika nämnare och att OPS väsentligt underkrediterar vikten av OBP. Med andra ord, författarna till boken visa OPS som en approximation i bästa fall, användbar endast som en ”gateway” statistik, om det. Enligt deras uppfattning borde analytiker som fokuserar på noggrannhet inte använda OPS.

vilket mått är ”bättre”?

med den introduktionen, låt oss gå tillbaka fem år till ett inlägg som startade en intressant diskussion.

i juli 2013 ville Cyril Morong, en ekonomiprofessor vid San Antonio College, jämföra prestanda för OPS och wOBA för att förutsäga körpoäng. Det här är en knepig sak att göra för enskilda smeter, eftersom det till skillnad från kannor inte finns någon ”run-genererad” analog till RA9. För att få en definierad pool av körningar att arbeta med, gick Morong en nivå ”upp” till team run rates. Eftersom alla individer är förknippade med ett lag när de bat, och den vägda genomsnittliga produktionen av alla lag smeter ger en övergripande OPS eller wOBA för laget, vi kan istället titta på den genomsnittliga laget OPS eller team wOBA och jämföra det med den genomsnittliga laget körningar görs per platta utseende.

när han gjorde detta hittade Morong något intressant. När han tittade på alla lag från säsongerna 2010-2012 fann han att team OPS korrelerade något bättre med team run—produktionshastigheter än team wOBA-även om wOBA naturligtvis ofta ansågs vara överlägsen OPS. Hans upptäckt utmanades i kommentarsektionen i hans inlägg, så han körde jämförelsen igen, den här gången för säsongerna 2003-2012. OPS vann igen.

diskussionen migrerade över till Tom Tangos blogg, där den gick i några intressanta riktningar. (Tango är bokens huvudförfattare). En olöst fråga var om skillnaden i prestanda mellan OPS och wOBA bara var inom felmarginalen, eller med andra ord, inte meningsfullt annorlunda. Även ett resultat av ekvivalens verkar meningsfullt, men om OPS faktiskt passar team run scoring bättre, skulle det vara ännu mer anmärkningsvärt. Såvitt vi kan säga, den specifika frågan blev aldrig offentligt löst.

Låt oss hjälpa. Vi gillar tanken på att använda korrelationer för statistiska jämförelser, eftersom korrelationer är matematiskt ekvivalenta med normaliserat root mean squared error, men rapporteras på en skala som är lätt för läsaren att förstå. Med hjälp av en robust Bayesian Pearson-korrelation, som verkar vara ännu mer robust än Spearman-korrelationen vi har använt tidigare, tog vi alla lagslagssäsonger från 1980-2016 och jämförde prestanda för team OPS kontra team wOBA i sina respektive passningar till lagkörningar/PA.

vi körde dessa jämförelser på de vanliga sätten som tenderar att intressera oss:

  • beskrivande prestanda: korrelationen mellan metriska och samma år team runs / PA;
  • Pålitlighetsprestanda: korrelationen mellan metriska och sig själv under det följande året; och
  • prediktiv prestanda: korrelationen mellan metriska och följande års körningar/PA.

eftersom vi kodade analysen i Stan (ok, ok, vi använde brms) får vi osäkerheten för dessa korrelationer som en naturlig biprodukt av Bayesian multivariat inferens. Vad ser vi när vi jämför över 1000 säsonger av team OPS/wOBA till team runs/PA? Här är resultaten:

OPS / wOBA till Team Runs / PA (1980-2016)

metrisk beskrivande Desc_Err tillförlitlighet Rel_Err prediktiv Pred_Err
OPS 0.944 0.003 0.63 0.020 0.59 0.021
wOBA 0.933 0.004 0.62 0.019 0.58 0.021

Morongs upptäckt var inte en anomali. Enkelt uttryckt, team OPS mäter bättre team slå produktion än team wOBA: den beskrivande prestanda är bekvämt utanför felmarginalen för både statistik, och tillförlitlighet och prediktiva prestandamått, medan inom sina respektive felmarginaler, visar liknande trender.

som nämnts ovan, hade OPS bara matchat wOBA, det skulle ha känt nyhetsvärde, särskilt om OPS är så dåligt konstruerad som boken hävdar. Och ändå, trenden under flera decennier, över tidsperioder med hög och låg poäng, visar att OPS inte bara håller sin egen mot wOBA: det gör faktiskt ”bättre.”

men vad betyder det för OPS att vara ”bättre”?

på lagnivå är slutsatsen ganska tydlig: för att mäta rå träffprestanda är OPS förmodligen det bättre sammansatta mätvärdet att använda.

om det som intresserar dig är individuell prestation blir emellertid överlägsenheten hos OPS mindre tydlig.

i bloggtråden länkad ovan hävdar Tom Tango, huvudförfattare till boken (i kommentar nr 32) att OPS har en orättvis (och irrelevant) fördel genom att den inte räknar offerflugor som plattuppträdanden (eftersom OBP inte räknar dem och OPS bygger på OBP). Som sådan kan OPS a) tyst kreditera smeter för att vara i ett lag med lagkamrater som kommer på basen, och b) kan därför överskatta spelarens individuella offensiva värde.

Detta är en bra punkt, men inte en helt tillfredsställande. Det verkar osannolikt att offerflugor ensam kan förklara den konsekventa skillnaden i prestanda. (När vi körde jämförelsen ovan exklusive offerflugor från OBP / OPS var resultaten i princip desamma). Dessutom, om offerflugor var föraren av OPS (liten) fördel i passande lagkörningspoäng, borde statistik som wOBA utan tvekan göra ett bättre jobb som återspeglar offrets flugmekanik. Offerflugor slår trots allt inte på sig själva. Att generera outfield fly balls är en färdighet, och vissa smeter (vanligtvis de bättre) är mycket bättre på det än andra.

sätt på ett annat sätt, fly-ball outs är förmodligen mindre skadliga för ett lag än ground-ball outs, och den skillnaden, dock liten, kan vara värt att reflektera, även för enskilda linjära vikter baserade offensiva estimatorer. Att skilja markboll outs från outfield fly-ball outs är också lätt att göra, även utan stringers eller batted-ball data, med tanke på de olika fältpositionerna som är inblandade.

kanske av denna anledning skiljer Scott Powers straffade multinomiala estimator mellan markboll och fly-ball outs. wOBA, dock, avböjer att så skilja, kanske för att säkerställa att alla outs lika 0, precis som de gör för OBP. Detta är ett designval, och inte ett orimligt, särskilt eftersom bokens författare är uppriktiga om sitt beslut att göra det. Men det är inte det enda valet, och det är möjligt att wOBA lämnar viss noggrannhet på bordet när han gör detta val. I den utsträckning OPS innehåller denna ytterligare noggrannhet, men klumpigt, är detta faktum anmärkningsvärt och borde erkännas som sådant till sin kredit.

framåt

vår poäng här är inte att tvinga dig att välja mellan OPS, wOBA eller andra varianter som True Average, eftersom alla i allmänhet kommer att tjäna dig bra. Snarare försöker vi lägga grunden för vidare diskussion om hur offensiva mätvärden kan mätas och påminna dig om vilka typer av problem vi borde tänka på när vi jämför offensiva mätvärden.

de flesta sammansatta offensiva mätvärden gör ett bra jobb med att mäta hitterkvalitet, åtminstone på lagnivå, men det finns skillnader som speglar både kvaliteten på deras konstruktion och de val som deras skapare har gjort. Under de kommande veckorna kommer vi att diskutera varför några av dessa val kan få häpnadsväckande konsekvenser.

stort tack till BP Stats Team för peer review och diskussion.

Tack för att du läste

Detta är en gratis artikel. Om du gillade det, överväga att prenumerera på Baseball Prospekt. Prenumerationer stöder pågående Offentlig baseballforskning och analys i en alltmer proprietär miljö.

Prenumerera nu



+