en Statcast hyllning till Baseball ’ s Strangest Pitch: The Eephus

November 14, 2017

jag har varit borderline besatt av eephus för en tid nu. Varje gång jag ser en spelare dra denna tonhöjd ur sin arsenal blir jag lika delar upphetsad och bamboozled. Min reaktion är vanligtvis lika delar” jag kunde kasta det ”och” hur på jorden slog han inte det?”

för dem som inte är bekanta, här är en snabb beskrivning och historia av eephus. Kort sagt, en eephus är en blooper pitch: den har en lat, rec-league stil leverans, kan båge långt över smeten huvud på väg till plattan, och tenderar att resa någonstans från 40 till 70 mph som det lämnar kannan hand. Det är ofta svårt att berätta om det kastades med avsikt eller om kannan tillfälligt glömde hur man kastar en baseball.

denna tonhöjd sägs först ha kastats av Bill Phillips, som gjorde Planen till en del av sitt spel från 1890 till 1903. Planen kom senare till framträdande av Rip Sewell ungefär 40 år senare, och har sett sporatisk användning sedan. Denna tonhöjd har gått med en mängd olika namn genom åren, inklusive att kallas en ”skräphöjd”, ”död fisk”, ”LaLob” och en ”spaceball” för sin höga båge (källa: en kort historia av Eephus Pitch – NYTimes).

långt under hastigheten på en genomsnittlig förändring, och saknar vanligtvis något element av bedrägeri om vad som kommer i leveransen, varför kastar någon denna bisarra tonhöjd? Den rådande teorin är att den komiskt långsamma hastigheten på denna tonhöjd kastar bort en smet kalibrering, vilket gör att tonhöjderna som följer verkar flammande snabbt. I andra fall spekulerar folk att tonhöjden helt enkelt är ett misstag, efter att ha glidit ut ur kannans hand. Oavsett, lite forskning har hittills gjorts på denna ovanliga tonhöjd, och jag tycker att det förtjänar bättre än så. Således kommer detta inlägg att fungera som en undersökande analys av och hyllning till den mytiska eephus.

innan du går vidare i det här inlägget, här är några snabba föreslagna visning för sammanhang på den stora ligan planen som du förmodligen skulle kunna kasta lika effektivt som Clayton Kershaw:

Eephus Pitch Compilation

nu när denna tonhöjd har fått en tillräcklig mängd hype, låt oss komma nära och personligt med eephus och se hur det ser ut med siffrorna. För att göra detta behöver vi data om varje eephus som har kastats under Statcast och PITCHf/x epoker. För detta använde jag pybaseball-biblioteket för att hämta Statcast-och PITCHf/x-data på varje Major League-tonhöjd som har kastats sedan säsongen 2008. Bland dessa 7 212 136 observationer representerar endast 2 090 av dem eephus-platser. Det är bara 0,02 procent-en sällsynt tonhöjd!

Eephuses kastas efter säsong

eephus såg sin Statcast-era guldålder år 2014, då över 400 kastades. Med undantag för säsongerna 2012-2015 verkar det vanligast att se mindre än 200 kastas under ett visst år. När det gäller listan över krukor som har använt denna tonhöjd blir det tydligt att det inte är någon slump att 2012-2015 – spetsen i eephus-användningen sammanföll med en hälsosam ra Dickey. Denna eephus-throwing knuckleballer är faktiskt ansvarig för mer än dubbelt så många eephus-platser som den näst mest produktiva användaren av planen.

Eephus räkna med kanna, 2008 – 2017

i den senaste historien har bara Dickey, Padilla, Despaigne och Chen varit produktiva nog användare av planen för att ha mer än 100 exempel i spelet under sitt bälte. Det är vettigt att detta skulle vara en ovanlig tonhöjd för de flesta av dem som använder den; när eephus förlorar sitt överraskningselement är det inte längre en roman och desorienterande tonhöjd, men i huvudsak en Little League World Series-nivå fastball att någon större liga smet värd sin plats på en roster skulle slå ut ur parken.

eftersom data på en viss tonhöjdstyp endast är relevant i samband med andra platser, jämför vi först eephus mot de närmaste sakerna som det har för kamrater: fastball, knuckleball och changeup.

den mest relevanta datapunkten här är hastighet: eephus har en genomsnittlig hastighet på bara 64,5 mph. Det är 23% långsammare än den genomsnittliga förändringen och 30% långsammare än den genomsnittliga snabbbollen. Tonhöjden visar inte samma låga snurrhastighet för andra målmedvetet långsamma platser, trots att långsamhet är dess definierande egenskap. Medan knuckleball och changeup visar snurrhastigheter på 1500 – och 1700-talet snurrar eephus med en hög 2301 rpm-en solid 100 rpm snabbare än den genomsnittliga snabbbollen. Eftersom spin rate är en relativt ny metrisk att ha tillgång till, är experterna inte helt säkra på vad en hög eller låg spin rate betyder för tonhöjdskvalitet. Tidig forskning tyder dock på att hög snurrhastighet är bra för en icke-brytande boll.


Statcast zoner (källa: Baseball Savant)

den sista sammanfattningsstat som visas i tabellen ovan är procentandelen av varje tonhöjdstyp som placeras i mitten av strejkzonen, längs dess kanter och utanför. Här använder jag Statcast-zonerna som visas ovan och definierar ”ner i mitten” som i zon 5,” Edge of strike zone ” som zoner 1, 2, 3, 4, 6, 7, 8, och 9, och ”utanför strikezone” som zoner 11 till 14. På en hög nivå tenderar de längre platserna att placeras från mitten av strejkzonen, desto mer sannolikt är det att kannor använder denna tonhöjd av strategiska skäl och desto mindre sannolikt är det att en kanna är säker på tonhöjden förmåga att komma förbi en smet utan att vara sakkunnigt placerad. Här ser vi om vad vi förväntar oss. Snabbbollar placeras i strejkzonen relativt oftare än långsam växling och eephus, där eephus kastas utanför strejkzonen två procentenheter oftare än förändringen och 12 procentenheter oftare än fastball. Detta gör intuitiv mening, eftersom man kan föreställa sig att en väl förberedd krafthitter kan göra någon skada på en 60mph-tonhöjd som kastas ner i mitten. På grund av eephus höga båge kan det vara utmanande att placera exakt också, vilket också skulle bidra till hur ofta det landar utanför strejkzonen.


Eephus (L) och Fastball (R) placering från Batter ’ S View

ovanstående figur visar samma ide i lite mer detalj. Medan provstorleken är mycket mindre för eephus än fastball, är det uppenbart att eephus-kannor gör en samordnad insats för att hålla denna tonhöjd väl utom räckhåll, på bekostnad av att den ofta inte har någon chans att komma in i strejkzonen.

medan sammanfattningsstatistik är användbar, berättar ett enkelt genomsnitt aldrig hela historien. För att bättre förstå basebollens långsammaste tonhöjd, låt oss ta en titt på hur dess frigöringshastigheter fördelas i förhållande till dessa andra platser.

från denna figur kan vi se att eephus långsamhet är ännu mer uttalad än man kan ha trott! Faktum är att om vi slänger ut de snabbaste 1% av eephus-platserna som är outliers som verkar ha blivit felklassificerade, ser vi att de återstående 99% av inspelade eephus-platserna är långsammare än 97% av inspelade changeups. Så medan det finns en viss överlappning mellan de två platserna när det gäller hastighet, är eephus i huvudsak i en egen liga när det gäller långsamhet.

hastighetsgapet mellan eephus och fastball är ännu mer uttalat. Man kan föreställa sig hur desorienterande det skulle vara att se en eephus flyta efter en 95mph fastball, eller hur flammande snabbt samma fastball skulle dyka upp efter en 60mph eephus. Som en sidotal antyder bi-modaliteten av knuckleballhastigheter att Statcast kan felklassificera några av dessa platser som knuckleballs när de faktiskt är eephuses. Eftersom det inte finns något korrekt sätt att säga vilka deklarerade knuckleballs faktiskt är eephuses, måste vi dock lämna dessa platser.

detta leder oss till en mer praktisk fråga:fungerar eephus faktiskt? Det mest framträdande argumentet för dess användning är det som antyddes tidigare: den extrema hastighetsskillnaden mellan en eephus och någon annan tonhöjd som båda fångar slår av vakt för eephus själv och gör att en icke-eephus uppföljningshöjd verkar snabbare och svårare att spåra. Men håller denna teori i praktiken? Låt oss undersöka effektiviteten hos eephus vs. några mer vanliga platser, och testa sedan om en eephus faktiskt gör följande tonhöjd svårare att slå.

för att undersöka effektiviteten hos eephus vs. alla andra platser, ger följande fem mätvärden en bra översikt över hur smeter klarar sig mot det: kontaktprocent, träffprocent, lanseringsvinkel, utgångshastighet och fatprocent. Dessa mätvärden representerar kollektivt hur slagbar tonhöjden är, hur hög kvalitet en bättre kontakt med en eephus tenderar att vara, och om människor träffar eephus för makt eller för kontakt.

först, kanske överraskande, gör smeter kontakt med denna tonhöjd ungefär lika ofta som varje annan tonhöjd, vilket gör kontakt med eephus bara 0,33 procentenheter oftare än en genomsnittlig tonhöjd. Kvaliteten på denna kontakt tenderar dock att vara lägre. Trots att man tar kontakt med detta lite oftare blir det till exempel en hit nästan 11% mindre ofta. Ett andra sätt att se på detta är att dess fat procent, mätt som andelen eephus platser med en förväntad batting genomsnitt över 0.500 baserat på bollens hastighet och vinkel utanför bat, är en tiondel av en procentenhet lägre för eephus platser, uppgår till en 2% droppe. Detta är inte en stor minskning, men i kombination med tonhöjdens högre kontaktprocent och lägre träffprocent, målar den en bild av frekvent men lågkvalitativ kontakt.

Barrel procent beräknas med hjälp av kulans utgångshastighet och lanseringsvinkel från fladdermusen, men dessa faktorer kan också undersökas isolerat för att bättre förstå vilken typ av kontakt som görs. Här visar både genomsnittet och fördelningen av dessa mätvärden att batters lanseringsvinklar är ungefär desamma för en eephus vs icke-eephus-tonhöjd, men bollens hastighet från deras fladdermus är långsammare. Detta återspeglas av att bollens genomsnittliga utgångshastighet är 4,29 mph långsammare och fördelningen av denna metriska förskjuts märkbart mot den långsammare sidan för eephus vs varannan tonhöjd.

nu när vi har fastställt att eephus själv kan ha den önskvärda kvaliteten att dra ut lågkvalitativ kontakt, låt oss återvända till teorin som ställts tidigare: är en snabbboll svårare att slå om den kastas efter en eephus? Kastar kannor strategiskt fastballs oftare efter en eephus? Samma frågor kan ställas för andra pitchtyper än fastball, men om den här effekten existerar är det här vi förväntar oss att det är mest uttalat, så vi lämnar de andra platserna för tillfället. Svaret på den första av dessa frågor är en definitiv ”inte riktigt.”En genomsnittlig smet kommer i kontakt med 19,18% av snabbbollar som kastas. När den tidigare tonhöjden var en eephus ökar denna kontaktprocent faktiskt till 22,60%. Vidare tenderar denna kontakt att vara högkvalitativ kontakt. 8,49% av eephus-föregås fastballs förvandlas till träffar, medan detta antal är endast 6,26% i genomsnitt. Mätning av fat delar en liknande historia, där en nästan Genomsnittlig 5.4% av fastballs är tunna i genomsnitt, men en mycket högre 6.4% är tunna när den tidigare tonhöjden var en eephus. Det är svårt att göra ett starkt påstående om effekterna av en eephus på en uppföljning fastball, dock på grund av begränsningar provstorlek. 703 post-eephus fastballs har kastats under pitchf / x och Statcast epoker, och endast 203 av dessa hände sedan fat blev mätbara 2015. Detta är knappast tillräckligt med data för att lita på dessa specifika nummer ur provet. Det framgår emellertid av denna analys att en snabbboll som kastas efter en eephus utför antingen identiskt eller något bättre än en identisk snabbboll under andra omständigheter. Baserat på dessa resultat skulle jag hävda att en snabbboll är extra svår att slå efter en eephus-tonhöjd med saltkorn.

den andra av dessa frågor är lättare att svara på. Medan cirka 64% av major league pitches är fastballs, följdes endast 47% av eephuses vars plattutseende innehöll en uppföljningshöjd av en snabbboll. Även om vi tar bort eephus-throwing knuckleballer ra Dickey från dessa data är antalet fortfarande under genomsnittet vid 61%. Det ser ut som att icke-knuckleball-krukor kastar fastballs vid ungefär sin normala frekvens efter eephus-platser, och att RA Dickey styr bort från Post-eephus fastball nästan helt. Kanske betyder det att kannor redan förstår att den extra snabba post-eephus fastball bara är en myt.

eftersom eephus inte verkar vara bättre än en snabbboll som en isolerad tonhöjd, och vi har också debunked teorin om att en snabbboll är mer dödlig när den kastas efter en eephus, finns det någon anledning att överväga att använda denna tonhöjd? Kanske. Genom att undersöka on – basprocenten (OBP) av plattuppträdanden där eephus presenterades och jämföra detta med OBP för icke-eephus-plattuppträdanden ser vi en liten minskning när eephus används. En eephus-innehållande atbat ser smeten komma på basen 30.8% av tiden, medan ett genomsnittligt plattutseende har en något högre OBP på 31.9%. En skillnad på mer än en hel procentenhet är större än vad jag skulle ha förväntat mig här, och föreslår att något om denna sällsynta tonhöjd verkligen kan fungera i en kanna.

trots sin otroligt långsamma hastighet lyckas eephus pitch hålla sin egen. Smeter har problem med att få hög kvalitet kontakt med planen, och i allmänhet få på basen mindre ofta när planen används i en platta utseende. Som sagt, att analysera en sällsynt tonhöjd innebär oundvikligen att arbeta med små provstorlekar, vilket innebär att det är svårt att få många djupa insikter i denna tonhöjd utöver några enkla sammanfattningsstatistik. Ett varningens ord, dock: en kanna bör alltid vara noga med att inte kasta denna ”överraskning” pitch två gånger i rad, så att de hamnar som dålig Orlando Hernandez.

Eephus tonhöjd sammanställning

  • 2020 2
  • 2019 1
  • 2018 2
  • 2017 6
  • 2016 2

2020

flerarmade banditer i Python: Epsilon Greedy, UCB1, Bayesian UCB och EXP3

13 minuters läsning

detta inlägg utforskar fyra algoritmer för att lösa det multiarmade banditproblemet (Epsilon Greedy, EXP3, Bayesian UCB och UCB1), med implementeringar i Python …

Offline utvärdering av Multi-Armed Bandit algoritmer i Python med Replay

9 minuters läsning

Multi-armed bandit algoritmer ser förnyad spänning, men att utvärdera deras prestanda med hjälp av en historisk dataset är utmanande. Så här går jag tillväga …

tillbaka till toppen

2019

förstå AdTech-auktionerna i din webbläsare: en analys av 30 000 Prebid.js auktioner

7 minuters läsning

en analys av auktionsdynamik i klientsidan header budgivning

tillbaka till toppen

2018

förutsäga Skift: öka och uppsamlare för strategisk infield positionering

23 minuters läsning

använda maskininlärning för att förutsäga strategisk infield positionering med statcast data och kontextuell funktion engineering.

visualisera MLB Team ranking med ggplot2 och Bump Diagram

3 minuters läsning

en snabb handledning om att hämta MLB win-förlust data med pybaseball och rengöring och visuzlizing det med tidyverse (dplyr och ggplot).

tillbaka till toppen

2017

på utkast val Värde, Den nya lotteriet, och tank

12 minuters läsning

Tank blir ett hett ämne varje säsong när det blir uppenbart vilket av NBA: s värsta lag kommer att sakna slutspelet. I det här inlägget adresserar jag valu…

en Statcast hyllning till basebollens konstigaste tonhöjd: Eephus

7 minute read

jag har varit borderline besatt av eephus pitch för en tid nu. Varje gång jag ser en spelare dra denna tonhöjd ur sin arsenal blir jag lika delar ex…

Leaving MLB: Lessons Learned in my First Data Science Role

4 minute read

under de senaste tre månaderna har jag haft den spännande möjligheten att praktisera som datavetenskapare vid Major League Baseball Advanced Media, TEKNIKARMEN för ML…

introduktion av pybaseball: ett Open Source-paket för Basebolldataanalys

2 minute read

under hela mitt basebollarbete på MLB Advanced Media kom jag att inse att det inte fanns något pålitligt Python-verktyg tillgängligt för sabermetrisk forskning och adv…

bokhylla

5 minuters läsning

en samling av några av mina favoritböcker. Företag, populär ekonomi, statistik och maskininlärning och lite litteratur.

338 koppar kaffe

6 minuters läsning

varje kopp kaffe jag har konsumerat under de senaste 5 månaderna har loggats på ett kalkylblad. Här är vad jag har lärt mig genom datavetenskap min kaffekonsumtion.

tillbaka till toppen

2016

att bygga ett Innehållsbaserat rekommendationssystem för böcker: att använda naturlig språkbehandling för att förstå litterär preferens

4 minuters läsning

litteratur är ett knepigt område för datavetenskap. Tänk på dina fem favoritböcker. Vad har de gemensamt? Vissa kan dela en Författare eller genre, men förutom …

maskininlärning och NFL Field Goal: använda statistiska inlärningstekniker för att isolera Placekicker förmåga

4 minuters läsning

probabilistisk modellering på NFL field goal data. Tillämpa logistisk regression, slumpmässiga skogar och neurala nätverk i R för att mäta bidragande faktorer av fiel…

tillbaka till toppen



+