en Statcast hyldest til Baseball s mærkeligste banen: Eephus

November 14, 2017

jeg har været borderline besat med eephus i nogen tid nu. Hver gang jeg ser en spiller trække denne tonehøjde ud af deres arsenal, bliver jeg lige dele begejstrede og bambusede. Min reaktion er typisk lige dele” jeg kunne smide det, “og” hvordan I alverden ramte han det ikke?”

for dem, der ikke er bekendt, her er en hurtig beskrivelse og historie af eephus. Kort sagt, en eephus er en blooper tonehøjde: den har en doven levering af rec-league-stil, kan bukke godt over dejens hoved på vej til pladen og har tendens til at rejse hvor som helst fra 40 til 70 mph, da den forlader kandeens hånd. Det er ofte svært at fortælle, om det blev kastet med vilje, eller om kanden midlertidigt glemte, hvordan man kaster en baseball.

denne tonehøjde siges først at være blevet kastet af Bill Phillips, der gjorde banen til en del af sit spil fra 1890 til 1903. 40 år senere, og har set sporatisk brug siden. Denne tonehøjde er gået under en række navne gennem årene, herunder at blive omtalt som en “junk pitch”, “dead fish”, “LaLob” og en “spaceball” for sin høje bue (kilde: en kort historie om Eephus Pitch – NYTimes).

godt under hastigheden af en gennemsnitlig ændring, og mangler typisk noget element af bedrag med hensyn til hvad der kommer i leveringen, hvorfor kaster nogen denne bisarre tonehøjde? Den fremherskende teori er, at den komisk langsomme hastighed på denne tonehøjde kaster en batters kalibrering af, hvilket gør de efterfølgende tonehøjder flammende hurtigt. I andre tilfælde spekulerer folk i, at banen simpelthen er en fejltagelse, idet de er gledet ud af kandeens hånd. Uanset, lidt forskning er blevet gjort til dato på denne usædvanlige tonehøjde, og jeg synes, det fortjener bedre end det. Således vil dette indlæg tjene som en sonderende analyse af og hyldest til den mytiske eephus.

før du går videre i dette indlæg, her er nogle hurtige foreslåede visning for kontekst på big league banen, som du sandsynligvis kunne kaste lige så effektivt som Clayton Kersha:

Eephus Pitch Compilation

nu hvor denne pitch har modtaget en tilstrækkelig mængde hype, lad os komme tæt på og personlig med eephus og se, hvordan det ser ud af tallene. For at gøre dette har vi brug for data om hver eephus, der er blevet kastet under Statcast og PITCHf/h epoker. Til dette brugte jeg pybaseball-biblioteket til at hente Statcast-og PITCHf-dataene på hver Major League-tonehøjde, der er blevet kastet siden 2008-sæsonen. Blandt disse 7.212.136 observationer repræsenterer kun 2.090 af dem eephus-pladser. Det er kun 0,02 procent-en sjælden tonehøjde!

Eephus kastet efter sæson

eephus så sin statcast-æra guldalder i år 2014, da over 400 blev kastet. Med undtagelse af sæsonerne 2012-2015 ser det ud til at være mest almindeligt at se mindre end 200 kastet i et givet år. Med hensyn til listen over kander, der har brugt denne tonehøjde, bliver det klart, at det ikke er tilfældigt, at 2012 – 2015-stigningen i eephus-brug faldt sammen med æraen med en sund R. A. Dickey. Denne eephus-kaste knuckleballer, faktisk, er ansvarlig for mere end dobbelt så mange eephus-pladser som den næstmest produktive bruger af banen.

Eephus tæller af kande, 2008 – 2017

i nyere historie har kun Dickey, Padilla, Despaigne og Chen været produktive nok brugere af banen til at have mere end 100 eksempler i spillet under deres bælte. Det giver mening, at dette ville være en usædvanlig tonehøjde for de fleste af dem, der bruger den; når eephus mister sit overraskelseselement, er det ikke længere en roman og desorienterende tonehøjde, men i det væsentlige en lille liga verdensserie-niveau fastball, at enhver major league batter værd at hans plads på en liste ville ramme ud af parken.

da data om en bestemt tonehøjde kun er relevant i forbindelse med andre pladser, sammenligner vi først eephus med de nærmeste ting, det har til jævnaldrende: fastball, knuckleball og changeup.

det mest relevante datapunkt her er hastighed: eephus har en gennemsnitlig hastighed på kun 64,5 mph. Det er 23% langsommere end den gennemsnitlige ændring, og 30% langsommere end den gennemsnitlige fastball. Banen viser ikke den samme lave spinhastighed for andre målrettet langsomme pladser, på trods af at langsomheden er dens definerende egenskab. Mens knuckleball og changeup viser spin-satser i 1500 ‘erne og 1700’ erne, drejer eephus med en høj 2301 o / min – en solid 100 rpm hurtigere end den gennemsnitlige fastball. Da spin rate er en relativt ny måling at have adgang til, er eksperterne ikke helt sikre på, hvad en høj eller lav spin rate betyder for tonehøjdekvalitet. Tidlig forskning antyder imidlertid, at høj spinhastighed er en god ting for en ikke-brydende bold.


Statcast-områder (kilde: Baseball Savant)

den sidste sammenfattende stat vist i tabellen ovenfor er procentdelen af hver tonehøjde, der er placeret midt i strejkeområdet, langs dets kanter og udenfor. Her bruger jeg de Statcast-områder, der er vist ovenfor, og definerer “ned i midten “som værende i område 5,” kanten af strejkeområdet ” som områder 1, 2, 3, 4, 6, 7, 8, og 9, og “uden for strejkeområdet” som område 11 til 14. På et højt niveau, jo længere pladser har tendens til at blive placeret fra midten af strejkeområdet, jo mere sandsynligt er det, at kander bruger denne tonehøjde af strategiske grunde, og jo mindre sandsynligt er det, at en kande er sikker på tonehøjdens evne til at komme forbi en dej uden at være ekspert placeret. Her ser vi om, hvad vi ville forvente. Fastballs placeres relativt oftere inden for strejkeområdet end langsom hastighed changeup og eephus, hvor eephus kastes uden for strejkeområdet to procentpoint oftere end changeup og 12 procentpoint oftere end fastball. Dette giver intuitiv mening, da man kan forestille sig, at en velforberedt magt hitter kunne gøre nogle skader på en 60 mph banen kastet ned i midten. På grund af eephus’ høje bue kan det også være udfordrende at placere nøjagtigt, hvilket også vil bidrage til, hvor ofte det lander uden for strejkeområdet.


Eephus (L) og Fastball (R) placering fra batters visning

ovenstående figur viser den samme ide lidt mere detaljeret. Mens prøvestørrelsen er meget mindre for eephus end fastball, er det klart, at eephus-kander gør en samordnet indsats for at holde denne tonehøjde godt uden for rækkevidde, på bekostning af at den ofte ikke har nogen chance for at komme ind i strejkeområdet.

mens opsummeringsstatistikker er nyttige, fortæller et simpelt gennemsnit aldrig hele historien. For bedre at forstå baseballens langsomste tonehøjde, lad os se på, hvordan dens frigivelseshastigheder fordeles i forhold til disse andre pladser.

fra dette tal kan vi se, at eephus’ langsomhed er endnu mere udtalt, end man måske har troet! Faktisk, hvis vi smider de hurtigste 1% af eephus-pladser ud, som er outliers, der ser ud til at være blevet klassificeret forkert, ser vi, at de resterende 99% af de registrerede eephus-pladser er langsommere end 97% af de registrerede ændringer. Så mens der er en vis overlapning mellem de to pladser med hensyn til hastighed, er eephus i det væsentlige i en egen liga med hensyn til langsomhed.

hastighedsgabet mellem eephus og fastball er endnu mere udtalt. Man kan forestille sig, hvor desorienterende det ville være at se en eephus flyde forbi efter en 95 mph fastball, eller hvor lynhurtigt den samme fastball ville dukke op efter en 60 mph eephus. Som en sidebemærkning antyder bi-modaliteten af knuckleballhastigheder, at Statcast muligvis klassificerer nogle af disse pladser som knuckleballs, når de faktisk er eephuses. Da der ikke er nogen nøjagtig måde at sige, hvilke erklærede knuckleballs faktisk er eephuses, imidlertid, vi bliver nødt til at lade disse pladser være.

dette bringer os til et mere praktisk spørgsmål: fungerer eephus faktisk? Det mest fremtrædende argument for dets anvendelse er det, der blev henvist til tidligere: den ekstreme hastighedsforskel mellem en eephus og enhver anden tonehøjde begge fanger slagere væk for selve eephus, og får en ikke-eephus opfølgningshøjde til at virke hurtigere og sværere at spore. Men holder denne teori op i praksis? Lad os undersøge effektiviteten af eephus vs. et par mere almindelige pladser, og test derefter, om en eephus faktisk gør følgende tonehøjde sværere at ramme.

for at undersøge effektiviteten af eephus vs. alle andre pladser giver de følgende fem målinger et godt overblik over, hvordan batters klarer sig imod det: kontaktprocent, hitprocent, startvinkel, udgangshastighed og tøndeprocent. Disse målinger repræsenterer kollektivt, hvor hittable banen er, hvor høj kvalitet en bedre kontakt med en eephus har tendens til at være, og om folk rammer eephus for magt eller for kontakt.

for det første, måske overraskende, kommer batters i kontakt med denne tonehøjde omtrent lige så ofte som enhver anden tonehøjde, hvilket gør kontakt med eephus kun 0,33 procentpoint oftere end en gennemsnitlig tonehøjde. Kvaliteten af denne kontakt har imidlertid en tendens til at være lavere. På trods af at komme i kontakt med dette lidt oftere, bliver det for eksempel et hit næsten 11% sjældnere. En anden måde at se på dette er, at dens tøndeprocent, målt som procentdelen af eephus-pladser med et forventet slaggennemsnit på over 0.500 baseret på boldens hastighed og vinkel fra flagermus, er en tiendedel af et procentpoint lavere for eephus-pladser, svarende til et fald på 2%. Dette er ikke et stort fald, men parret med tonehøjden højere kontakt procent og lavere hit procent, det maler et billede af hyppig, men lav kvalitet kontakt.

Tøndeprocent beregnes ved hjælp af kuglens udgangshastighed og lanceringsvinkel fra flagermusen, men disse faktorer kan også undersøges isoleret for bedre at forstå, hvilken type kontakt der oprettes. Her viser både gennemsnittet og fordelingen af disse målinger, at batters lanceringsvinkler er omtrent de samme for en eephus vs. ikke-eephus tonehøjde, men hastigheden af bolden fra deres flagermus er langsommere. Dette afspejles af, at kuglens gennemsnitlige Udgangshastighed er 4,29 mph langsommere, og fordelingen af denne måling forskydes mærkbart mod den langsommere side for eephus vs. hver anden tonehøjde.

nu hvor vi har fastslået, at eephus selv kan have den ønskelige kvalitet ved at tegne kontakt af lav kvalitet, lad os vende tilbage til den teori, der blev stillet tidligere: er en fastball sværere at ramme, hvis den kastes efter en eephus? Kaster kande strategisk fastballs oftere efter en eephus? De samme spørgsmål kunne stilles til andre tonehøjdetyper end fastball, men hvis denne effekt eksisterer, er det her, vi forventer, at det er mest udtalt, så vi lader de andre pladser være ude for nu. Svaret på det første af disse spørgsmål er en endelig “ikke rigtig.”En gennemsnitlig dej kommer i kontakt med 19,18% af fastballs kastet. Da den forrige tonehøjde var en eephus, stiger denne kontaktprocent faktisk til 22,60%. Desuden har denne kontakt tendens til at være kontakt af høj kvalitet. 8,49% af eephus-forud fastballs blev til hits, mens dette tal kun er 6,26% i gennemsnit. Måling af tønder deler en lignende historie, hvor en næsten gennemsnitlig 5,4% af fastballs er tønde i gennemsnit, men en meget højere 6,4% er tønde, da den forrige tonehøjde var en eephus. Det er vanskeligt at fremsætte et stærkt krav om virkningen af en eephus på en opfølgende fastball, imidlertid, på grund af prøvestørrelsesbegrænsninger. 703 post-eephus fastballs er blevet kastet under PITCHf / Statcast epoker, og kun 203 af disse skete siden tønder blev målbare i 2015. Dette er næppe nok data til at stole på disse bestemte tal ud af stikprøven. Det fremgår imidlertid af denne analyse, at en fastball kastet efter en eephus udfører enten identisk eller lidt bedre end en identisk fastball under andre omstændigheder. Baseret på disse resultater vil jeg hævde, at en fastball er ekstra svær at ramme efter en eephus-tonehøjde med et saltkorn.

det andet af disse spørgsmål er lettere at besvare. 64% af major league-banerne er fastballs, blev kun 47% af eephuses, hvis pladeudseende indeholdt en opfølgningsbane, efterfulgt af en fastball. Selv hvis vi fjerner eephus-kaster knuckleballer R. A. Dickey fra disse data, er antallet stadig under gennemsnittet på 61%. Det ser ud til, at ikke-knuckleball-kander kaster fastballs med omtrent deres normale frekvens efter eephus-pladser, og at Ra Dickey styrer væk fra Post-eephus fastball næsten helt. Måske betyder det, at kander allerede forstår, at den ekstra hurtige udseende post-eephus fastball kun er en myte.

da eephus ikke ser ud til at være bedre end en fastball som en isoleret tonehøjde, og vi har også debunked teorien om, at en fastball er mere dødbringende, når den kastes efter en eephus, er der nogen grund til at overveje at bruge denne tonehøjde? Måske. Når vi undersøger on-basisprocenten (OBP) af pladeoptræden, hvor eephus blev vist, og sammenligner dette med OBP for ikke-eephus-pladeoptræden, ser vi et lille fald, når eephus bruges. En eephus-indeholdende atbat ser dejen komme på basen 30,8% af tiden, mens et gennemsnitligt pladeudseende har en lidt højere OBP på 31,9%. En forskel på mere end et helt procentpoint er større, end jeg ville have forventet her, og antyder, at noget ved denne sjældne tonehøjde faktisk kan fungere til fordel for en kande.

på trods af sin utroligt langsomme hastighed formår eephus-banen at holde sin egen. Lagkager har problemer med at gøre høj kvalitet kontakt med banen, og generelt komme på basen sjældnere, når banen er udnyttet i en plade udseende. Når det er sagt, betyder analyse af en sjælden tonehøjde uundgåeligt at arbejde med små stikprøvestørrelser, hvilket betyder, at det er svært at få mange dybe indsigter i denne tonehøjde ud over nogle enkle sammenfattende statistikker. Et ord med forsigtighed, dog: en kande skal altid være forsigtig med ikke at kaste denne “overraskelse” tonehøjde to gange i træk, for at de ikke ender som fattige Orlando Hernandes.

Eephus Pitch kompilation

  • 2020 2
  • 2019 1
  • 2018 2
  • 2017 6
  • 2016 2

2020

flere bevæbnede banditter i Python: Epsilon Greedy, UCB1, Bayesian UCB og EKSP3

13 minutters læsning

dette indlæg udforsker fire algoritmer til løsning af det multiarmede banditproblem (Epsilon Greedy, EKSP3, Bayesian UCB og UCB1) med implementeringer i Python …

Offline evaluering af Multiarmede Banditalgoritmer i Python ved hjælp af Replay

9 minutters læsning

Multiarmede banditalgoritmer ser fornyet spænding, men det er udfordrende at evaluere deres ydeevne ved hjælp af et historisk datasæt. Sådan gør jeg …

tilbage til toppen

2019

forstå AdTech-auktionerne i din bro. ser: en analyse af 30.000 Prebid.JS Auktioner

7 minutters læsning

en analyse af auktionsdynamikken i budgivning på klientsiden

tilbage til toppen

2018

forudsigelse af skiftet: Boosting og sække til strategisk positionering af Infield

23 minutters læsning

brug af maskinlæring til at forudsige strategisk positionering af infield ved hjælp af statcast-data og kontekstuel funktionsteknik.

visualisering MLB Team Rankings med ggplot2 og Bump diagrammer

3 minut læse

en hurtig tutorial om at hente MLB Vinde Tab data med pybaseball og rengøring og visualisere det med tidyverse (dplyr og ggplot).

tilbage til toppen

2017

på Draft Pick Value, det nye lotteri og tankning

12 minutlæsning

Tanking bliver et varmt emne hver sæson, når det bliver tydeligt, hvilket af NBAs værste hold der mangler slutspillet. I dette indlæg henvender jeg mig til valu…

en Statcast hyldest til baseballens mærkeligste tonehøjde: Eephus

7 minutters læsning

jeg har været borderline besat af eephus banen i nogen tid nu. Hver gang jeg ser en spiller trække denne tonehøjde ud af deres arsenal, bliver jeg lige dele eks…

Leaving MLB: erfaringer i min første Data Science rolle

4 minute read

i de sidste tre måneder har jeg haft den spændende mulighed for at praktikant som dataforsker ved Major League Baseball Advanced Media, ML ‘ s teknologiarm…

introduktion pybaseball: en Open Source-pakke til Baseball dataanalyse

2 minute read

i hele mit baseball-arbejde på MLB Advanced Media indså jeg, at der ikke var noget pålideligt Python-værktøj til rådighed til sabermetrisk forskning og adv…

bogreol

5 minutters læsning

en samling af nogle af mine yndlingsbøger. Business, Populær økonomi, statistik og machine learning, og nogle litteratur.

338 kopper kaffe

6 minutters læsning

hver kop kaffe, jeg har indtaget i de sidste 5 måneder, er blevet logget på et regneark. Her er hvad jeg har lært af data sciencing mit kaffeforbrug.

tilbage til toppen

2016

opbygning af et indholdsbaseret anbefalingssystem til bøger: brug af naturlig sprogbehandling til at forstå litterær præference

4 minutters læsning

litteratur er et vanskeligt område for datalogi. Tænk på dine fem yndlingsbøger. Hvad har de til fælles? Nogle kan dele en forfatter eller genre, men desuden …

maskinindlæring og NFL-Feltmålet: brug af statistiske læringsteknikker til at isolere Placekicker-evne

4 minutters læsning

probabilistisk modellering på NFL-feltmåldata. Anvendelse af logistisk regression, tilfældige skove og neurale netværk i R for at måle bidragende faktorer i fiel…

tilbage til toppen



+