14. November 2017
jeg har vært borderline besatt av eephus i noen tid nå. Hver gang jeg ser en spiller trekke denne banen ut av sitt arsenal jeg blir like deler spent og bamboozled. Min reaksjon er vanligvis like deler «jeg kunne kaste det» og » hvordan i all verden slo han ikke det?»
for de som ikke er kjent, her er en rask beskrivelse og historie av eephus. Kort sagt, en eephus er en blooper pitch: den har en lat, rec-league stil levering, kan bue godt over batter hode på vei til plate, og har en tendens til å reise hvor som helst fra 40 til 70 mph som det forlater pitcher hånd. Det er ofte vanskelig å si om det ble kastet med vilje, eller hvis pitcher midlertidig glemte å kaste en baseball.
denne banen sies å ha først blitt kastet Av Bill Phillips, som gjorde banen til en del av sitt spill fra 1890 til 1903. Banen ble senere kjent Av Rip Sewell omtrent 40 år senere, og har sett sporatisk bruk siden. Denne banen har gått av en rekke navn gjennom årene, inkludert å bli referert til som en «junk pitch», «dead fish»,» LaLob «og en» spaceball » for sin høye bue (kilde: A Brief History Of The Eephus Pitch – NYTimes).
Langt under hastigheten på en gjennomsnittlig endring, og mangler vanligvis noe element av bedrag om hva som kommer i leveransen, hvorfor kaster noen denne bisarre banen? Den rådende teorien er at den komisk sakte hastigheten på denne banen kaster av en batter kalibrering, noe som gjør at tonehøydene som følger, ser lynrask ut. I andre tilfeller spekulerer folk på at banen bare er en feil, etter å ha gått ut av kruikens hånd. Uansett, lite forskning har blitt gjort hittil på denne uvanlige banen, og jeg tror det fortjener bedre enn det. Dermed vil dette innlegget tjene som en utforskende analyse av og hyllest til den mytiske eephus.
før du går videre i dette innlegget, er det noen raske forslag til visning for kontekst på big league-banen som du sannsynligvis kan kaste like effektivt Som Clayton Kershaw:
nå som denne banen har fått en tilstrekkelig mengde hype, la oss komme nært og personlig med eephus og se hvordan det ser ut av tallene. For å gjøre dette trenger vi data på alle eephus som er blitt kastet under Statcast og PITCHf / x epoker. For dette brukte jeg pybaseball-biblioteket til å hente Statcast og PITCHf/x-dataene på hver Major League-tonehøyde som er kastet siden 2008-sesongen. Av disse 7.212.136 observasjonene representerer bare 2.090 av dem eephus-plasser. Det er bare 0,02 prosent-en sjelden tonehøyde faktisk!
Eephuses kastet etter sesong
eephus så Sin Statcast-æra gullalder i år 2014, da over 400 ble kastet. Med unntak av 2012-2015 sesongene, synes det mest vanlig å se mindre enn 200 kastet i et gitt år. Når det gjelder listen over krukker som har brukt denne banen, blir det klart at det ikke er tilfeldig at 2012-2015-spissen i eephus-bruk sammenfalt med en sunn Ra Dickey. Denne eephus-kaste knuckleballer, faktisk, er ansvarlig for mer enn dobbelt så mange eephus plasser som den nest mest produktive brukeren av banen.
Eephus teller etter krukke, 2008 – 2017
i nyere historie har Bare Dickey, Padilla, Despaigne Og Chen vært flinke nok brukere av banen for å ha mer enn 100 eksempler i spillet under beltet. Det er fornuftig at dette ville være en uvanlig tonehøyde for de fleste av dem som bruker den; når eephus mister sitt overraskelseselement, er det ikke lenger en roman og desorienterende tonehøyde, men i hovedsak En Liten Liga World Series-nivå fastball at enhver major league batter verdt sin plass på en liste ville slå ut av parken.
siden data på en bestemt tonehøyde bare er relevant i sammenheng med andre plasser, sammenligner vi først eephus mot de nærmeste tingene det har til jevnaldrende: fastball, knuckleball og changeup.
det mest relevante datapunktet her er hastighet: eephus har en gjennomsnittlig hastighet på bare 64,5 mph. Det er 23% langsommere enn gjennomsnittlig endring, og 30% langsommere enn gjennomsnittlig fastball. Banen viser ikke den samme lave spinnhastigheten til andre målrettet sakte baner, til tross for at treghet er dens definerende karakteristikk. Mens knuckleball og changeup viser spinnhastigheter på 1500-og 1700 – tallet, spinner eephus på en høy 2301 rpm-en solid 100 rpm raskere enn gjennomsnittlig fastball. Som spinnhastighet er en relativt ny metrisk å ha tilgang til, er ekspertene ikke helt sikre på hva en høy eller lav spinnhastighet betyr for tonehøydekvalitet. Tidlig forskning tyder imidlertid på at høy spinnhastighet er en god ting for en ikke-brytende ball.
Statcast Zones (kilde: Baseball Savant)
den siste sammendragsstatusen som vises i tabellen ovenfor, er prosentandelen av hver tonehøyde som er plassert midt i streiksonen, langs kantene og utenfor. Her bruker Jeg Statcast-sonene vist ovenfor, og definerer «ned i midten» som i sone 5, «edge of strike zone» som soner 1, 2, 3, 4, 6, 7, 8, og 9, og «utenfor strikezone» som soner 11 til 14. På et høyt nivå, jo lenger plasser tendens til å bli plassert fra midten av streiken sonen, jo mer sannsynlig er det at mugger bruker denne banen for strategiske grunner, og jo mindre sannsynlig er det at en mugge er trygg på banen evne til å komme forbi en batter uten å være fagmessig plassert. Her ser vi om hva vi forventer. Fastballs er plassert innenfor strike zone relativt oftere enn slow-speed changeup og eephus, med eephus blir kastet utenfor strike zone to prosentpoeng oftere enn changeup og 12 prosentpoeng oftere enn fastball. Dette gir intuitiv mening, siden man kan forestille seg at en godt forberedt power hitter kan gjøre noen skade på en 60mph tonehøyde kastet ned i midten. På grunn av eephus ‘ høybue kan det være utfordrende å plassere nøyaktig også, noe som også vil bidra til hvor ofte det lander utenfor streiksonen.
Eephus (L) Og Fastball (R) Plassering Fra Batter ‘ S View
figuren ovenfor viser denne samme ideen litt mer detaljert. Mens prøvestørrelsen er mye mindre for eephus enn fastball, er det klart at eephus pitchers gjør en felles innsats for å holde denne banen godt utenfor rekkevidde, på bekostning av at den ofte ikke har sjanse til å komme inn i streiksonen.
mens sammendragsstatistikk er nyttige, forteller et enkelt gjennomsnitt aldri hele historien. For bedre å forstå baseballens tregeste tonehøyde, la oss ta en titt på hvordan utgivelseshastighetene fordeles i forhold til disse andre banene.
fra denne figuren kan vi se at eephus ‘ treghet er enda mer uttalt enn man kanskje trodde! Faktisk, hvis vi kaster ut den raskeste 1% av eephus plasser som er uteliggere som synes å ha blitt feilklassifisert, ser vi at de resterende 99% av innspilte eephus plasser er tregere enn 97% av innspilte changeups. Så mens det er noen overlapping mellom de to plassene når det gjelder fart, er eephus i hovedsak i en egen liga når det gjelder langsomhet.
hastighetsgapet mellom eephus og fastball er enda mer uttalt. Man kan forestille seg hvor disorienting det ville være å se et eephus flyte etter en 95mph fastball, eller hvor raskt denne samme fastballen vil vises etter en 60mph eephus. Som en side notat, bi-modalitet av knuckleball hastigheter tyder På At Statcast kan være misclassifying noen av disse plasser som knuckleballs når de er faktisk eephuses. Siden det ikke er noen nøyaktig måte å si hvilke deklarerte knuckleballs er faktisk eephuses, må vi imidlertid forlate disse plassene.
dette bringer oss til et mer praktisk spørsmål: fungerer eephus faktisk? Det mest framtredende argumentet for bruken er det som tidligere er antydet: den ekstreme hastighetsforskjellen mellom et eefus og en hvilken som helst annen tonehøyde fanger både batters av vakt for eefus selv, og gjør at en ikke-eefus oppfølgingshøyde vises raskere og vanskeligere å spore. Men holder denne teorien seg i praksis? La oss undersøke effektiviteten av eephus vs. noen flere vanlige plasser, og deretter teste om en eephus faktisk gjør følgende banen vanskeligere å treffe.
For å undersøke effektiviteten av eephus vs alle andre plasser, gir følgende fem beregninger en fin oversikt over hvordan batters går mot det: kontaktprosent, treffprosent, lanseringsvinkel, utgangshastighet og tønnprosent. Disse beregningene representerer kollektivt hvor treffbar banen er, hvor høy kvalitet en bedre kontakt med et eephus har en tendens til å være, og om folk treffer eephus for kraft eller kontakt.
Først, kanskje overraskende, slår batters kontakt med denne banen omtrent like ofte som alle andre tonehøyde, og tar kontakt med eephus bare 0.33 prosentpoeng oftere enn en gjennomsnittlig tonehøyde. Kvaliteten på denne kontakten har imidlertid en tendens til å være lavere. Til tross for å få kontakt med dette litt oftere, blir det for eksempel en hit nesten 11% sjeldnere. En annen måte å se på dette er at dens fat prosent, målt som prosentandelen av eephus plasser med en forventet batting gjennomsnitt på over 0.500 basert på ballens hastighet og vinkel utenfor balltre, er en tiendedel av et prosentpoeng lavere for eephus plasser, beløper seg til en 2% fall. Dette er ikke en stor nedgang, men sammen med tonehøyere kontaktprosent og lavere treffprosent, maler det et bilde av hyppig, men lavkvalitetskontakt.
Barrel prosent beregnes ved hjelp av ballens utgangshastighet og lanseringsvinkel utenfor flaggermuset, men disse faktorene kan også undersøkes isolert for bedre å forstå hvilken type kontakt som blir gjort. Her viser både gjennomsnittet og fordelingen av disse beregningene at batters lanseringsvinkler er omtrent det samme for en eephus vs ikke-eephus-tonehøyde, men hastigheten på ballen av balltreet er langsommere. Dette reflekteres av at ballens gjennomsnittlige utgangshastighet er 4,29 mph langsommere og fordelingen av denne metriske blir skiftet merkbart mot den langsommere siden for eephus vs hver annen tonehøyde.
Nå som vi har fastslått at eephus selv kan ha den ønskelige kvaliteten på å trekke ut lavkvalitetskontakt, la oss gå tilbake til teorien som ble utgitt tidligere: er en fastball vanskeligere å slå hvis den kastes etter en eephus? Gjør mugger strategisk kaste fastballs oftere etter en eephus? De samme spørsmålene kan stilles for andre typer tonehøyde enn fastball, men hvis denne effekten eksisterer, er det her vi forventer at det skal være mest uttalt, så vi forlater de andre tonehøydene for nå. Svaret på den første av disse spørsmålene er en definitiv » egentlig ikke.»En gjennomsnittlig batter gjør kontakt med 19,18% av fastballs kastet. Når den forrige banen var et eephus, øker denne kontaktprosenten faktisk til 22.60%. Lengre, denne kontakten har en tendens til å være høy kvalitet kontakt. 8.49% av eephus-foregaende fastballs ble til treff, mens dette tallet bare er 6.26% i gjennomsnitt. Måling fat deler en lignende historie, hvor en nesten gjennomsnittlig 5.4% av fastballs er barreled i gjennomsnitt, men en mye høyere 6.4% er barreled når den forrige banen var en eephus. Det er vanskelig å gjøre et sterkt krav om virkningen av et eephus på en oppfølging fastball, men på grunn av prøvestørrelsesbegrensninger. 703 post-eephus fastballs har blitt kastet under PITCHf / x og Statcast epoker, og bare 203 av disse skjedde siden fat ble målbare i 2015. Dette er neppe nok data til å stole på disse spesielle tallene ut av prøven. Det fremgår av denne analysen, derimot, at en fastball kastet etter en eephus utfører enten identisk eller litt bedre enn en identisk fastball under andre omstendigheter. Basert på disse resultatene, ville jeg ta noen hevder at en fastball er ekstra vanskelig å treffe etter en eephus banen med en klype salt.
det andre av disse spørsmålene er lettere å svare på. Mens ca 64% av major league plasser er fastballs, bare 47% av eephuses hvis plate utseende inneholdt en oppfølging banen ble etterfulgt av en fastball. Selv om vi fjerner eephus-kaste knuckleballer Ra Dickey fra disse dataene, er tallet fortsatt under gjennomsnittet på 61%. Det ser ut som ikke-knuckleball mugger kaste fastballs på omtrent sin normale frekvens etter eephus plasser, og At Ra Dickey styrer bort fra post-eephus fastball nesten helt. Kanskje dette betyr at mugger allerede forstår at den ekstra raske post-eephus fastball er bare en myte.
siden eephus ikke ser ut til å være noe bedre enn en fastball som en isolert tonehøyde, og vi har også debunked teorien om at en fastball er mer dødelig når kastet etter en eephus, er det noen grunn til å vurdere å bruke denne banen? Muligens. Undersøke på base prosent (OBP) av plate opptredener hvor eephus ble omtalt, og sammenligne DETTE TIL OBP av ikke-eephus plate opptredener, ser vi en svak nedgang når eephus brukes. En eephusholdig atbat ser at smeten kommer på basen 30.8% av tiden, mens et gjennomsnittlig plateutseende har en litt høyere OBP på 31.9%. En forskjell på mer enn et helt prosentpoeng er større enn jeg ville ha forventet her, og antyder at noe om denne sjeldne banen faktisk kan fungere i en kruikes favør.
Til Tross for sin utrolig lave hastighet, klarer eephus-banen å holde seg selv. Batters har problemer med å gjøre høy kvalitet kontakt med banen, og generelt få på basen sjeldnere når banen benyttes i en plate utseende. Når det er sagt, betyr det å analysere en sjelden tonehøyde uunngåelig å jobbe med små utvalgsstørrelser, noe som betyr at det er vanskelig å få mange dype innsikt i denne banen utover noen enkle sammendragsstatistikker. Et ord av forsiktighet, men: en mugge bør alltid være forsiktig med å kaste denne «overraskelse» banen to ganger på rad, så de ender opp som dårlig Orlando Hernandez.
- 2020 2
- 2019 1
- 2018 2
- 2017 6
- 2016 2
- 2020
- Flere Væpnede Banditter I Python: Epsilon Greedy, UCB1, Bayesian UCB, OG EXP3
- Offline Evaluering Av Multiarmede Banditalgoritmer i Python ved Hjelp Av Replay
- 2019
- Forstå AdTech Auksjoner I Nettleseren din: En Analyse av 30.000 Prebid.js Auctions
- 2018
- Forutsi Skiftet: Boosting og Bagging For Strategisk Infield Posisjonering
- Visualisere MLB Team Rangeringer med ggplot2 Og Bump Diagrammer
- 2017
- På Utkast Plukke Verdi, Den Nye Lotteriet, og Tanking
- En Statcast Hyllest Til Baseballens Merkeligste Tonehøyde :Eephus
- Leaving MLB: Leksjoner Lært i min Første Datavitenskapsrolle
- Vi Presenterer pybaseball: En Åpen Kildekode-Pakke for Baseball Data Analysis
- Bookshelf
- 338 Kopper Kaffe
- 2016
- Å Bygge Et Innholdsbasert Anbefalingssystem for Bøker: Bruk Av Naturlig Språkbehandling for Å Forstå Litterær Preferanse
- Maskinlæring Og NFL Field Goal: Ved Hjelp Av Statistiske Læringsteknikker For Å Isolere Placekicker Evne
2020
Flere Væpnede Banditter I Python: Epsilon Greedy, UCB1, Bayesian UCB, OG EXP3
13 minutters lese
dette innlegget utforsker fire algoritmer for å løse multi-armed bandit problem (Epsilon Greedy, EXP3, Bayesian UCB, OG UCB1), med implementeringer I Python …
Offline Evaluering Av Multiarmede Banditalgoritmer i Python ved Hjelp Av Replay
9 minutters lesing
Multiarmede banditalgoritmer ser fornyet spenning, men det er utfordrende å evaluere ytelsen ved hjelp av et historisk datasett. Her er hvordan jeg går om …
Tilbake til toppen
2019
Forstå AdTech Auksjoner I Nettleseren din: En Analyse av 30.000 Prebid.js Auctions
7 minutters lesing
en analyse av auksjonsdynamikk i budgivning på klientsiden
Tilbake Til toppen
2018
Forutsi Skiftet: Boosting og Bagging For Strategisk Infield Posisjonering
23 minutters lese
bruke maskinlæring for å forutsi strategisk infield posisjonering ved hjelp av statcast data og kontekstuell funksjon engineering.
Visualisere MLB Team Rangeringer med ggplot2 Og Bump Diagrammer
3 minutters lese
en rask tutorial på å hente MLB vinn-tap data med pybaseball og rengjøring og visuzlizing det med tidyverse(dplyr og ggplot).
Tilbake til toppen
2017
På Utkast Plukke Verdi, Den Nye Lotteriet, og Tanking
12 minutters lese
Tanking blir et hett tema hver sesong når det blir tydelig hvilke AV NBAS verste lagene vil mangle sluttspillet. I dette innlegget adresserer jeg valu…
En Statcast Hyllest Til Baseballens Merkeligste Tonehøyde :Eephus
7 minutters les
jeg har vært borderline besatt av eephus-banen i noen tid nå. Hver gang jeg ser en spiller trekke denne banen ut av sitt arsenal jeg blir like deler ex…
Leaving MLB: Leksjoner Lært i min Første Datavitenskapsrolle
4 minutters lesing
I de siste tre månedene har jeg hatt den spennende muligheten til å jobbe som datavitenskapsmann Ved Major League Baseball Advanced Media, TEKNOLOGIARMEN TIL ML…
Vi Presenterer pybaseball: En Åpen Kildekode-Pakke for Baseball Data Analysis
2 minutters lese
Gjennom min baseball-vendt arbeid PÅ MLB Advanced Media, kom jeg til å innse at det var ingen pålitelig Python verktøy tilgjengelig for sabermetric forskning og adv…
Bookshelf
5 minutters les
en samling av noen av mine favorittbøker. Business, populær økonomi, statistikk og maskinlæring, og litt litteratur.
338 Kopper Kaffe
6 minutters lesing
Hver kopp kaffe jeg har konsumert de siste 5 månedene, er logget på et regneark. Her er hva jeg har lært av data sciencing min kaffe forbruk.
Tilbake til toppen
2016
Å Bygge Et Innholdsbasert Anbefalingssystem for Bøker: Bruk Av Naturlig Språkbehandling for Å Forstå Litterær Preferanse
4 minutters lesing
Litteratur er et vanskelig område for datavitenskap. Tenk på dine fem favorittbøker. Hva har de til felles? Noen kan dele en forfatter eller sjanger, men dessuten …
Maskinlæring Og NFL Field Goal: Ved Hjelp Av Statistiske Læringsteknikker For Å Isolere Placekicker Evne
4 minutters lese
Probabilistisk modellering PÅ NFL field goal data. Bruk av logistisk regresjon, tilfeldige skoger og nevrale nettverk I R for å måle bidragende faktorer av fiel…
Tilbake til toppen