Rayを釣りたくて III

フロリダ沖に降り注ぐ栄光の光の中で舞い踊るトビエイを釣り上げる事を望むブログ。スポーツナビ+閉鎖に伴ってIIIとなって引っ越しました。旧記事で画像がほしい記事があればコメントいただければ、気づき次第対応します。

【連載 第1回】打者の運と実力を探る 第一章 ~BABIPと正規分布~

 [第1項:BABIPとは]

 BABIPと言う指標はここ数年で一気にメジャーになってきました。特にMLBを多く見る人は極々一般的に使う指標なのではないかと思います。このBABIPが本連載の最大の主人公ですから、まずはBABIPについて一度整理してみようと思います。

 BABIPは一般的には以下の式であらわされる指標です。

BABIP=(安打-本塁打)/(打数-三振-本塁打+犠飛)

 つまり、本塁打以外のフェアグラウンドにとんだ打球の打率を表しているものです。日本語ではインプレー打率とされますが、もちろん正確な意味でのインプレー打率ではありません。もっとも大まかな意味は分かりますから、決して悪い訳では無いと思います。例によってVoros McCracken(←カタカナだとスペルが全然わからん人)によって提唱された指標だったりします。

 このBABIPは元々は投手に使われていた指標で、投手がコントロールできるのは奪三振・与四球・本塁打だけであり、それ以外の打球がヒットになるか、アウトになるかどうかはほとんど関与が出来ないとする考え方を基本にしています。これはほとんど同じようなことが打者にも言えるので、現在は打者にも活用が進んでいます。今回は完全に打者目線でしか語ることはありません。

 このBABIPですが、非常に面白い性質を持っていました。それは年間の振れ幅が非常に大きい点と、大まかに言うと、投手のタイプあるいは打者のタイプに関わらず長期的には約.300前後くらいに収束する点です。つまりある種の「運」と呼ばれる現時点で解析不能な何らかの要素による数字の変動を持っており、それが平均付近に収束するということが言えます。そのため、非常に良い成績を残した、あるいは残している選手がそれが実力に起因する物なのか、それとも「運」によるものなのか、あるいは両方なのか、それらを見極めるために使用されることができるものと言うことがわかりました。

 ちなみに新人王を獲った選手がいわゆる「二年目のジンクス」にハマりやすいのは、新人王を獲った年は運がよく、それが普通レベル以下まで落ちた結果、期待されたよりも悪い成績を残してしまったからであるとも説明がつきます。そもそも何らかのジャンルでリーグ首位をとるために幸運であれば近づくことは言うまでもありません。

[第2項:BABIPは運か]

 さて、ではまずは本当にBABIPが運によって左右される成績かどうかを確認します。今回の連載では02年から13年まで規定打席をクリアした全打者を対象に成績を取りまとめてみました。延べ1,800打者を超え、まぁ最低限傾向をつかめるだろう1,000サンプル数は超えております。ちなみにこの期間を選んだ理由ですが、まずBatted Ballが記録されているのが02年以降であることと、そもそもBABIPの動きを確認したいがために書き始めた物なので、14年の分は使いたくなかったという理由によります。ですのでこの連載で出てくるサンプルは02-13年のまとめた物です。違うサンプルを使用している場合は都度記載します。

 これら全打者のBABIPの分布を1分単位(1%単位)で分けて度数分布表を作成、それを棒グラフにしてみました。

□01

 非常に綺麗なグラフを描くことが出来ました。これを見るとBABIP.301-.310が飛びぬけて高い値を示しており、.311-.320→.291-.300→.289-.290→.321-.330と続いております。このグラフはかなり正確な「二項分布」のグラフになっていると思われます。…計算はややめんどくさいのでパスします。

 

 この通り、綺麗な二項分布のグラフになっていますから、これを見た瞬間にBABIPは運の要素により左右されるもので、どんな打者でも3割ちょっとのところに収束するのだ、と言う発言をしてもおかしくないでしょう。私に最初にこのグラフだけを手渡されたら、そう判断することにほとんど悩まないでしょう。

[第3項:二項分布と正規分布]

 さて、耳慣れない単語が出てきました。「二項分布」。これは何かと言うと、結果が成功か失敗のどちらかしかなく、そして前後の結果とその回の結果が影響し合わない独立な試行を行った時の成功数を表したものです。よくわからないですが、要するにサイコロを何回か振った時(=独立の試行)、偶数が出る確率(=偶数か奇数かしかない)の分布と同じことですね。この場合、偶数は半分の確率で出るはずですが、当然試行数が少ないうちは必ずしも5割にならないということはわかるかと思います。例えば10回サイコロを振って、必ず5回偶数になるということはありえず、平気で3回だったり6回だったりと数字が散らばってしまうという様なものです。こう言う時のそれぞれの回数がどれくらいの割合で発生するかの分布を計算で出したものが二項分布です。当然、理論的な成功率付近は発生確率が高くなりますし、試行回数を増やした場合は成功率付近の発生確率は高まります。

 前項のグラフはおおざっぱに言えば(細かく言えばもちろん色々あるが)安打か凡打か、と言う2パターンしかなく、503打席以上をこなした打者(試行回数だが、これがまちまちなのは一旦目をつむる)の割合なので、二項分布に近い形だと言える訳です。

 これはいわゆる正規分布と言われるものとは違うのか、と言う様に考える人もいるかもしれません。これは非常に正しい指摘です。そもそも正規分布って何ぞやというと、平均値付近に集まる確率分布のことです。両者は非常に似通っているものなので、二項分布を正規分布に近似する(代用するに近いイメージ)ことが多く行われています。まぁ本稿ではざっくりと同様なものと位置付けて構わないでしょう。

[第4項:BABIPは正規分布か]

 さて、では本当にBABIPは正規分布あるいは二項分布に従うのでしょうか。これらの検定には様々な公式があり、実際にそれで検定をしても構わないのですが、今回は別な形をとります。弊ブログでは過去にも何度も使っている指標ではありますが、xBABIPを使用して、検証してみたいと思います。

 xBABIPとは何かと言うと、eXpected BABIPのことで、本来残すべきだった、「実力ととらえられる」BABIPのことです。xBABIPは様々な算出方法がありますが、私は2007年版の簡易版xBABIPを使用しています。式は以下のとおりです。

xBABIP=0.73LD%+0.24GB%+0.15*FB%

 LD%はBatted Ballで示されるライナーの比率です。併せてGB%はゴロの比率、FB%はフライの比率です。そのためもちろんBatted Ballが無いと算出が出来ません。これは打球の質による安打になりやすさを示しています。当然のようにライナーは安打になりやすく、フライはなりにくいことが分かりますし、フライを打ち上げるよりもゴロを打った方がまだ安打になりやすいことが分かります。但し、これは「フェアグラウンドに飛んだ場合に安打になるかどうか」を示しています。これが長打になりやすいかどうか、本塁打を含めた安打になりやすいかどうか、結果的に得点力を上げるためには、と言うのとは一致していません。

 私は過去xBABIPとBABIPの差を運の要素として計算しています。実際にこの1800サンプル以上の合計の運の差は+0.00027と非常に小さい差になり、十分機能し得るものだと考えても差し支えないかと思われます。

 このxBABIPを用いて、簡易的にBABIPが二項分布に従っているかを調べます。方法は多数あるかとは思いますが、今回はざっくりと中央値付近であるBABIP.305以上のxBABIPを記録した打者のBABIPと、それ未満の打者のBABIPを調べてみました。

□02

□03

 

 本来BABIPが完全に運の要素であり、実力は関係ないと仮定するならば、xBABIPの高低でBABIPは左右されることは無いはずですが、見事に高xBABIPの選手の方が高いBABIPを残しやすい傾向が見て取れます。

□04

 このグラフにするとより分かりやすいかとも思います。見事にピークがずれているのが確認できます。一方でそれぞれのグラフの形はサンプル数が減っているにも関わらずそれなりな正規分布に従いそうな形を示しています。

 結論として、これらのことから、BABIPは完全に運では無いと言えるでしょう。つまりxBABIPによって明らかに違う基準のサンプルが混じっており、それらが連続してあることからBABIPが運の要素だと言える=正規分布あるいは二項分布のグラフの形に近づいてしまったのだと考えられます。つまり平均値の違うサンプルをすべて一緒くたに扱って並べた結果、「偶然にも」正規分布に近い形をとることになったということです。但し、この平均値がそもそも正規分布に従っている可能性もあるので、その結果ともいえる可能性は残されているでしょう。

 なお、次章に移る前に、余談を一つ挟みたいと考えていますのでお付き合いの程よろしくお願いします。