叡智の三猿

〜森羅万象を「情報セキュリティ」で語る

当サイトは、アフィリエイト広告を使用しています。

生成AIによる野球順位予想の評価とスピアマン係数

プロ野球、今年のペナントレースの順位が確定しました。

シーズン中、今年はカープ戦を5回(ハマスタ2回、神宮2回、東京ドーム1回)見たのですが、1勝4敗でした・・・。ファンにとっては、かなり悲しいシーズン。

このブログでは、シーズン開幕にあわせ、ふたつの生成AI(ChatGPTとDeepSeek)に順位予想をしてもらった記事を書きました。

www.three-wise-monkeys.com

ChatGPTの順位予想

  1. 読売ジャイアンツ
  2. 阪神タイガース
  3. 広島東洋カープ
  4. 横浜DeNAベイスターズ
  5. 東京ヤクルトスワローズ
  6. 中日ドラゴンズ

DeepSeekの順位予想

  1. 読売ジャイアンツ
  2. 阪神タイガース
  3. 東京ヤクルトスワローズ
  4. 中日ドラゴンズ
  5. 広島東洋カープ
  6. 横浜DeNAベイスターズ

そして、実際の順位はこうなりました。

  1. 阪神タイガース
  2. 横浜DeNAベイスターズ
  3. 読売ジャイアンツ
  4. 中日ドラゴンズ
  5. 広島東洋カープ
  6. 東京ヤクルトスワローズ

さて、どっちが当たっているんだろう・・・

どちらも、明らかにドンピシャではありません。「🐵それはそうだよな~AIがドンピシャに順位を予想できたら、プロ野球の評論家、不要になっちゃうね・・・」と、思いつつ、「あと数年もすれば、本当にドンピシャに的中させるときが来るのかな?」・・・と、それは少し怖い感覚を持ちました。

わたしは、どちらかというと、DeepSeekの方が的中しているように感じました。カープファンなので目がカープの順位に寄ってしまうのですが、DeepSeekはカープの順位を的中させてます。そして、その上にある中日も当ててます。

息子(21歳)に、AIの順位予想を見せて、わたしの感想を言うとーー

「👦まあ、確かに、中日とカープは当ててるが、DeepSeekはベイスターズが外れすぎだよね。どっちもどっちだよ。」と、言います。

妻がそこに入ってきて、順位を見たらーー

「👩ChatGPTだよ!」と言います。

「だって、DeepSeekはベイスターズを6位予想してるじゃん!」

と、三者三様、なんとも言えない評価に分かれました。

ここは、ChatGPTとDeepSeekの予想を公平に評価するため、第三の生成AIである「Claude(クロード)」に聞いてました。

Claudeは、こう回答しました。

Claudeによる評価

この2つのAIによるセ・リーグ順位予想と実際の結果を比較分析してみましょう。

的中度の評価

ChatGPTの予想

  • 完全一致: 0チーム
  • ±1順位差: 巨人(1位→3位)、阪神(2位→1位)、広島(3位→5位)、DeNA(4位→2位) = 4チーム
  • ±2順位差以上: 中日(6位→4位)、ヤクルト(5位→6位) = 2チーム

DeepSeekの予想

  • 完全一致: 中日(4位)、広島(5位) = 2チーム
  • ±1順位差: 巨人(1位→3位)、阪神(2位→1位)、ヤクルト(3位→6位) = 3チーム
  • ±2順位差以上: DeNA(6位→2位) = 1チーム(DeNAのみ大外し)

順位相関係数(スピアマン)での評価

より統計的に見ると:

  • ChatGPT: 0.486
  • DeepSeek: 0.143

総合評価

ChatGPTの方が明らかに的中度が高いと言えます。

理由

順位相関係数の差が大きい

  • ChatGPT: 0.486
  • DeepSeek: 0.143

この差(0.343)は統計的に見て3倍以上の精度差

DeepSeekの致命的な誤り

DeNAを最下位(6位)予想 → 実際は2位と4つも外した。これは6チーム中で最大の誤差

ChatGPTの安定性

最大でも±2の誤差に収まっている。全体的なバランスが取れた予想。


完全一致の価値

DeepSeekは中日・広島を的中させたが、1つの大外しがそれを帳消しにした。順位予想では「大きく外さない」ことも重要。

結論

ChatGPTの予想の方が全体的に実際の順位に近く、より優れた予測だったと言えます。

両AIの共通した誤り:

  • 2位になったDeNAの躍進を予測できなかった
  • 巨人の1位予想が外れた(実際3位)

ただし、プロ野球の順位予想は怪我やチーム状況など不確定要素が多く、完璧な予想は困難です。それでもChatGPTは相関係数0.486と中程度の相関を示しており、ある程度の予測精度は達成していると言えます。一方DeepSeekは0.143と低い相関で、予測としては不十分でした。


Claudeが提示した「スピアマンの順位相関係数」について説明します。

スピアマンの順位相関係数は、2つの変数間の単調な関係性の強さを数値で表す統計指標です。実際の値ではなく、各変数の「順位(ランク)」を用いて計算されるため、ノンパラメトリック(統計分析で母集団の分布について特定の仮定を置かない手法)な指標とされます。値は-1から1の範囲を取り、絶対値が大きいほど強い相関があり、1に近いほど単調増加、-1に近いほど単調減少を意味します。

値の意味

  • +1:完全に一致(予想と実際が全く同じ順位)
  • 0:相関なし(予想と実際に関連性がない)
  • -1:完全に逆(予想と実際が真逆の順位)

基本的な公式

ρ = 1 - (6 × Σd²) / (n × (n² - 1))

  • d:各チームの予想順位と実際順位の差
  • n:チーム数(今回は6)

ChatGPTの予想で計算した結果ー

チーム 予想順位 実際順位 差(d)
巨人 1 3 -2 4
阪神 2 1 1 1
広島 3 5 -2 4
DeNA 4 2 2 4
ヤクルト 5 6 -1 1
中日 6 4 2 4

Σd² = 4+1+4+4+1+4 = 18

ρ = 1 - (6 × 18) / (6 × 35) = 1 - 108/210 = 0.486

スピアマン係数の特徴はこうです。

  1. 順位そのものを評価:何位かという「順番」が重要な時に使えます。
  2. 外れ値に強い:1チームだけ大きく外しても極端には影響しません。
  3. 直感的:値が大きいほど予想が当たってると分かります。

今回の野球の順位予想のように「何位になるか」を評価する場合、単純な的中数よりも、スピアマン係数を使う方が全体的な予測精度を適切に測れそうですね。

妻子からカープユニフォームの還暦祝いをもらいました。来年はこれを着て、観戦してみるかな。