賴以威(數感實驗室)
棒球比賽中,打擊率是衡量打者的量化指標之一。美國大聯盟曾經有過這麼一段有趣的比較,比較對象是兩位明星球員,吉特與賈斯提斯。1995年時,吉特的打擊率約是2成5,略遜於賈斯提斯的2成56;隔年,吉特的打擊率提升到3成14,賈斯提斯則暴增到3成21。連續兩年賈斯提斯的打擊率都比吉特高,看起來勝負已分。
然而,如果我們把這兩年個別的打數相加,安打數相加,再拿總安打數除以總打數,所得到的平均打擊率,吉特的平均打擊率卻優於賈斯提斯的打擊率。為什麼每年打擊率都比較高的賈斯提斯,平均打擊率卻輸給吉特呢?
先讓我們用數學思考一個問題,a/b>A/B,c/d>C/D,請問(a+c)/(b+d)一定大於(A+C)/(B+D)嗎?你應該很快知道答案是否定的,畢竟學校數學課從來沒教過我們分數可以這樣運算。再仔細想想,a代表賈斯提斯1995年的安打數,b代表該年打數。A與B代表吉特同年的安打數與打擊數,其他的變數依此類推。(a+c)/(b+d)則是賈斯提斯的兩年平均打擊率。明明數學上明顯不必然的事情,但用文字思考時,我們卻容易被直覺誤導,認為理所當然,這就是所謂的「辛普森悖論」。
悖論發生的關鍵在於, 1995年兩位打者打擊率較低,1996年都較高。然而,吉特在1995年的打數比較少,1996年有很多打數。賈斯提斯剛好相反,1995年的打數很多,1996年打數很少,因此當計算平均時,賈斯提斯的打擊率會更靠近較低的1995年,集特則會靠近打擊率較高的1996年。換句話說,如果我們想根據兩年的打擊率來計算平均打擊率,得根據打者各自在兩年的打數,賦予不同的加權參數計算。不能用同一組參數加權,更不能想成是相加除以二這麼簡單。
本文轉載自聯合報教育版「閱讀數學」專欄,更多好文請上「數感實驗室」