補腦算算鍋/用對統計圖
圖七 109年工業及服務業受僱員工全年總薪資中位數及分布

補腦算算鍋/用對統計圖

文/洪介興

●告訴你╱沒順序→類別變項 有順序→連續變項

小學時我們學過長條圖、圓形圖和折線圖(圖一、圖二、圖三),國中階段又多學一個直方圖(圖四),這些統計圖可以用圖像化的方式呈現數據,比單純使用數字更明瞭易懂,但你有沒有想過,為什麼要有這麼多種不同的統計圖呢?

事實上,每一種統計圖都有它不同的用處,接下來我們會一一介紹前面所提四個統計圖各自的用途。但在這之前,首先有一個很重要的概念要了解,那就是資料型態。

資料型態可以粗分為「類別變項」和「連續變項」這兩大類。譬如今天如果進行一個調查,看有多少人是貓派(比較喜歡貓)、多少人是狗派、多少人是中立派,這裡所提到的喜好派別(貓派、狗派、中立派)就是類別變項,其他像信仰的宗教、支持的球隊、就讀的學校,這些不同項目間沒有絕對的順序,只能進行分類,都屬於類別變項。

至於連續變項,就是不同項目間有一定的順序,像時間就是最常見的一個連續變項:譬如統計逐日的COVID-19確診人數、逐月的營業收入、每小時的氣溫等;其他像球鞋尺碼、手機使用時數、制服件數等,也都是連續變項:譬如統計各種球鞋尺碼有多少人、每日平均使用手機各種時數的有多少人、購買各種制服件數的有多少人等。

不同的資料型態,適用的統計圖表也有不同。前面提到的幾種統計圖中,當資料型態是類別變項時,只能使用長條圖和圓形圖,不能用折線圖和直方圖;但當資料型態是連續變項時,通常比較適合用直方圖或折線圖呈現,以下我們就不同的統計圖分別進行介紹。

●圖形1╱長度表達數據 長條圖最直觀

首先介紹長條圖,長條圖用長度來表達數據的大小,這是最直觀的表現方式,因此我們可以非常快速地感受數據間的大小關係。以圖一為例:我們可以很輕易地看出7-Eleven的店面數比FamilyMart多出不少,但還不至於到2倍;而FamilyMart的店面數略超過Hi-Life的2倍、Hi-Life的店面數大約是OK的2倍;此外,也可以看出FamilyMart和Hi-Life的店面數加起來還不到7-Eleven的店面數(由前個兩長條的高度差相較第三個長條的長度可知)。

圖一 長條圖(各家超商之店面數)

長條圖中的資料型態如果是類別變項,最好是像圖一這樣,將各類別依其數據大小進行排列;但如果資料型態是連續變項,則須依照變項的順序排列,而非依照數據大小重新排列(如圖五)。

圖五 108年國人平均每日使用手機時間

●圖形2╱強調各組占整體比 圓形圖是最佳選擇

長條圖可說是所有統計圖中最容易比較數據間大小落差的一個,但如果想強調的是各組數據占整體多少比例,那麼圓形圖會是最佳的選擇。如圖二:很容易可以看出7-Eleven的店家數占所有便利商店將近一半,而兩大超商則占全體超過四分之三。

圖二 圓形圖(各家超商店面數占比)

下面再提供一種很適合用圓形圖的例子(圖六),數據來自台灣民意基金會於2019年9月所進行的民調,你可以注意觀察並思考:我是如何安排類別的排列順序,以及顏色的使用方式。

圖六 你是否擔心我們的邦交國越來越少?

●圖形3╱資料為連續變項 才能使用直方圖

下一個登場的是直方圖,有些人可能以為直方圖和長條圖是一樣的東西,只是把長條之間的空間去掉,這是完全錯誤的觀念。

首先,只有當資料型態(橫軸)為連續變項時才能使用直方圖,且直方圖有個非常重要的使用方式,就是「看一個範圍的總面積」。

以圖四為例,如果你好奇有多少球員身高超過210公分(約6呎11吋),這時後你就看淺綠色部分的面積有多大;此外,我們還看到粉藍色部分占了很大的面積,這表示球員的身高多集中在6呎4吋至6呎9吋這個範圍間。

圖四 直方圖(美國職籃本屆季後賽球員身高統計)

直方圖的作用是幫助我們觀察整體分布情形,以圖七為例:主計處公布了民國109年的員工平均薪資為65萬,但攤開整個分布一看,就會發現大多數的受雇員工年薪是落在30萬至60萬之間,遠不及平均水準,可見平均數並不能如實反映基層民眾的感受。

圖七 109年工業及服務業受僱員工全年總薪資中位數及分布

●圖形4╱數據的變化趨勢 用折線圖來表示

前幾種統計圖都是將資料分類後,再進行比較或觀察分布,譬如圖一、圖二是依照不同公司分類,圖六是依照不同意見分類,圖七是依照不同收入分類。然而最後一個要介紹的折線圖卻完全不同,它無關乎資料分類,而是用來觀察數據的變化趨勢。

如圖三,我們可以從線段上下的變化,看出美元在哪一天是升值、哪一天是貶值;而在圖八中,我們則可以從線段傾斜的程度,看出小明在11至14歲這段期間的身高變化較為劇烈。事實上,在絕大多數的時候,折線圖的作用都和這兩個例子一樣,是用來觀察數據隨時間的變化。

圖三 折線圖(本月台幣兌美元匯率走勢圖)
圖八 小明逐年身高紀錄

●考考你╱全台疫情概況 如何標色較合理?

除了以上幾種統計圖以外,還有許多各式各樣的統計圖,像散布圖、雷達圖、盒狀圖,甚至就連前幾種統計圖都還有許多延伸變化,或者混合使用的方式。

此外,也有像圖九這樣搭配地圖的方式,都是希望能用圖像化的方式讓我們能夠更輕易地瞭解數據。順道考考你,是否有看出圖九的呈現方式有什麼不當之處呢?

你是否發現,僅有5例個案的台中市,和超過50例的新北、桃園是同一個顏色,卻和數據更相近的、4例個案的彰化不同顏色,這樣真的合理嗎?再者,台中市有280萬人口,彰化縣只有124萬人口,若考量人口比例,台中市的疫情比彰化縣輕,這又更彰顯了把台中市列為比彰化縣疫情高一級的不合理性。

基隆市獨自列在一個層級也不合適,考量到基隆人口數不多就有2例個案,應該跟其他3至5例的縣市列在同一級較為合理,且分太多種顏色會阻礙資訊傳遞的流暢性。

說到顏色,有1例個案的三個縣市,用的竟然是通常用來表示安全的綠色系,這並非好的安排;另外,無疫情的縣市其實只要留白就好,塗上深綠色只是讓畫面看起來很炫,對於資訊傳遞的流暢性有害無益。

總結以上,這張圖應該把台中市和基隆市改為橘色,把有1例個案的三個縣市改為黃色,把無案例的縣市留白,如此,資訊傳達的正確性和流暢性會比較好。

圖九 地圖搭配顏色讓人快速瞭解各地疫情

●作者為教育部適性教學計畫「數學建築活動」教案設計人,任教北市石牌國中

原文出自《好讀周報》669期