補腦算算鍋/數據魔法

補腦算算鍋/數據魔法

文/曾慶良(阿亮老師)

●從研究到政策 扮演關鍵角色

在現代這個邁向AI人工智慧的世代,數據無處不在,從日常使用的社交媒體,到科學研究,再到政府政策,數據都扮演著關鍵的角色,它能夠揭示事物的真相,指引我們做出更好的決策。

大數據是一種涉及大量、快速、多樣化資料收集的技術,它能夠揭示傳統資料分析無法發現的深刻見解。比方,社交媒體如Facebook、Instagram每天生成大量的數據,這些數據包括用戶發布的內容、用戶互動(點讚、分享、評論)和用戶行為數據(登錄時間、活動偏好等),透過分析這些數據,可以獲得對於某個議題的深入見解,或者事件發展的趨勢,從而制定更有效的因應策略。我們還可以將大數據運用在智慧城市和物聯網(IoT)中,運用物聯網裝置在城市中某些特定地點收集數據,例如街道燈光、交通監控到公共安全系統等,通過安裝在路燈和交通信號燈上的攝影機,即時收集交通流量和行人數據,這些數據可以被用來分析交通模式、預測何時壅塞,並優化交通流量和號誌控制,提高城市治理的效率。

由於大數據的規模和複雜性,傳統的資料分析方法已經不足以應對,需要運用更先進的技術和工具;如果能將大量的數據轉化為易於理解的圖像,就能為企業、政府和科學家提供深入的洞察,幫助他們預測趨勢、改進產品和服務,以及制定更有效的政策。

也因為許多的數據本身並不是那麼容易理解,尤其是透過許多媒介蒐集到的大數據,其資料量遠超過以往調查時的抽樣數量,這樣的數據多半以複雜的型態呈現,例如年齡的BMI值對於體重、健康、教育程度等多變項的對應數據,這時若適當地通過視覺化圖表來呈現,將複雜的數據轉變為簡單易懂的圖像,可以讓人們更容易理解其中的含義,幫助我們看清趨勢、發現異常,並有助制定因應的決策,這樣的視覺化資料能夠將數據轉化為有意義的表達,幫助我們更佳理解這個世界,引領未來走向。

●長條圖 組別比較 折線圖 趨勢分析

視覺化圖表是一種將數據轉化為圖像的方式,有幾種類型我們經常遇到:例如長條圖、折線圖和圓餅圖。

長條圖(Bar Chart)是一種非常常見的視覺化圖表,它由一系列矩形長條所組成,每個長條的高度代表數值的大小,長條圖可以是水平或垂直呈現,通常用來比較不同組別的數值,例如比較不同產品的銷售額或不同城市的人口數量等;使用長條圖的優點在於其簡單明瞭清楚地顯示數值之間的差異。

折線圖(Line Chart)則是一種用於顯示數值隨時間變化的視覺化圖表,它由一系列相連的點連接所組成的線,每個點代表一個數值,折線圖通常用來顯示趨勢,例如顯示股票價格的波動變化或顯示一個地區的溫度變化等;使用折線圖的優點在於它可以清楚地顯示數值的變化趨勢和波動。

圓餅圖(Pie Chart)是一種用於顯示部分與整體之間關係的視覺化圖表,是由許多相同圓心、相同半徑的不同扇形組合成的圓形圖,意即一個圓形被分成若干個扇形,每個扇形代表著某一個部分的資料圖示,圓餅圖通常用來顯示某一項資料的比例,例如顯示某一項產品在不同地區的銷售比例等,圓餅圖的優點在於它可以非常直觀地顯示各部分之間的比例關係。

●熱點圖 看分布 樹狀圖 看結構

視覺化圖表有許多不同的類型,除了上述所說的長條圖、折線圖和圓餅圖外,我們還可以透過其他類型的視覺化圖表來呈現資料的特殊性,例如:熱點圖、氣泡圖和樹狀圖等,它們各有不同的特點和適用情境。

熱點圖(Heatmap)是一種用來顯示數據集中或分布狀態的圖表,最常見的是通過色彩的深淺來表示數值的大小,例如我們為了要顯示一個城市中每一個地區的犯罪率時,運用熱點圖可以直觀地展示哪些地區犯罪率較高;熱點圖的優點在於可以透過顏色色階直觀地表現出數據的集中或分布狀態。

氣泡圖(Bubble Chart)是一種用於顯示多個數據變量之間關係的圖表,特點是每個數據點都由一個氣泡來表示,氣泡的大小代表一個數值,而氣泡的位置則代表其他數值,例如顯示某個國家的GDP、人口數和人民平均收入時,可以運用氣泡圖來同時展示這三個變量之間的關係;氣泡圖的優點在於可以同時展示多個變量。

樹狀圖(Tree Map)是一種用於顯示分層結構數據的圖表,通過矩形的大小和顏色來表示數值的大小和類別,例如為了顯示某一個公司中各部門的收入時,運用樹狀圖可以非常直觀地展示出各部門的貢獻,樹狀圖的優點在於可以清晰地表現數據的層次結構。

散布圖(Scatter Plot)是一種用於顯示兩個變量之間關係的圖表,散布圖由一系列的點組成,每個點代表兩個變量的一組數據,常用於顯示兩個變量之間的相關性,例如顯示學生的學習時間與考試成績之間的關係,散布圖的優點在於可以清楚地顯示變量之間的相關性和異常點。

●如何選擇合適圖表 取決想表達的訊息

了解這幾個視覺化圖表的特色後,你或許會有疑問:如何選擇合適的視覺化圖表來表達不同的情境?我們應該根據數據的性質和想要表達的訊息來選擇合適的圖表,錯誤的圖表可能會造成誤解,甚至完全扭曲數據所表達的訊息結果。

首先,需要考慮數據的類型。如果數據是連續型的,例如時間序列數據,那麼折線圖通常是最好的選擇;如果數據是離散型的,例如分類數據,那麼長條圖或圓餅圖通常是更合適的選擇。

其次,需要考慮想要表達的訊息。如果想要顯示趨勢或變化,那麼折線圖通常是最佳的選擇;如果想要比較不同組別的數值,則長條圖或散布圖可能是更合適的選擇;而如果想要顯示部分與整體之間的關係,那麼圓餅圖或樹狀圖或許是最佳選擇。

最後,需要考慮數據的特點和讀者的需求。如果是數據量大的大數據型態,用相對簡單易懂的圖表可能是最佳的選擇,例如運用簡單的長條圖或折線圖來呈現大數據的趨勢;但如果讀者對於數據的意義原本就不熟悉,那麼可以搭配清晰的標籤和顏色,確保讀者能夠正確理解數據。

所以如何選擇合適的資料圖表須綜合考慮數據的性質、想要表達的訊息及讀者的需求等,透過合適的圖表可以更好地述說「對的故事」。

●比例設計 也有影響 用錯圖表 誤導閱聽

視覺化圖表可以幫助我們理解數據並做出更好的決策,然而若用錯了視覺化圖表也可能會誤導閱聽甚至導致錯誤的結論。

不合理的比例是視覺化圖表最常見的誤導,例如以水平和垂直軸比例不一致或者被截斷等呈現方式,可能會誇大或縮小數據的變化,使讀者對數據的趨勢產生錯誤的認知;另一種常見的誤導是將資料選擇性的呈現,有些媒體為了強調某個特定的觀點或者隱藏不利的數據而運用這樣的誤導方式,展示某些特定數據或者忽略其他數據而影響了對於整體數據的解讀。

此外,視覺化圖表的設計元素也可能誤導閱聽,例如使用過於複雜的圖表設計,或是用了許多不必要的裝飾,這會分散閱讀的注意力;有些圖表用了過於鮮豔或者對比度過高的顏色呈現分項圖表資料,讓人難以正確理解數據本質。為了避免誤導,應該選擇合適比例、完整呈現數據,簡潔設計並合理使用顏色。此外,讀者也必須對視覺化圖表保持警惕,避免被看起來不合理或者過於誇張的圖表誤導。

AI及相關科技的發展正在改變視覺化圖表的製作和解讀方式。我們可以運用AI自動化視覺化圖表的製作過程,根據需求,生成最佳的視覺化圖表,提高圖表產出效率,減少人工製作的可能錯誤;AI還可以幫助我們解讀視覺化圖表,識別數據中的趨勢和異常,提供有價值的見解。

運用虛擬實境(VR)和擴增實境(AR)技術能讓數據互動化,產生沉浸式效果,例如我們可以在VR中探索三維數據集,或者在AR中查看即時更新的圖表,這樣的互動式視覺化將使得資料呈現和分析變得更加生動有趣,易於使用和理解,使得資料視覺化更加普及,有助探索數據、講述故事。

●隨堂小測驗

你認為以下場合分別適合哪種類型的圖表呢?

①想要展示過去五年每年的全球智慧手機銷售量變化。

②比較三個不同品牌(品牌A、品牌B、品牌C)在目前的市場占有率。

③展示某個城市不同區域(如東、西、南、北)在人口密度上的差異。

●隨堂小測驗答案及解說

情境①,折線圖的效果優於長條圖。折線圖適合展示時間序列的數據變化趨勢,可以清楚地看出每年智慧手機銷售量的增減,在表示時間序列和趨勢上更為直觀。

情境②,使用圓餅圖較佳。圓餅圖可以清楚地展示每個品牌當下的市場占有率,以及品牌的競爭狀況。

情境③,熱點圖透過色彩深淺可直觀地看出不同區域的人口密度高低,非常適合展示地理和空間相關的數據,能快速地向讀者展示哪些區域人口更密集。

原文出自《好讀周報》771期路透