文/林秋華
●透過數據改變陳設 提高銷量的小撇步
讓我們先來看一個很有趣且著名的例子:1992年,美國大型超市沃爾瑪(Walmart)的資訊工程師布利肖克,他和他的團隊協助大型超市Osco Drug做數據分析,研究團隊分析了25家門市、120萬筆結帳記錄,透過數據分析發現每周五的晚上,啤酒與尿布出現在同一台購物車的比例相當高,布利肖克宣稱:研究團隊發現在每周五的下午5點到7點間,啤酒與尿布的銷售量呈現正相關。再進一步調查發現,當時美國的婦女通常在家照顧孩子,所以她們經常會交代丈夫在下班回家的路上為孩子買尿布,而很有趣的是,丈夫在買尿布的同時又會順手為自己購買愛喝的啤酒,特別是在周五晚上,除了可以放鬆、還可以為周末的球賽做預備。
有了這個發現,對於大型超市的物品擺設起了很大的作用。為了更加地提高銷售量,賣場人員在每周五傍晚把啤酒和尿布擺在一起,提醒更多的爸爸可以同時購買這兩樣商品。後來,類似這樣透過數據分析提高銷售量的行為,被大量運用在零售商或賣場的物品陳設上,比方在收銀機旁總會擺放一些可能不在你購物清單上頭的糖果、小零食或營養補給品,這樣的呈現方式大大地增加額外的銷售。它提醒消費者可以順手帶走一些小物,或者可以把消費金額湊成整數、湊點數門檻,無形中提高了銷售量,也改變了人們的購物習慣。
●高糖 酗酒 愛紅肉 與癌症高度正相關
研究顯示,某些飲食習慣,如高脂肪、高糖的飲食與特定癌症類型的風險增加有關。大數據分析能將各地飲食模式與癌症發病率進行交叉對比,找到高度相關性。大數據分析發現:高攝取量的紅肉(如牛肉、豬肉)和加工肉類(如香腸、熱狗)與結腸癌的風險增加有關;高糖和精製碳水化合物的飲食(如白米、白麵包、甜食)導致肥胖,進而增加多種癌症的風險,包括胰腺癌和子宮內膜癌;大量飲酒與多種癌症(如肝癌、食道癌、乳腺癌)之間存在顯著的相關性,進而提醒人們可以藉由控制飲食,預防疾病或延緩惡化。
●揭露隱藏規則模式 有助理解人類行為
又比方,有研究發現智商(IQ)與未來成就、收入水平之間存在一定的正相關。然而,透過大數據分析,發現社會經濟背景、家庭支持、努力、熱情等其他重要因素,這些因素的影響甚至更為顯著,其他如情商(EQ)和人際關係的能力也同樣重要,可見智商並非唯一決定未來成就的主要因素。
另個例子,如自殺率與經濟因素,在經濟危機期間,自殺率往往會上升。透過分析經濟指標如失業率、收入水平與自殺數據,可以找到兩者之間的關聯性。而這些數據有助於制定針對性的心理健康干預措施,減少經濟壓力對心理健康的影響,因此在經濟蕭條時期,政府會大量釋出補助措施。
近來,社群媒體改變人們的交友行為及人際關係,大數據分析表明,社群媒體的使用時間與焦慮、抑鬱等心理健康問題之間存在一定的關聯性。進一步的分析發現使用社群媒體的方式如時間長短、互動類型、接觸他人資訊對心理健康有負面的影響,雖然社群媒體可以促進連結,但也導致面對面的社交互動減少,增加孤獨感和社交隔離。
以上例子顯示大數據如何揭露隱藏的規則和模式,有助理解人類行為和社會現象的複雜性。人們笑稱「FB比你更了解自己」,其來有自。
●相關不代表因果 小心導致錯誤決策
然而,「相關」等於「因果」嗎?關於這個千古難題,身為數學老師還是要再一次強調:相關不代表因果。分析數據時,僅依賴相關性可能導致誤解和錯誤結論。因此,進行更深入的分析,如實驗研究、調查或控制變量的方法,對於確定因果關係至關重要。相關性與因果關係是如此微妙的存在,如果兩件事有因果關係,必然存在高度相關;如果兩件事高度相關,可能存在因果關係,也可能存在偏差觀點。
二次大戰期間,美國哥倫比亞大學統計學亞伯拉罕•沃德教授計算如何減少轟炸機因敵方炮火而遭受損失。研究發現,返回的轟炸機上,彈孔大都出現在機翼,顯示機翼是容易遭受攻擊的目標,因此,促使軍方想在機翼位置加強防護。但亞伯拉罕•沃德教授提出「倖存者偏差」理論,他提出的看法是:返回的飛機之所以返回,乃因為主體沒有受傷;而那些主體受傷,例如引擎被打中的飛機,根本沒有機會返回。若沒有考慮這些無法返回的飛機,會存在某些偏差觀點。最後,軍方採納教授的提議,為引擎增加更高的防護,後來也證實這個決定是正確的。這個案例告訴我們,假如只憑著手中的資料,而沒有合理的邏輯推理分析或第三方觀點,很容易陷入「倖存者偏差」,導致錯誤決策。
●忽略倖存者偏差 以偏蓋全易失敗
再舉個例子,有些人主張「學歷無用論」,舉出不少知名創業家如微軟創辦人比爾蓋茲、蘋果創辦人賈伯斯、臉書創辦人馬克•祖克柏等,這樣的「倖存者偏差」,導致很多人以此為藉口輟學或創業,最後往往以失敗收場。
事實上,這些成功者還擁有其他許多資源,背後也付出了巨大的努力;另一方面,他們是輟學者中的極少數例子,也就是說有更多的輟學者並沒有走向成功之路。當仿效者沒有考慮這些資訊而草率決定時,經常導致不理想的結果。
●挑選分析海量資訊 深度學習居功厥偉
在人工智慧的時代,大數據成為一門顯學,對各行各業產生深遠影響。隨著科技的進步,我們面臨著海量資訊的挑戰,這些數據的規模和複雜性超出了人類的處理能力。愈來愈多的任務和分析被交由電腦執行,其中,深度學習神經網絡的發展是一系列過程中的重要里程碑。這種技術模擬了人類大腦的運作方式,透過多層次的神經元結構,進行資料的處理和分析。神經網絡能夠自動識別模式,從大量數據中提取有用的資訊,進行預測和分類。這個過程涉及複雜的數學計算,包括線性代數、微積分、機率和統計學等。多虧電腦能夠計算繁瑣且多變的數據,找出隱藏訊息,進而讓人們做出準確的決策。
從商業到醫療、從金融到教育,人工智慧技術的廣泛應用使得我們能夠更高效地處理信息,發展各種創新技術與觀點。最後,值得一提的是,今年的諾貝爾物理學獎得主由普林斯頓大學的霍普菲爾德(John Hopfield)和多倫多大學的辛頓(Geoffrey Hinton)共享殊榮,表彰他們在人工神經網絡領域的基礎性發現與創新,讓機器學習得以成為現實。化學獎得主為華盛頓大學的生物化學教授貝克(David Baker)、哈薩比斯(Demis Hassabis)及瓊珀(John Jumper),憑藉DeepMind公司在蛋白質設計與蛋白質結構研究領域的卓越貢獻,拿下本屆化學獎殊榮。兩個獎項皆與人工智慧密切相關,顯示人工智慧已被大量運用在你我生活中,大數據分析正是當中的重要基石。
●作者為臺南市永仁高中數學老師。
原文出自《好讀周報》797期