社群媒體Meta在10月19日推出人工智慧閩南語(福建話)口語翻譯系統,可將台灣人民慣用、但缺乏標準書寫形式的閩南語譯成英語,是第一個由人工智慧驅動為非書寫語言開發的語音翻譯系統,目標要使全世界用戶無論說出何種語言都能相互交流。負責這項計畫的陳鵬仁來自台灣,他「為愛翻譯」的初衷是希望他父親能夠用台語和任何人交談。
Meta官網說,人工智慧研究員陳鵬仁在台灣成長時說中文,但他70歲、已從工廠技術主管退休的父親陳聖獎來自台灣南部,主要說閩南語。
陳鵬仁說,父親聽得懂中文,但對較複雜主題進行溝通時,說中文會比較慢。中文與閩南語間雖有關聯性卻也有不同。
陳鵬仁了解語言障礙會影響人們溝通,他希望父親能用閩南語和所有人溝通,因為那是父親用起來最舒服的語言。就是這個「為愛翻譯」的初心,他領頭開發新技術,進行閩南語和英語之間的翻譯。
新登場的閩南語翻譯系統展示影音中,Meta創辦人兼執行長祖克柏用英語和說台語的陳鵬仁對話,經由機器人中介翻譯,無縫溝通。
●解譯資料→訓練模型 困難多
在開發這套翻譯系統之初,由於閩南語沒有太多現成可用的語音資料庫,加上能以英語轉換為閩南語的翻譯人員很少,在收集文本、解譯資料,和訓練翻譯模型時困難重重。
陳鵬仁和Meta的研究人員利用「中文」作為中間語言,和會說閩南語的人緊密合作、確保翻譯正確,把閩南語轉為中文、再轉為英文,以兩組配對的句子透過機器學習進行比對訓練。
●3萬小時台劇當文本 學得快
Meta的軟體工程師約書亞.楊(譯音)在推文透露,Meta的研究員採用3萬小時台劇作為翻譯文本。
台大電機工程學系副教授李宏毅參與的研究團隊,就收集1500小時的台灣鄉土劇資料。李弘毅說,過去若要讓AI將閩南語翻譯成英文,多採用督導式學習,先把台語翻譯成中文,再用中文譯為英文。Meta透過鄉土劇可聆聽大量閩南語訊號搭配字幕作對照,待AI對閩南語產生初步理解時,再適時給予資料提示,就能快速學會語言。
住在美國的陳鵬仁,也常教導女兒說台語,但因父母與女兒間的慣用語言不同,他說,「我希望,有一天我的女兒跟她的阿嬤可以用這項科技,各自用他們習慣的語言說話。」
●翻譯無法書寫的語言 開先河
Meta表示,在7千多種現存語言中,超過4成為口說語言,沒有標準或廣泛熟知的書寫系統,閩南語是其中之一。在中國大陸、新加坡、馬來西亞和菲律賓等地,全球有逾5千萬人以閩南語溝通。
陳鵬仁和他的團隊成了早期使用人工智慧科技、為沒有正式書寫系統的語言建立翻譯系統的先驅。這也是Meta「通用語音翻譯器」計畫的一部分,即時把語音從一個語言翻譯成另一個語言,無需仰賴書面中介。
【2022-11-21/聯合報/R04版/好讀周報影響力】