發展國內AI產業,但同時也得建構台灣的主權AI以及完善數位生態系統;數位發展部已展開台灣主權AI本土語言模型,不過有立委認為,目前資料較偏重政府文書,語境恐怕有所限制。
民進黨立法委員 徐富癸:「我們未來是不是有計畫再研議加入原住民的族語、客語甚至一些農漁業產業術語的計畫?」
數發部多元創新司長 莊明芬:「我們已經在這個(六)月找各部會來盤點一些重要的語料庫,盤點完之後再搭配我們AI語料授權條款,就可以來對外做釋出;所以剛剛委員所提到的這些不管客語、原民這些相關的語言資料,我們也會納進來這個語料庫裡面。」
數發部指出,大概兩到三個月,就能將首波語料釋出,消息一出,身為族語E樂園計畫主持人劉宇陽表示相當高興,有了AI語料庫就能在基礎上開發相關教材;而這也提升族語在電腦資訊的使用、更確保原住民族語言的主體性,不過劉宇陽也指出,蒐集語料刻不容緩。
北市大學習與媒材設計學系副教授 劉宇陽:「我覺得速度要快,意思就是說你今天採集的語料舉例來講比如說,我採集一千個小時的語料,你會發現說在這個年代的科技可能在做語音辨識或在做翻譯,一千個小時可能是不夠的,這個科技發展很快,也許過了五年之後有新技術出來,它(語料)也許就足夠了。」
比起AI的進步發展,原住民族語言的保存仍在與時間賽跑,因此大量的語料蒐集尤為關鍵;無論是資料的正確性或是透過AI開發相關教材等產業,都有賴這部主權AI打下完好基礎。
責任編輯:林懷恩