Page 57 - 鴻海研究院2023年年鑑
P. 57

諮詢委員序                    精彩活動                      亮點技術                     趨勢焦點











                             而這前提是,擁有巨大數據模型基                      術名詞定義為「基礎模型」(Foundation

                         礎,透過大量演算解決應用落地的盲點。                       Model)革新,才能夠真正涵蓋所有框架。
                                                                      要想真正實現通用人工智能(Artificial
                         多模態基礎模型擴張                                General Intelligence),視覺(Vision)語
                         邁向「資源共享」趨勢                               言(Language)多模態是必然發展。至少

                             Irina強調利用模擬數據,提升模型性                  站在被ChatGPT掀起的趨勢浪尖,看見大
                         能。試參考GPT-3運用大量文本數據訓練                     型語言模型、語音模型正在大量應用。

                         模型,大型語言模型成熟度又再升級,另                       主軸1》語音基石模型
                         外,同樣由OpenAI創建的CLIP、DALL-E模                   現階段語音基石模 型發展到能 夠理
                         型,從自然語言學文本的參數描述,進一                       解人 類語音,經 過自監 督式 學習(S elf-
                         步理解生成圖像,多模態任務成果展現在                       supervised Learning),可以在不依賴大

                         跨領域的泛化應用,表現大幅提升。                         量標注資料的情況下,執行語音學習相關
                             根據上述OpenAI大型語言模型(LLM)                任務。有了這項語音模型基礎,臺大電機工
                         的擴充和優化,Irina觀察到,模型的擴展行                   程學系李宏毅副教授大膽推論,就算在全

                         為具備非線性和非單調特性。現在有學術                       球七千多種語言背景,也有機會解決各語言
                         研究專門針對大規模語言模型,導入海量運                      系統背後,大量標註資料的判讀工作。
                         算訓練,引導模型性能遵循著Chinchilla擴                 主軸2》大型語言模型
                         展法則演進;目前開發的互動式AI系統,已                         而關於大型語言模型,除了鎖定人工

                         能接受圖像、文本輸入,並導出回應。Irina                   智慧與知識圖譜、不實資訊免疫工作,更
                         提示,多模態模型的不同擴展行為,對於                       深化視覺語言融合技術,發揮看圖說故
                         預測AI未來發展,有一定的重要意義。而下                     事、機器人視覺認知、吸眼球視覺問題生

                         一個階段性的里程碑,期待發生大規模計                       成能力,衍生互動式監督學習推特資料、
                         算資源共享,特別是以開放原始碼(Open                     謊言偵測、細微情感分析等進階應用。
                         Source)為工具加速AI模型的分享和應用,                      技術面期待從大型語言模型,開展出

                         以接軌開發更多通用的多模態AI系統。                       視覺與語言多模態融合,提供多模態資
                                                                  料互補完整資訊,參與大型協作過程。
                         語音、語言、視覺整合                               重要的視覺語言模型(Vision- Language
                         大型模型時代命題                                 Foundation models)工作項目將涵蓋圖

                             臺大資訊工程學系暨研究所鄭文皇教                     像問答(Visual question answering)、
                         授帶入跳躍性思考,認為巨大語言模型                        圖像描述(Image captioning)、圖像檢
                         (LLM)、巨大視覺模型(LVM)皆不夠精                    索技術(Image- text retrieval)、影片描

                         準詮釋這波變革浪潮,應該引述鴻海研究                       述定位(Video grounding)、視覺常識推
                         院人工智慧研究所栗永徽所長觀點,將技                       理(Visual commonsense reasoning)等





                                                                                                                        57






                                                                                                                                 ɨʹ
               ᒿऎ޼Ӻ৫    ʫ˖ ᒈැೊᓃ JOEE
               ᒿऎ޼Ӻ৫    ʫ˖ ᒈැೊᓃ JOEE                                                                                             ɨʹ
   52   53   54   55   56   57   58   59   60   61   62