湯曉鷗談AI和于謙:機(jī)器怎能超過(guò)有趣的靈魂?|AI之聲
時(shí)間:2023-07-06 21:16:03  來(lái)源:第一財(cái)經(jīng)  
1
聽(tīng)新聞

作為一個(gè)在上海工作的東北人,香港中文大學(xué)教授湯曉鷗不失東北人與生俱來(lái)的幽默感。


(資料圖片)

在7月6日的世界人工智能大會(huì)開(kāi)幕式發(fā)言中,作為人工智能領(lǐng)域前沿的知名學(xué)者與實(shí)踐者,湯曉鷗說(shuō),自己每天晚上睡覺(jué)前,都是一邊聽(tīng)著于謙老師的相聲,一邊在想:“機(jī)器怎么可能超過(guò)這樣有趣的靈魂?我不信。”

在今天的演講中,他分享了三名學(xué)生王曉剛、何愷明、林達(dá)華在深度學(xué)習(xí)領(lǐng)域追夢(mèng)的故事,強(qiáng)調(diào)了中國(guó)年輕學(xué)者在大模型研究中所作出的原創(chuàng)貢獻(xiàn)。

他同時(shí)感慨:在人工智能領(lǐng)域,新一代的學(xué)生已經(jīng)在上海成功起步。

回溯歷史,湯曉鷗提到,2018年度圖靈獎(jiǎng)授予了約書亞·本吉奧(Yoshua Bengio)、杰弗里·辛頓(Geoffrey Hinton)和楊立昆(Yann LeCun) 三位深度學(xué)習(xí)之父,而摁下這扇大門第一聲門鈴的,是2011年杰弗里·辛頓和微軟的中國(guó)學(xué)者鄧力在深度學(xué)習(xí)語(yǔ)音識(shí)別上劃時(shí)代的突破,此后2012年,在圖像識(shí)別比賽中同樣取得了劃時(shí)代的突破。

在深度學(xué)習(xí)剛剛開(kāi)始的幾年,湯曉鷗和他的學(xué)生們?cè)谧鍪裁??他講到了第一個(gè)學(xué)生:王曉剛。

王曉剛本科是中國(guó)科大少年班,并且是00班的第一名,碩士期間他在湯曉鷗實(shí)驗(yàn)室就讀,后來(lái)去了MIT讀博士,博士畢業(yè)后回到湯曉鷗在香港中文大學(xué)的實(shí)驗(yàn)室做教授。2011至2013年期間,在CVPR(國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議)和ICCV(計(jì)算機(jī)視覺(jué)國(guó)際大會(huì))兩個(gè)視覺(jué)領(lǐng)域頂級(jí)會(huì)議上,全球共有29篇文章做了深度學(xué)習(xí),其中有14篇出自湯曉鷗的實(shí)驗(yàn)室,全世界其他的實(shí)驗(yàn)室做了15篇。

“我們有18項(xiàng)工作在全世界第一次將深度學(xué)習(xí)用到視覺(jué)問(wèn)題上,包括人臉識(shí)別、人臉檢測(cè)、人臉重建、物體檢測(cè)、人體姿態(tài)、圖像超分、三維形狀識(shí)別等計(jì)算機(jī)視覺(jué)最核心的問(wèn)題。在深度學(xué)習(xí)的大門上,我們按了18次門鈴。”湯曉鷗說(shuō)。

他介紹,王曉剛還有一項(xiàng)工作是讓機(jī)器做的人臉識(shí)別超過(guò)了人的眼睛,這比Facebook做得還要早。 2015年,王曉剛帶隊(duì)打敗了谷歌團(tuán)隊(duì),取得了中國(guó)學(xué)者史上第一個(gè)ImogeNet(一個(gè)基于圖像分類和物體識(shí)別的國(guó)際競(jìng)賽)世界冠軍。

第二個(gè)學(xué)生是何愷明是2003年廣東高考狀元,本科在清華大學(xué)就讀物理專業(yè),博士是在湯曉鷗的香港中文大學(xué)實(shí)驗(yàn)室取得的。湯曉鷗說(shuō),何愷明在實(shí)驗(yàn)室讀碩士期間就發(fā)了第一篇文章,取得了CVPR最佳論文,這是CVPR25年歷史上從亞洲出來(lái)的第一篇最佳論文。當(dāng)時(shí)的湯曉鷗和何愷明開(kāi)玩笑,說(shuō)他一出手就到了巔峰,從此以后的學(xué)術(shù)生涯就只能往下走了。結(jié)果他去微軟和Facebook工作后一路走高。

何愷明第一項(xiàng)工作是在MSR(微軟研究院)進(jìn)行。在2015年之前,深度學(xué)習(xí)最多只能訓(xùn)練到20多層,何愷明在網(wǎng)絡(luò)的每一層引入了一個(gè)直聯(lián)通道,從而解決了深度網(wǎng)絡(luò)梯度傳遞的問(wèn)題,獲得了2016年的最佳論文。在這之后可以有效的訓(xùn)練超過(guò)百層的深度學(xué)習(xí)。在大模型時(shí)代,以Transformer為核心的大模型,包括GPT系列,也是普遍采用了這個(gè)結(jié)構(gòu),以支撐上百層的堆疊。

湯曉鷗總結(jié)起來(lái),何愷明把網(wǎng)絡(luò)做深了,谷歌把網(wǎng)絡(luò)的入口拉大了,這才成就了今天的大模型。

何愷明的第二項(xiàng)工作Mask R-CNN是在Facebook做的,他首次提出了一個(gè)真正高性能的物體檢測(cè)和算法框架,獲得了ICCV2017年最佳論文。湯曉鷗表示,何愷明是世界上唯一一個(gè)在畢業(yè)不到十年內(nèi),三次以第一作者的身份獲得CVPR、ICCV最佳論文的人。他首次把基于原碼的自編碼思想用于視覺(jué)領(lǐng)域的非監(jiān)督學(xué)習(xí),開(kāi)啟了計(jì)算機(jī)視覺(jué)領(lǐng)域自監(jiān)督學(xué)習(xí)的大門,并被推廣到三維、音頻甚至是AI領(lǐng)域。

第三個(gè)學(xué)生林達(dá)華本科就讀于中國(guó)科大,碩士在香港中文大學(xué),博士是MIT。他2010年在MIT讀博士期間,獲得NIPS最佳學(xué)生論文,2014年回到湯曉鷗的實(shí)驗(yàn)室做教授。

林達(dá)華的第一項(xiàng)工作是OpenMMLab,在2018年從一個(gè)小團(tuán)隊(duì)開(kāi)始,在沒(méi)有推廣投入的情況下,以口口相傳的形式成為國(guó)際上最具影響力的視覺(jué)算法開(kāi)源體系,目前用戶遍及全球140多個(gè)國(guó)家和地區(qū)。

湯曉鷗還介紹了林達(dá)華的其他兩項(xiàng)工作成果,即將正式發(fā)布的千億參數(shù)、8K的多語(yǔ)種大語(yǔ)言模型“書生·浦語(yǔ)”,和有2000億參數(shù)、覆蓋100平方公里的城市級(jí)實(shí)景三維大模型LandMark。

對(duì)于三名學(xué)生在人工智能領(lǐng)域的成就,湯曉鷗評(píng)價(jià):王曉剛在深度學(xué)習(xí)興起的最初幾年,灑下了很多原創(chuàng)的種子;何愷明將深度學(xué)習(xí)的根基打得非常牢、非常深;林達(dá)華通過(guò)開(kāi)發(fā)和大模型讓它枝繁葉茂。

湯曉鷗表示:“讓我非常欣慰的是,這顆大樹(shù)已經(jīng)開(kāi)始開(kāi)花結(jié)果。就在兩周前,我們的自動(dòng)駕駛大模型從9155篇文章中脫穎而出,獲得了CVPR2023年的最佳論文獎(jiǎng)。”

他援引谷歌學(xué)術(shù)統(tǒng)計(jì),稱這是改革開(kāi)放40多年來(lái)第一篇全部由中國(guó)學(xué)者完成的國(guó)際計(jì)算機(jī)視覺(jué)三大頂會(huì)的最佳論文,文章的牽頭作者是王曉剛帶出來(lái)的博士。此外,OpenMMLab是林達(dá)華帶出來(lái)的博士陳愷做出來(lái)的,當(dāng)年湯曉鷗實(shí)驗(yàn)室做的另一篇超過(guò)人眼的人臉識(shí)別的文章的作者陸超超,也從劍橋大學(xué)博士畢業(yè)回到了上海,正在和中國(guó)唯一的圖靈獎(jiǎng)獲得者姚期智先生在上海期智研究院合作,從事AI基礎(chǔ)理論研究。“新一代的學(xué)生已經(jīng)在上海成功起步。”

在演講的最后,湯曉鷗再一次感謝上海,感謝這些學(xué)生,并援引了他認(rèn)為AI難以超越的“有趣靈魂”于謙在電影《老師好》里的一句臺(tái)詞: “我不是在最好的時(shí)光遇見(jiàn)了你們,而是遇見(jiàn)了你們,才有了這段最好的時(shí)光。”

關(guān)鍵詞: