對話開源中國董事長馬越:AI大模型關鍵要有人用,追趕者不開源很難坐上牌桌
時間:2023-08-11 22:04:03  來源:搜狐科技  
1
聽新聞

開源中國董事長馬越


(相關資料圖)

出品 | 搜狐科技

作者 | 梁昌均

“谷歌在人工智能方面并沒有護城河,OpenAI也沒有。”這是不久前谷歌內部一份研究給出的判斷,理由則是開源的AI模型正在與它們有力競爭。

開源的力量終于在激烈的百模大戰中涌現,并越發不可忽視。Meta開源的LLaMA 2引起轟動,智源、智譜、百川等先后開源,阿里也在上周打響國內大廠大模型開源的第一槍。

在頭部AI開源社區HuggingFace中,已有超過27萬個開源模型,其中對話和文本生成模型接近2萬個,不少都是今年新增的大模型。

在開源中國董事長馬越看來,開源本身是一種研發模式,也是一種競爭策略,是否開源跟產品研發能力有關,也是一件特別市場化的事。因此Meta、阿里云等開源模型,更多是市場競爭策略的選擇。

不過,馬越對搜狐科技強調,絕對領先的技術不太可能會開源,因為閉源的商業變現反射弧相對更短、更直接。“OpenAI從GPT-3絕對領先后不再開源,如果持續一騎絕塵大概率今后還是不會開源。”

馬越認為,國內先天性投入較差,說幾個月、半年追上OpenAI不太可能,反倒可能是半年之后它把我們拋得更遠。但幸虧有開源,為很多追趕者提供了超越的可能,且從中也一定會誕生類似ChatGPT的殺手級應用。

在他看來,AI大模型的關鍵是要有人用,沒需求、沒反饋,就無法迭代,不能閉門造車。“不要為了模型而模型,不要去追逐富人的游戲,要從現在的用戶去倒推,從能夠創造的商業價值去倒逼技術選擇。”

同時,馬越認為,國內巨頭在大模型上不可能齊頭并進,只會有一兩個領先,且會選擇掙錢更快的方式。“如果閉源能讓大家以很低的成本用起來,就沒必要去開源。”

但開源也存在風險,如果是好的模型開源,能夠推動AI普惠,降低個人和組織去賦能千行百業的成本。如果技術和產品本身沒有競爭力,開源也不是靈丹妙藥,反倒會更快“見光死”。

“開源本身也會形成競爭,如果用戶都不下載使用,那也沒意義。開源模型好不好絕不是靠權威來背書,而是要靠大眾點評,關鍵是看可持續增長的用戶量和使用量。”馬越表示。

在互聯網時代,開源的力量不容小覷,相關的開源軟件都是服務器和移動端操作系統的市場主力。馬越就此給出論斷:未來AI大模型開源的市場份額會更大,閉源只會為少量用戶服務,但因它的商業反射弧快,變現效率高,會吃掉大部分利潤。

面對當前正酣的百模大戰,馬越認為這是熱度剛開始時的正常競爭,就像當年的“百團大戰”。“但通用大模型最后會是贏者通吃,只有少量幾家能夠勝出。”

對垂直模型來說,則需要類似HuggingFace的分發平臺。“大模型開源是為愛發電,通過開源相當于節約了90%的成本,這是成本最低的方式。”

馬越還認為,AI和開源是相互成就的乘法關系,會讓對方加速發展。“不靠開源,大模型沒法傳播落地;沒有大模型,開源也不能在互聯網時代的未來實現新高峰的增長。”

談及這些年國內開源生態的發展,馬越則用“超出預期”來形容。十六年前,他回國成立了國內第一家開源技術服務公司,打造了國內最早的開源社區,并帶領Gitee成為全球第二大代碼托管平臺。

馬越回憶到,2007年剛回國時,沒多少人理解開源的概念,但現在中國已是全球第二大開源生態貢獻國,有了開源基金會和國際通用的開源協議,開源還被寫入十四五規劃。他認為,開源能夠驅動自主創新、提高創新速度。

開源中國最近也完成一輪7.75億元的融資,20多家股東中有一半是國資,百度、華為、聯想也有投資。馬越表示,開源中國重組為中立平臺后,新使命是打造中國版的HuggingFace,希望借此早點結束百模大戰,讓千行百業都能用上大模型。

以下是對話實錄(經編輯整理)

搜狐科技:AI涉及很多要素,AI開源開的到底是什么?這塊誰做得比較領先?

馬越:當前需要多關注HuggingFace,這是AI領域的GitHub。開源除了代碼,還有模型、數據集等,每家企業可能不一樣。好的開源模型能夠推動AI普惠,極大降低個人和組織去賦能千行百業的成本。

搜狐科技:阿里、智譜、百川等先后開源自己的模型,怎么看這些企業開源的行為?

馬越:OpenAI遙遙領先,其它企業不開源的話其實很難有建樹,拿著模型也沒多大意義,還不如開源。通過開源免費先把用戶獲取過來是個極好的做法,也十分重要,否則很難在百模大戰中上桌。如果靠開源靠免費,還是吸引不來用戶,只能說明產品競爭力實在不行,被淘汰了也能更早地發現問題,反過來也能印證開源行為的價值。

企業開源也會面臨商業回報的問題,反射弧長,變現效率低,前期研發成本打水漂。但換個思路來看,開源的目的是更好地獲得用戶,塑造口碑和品牌,獲得用戶反饋,也可以看作是市場營銷的行為。

搜狐科技:阿里打響國內大廠大模型開源第一槍,未來會有更多大廠開源嗎?

馬越:國內這幾家巨頭不可能齊頭并進,以后只會有一兩個遙遙領先,且一定會選擇掙錢更快的方式。如果閉源就能讓大家以很低的成本就用起來,何必開源?但如果閉源沒有好的商業回報,自身也沒那么強,不開源的話很難坐上牌桌。

大模型關鍵是要有人用,沒需求,沒反饋,就無法迭代,閉門造車有什么用?ChatGPT沒有開源,但短短幾個月就有上億人用,它何必開源呢?這是個市場博弈問題,市場競爭、用戶受益壓倒一切,不是為了開源而開源,它只是手段。

搜狐科技:OpenAI最初開源,但在GPT-3之后不再開源,又有消息稱在開發開源模型,怎么看這種搖擺?

馬越:開源本身是一種研發模式,也是個競爭策略,本質上是個方法論。是否開源跟產品研發的能力進度有關,也是一件特別市場化的事。GPT-3之后的版本非常厲害,不需要開源,后面很多追趕者卻需要用開源的方式去追趕。所以絕對領先的技術不太可能會開源,因為閉源的商業變現反射弧相對更短、更直接。

搜狐科技:開源的大模型能追上Open AI嗎?從中會誕生出類似ChatGPT的殺手級應用?

馬越:開源模型一定會誕生類似ChatGPT這樣的應用。垂直場景商機無限,就看誰能應用。不要為了模型而模型,不要去追逐富人的游戲,要從現在的用戶去倒推,從能夠創造的商業價值去倒逼技術選擇。

OpenAI做了好幾年,燒了很多錢,相比之下國內先天性的投入較差,幾個月、半年追上不太可能,更大可能是半年之后它把我們拋得更遠。我甚至覺得可能永遠跟不上它的腳步,因為它沒有算力卡脖子等問題,還在加速度成長。但幸虧有開源,提供了競爭的可能。

搜狐科技:楊立昆認為,Meta開源LLaMA2會改變大模型行業的競爭格局,您怎么看?

馬越:看看歷史就很清楚。開源的安卓能占有移動操作系統80%的市場份額,但利潤可能只有百分之二三十,大頭讓份額只有20%左右的iOS拿走。開源也差不多,它在策略上是讓閉源無法通吃,未來大多數人和企業會使用開源模型,市場份額會更大。閉源只為少量用戶服務,但反射弧快,變現效率高,會吃掉大部分利潤。

搜狐科技:國內已進入百模大戰,您怎么看這股熱潮?這些大模型都能活下去嗎?

馬越:很多人起哄、追熱點,反正人口多、場景多、不缺錢,這是無序盲目的競爭,很多投資人哪怕知道只會贏一兩家,也不敢錯過,有些創業者可能也抱著投機心態。它會持續一段時間,如同當年的“百團大戰”。

但通用模型是大廠的游戲,最后只有少數幾家巨頭能勝出,其它家可能都會消失,我不太相信會有多少純創業公司能做出殺手級的通用模型。垂直模型則需要類似HuggingFace的分發平臺,市場化自由競爭。

目前看,大模型開源就是為愛發電,通過在已經用數據集訓練過的開源模型上推理和調優比從頭訓練一個模型可以節約90%的成本,這是使用門檻最低的方式。

搜狐科技:開源對AI的落地應用會有什么樣的作用?怎么看兩者之間的關系?

馬越:開源第一波浪潮是從互聯網開始,開源的操作系統、數據庫等基礎設施給了互聯網公司野蠻生長的機會,互聯網使得獲取開源項目更加容易,它們是相輔相成的乘法關系。

AI類似互聯網,跟開源也是相互成就的乘法關系,會讓對方加速發展。不靠開源,大模型沒法很好地傳播落地;沒有大模型,開源也不能在互聯網時代的未來實現新高峰的增長。

搜狐科技:過去國內比較依賴國外開源軟件,現在強調自主創新,開源如何推動創新?

馬越:開源可以讓我們站在巨人的肩膀上,是驅動生產力發展的一個不可避免的方式,也能驅動自主創新,提高創新的速度。現在有人指出我們應該在什么地方上投入,我覺得那就利用好開源的方法論。但現在想要薅羊毛的太多了,最大問題是不敬畏專業,開源是個專業的事,代碼托管平臺技術含量很高,不是誰都能干,也不是一蹴而就。

搜狐科技:開源越來越受重視,開源中國希望起到什么樣的作用或達成什么目標?

馬越:新使命是要把軟件產品研發平臺升級為AI工程平臺,幫助軟件工程師升級為AI工程師,打造中國版的HuggingFace。我們是中立第三方,以開發者利益出發,做這件事比大廠合適。我們希望借此讓百模大戰早點結束,讓每家企業、每個人都能用上大模型,未來將是千模甚至是萬模大戰。我們目前引進的7000多個模型會在今年底隨著新平臺上線,但要先解決算力問題。

搜狐科技:開源中國如何商業化?在獲得融資后,接下來的重點規劃是什么?

搜狐科技:開源中國現在是徹底商業化的軟件工具廠商,已經實現盈虧平衡。接下來會加大信創產品線的開發,并擁抱人工智能。未來我們希望作為一家高科技公司在科創板上市,成為國內軟件工程和AI工程的第一股。

關鍵詞: