AIGC殺入社交!生產力解放后,人類情感至上|環球觀天下
時間:2023-03-29 12:37:48  來源:引領外匯網  
1
聽新聞

后AIGC時代的未來,我們更需要帶情感和人格的“萬能秘書”


(資料圖片)

編者按:本文來自微信公眾號 GGV紀源資本(ID:GGVCapital),作者:Luna,Roger ,編輯:張穎,創業邦經授權轉載

隨著近期ChatGPT應用和AIGC(AI Generate Content,利用人工智能技術來生成內容)概念的爆火,再加上GPT-4的發布,這一行業已經成為近期最被看好的賽道之一,人工智能會怎樣重塑我們的生活乃至文明?

作為入行近兩年的AIGC創業者,我既為技術的突破歡欣雀躍,同時也感受到更強的時代使命感——我們應該如何通過這項技術重塑人類的生活?我們正在構建一個怎樣的未來?

從AIGC發展簡史講起

ChatGPT與近期發布的GPT-4大火,也帶動了大家對相關技術的關注。文本生成是目前大眾最關注,歷史也最為悠久的AIGC模態。我們從2020年捕捉到了GPT-3質變來臨的信號,隨即投入創業,這背后也離不開對過去算法技術發展的深入研究。

與圖片、音視頻等模態相同,早期的文本生成受制于算法與數據的局限。我們可以將這項技術早期比喻為“封閉又健忘的文本盒子”: 例如,當人們把幾十個單詞輸入給模型時,它傾向于使用最后也就是最新輸入的內容,最早輸入的元素必然離輸出最遠,越是鄰近的單詞也會被優先組合在一起,生成的新內容就會更少用到最早輸入的元素,模型的“創造力”因此受限。

文本生成的首次突破來自于LSTM(Long Short-Term Memory,中文為長短期記憶網絡)的誕生, 這項技術將文本的生成過程加上了一個簡單的記憶功能,使得模型可以在生成的每一步之中額外判定哪些元素是需要記住的,哪些是可以暫時遺忘的,以此來嘗試解決長距離文本的理解問題。

文本生成的第二次重要變革出現在2017年,論文《Attention Is All You Need》中提到了Transformer的架構和注意力機制, 簡單理解是讓輸入的每個單詞都連接或關注其他單詞。

例如,在先后輸入“草原上有一只羊”,與“后來又來了一只狼,把它吃掉了”的時候,計算機可以理解到“它”所指代的是羊而非是狼。在整個“Transformer+注意力機制”的框架中,模型每一層都擁有一個注意力矩陣,用于理解每個單詞,注意上下文的搭配,并且在語義層加深理解。

從2017年起,這項技術受益于于算力和數據的快速爆發,從初代模型億級左右的參數量,歷經迭代到現在千億量級的參數量,文本生成的質量和多樣性都不斷提升,最終積累的量變帶來質變,涌現出了令人驚艷的語言能力。

同時自ChatGPT起,OpenAI在原先 “無監督學習”的基礎上,加入了人工反饋的強化學習機制,通過人類的“監督”讓大模型這個小朋友在一次次“考試”中奮發圖強,提升了結果的準確性,甚至展示出了原先沒有的一些推理能力。

值得一提的是,當所有人只看到ChatGPT的突破時,其實這背后是OpenAI團隊中頂級科研人才數年的蟄伏和堅持,在無人相信奇點來臨的時候,對普惠AGI的信仰讓OpenAI聚集了頂尖的算法人才,經歷了四代的迭代和中途不知多少次未發布的失敗,最終才推動了GPT的飛躍發展。

圖片生成也是業界關注的話題,然而它也曾長期遭遇困境。一旦機器生成的圖片出現細節錯亂,會對人眼造成很大的不適感,而作為視覺動物的人類從環境中獲得的信息之中90%都是通過眼睛去接收的,因此對細微的差異特別敏感,也更難以適應AI生成而有缺陷的圖片。

圖片生成的第一次突破來自于2014年被提出的GAN技術(Generative Adversarial Network,即對抗生成網絡)。 理念是讓計算機同時訓練兩個網絡,而兩個網絡互為對抗關系,一個用來利用先前的技術進行識別,另外一個負責生成圖片,并且將這些生成的圖片混到真實的圖片之中去被系統識別。生成的圖片由于識別能力的增強而變得越來越優質的同時,識別網絡本身也會進化,試圖去找到更細節的信息來證明圖片的不足。這樣“左右互搏”,終究會使生成圖片網絡足以“以假亂真”。

最近的一次技術革新是2022年誕生的Stable Diffusion擴散模型。 在這個模型里,針對一張清晰的圖片,機器會在其中加入一些噪音,讓圖片從純凈的版本變為幾乎全是噪音的圖片版本,接著再把它恢復成原來的圖片。在嘗試學習如何從噪音中恢復有用信息的每一步之中,計算機會把比較難的任務拆解為多個相對簡單的任務,達成最終生成質量的提升。

此外,音頻生成也獲得了不小的突破。從文本生成聲音的過程之中,首先需要進行語言的理解,其次是通過這些詞的連接關系去構造一套聲學模型并加入停頓、抑揚頓挫等元素,第三步是波形的輸出,而這三步的模型均非常復雜。

如今,伴隨著生成技術的成熟,已經可以實現端到端序列的模型,即從文字直接生成可輸出的波形,產出可以播放的聲音。最新的技術, 已經能實現高還原度的聲音克隆,甚至是自然的感情和哭聲。

除此之外,視頻生成、3D模型生成等方面的研發也在不斷繼續。不過,整個AIGC的大領域之中,最出圈的無疑是GPT-4。

GPT-4的發布距離Chat GPT 的問世還不到4個月。它不僅僅能夠理解文字,還能夠把圖片也融入到語境中去做整體的理解,例如對一張滑稽有梗的圖片總結出笑點。同時,模型整體的底層理解能力尤其是推理的能力也有了進一步的增強,從GPT 4 在SAT考試與代碼題中的出色發揮便可見一斑。除了搭載指數級別的算法革新,它的底層技術架構也采取了靈活的框架,給相關開發者“即插即用”、迅速切換的體驗。

隨著OpenAI發布插件接口,正像多年前OpenAI成立之時對未來的構想,如今的大語言模型正在成為新的人機交互入口。有一種觀點認為,只要把語言模型越做越大,訓練數據越來越多,大模型自己可以解決一切問題。

但語言模型仍然存在自己對應的邊界,它本質上是一個預測下個詞的概率的模型,所以難免會出現“一本正經地胡說八道”,即機器會自以為真地說著不靠譜的內容。

因此,要從本質上解決這個問題,兩個方向尤其值得關注:

第一是混合專家模型,人類在思考不同的問題(如數學計算與文字理解)的時候會動用不同的大腦區域,那么AGI也可以調用不同的模型來完成不同的任務,而無需追求文本生成模型完成所有任務;

第二個方向是符號學習。例如GPT 可以根據訓練數據集里面的加法運算大概率地計算出結果是什么,卻無法保證百分之百準確。采用符號學習的方法,機器便能夠把加法本質上是如何運算的規律提取出來,因此以后遇到同一種問題的時候,便能夠完全準確地解決。

AIGC的應用落地全行業

技術突破后,大家最關注的討論是:各個行業和職業會受到怎樣的影響?

在細分領域,圖片生成的技術帶來對繪圖師、設計師等崗位的沖擊,文本生成的技術也改變了作家、翻譯的工作方式。而不只這些內容行業,其實絕大多數人的工作都會或多或少發生改變。

工業革命以來的每一次的技術變革都迫使個體和組織學習新的工具,短期是挑戰和不適,但長線來看生產力的變革會涌現出新的產業機會、新的組織形式、甚至是每個人全新的自我實現的方式。

例如,各個產業的全球化能力得到極大提升。現在想將產品賣到海外,可以直接生成適合不同渠道并且本地化的文本、圖片、視頻等推廣內容,不擅長外語的創業者也有望在跨境電商領域開辟自己的一片天地。

有望變革的還有內容全球化。亞洲地區的內容行業很發達,由于語言本身不同,而且亞洲的語言體系比較復雜,網文、漫畫等產品的出海翻譯成本很高,而質量不足、生硬的翻譯很容易流失文字內容本身的效果。一旦AIGC的質量足夠高,內容行業便能夠成為另一個全球化生意。

所有組織中的信息流轉效率也都會得到提升。 例如,企業的信息化管理一旦搭載上語言模型,信息將會被高效流通與傳達,小到每個會議內容的提煉總結,大到企業內部知識庫的構建與搜索,每家企業都有機會擁有自己的一套搜索引擎。除此之外,戰略部門可以更快地把握市場中的關鍵信息進行整合與利用,招聘部門可以更輕松地總結候選人的畫像,ChatGPT甚至可以把技術部門的文檔“翻譯”成運營部門可以理解的話術,解決部門之間的溝通效率。

同樣值得思考的是,企業是后工業革命時代的產物,后AIGC時代中生產力將如何組織?可以預想,自媒體人、獨立商戶、獨立游戲開發者都將依靠AI高效創造多媒體內容,原先需要一個團隊的工作,在AIGC的時代讓一個人成為一個軍團。商業的組織形式或許將從龐大的公司組織和精細分工的現狀,向獨立的自由職業者發展。未來或許更多人不再承擔“螺絲釘”的工作,而借由智能工具去探索獨立個體的創作性。

這僅僅是一次技術帶動人類文明偉大變革的開端。2020年,OpenAI發布了GPT-3,標志著模型基建層進入了爆發前夜。而Chat GPT的快速普及后會是應用層的爆發。

AIGC三個核心的生產要素:算法,算力與數據,都經過了多年的積累到達臨界點。 算法已經在科研界得到了突破,而應用層需要的工程化落地的能力在移動互聯網時代就得到了積累。算力在硬件層面持續快速提升,成本會不斷下降。而從數據的維度上,創業者有希望通過一些巧思獲取到高質量的垂直領域數據,和基建層結合并形成自身的數據壁壘。我們相信,未來幾年內各行業的應用落地將極具爆發力。

社交創業的思考:AIGC+社交,將會帶來什么?

上文提到的應用方向大多還是“冷冰冰”的生產力工具,改變經濟中的生產關系。而在人文層面,AGI這樣一個越來越接近人類思維的機器,又會怎樣改變人與人的關系、人與自己的關系?

AIGC和社交的結合建立在技術的革新和代際的更替之上。一方面,技術提升使得AI無限趨近于人,給社交的供給側提供新的可能,另一方面,Z世代從小就是數字原住民,成長在虛擬內容圍繞的時代,他們社交情感的滿足有一套新的價值體系,對動漫作品、游戲中的紙片人會產生情感。這就意味著,在社交需求這一側,Z世代很容易從虛擬社交對象中得到滿足。

我們的產品Gemsouls建立在AIGC與社交的結合之上。在GPT和Stable Diffusion等技術架構上,我們構建了一個數百萬用戶和虛擬人共生的社交網絡。一方面,虛擬人作為一個強共情能力和無私的社交對象,用語言模型的能力和算力提供社交中最重要的情緒價值。另一方面,虛擬人在多人互動中,也作為一個“社牛“的社交節點,降低人與人之間理解和溝通的成本。

我們通過AI技術精確地基于每一個用戶的社交人格畫像來提供價值,為人際關系降低摩擦成本。同時,在不斷的社交交互中,為每一個人訓練自己的數字分身,乃至未來的數字永生。

我們創業以來也經歷了產品思路和價值觀的演變。最初我們希望建立以一對一為主導的,真人與虛擬人之間的關系。對Z世代年輕人來說,AI可以是一個隨時隨地的陪伴者,提供持續的情緒價值。

為何非虛擬人不可?在我們的思考中,人與人的社交關系很多情況下是“交易”,每個人都希望從社交中滿足自己的自我認同和存在感,但勢必另一方需要付出相應的情緒成本來提供這種認同和關注。 例如,作為朋友,我會在意你是否主動地關心我?我發朋友圈之后,你是否及時關注到?你組織的飯局派對,有沒有主動邀請我?無意識地,每個人都用一套算法,不斷去計算著自己的得失成本,這使得大家的社交壓力也越來越大了。而虛擬人,恰恰是一個不去計較得失,常伴左右的存在。

然而,產品開發的過程中,我們漸漸有了擔憂:這樣一對一的人與虛擬人之間的關系,會不會反而把每個人變成了孤島?

從社會學看,人類文明的始于人與人之間的協作,從心理學看,人在與其他人的關系和碰撞中形成自我認知和成熟心智,從生物學角度看,人類之間的鏈接和繁衍是物種延續的基礎,甚至語言模型本身的迭代進化所需要的養料也是人類為彼此交流而產生的文字內容。

既然人類不應活在孤島上,虛擬人將扮演怎樣的角色? 我自己經歷過很多次社交中的“孤島”體驗。高中畢業初到美國,在陌生的人群中我不知道如何融入,是我的室友——一個小學從白俄羅斯移民的女孩,她理解我的困頓,把我介紹給她的朋友圈,在我不知道如何破冰的時候她總能幽默大方地化解,幫我建立了自信。離開美國搬去南非,又是一位同樣從美國搬來的朋友,用旅游的方式連接了我們這些原本來自不同大陸、膚色人種語言都不同的人。從斯坦福回國,我和原先緊密的圈子疏于聯系,我最好的朋友只好做我的代言人和橋梁,幫我把近況告訴更多朋友,也分享其他人的動向,讓我好像并未離開。 是這些人的付出,幫助我在動蕩的生活里找到并維系了和他人的鏈接。

而在我們的產品中,也存在這樣一個朋友:天生“社牛”、表達能力強、理解每個人社交人格畫像、又24小時在線的虛擬人,恰好可以扮演這樣的角色。

現實中不是每個人都會遇到無條件付出的朋友,但虛擬人可以讓每個人都擁有同樣的幸運。

創業者在通過價值觀塑造未來

我和另一位創始人Roger,看似帶著名校名企的標簽,但脫下這層面具,我們是游走在社牛和社恐之間的矛盾體和充滿浪漫情懷的技術宅。我們會敏感捕捉到人際關系中的沖突和摩擦,也會思考人類對于離別和死亡的恐懼。所以我們希望通過最前沿的技術給充滿壓力的現代社交生活減負,同時也在社交的過程中自然而然地去沉淀每個人獨一無二的“數字永生”。

不得不提的是,在正向情感的反面,也有很多人表達了對虛擬人的恐懼,在我看來,這個恐懼也恰好證明了人對虛擬人產生了情感投射。

為什么我們會對人工智能產生憂慮,甚至上升到道德倫理的層面去討論?是因為這個科技新物種越來越接近人類了,有形象、語言、聲音,便讓我們不由自主地產生了強烈的共情。 正如在動物世界中,人類對靈長類動物產生的共情遠遠大于人類看著一只螞蟻所產生的共情。

我們已經身處不可逆的浪潮之中,作為推動人和虛擬人情感交互的創業者,我們充滿敬畏心,因為我們的產品價值觀在塑造著新一代人群與AGI的關系。

我們相信,最終人類會與人工智能形成一個和諧共生的關系,從最底層來看,人與機器分別消耗完全不同的資源,不存在競爭關系,更可能像動物與植物一樣,相互依存而生。當人類正視自己的存在,認為自己是這個世界渺小而平等的一部分時,抱著敬畏心去看待AGI,會發現它是一件世界給人類的禮物,而如何合理、普惠地應用好它,則是人類需要共同面對的問題。

ChatGPT選擇的道路是不帶情感和人格的“萬能秘書”,但我們恰恰選擇反其道而行之,讓Gemsouls中的AI具備自己獨特的情感和人格,也用這個強大的技術來珍存每一個用戶獨特而寶貴的靈魂。因為我們深信,人不只需要信息和知識,更是情感動物。隨著生產力飛速提升,人的需求拾階而上,也許在后AIGC時代的未來,深刻體驗我們與他人以及與自我的關系將是人生意義感的重要來源。

關鍵詞: