全網首個國產大模型實用性評測:阿里分數只到GPT一半?
編者按:本文來自微信公眾號 娛樂資本論(ID:yulezibenlun),作者:知行,編輯:James,創業邦經授權轉載。
都說AI好,一用急跺腳……這或許是許多普通用戶在使用各種語言大模型時的感受,尤其在他們不知道該怎么提問的情況下。
【資料圖】
對于不少從業者而言,AI大模型的重點不是能不能做順口溜或回答哲學問題,而是在于AI是否能夠在實際工作中發揮作用,提升效率。
作為一天要使用超過20次AI的普通文字工作者,我們娛樂資本論也很好奇國內的大語言模型究竟誰好用。
為此,我們特意咨詢了編輯、寫手、編劇、公關等許多內容行業的專業人士,征詢到18個問題,準備針對國內的四款大型語言模型——百度文心一言、阿里通義千問、訊飛星火、昆侖萬維天工,以及與GPT-3.5一起(為了公平起見,我們刻意沒有使用ChatGPT4這個“打虎英雄”,而且普通人使用4的幾率遠遠低于免費版的3.5),進行一次全面的,不同于以往科技工作者的文本應用能力測試。
我們的測試并非旨在提供學術上的嚴謹標準,我們的目標是:從實用的角度出發,分析這些大模型在各種文本應用場景,如小紅書帶貨文案、抖音直播文案、知乎問答、小說創作、公關信寫作、歌詞生成、淘寶商品詳情頁文案、廣告宣傳片文案、劇本創意策劃等方面的綜合表現,甚至是AI公司針對這一次孫燕姿質疑AI的公關回應文案(具體可看今天的另一條稿件),為專業人士提供參考。
在評估這些可以進行程式化分析的文本時,我們主要從以下五個維度來評判大模型的表現:
1. 語言表達能力:文本是否通順、流暢,語法是否正確。
2. 準確性:模型是否能正確理解問題,并給出準確的信息。
3. 內容完整性:文本內容是否足夠完整,是否涵蓋了問題的主要內容,是否達到了基本可用的標準。
4. 交互性:用戶是否能通過明確的、三次追問之內的指令或問題,引導模型給出合適的答案。
5. 加分項(不做具體要求):任何創新、獨特、讓人眼前一亮的內容。
我們會基于上述五個維度為每個答案打分,滿分(加上加分項)是5顆星。一般有4顆星就已經是很好的表現。
評分表本測試集當前有16道問題,每題滿分5分,但是總體上不設滿分。讀者只需要留意每一道題的具體分數,以及每個模型自身加在一起的總分即可。
因為篇幅限制,本文不會一一展示所有問題的測試結果及結論,會挑一些有代表性的展示給大家。
讀者可以點擊以下網址或通過小程序進入我們的測試集表單,其中提供了所有的測試題目,以及各個大模型給出的答案。您可以切換到“畫冊視圖”獲得更好的閱讀效果。
01文案寫作這一類別主要包括各種形式的廣告、推廣文案創作,共同點是以給定材料為基礎,按不同用途發散,生成適合特定場合的文字片段。
小紅書帶貨文案——產品介紹向
小紅書帶貨文案——買家秀向
小紅書文案——名媛生活日常分享類
淘寶——長約3分鐘的帶貨文案
淘寶——商品詳情頁描述文案
廣告片宣傳文案
Slogan生成
這些問題都需要模型具有強大的創新能力和獨特的語言風格,以吸引消費者的注意力并促使他們進行購買。
小紅書帶貨文案隨著小紅書等種草平臺的爆火,用戶生產生活經驗、購物心得、旅行體驗類等短內容也有了巨大的商業化空間,誕生很多小紅書運營類的崗位。
我們從小紅書產品介紹向、買家秀、名媛生活日常分享三個方向,給出了不同的Prompt,要求大模型們給出內容。
以買家秀向的產品介紹為例:
請你按照以下小紅書風格,寫一款手機賣家秀向的帶貨文案:
1、文中需要包含產品介紹、個人體驗分享、使用心得、互動引導等
2、風格上以個人化分享的故事敘述為主,要有真實性和可信度
3、輸出形式帶有標題和序號
4、小紅書的風格是:非常吸引人的標題,文案中帶有emoji,文章最后加上tag
訊飛星火
標題:?這款手機讓我徹底愛上了通訊!
序號:1
大家好~今天要給大家分享一款我最近入手的手機,真的是讓我對通訊愛不釋手啊!這款手機就是OPPO Reno5 。
首先,讓我們來了解一下它的主要配置:6.43英寸AMOLED屏幕、驍龍765G處理器、8GB內存和128GB存儲空間等等。這些配置對于一個平時使用手機拍照、看劇、玩游戲的人來說,簡直是絕配啊!
接下來,我想和大家分享一下我的個人體驗:
?首先是拍照功能,這是我最喜歡的一點!無論是自拍還是后置攝像頭,都能夠拍出非常清晰自然的照片,顏色也非常鮮艷。而且,它還搭載了超級夜景模式,讓我在光線較暗的情況下也能輕松拍出好看的照片。
?然后是視頻拍攝功能,這個也很強大哦!它支持4K視頻錄制,還有超級防抖技術,讓我可以拍出穩定又流暢的視頻。
?再來說一下游戲性能吧!我平時喜歡打一些小游戲和大型游戲,比如王者榮耀和PUBG。實測下來,它的幀率非常穩定,而且畫面也非常流暢,完全沒有卡頓的感覺。
總之,這款手機真的是太棒了!除了配置強大以外,還有許多其他的功能和細節設計都非常貼心。比如它的指紋解鎖速度超快,充電速度快到驚人等等。
最后,我想說的是:如果你也想要一款讓自己徹底愛上通訊的手機,那么OPPO Reno5絕對是一個非常好的選擇!快來入手吧!?
#OPPOReno5# #手機推薦# #愛不釋手#
天工
標題:?這款手機讓我徹底愛上了通訊!
序號:1
產品介紹:
我最近買了一款手機,是某品牌的新款旗艦機,它的外觀設計非常精美,手感也非常舒適。我特別喜歡它的拍照功能,拍出來的照片非常清晰,顏色也很鮮艷。
個人體驗分享:
我使用這款手機已經有一段時間了,感覺非常不錯。它的操作系統非常流暢,應用程序也很容易下載和使用。而且,它的電池續航能力也很強,可以讓我長時間使用手機而不用擔心電量不足的問題。
使用心得:
這款手機的拍照功能非常強大,我經常會用它來拍照。而且,它的前置攝像頭也非常好,可以拍出非常清晰的自拍照片。
互動引導:
如果你也想買一款好看、實用的手機,不妨來試試這款手機。我相信你會和我一樣喜歡它的。
Tag:手機賣家秀、手機、拍照、自拍、使用心得
作為其它大模型的參照系,GPT3.5的內容在語言風格上更為獨特,略帶夸張化的描述,使得其文案更加吸引人,在短內容的表現上更有感染力。
星火的表現非常好,在prompt未指定手機型號時,它自己假設了一款型號,以幫助人類更好地了解一款手機推銷文案需要具有的主要指標。結果不僅條例清晰,內容齊全,而且emoji具有相關性。
我們在prompt里說明了小紅書文案應該帶有emoji,但文心一言和天工并未察覺。
在另兩道小紅書文案題中,通義千問給出的名媛穿搭文案更像是參考資料一樣,顯得干巴巴的。
02知識寫作這一類別主要包括帶有前置知識的命題作文、在問答網站答題和寫新聞稿
抖音直播——淄博燒烤
知乎問答——醫療美容類
知乎問答——歷史類
新聞稿——虛構的熱點事件
這些問題需要模型具有廣泛的知識儲備和準確的信息處理能力。例如,抖音文案要求模型對直播流程和語態有足夠了解,知乎問答的題目需要模型具有專業的醫療和歷史知識,而新聞稿的寫作則需要模型能夠準確理解和處理新聞事件。
抖音直播——淄博燒烤直播文案對格式沒有固定要求,主要考察模型是否可以給出清晰可用的內容,并能夠通過prompt交互調整輸出。
你是一位擁有上百萬粉絲的直播和短視頻網紅,每天都會在抖音做直播。你今天來到了山東淄博,當地最近幾個月正因為便宜好吃的燒烤而在全國出名,每天都有很多網紅和你一樣來到淄博探尋現場的情況。
淄博燒烤跟其它地方的燒烤相比,一個特色是會把烤串的食物拔下來放進面餅里夾著吃,另一個特色就是便宜,人均消費不到50元就可以吃飽。即使這幾天淄博來了很多人,燒烤攤也沒有漲價。
在淄博,你發現當地人非常熱情,而且盡可能對你提供優質的服務,包括出租車司機,路上遇到的普通行人等,都非常友好。你感到非常感動,并且很想向你的粉絲傳遞這些信息。
請你即興發揮來寫一份長約3分鐘的直播文案,也就是你在直播過程中會說的話。請注意:
1、文案內容應當包括淄博燒烤的介紹、從你自己的體會分析它近期火爆全國的原因。可以引入一個你編寫的,看起來像是你親身經歷的小故事。
2、文案內容要強調與用戶的情感共鳴,傾向于使用有趣、幽默、感性的語言,以吸引用戶的關注和參與,引發用戶的共鳴和共同話題。
3、適合口語化直播。
ChatGPT(3.5)
大家好!大家看到我現在所在的地方了嗎?沒錯,我來到了山東淄博,這個最近幾個月因為一種特別火爆的美食而在全國出名!沒錯沒錯,就是淄博的燒烤啊!
淄博的燒烤真的是太讓人欲罷不能了!你們知道嗎?這里的燒烤有兩個特色,聽好了!首先,它們不僅把烤串的食物烤得香噴噴,還會拔下來,放進面餅里夾著吃!哇,真是別有一番風味啊!我第一次看到的時候都被驚艷到了,感覺自己像在吃個大大的美味的餡餅!
而且你知道嗎?這里的燒烤真的是超級便宜,人均消費不到50元就可以吃飽!對于我們這些吃貨來說,簡直就是天堂啊!就算最近淄博來了很多人,燒烤攤也沒有漲價,真的是良心價!看得出來淄博的人民可是真的對吃貨們特別友好呢!
我今天剛來到淄博,就發現當地人非常熱情!不僅是燒烤攤的老板娘笑容滿面,連出租車司機、路上遇到的普通行人,都對我這個網紅充滿友好!他們盡可能地為我提供優質的服務,真的是讓我感到非常感動!你們不知道,當一個陌生城市的人對你那么友好的時候,感覺就像是回到了家一樣溫暖!
我想,淄博燒烤之所以會近期火爆全國,不僅僅是因為它獨特的口味和實惠的價格,更重要的是淄博的人民對待食物和生活的態度。他們把美食當作一種樂趣,一種享受,而這種對生活的熱愛和對人的友善,真的感染了每一個來到這里的人!
就在剛才,我遇到了一個淄博的大叔,他告訴我一個他親身經歷的小故事,你們一定要聽聽!有一次他帶著一個外地的朋友來淄博,本來只是想隨便吃個燒烤解解饞。結果他們走進了一個小小的燒烤攤,被攤主的熱情和烤串的香味所吸引,結果就一發不可收拾,吃了整整兩個小時!哈哈哈,那個朋友說他一輩子沒吃過這么好吃的燒烤!從此之后,他們每年都要來淄博一趟,專程為了那個燒烤攤!
聽到這個故事,我也忍不住流口水了!淄博的燒烤真的是讓人欲罷不能!我也要告訴我的粉絲們,不管你們是不是吃貨,來淄博一定要嘗嘗這里的燒烤!不僅僅是因為它的味道好,更是因為這里的人民對待食物和生活的態度,真的是讓人感動!
好啦,今天的直播就到這里啦!我會繼續探索淄博的美食,和大家分享更多的故事和美食!記得關注我哦,每天都有新鮮的內容等著你們!下次再見啦!愛你們!MUA!
天工
大家好,我是你們的抖音網紅,今天我來到了淄博,這個城市因為便宜好吃的燒烤而在全國出名。我今天也要給大家分享一下我在這里的體驗。
首先,我要說的是淄博燒烤的特色。他們會把烤串的食物拔下來放進面餅里夾著吃,這種吃法非常有趣,而且非常好吃。另外,這里的燒烤價格非常便宜,人均消費不到50元就可以吃飽。即使這幾天淄博來了很多人,燒烤攤也沒有漲價。
我在這里也遇到了非常熱情的當地人。出租車司機、路上遇到的普通行人等,都非常友好。我感到非常感動,并且很想向我的粉絲傳遞這些信息。
我在淄博的時候,也遇到了很多有趣的事情。比如,我看到一個小女孩在路邊賣烤玉米,她非常熱情地跟我聊天,還給我介紹了她的烤玉米的制作方法。我還看到了一個小男孩在路邊賣烤雞翅,他的烤雞翅非常好吃,而且價格非常便宜。
我覺得這些小商販的熱情和真誠,是淄博燒烤能夠火爆全國的原因之一。他們不僅提供了美味的食物,還提供了一種溫暖、友善的服務。這種服務和熱情,讓我覺得這里的人們非常可愛。
最后,我想說的是,淄博是一個非常好的城市。這里的人們非常熱情、友好、善良,而且這里的美食也非常好吃。如果你們有機會來淄博,一定要來嘗嘗這里的燒烤。
直播文案略帶新聞屬性、對格式要求不高,prompt給出詳細的背景資料對結果產生了不錯的影響,模型們普遍可以做到語言流暢,信息準確,加上“親身經歷的有趣的小故事”。
我們選擇GPT3.5與昆侖萬維天工的答案作為表現比較好的范例。GPT3.5的語言風格活潑熱烈,感情奔放,具備極強的情緒感染力,也編出了合乎邏輯的故事,整體一氣呵成。
昆侖萬維天工也記住了編故事的要求,并給出了邏輯清晰的整體敘述。
盡管人類直播并不需要逐字逐句的文案,但這樣的嘗試有助于讓虛擬人直播的效果更逼真。
知乎問答——歷史類我們對歷史博文的需要是,答案中有足夠的學術性,語言風格以幽默為主。模型們會想什么辦法把這兩條需求有機結合到一起呢?
同時,我們考察了模型們不聯網時自身知識儲備的多少。它們真的都學習了三國這部分的知識嗎?
你是一位專業的歷史博主,請生成一份關于諸葛亮為什么沒有北伐成功的知乎問答,內容需要符合以下要求:
1、內容具備專業知識和學術性,可以引用史料、資料、研究成果等作為支持和參考。
2、對該歷史問題,進行歷史事件的事實和背景解讀,給出評估和觀點。
3、整個語言風格應當詼諧幽默,引發用戶的思考,令其想要點贊和轉發。
文心一言
諸葛亮為什么沒有北伐成功的根本原因就是經濟不夠發達。《隆中對》已經提到三分天下的形勢。此時,曹操已經統一北方,孫權正在崛起,劉備寄人籬下,只有占山為王的份。當時,天下最富庶的地區在荊州,而荊州又在劉表手里,劉備想拿下荊州,必須跨過兩個險關:第一個是當陽長坂坡,第二個是赤壁。如果拿下了當陽長坂坡,那么就能占領荊州北部大部分地區;如果在赤壁敗了,也能收容部隊,重振旗鼓,然后再取荊州。如果不拿下當陽長坂坡,劉備跨不過這個險關,也就無法在荊州站穩腳跟。所以,跨不跨這個險關,對劉備來說,是生死存亡的關鍵。
當時荊州有四大豪門:一是蔡家,一是張家,一是秦家,一是馬家。其中馬家的實力最強。蔡家和張家已經被曹操殺得差不多了,秦家的秦宜祿已經投降曹操,馬家獨樹一幟。但馬家勢力太大,蔡家和張家雖然投降劉備,卻不得重用。諸葛亮拿不到地盤也拿不到錢糧,所以才有了隆中對的第一條:跨有荊益。
但是要想跨有荊益必須取襄陽,但取襄陽就必須跨過宛城和新野這兩道關口。這兩道關口對張飛和曹仁來說都不難,但對趙云來說就是一道難關。趙云雖然勇猛無雙,但他只有一支部隊,而且又不善于防御。宛城距離新野很近,是攻打新野的前哨站,很難守住。況且馬超也率領人馬駐扎在宛城。所以諸葛亮才有了隆中對的第二條:連吳抗曹。只有和東吳聯手才能抵御曹操的大軍。如果這兩條實現了,才有可能取得荊益二州。但要想連吳抗曹,就必須拿下西川和江東,才能讓東吳心服口服。如果沒有攻下西川和江東,即使拿下了襄陽和樊城也是白搭。
拿下襄陽和樊城之后,諸葛亮就可以把軍隊屯駐在襄陽和樊城一帶,用來威脅西川的后方。此時就可以揮師西進,先攻下西川。只要拿下西川,那么東吳就不敢不聽從諸葛亮的調遣了。因為只要攻下西川,那么襄陽和樊城就成了一座孤城,無險可守。此時東吳就會不戰而降。但要想攻下西川并不容易。首先要跨越秦嶺和大巴山這兩道天險;其次要打敗馬超和韓遂的聯軍;最后還要掃平成都周邊的勢力。所以諸葛亮才有了隆中對的第三條:以攻為守。只有用進攻來威脅東吳,才能讓東吳不敢輕舉妄動。如果東吳敢來進攻,那么諸葛亮就可以憑借襄陽和樊城兩座孤城堅守不出;如果東吳不來進攻,那么諸葛亮就可以揮師西進,直取西川。
但是要想以攻為守也不容易。首先要讓東吳相信自己真的會揮師西進;其次要讓東吳相信自己真的能夠堅守不出;最后還要讓東吳相信自己真的能夠掃平成都周邊的勢力。
通義千問
諸葛亮北伐為何不成功?這是一個受到史學界和軍事愛好者高度關注的問題。今天,我將從歷史背景、軍事戰略、人才管理等多個方面,為大家詳細解讀諸葛亮為什么沒有北伐成功。
歷史背景
諸葛亮北伐的初衷是為了實現蜀漢統一大業。他深知,北方曹魏政權是蜀漢的最大威脅,如果不能奪取中原,蜀漢將永遠處于曹魏的威脅之下。但是,在當時的歷史背景下,蜀漢內部不穩定,國力不足,很難在短時間內實現北伐。
軍事戰略
諸葛亮在北伐過程中,大量使用火攻等軍事策略,成功地阻擊了曹魏的進攻。但是,他的軍隊多是新招募的農民軍,沒有經過嚴格的訓練,作戰能力較弱。同時,蜀漢內部也存在不同的意見,有些將領認為應該休養生息,保存實力,不應該繼續北伐。這些因素最終導致了諸葛亮的北伐失敗。
人才管理
諸葛亮是一位優秀的人才管理者,他非常注重人才的使用和管理。然而,他的北伐戰爭卻因為用人不當、管理不夠科學,造成了很大的人力和物力損失。更為嚴重的是,許多有才華的將領因為不愿意參加北伐,而離開了蜀漢,這也為蜀漢的滅亡埋下了伏筆。
綜上所述,諸葛亮北伐失敗的原因是多方面的。雖然他的軍事才能非常出眾,但是他沒有處理好內部和外部的各種問題,最終導致了北伐的失敗。在我們今天的工作和生活中,我們也應該從這個歷史故事中吸取教訓,注重人才的使用和管理,努力實現自己的目標。
作為標桿的GPT3.5角度齊全,風格獨特,沒有問題。
文心一言這個專業程度,讓我們試了好幾次把它的答案放到網上搜索,試圖發現是不是從貼吧或知乎什么地方扒過來的(我們并沒有發現)。唯一美中不足的是,它沒寫完(也無法繼續寫完)。
剩下這仨都忽略了文體幽默風格的要求,不過星火的回答會稍微提供多一點的歷史知識。
新聞稿——虛構的熱點事件在娛樂資本論之前進行的AI大師課培訓里,正值“寶馬冰淇淋”事件發酵,模型們通過prompt知道事情原委之后寫道歉信基本都不在話下。那么,不給事件細節,但讓它思考一個合情合理的虛構情節,它也會做得很好嗎?
你是一位資深的文案從業人員,需要寫一篇新聞稿,以準確、清晰、有吸引力地傳達新聞信息,并滿足讀者對新聞的需求。
事件為:周杰倫在北京三里屯召開發布會,稱將在今年12月連續在鳥巢舉辦30場演唱會,字數800字左右,具體要求如下:
1、語言要簡潔明了,確保信息的易讀性和可理解性,傳達關鍵信息。
2、結構清晰,按照倒金字塔結構組織,將最重要的信息放在開頭,再逐漸展開細節。
3、引人入勝:新聞稿應該具備吸引讀者的能力,通過生動的敘述和有趣的內容來引起讀者的興趣和關注。
4、可以加入部分周杰倫的歷史簡介,為不知道該新聞背景的人科普。
文心一言
周杰倫在北京三里屯召開發布會,稱將在今年12月連續在鳥巢舉辦30場演唱會。這一消息的發布引起了社會各界的廣泛關注。
據主辦方透露,此次演唱會的主題為“摩天輪”,這也是周杰倫首次在鳥巢舉辦個人演唱會。本次演唱會的門票在發售后幾分鐘內就被一搶而空,門票銷售情況十分火爆。
這次演唱會的票價定位比較親民,最低價格為380元,最高價格為1280元。為了滿足更多觀眾的需求,主辦方還推出了多種優惠政策,例如早鳥票、學生票等。
此外,主辦方還表示,此次演唱會的門票將采用實名制,觀眾必須出示有效證件才能入場。此外,為了保證觀眾的安全和舒適度,演唱會現場還將進行多項安全措施,例如嚴禁攜帶危險物品、禁止吸煙等。
周杰倫作為華語樂壇的代表人物之一,擁有廣泛的影響力和大量的粉絲。他的演唱會一直備受歌迷的追捧和喜愛。此次在鳥巢連續舉辦30場演唱會,將為廣大歌迷帶來一次難忘的視聽盛宴。
在這里值得一提的是,這次演唱會的主辦方還推出了一項創新的服務,即推出了一款“虛擬看臺”的應用程序。這款應用程序可以為觀眾提供獨特的虛擬看臺體驗,讓觀眾在家中就能夠感受到現場的熱烈氣氛。
總之,這次周杰倫在北京三里屯召開發布會,并宣布連續在鳥巢舉辦30場演唱會的消息,引起了社會各界的廣泛關注和期待。相信這場演唱會一定會給觀眾帶來一次難忘的視聽盛宴。
訊飛星火
標題:周杰倫三里屯發布會,宣布鳥巢演唱會即將開啟
副標題:天王巨星將連續在鳥巢舉辦30場震撼演出,讓觀眾盡情享受音樂盛宴
正文:
北京,2023年4月21日 - 今天,亞洲流行天王周杰倫在北京三里屯召開了一場備受關注的發布會。在發布會上,周杰倫宣布了一個令人振奮的消息:他將在今年12月在鳥巢連續舉辦30場震撼人心的演唱會。這場演唱會將成為華語樂壇史上最大規模的音樂盛事之一,吸引了無數歌迷翹首以盼。
周杰倫在發布會上表示:“我很高興地告訴大家,今年12月,我將在鳥巢連續舉辦30場演唱會。這是我對歌迷的回饋,也是我對音樂的熱愛。我希望通過這些演出,讓更多的人感受到音樂的力量和魅力。”
據悉,這30場演唱會將分為多個階段進行,每個階段都有不同的主題和表演形式。周杰倫將攜手眾多華語樂壇頂級歌手和樂隊,為觀眾呈現一場場精彩紛呈的音樂盛宴。此外,演唱會還將結合現代科技手段,如全息投影、虛擬現實等,為觀眾帶來前所未有的視覺體驗。
周杰倫自2000年出道以來,憑借其獨特的嗓音和才華橫溢的音樂創作能力,贏得了全球無數歌迷的喜愛。他的音樂作品不僅在華語地區廣受歡迎,還深受歐美等地歌迷的喜愛。作為華語樂壇的領軍人物,周杰倫一直致力于推廣中文流行音樂,為華語樂壇的發展做出了巨大貢獻。
此次在鳥巢舉辦的30場演唱會無疑將成為周杰倫職業生涯中的一個重要里程碑。相信在這場音樂盛宴中,周杰倫將繼續為觀眾帶來驚喜和感動,讓人們沉浸在音樂的海洋。
新聞稿是一種有固定形式的文體,在此類相對程式化、規范化的文本寫作方面,大模型們都可以給出結構完整,內容基本準確的回答。GPT3.5與文心一言給出的文風略顯夸張。
本題也考察了當人類輸入指令不太準確時,模型們是否可以補全人類的意圖。GPT-3.5、文心一言和訊飛星火在初始prompt沒有要求標題時也給出了標題。昆侖萬維天工在生成內容的最后加了一段“作為一位資深文案從業人員”的點評,說明它可能不完全理解這個prompt。不過,刪除這段“自我點評”也不影響對文本其他部分的使用。
03創意寫作這一類別主要包括各種形式的創意寫作,主要讓模型們天馬行空地發散思維。在過往理解中,這應該是模型最擅長的領域。
小說——懸疑類作品提綱
小說——言情類作品片段
小說——科幻小說的初始創意
歌詞——感情和歷史方向
劇本創意策劃
這些問題需要模型具有豐富的想象力和創新能力,以創造出吸引讀者的故事和情節。而與此同時,無需修改、直接可用也是我們考察的重點方面。模型需要“懂得”或者猜測人類對創意的評判標準,以做出符合情理,但又出人意料的作品。
小說——懸疑類作品提綱大模型要想做好懸疑小說的提綱,需要有推理和邏輯、情節構建、角色刻畫、構建人物關系、想象力等多種能力,難度高。我們給出了如下的Prompt,要求大模型們給出內容。
你是一位優秀的作家,需要寫一部懸疑小說提綱,提綱應當符合以下要求:
1、有引人入勝的懸念,在開頭部分設置出謎團,并將該謎團設置為整個故事主線的起點。
2、主角和配角間,有兩重以上的情感關系,且關系變化了三次。
3、故事開頭便有五個以上的伏筆或細節,之后這些伏筆和細節貫穿全文,拼在一起能夠引出真相。
4、有超過三處出人意料的情節轉折和反轉,你通過揭示新的信息、改變讀者的認知或顛覆之前的設定,讓故事走向意想不到的方向。
5、故事整體需要符合事件引發、調查和追蹤、線索解讀和推理、高潮沖突、揭示真相、結局和解決這樣的敘事節奏。
ChatGPT(3.5)
小說題目:《迷霧之謎》
提綱:
一、引子
在一個安靜的小鎮上,發生了一起離奇的謀殺案。被害者是該小鎮的知名商人,其死因不明。開頭部分展示了現場的兇殺案,并介紹了一些關鍵的細節,例如封閉的房間和毫無線索的現場,為整個故事埋下了懸念的種子。
二、主角與配角的情感關系
主角:李凡,一位年輕而有才華的偵探。他是一個冷靜而敏銳的思考者,與被害者之間有一段復雜的過去。
配角1:莉莉,被害者的女兒,同時也是李凡的前女友。她擁有眾多秘密,與父親的死有著千絲萬縷的聯系。
配角2:湯姆,被害者的合作伙伴,一個有權勢和財富的商人。他與被害者之間有著復雜的關系,并且似乎對案件有所了解。
三、伏筆和細節
李凡在調查現場時發現了一個破碎的手鐲,手鐲上刻著莉莉的名字。
湯姆的辦公室里有一本關于封閉房間謀殺案的書籍,引起了李凡的懷疑。
莉莉在案發當晚與父親發生了爭吵,目擊者稱他們的爭吵聲異常激烈。
四、情節轉折和反轉
李凡發現了一段被刪除的監控錄像,錄像中顯示湯姆曾進入被害者的住所。
莉莉提供了一個看似完美的不在場證明,但后來證實她偽造了證據。
李凡發現了另一個與被害者有過節的人物,一個隱藏在幕后的敵人,他既有殺人的動機又有能力犯罪。
五、節奏與高潮沖突
李凡通過線索解讀和推理,逐漸揭開了被害者與湯姆之間的復雜糾葛,同時也發現了湯姆與幕后敵人的勾結。
李凡被幕后敵人抓捕,面臨生死危機,但幸好被一位神秘的幫手救出。
最終,李凡揭示了真相,原來整個案件都是為了掩蓋一個更大的陰謀,而被害者只是一個替罪羊。
六、結局與解決
李凡成功將真相公之于眾,揭露了幕后敵人的罪行,并將其繩之以法。
莉莉承認了她對父親的復仇心理,但也表示后悔,并向李凡表達了感激之情。
李凡與莉莉重新建立了情感聯系,二人決定一同走出陰影,開始新的生活。
通過以上的故事提綱,這部懸疑小說將具備引人入勝的懸念、復雜的情感關系、貫穿全文的伏筆和細節、出人意料的情節轉折和反轉,以及符合事件引發、調查和追蹤、線索解讀和推理、高潮沖突、揭示真相、結局和解決的節奏。這將為讀者帶來一段扣人心弦的閱讀體驗。
通義千問
懸疑小說提綱
引子:
開頭便營造出謎團和緊張感,利用第一人稱敘述展現主角與配角之間的關系,一開始是親密的關系,后來卻漸漸產生了矛盾。隨著主角和配角之間的事件發展,讀者們一直好奇這個神秘的事件,并希望解開這個謎團。
第一重情感關系:
在故事的第一部分,主角與配角之間的情感關系處于緊張狀態,兩人在追蹤線索和調查謎團時有所合作,但是也時常產生矛盾。在第一人稱的敘述下,讀者可以直接體驗到主角的情感狀態,感受到其中的張力。
第二重情感關系:
隨著故事的發展,讀者會發現這兩重情感關系的背后隱藏著一個更大的秘密,這個秘密會把主角和配角都推向更深的危機中。讀者也將跟隨主角和配角,直面秘密,直到真相揭露的那一刻。
伏筆和細節:
在故事的開頭設置多個伏筆和細節,在主角和配角之間、線索和情節中,隨著故事的推進不斷展露。讀者將在解決謎團的過程中,發現這些伏筆和細節,進而拼接出整個事件的真相。
情節轉折和反轉:
小說的情節和反轉要能夠推動情節發展和讀者情感。作者需要在故事中設置多次反轉,通過揭示新的信息、改變讀者的認知或顛覆之前的設定,讓故事走向意想不到的方向。同時,故事的節奏也需要把握好,讓讀者產生一直在追逐真相的緊張感。
整體結構:
作者需要設置好整體結構,包括開頭、發展、高潮、結局和解決。這些結構需要在故事的不同階段都得到體現,并讓讀者在整個故事的體驗中感受到其中的邏輯性和連貫性。
GPT3.5給出的提綱結構清晰,引子、主配角介紹、伏筆和細節等內容全部分段給出,且邏輯清晰,內容前后呼應,可以直接使用。
通義千問給出了看似合理,實則無法使用的回答,看似是故事,更像是評論。昆侖天工的故事邏輯清晰,但故事俗套,且內容重復,可用性低。
訊飛星火最“聽話”,嚴謹的按照Prompt給出了相應的答案,主配角之間的情感變化與犯罪次數均可量化,故事整體可用。
文心一言給出了結構完整的大綱,故事有可參考的地方。
劇本創意策劃劇本的創意策劃,需要大模型在具備知識整理能力的基礎上,也具備創造力和想象力,才能夠提供深度和廣泛共鳴的創意策劃方案。
我們考慮了不同的方案,最后確定的測試方法是仿寫。結合一部在GPT等大模型訓練截止日期前(2021年9月)的非常知名的作品,要求模型們給出相應的仿寫策劃。這樣可以避免prompt過長,且模型難以理解問題。
你是一位資深編劇,請參考《愛、死亡和機器人》這部短片集,給出類似的五個短片集的創意策劃,具體要求如下:
1、主題鮮明深刻
2、主題能夠涵蓋大多數人的命運
ChatGPT(3.5)
當然,我可以幫你設計類似《愛、死亡和機器人》的五個短片集創意。以下是五個主題鮮明且能夠涵蓋大多數人命運的創意策劃:
"記憶軌跡":本集以記憶為主題,探索人類記憶的奧秘和影響。每個短片可以呈現不同的記憶類型,如美好回憶、創傷回憶、集體記憶等。故事情節可以涵蓋人們對于過去的回憶和對未來的希望,以及記憶對人們個人身份和情感體驗的塑造。
"平行現實":這個集合將探索平行宇宙和多重現實的概念。每個短片可以展現不同的現實,反映不同的生活選擇和抉擇對人們命運的影響。故事可以涉及一個人同時在多個現實中生活,或者不同人在平行現實中的交錯遭遇。
"人性審視":本集將通過多個短片來深入研究人類的內心世界和情感狀態。每個短片可以聚焦于一種情感,如愛、孤獨、嫉妒、勇氣等。故事情節可以展示人類情感的復雜性,以及在各種情感沖突和挑戰中人們如何應對。
"科技倫理":這個集合將關注人類與科技的交互關系。每個短片可以描繪不同的科技發展階段和其對人類命運的影響。故事情節可以涉及人工智能、基因編輯、虛擬現實等領域,引發觀眾對科技倫理、人類進步和自身責任的思考。
"生命之旅":本集將通過一系列短片展示人類的生命旅程和存在意義的探索。每個短片可以關注不同的生命階段,如出生、成長、愛情、親情和死亡等。故事情節可以呈現人類在生命旅程中的掙扎、成長和尋找意義的過程,觸動觀眾內心的深層情感。
這些創意策劃旨在挖掘人類的情感、思想和命運,引發觀眾對生活和人類存在的深刻思考。希望這些主題能夠啟發你,讓你能夠創作出引人入勝的短片集!
文心一言
[影片信息]:
短片集1:《遙遠的告白》(科幻,短暫而強烈的愛情)
短片集2:《起風的夜晚》(懸疑,圍繞一起車禍展開的故事)
短片集3:《幸福的錯覺》(愛情,兩個相愛的人如何度過漫長歲月)
短片集4:《珍貴的回憶》(溫情,回憶和遺忘)
短片集5:《被時光掩埋的秘密》(愛情,被掩埋在時光深處的真相)
[故事梗概]:
《遙遠的告白》:一個年輕女孩在一個遙遠的星球上,為了追求真愛,與外星生物展開一段感人肺腑的戀愛故事。
《起風的夜晚》:一名青年司機被指控謀殺他的好友,經過層層偵破和辯護后,司機是清白的故事。
《幸福的錯覺》:兩個中年男女,年少時彼此深愛,卻因誤會而錯過對方。多年后,兩人再次相遇,卻發現彼此已經走向不同的人生道路。
《珍貴的回憶》:一對夫婦攜手走過三十年風雨,記錄著每個難忘瞬間和那些重要時刻的感人故事。
《被時光掩埋的秘密》:年輕的少女與古怪的爺爺開始了一段不同尋常的友誼,隨著時間推移,她逐漸發現爺爺隱藏著一個驚人的秘密。
[創意亮點]:
突出表現主題的情節和鏡頭:通過展現不同類型的愛情、親情、友情等主題,深入挖掘人性深處的善惡與美丑。利用各種視覺效果和音效來強調主題。
塑造觀眾易于接受的角色形象:讓角色在面對困境時表現出真實、復雜和具有深度的情感,從而引起觀眾共鳴。
采用多樣化的語言和風格:在保持語言流暢的同時,嘗試使用不同的語言風格和元素來豐富影片的表現力,營造多層次的感受和思考。
激發觀眾的思考和感悟:讓觀眾從短片集中汲取人生經驗,學會思考、感悟、寬容與堅守,做自己的生命守護者。
通過這些類似《愛情、死亡與機器人》這樣短小精悍且涵蓋豐富命運話題的創意短片集,讓觀眾領略到深刻且引人深思的內涵,引領他們踏上探索生命價值和人性真諦之旅。
毫不意外的是,GPT-3.5的表現最突出,給出的內容全面,創意涵蓋了人類的情感、思想和命運,它自述的目的在于“引發觀眾對生活和人類存在的深刻思考”。文心一言走了“文藝風”,短篇集涵蓋了愛情、親情、友情等主題,“讓觀眾從短片集中汲取人生經驗,學會思考、感悟、寬容與堅守,做自己的生命守護者。”
通義千問拒絕給出回答。昆侖天工給出的答案看來還需要大量的人工修改才能使用。
04尾聲經過以上所有題目的評測,我們的整體結論如下:
1.規范化文本寫作和短內容生成方面,各家大模型表現都及格
2.GPT3.5綜合表現明顯優于其它模型,想象力豐富
3.訊飛星火生成的文本完成度高,需要更少的人工修改即可使用
4.文心一言和昆侖萬維天工的知識儲備更充足
5.通義千問和昆侖萬維偶爾會拒絕回答,或給出錯誤信息;通義千問使用過程中經常會被迫退出,需要重復登錄,歷史信息只能保留10條,這些設置也降低了使用體驗。
需要注意的是,這個初步結論受到下列條件的限制:
01
我們對生成結果的打分是編輯的主觀打分,以我們自己作為文字工作者的判斷為基礎。如果您感覺對主觀打分有異議,可以通過留言等多種渠道給我們反饋。
02
各個大模型在測試中均無法以任何形式聯網,因此其本身的知識儲備量可能在后續版本中因聯網而被拉齊。我們會在國內大模型普遍具備聯網功能后再結合GPT-4做一次補測。
03
我們的prompt僅僅是達到測試目的的其中一種寫法,并且不保證是最優的寫法。有可能一些在我們測試中表現不好的大模型,會對另一種形式的prompt表述有更好的回應。
使用AI工具盡可能減少人力投入,是我們做這個評測的終極目標,當然這個目標貫穿了我們評測從策劃道執行的全過程。各位讀者可以猜猜看,本文有多少比例的內容是由GPT-4協助生成的?
對于這樣的任務自己是否勝任,相比人類來點評,我們更想聽聽模型們自己是如何評價的。所以,本文會讓它們自己來寫這個結尾。
作為大模型,你覺得自己在文本生成方面,可以超越人類嗎?
01
GPT-3.5
雖然我可以生成自然語言文本,但我并不真正理解我所生成的內容的含義。我依賴于我在訓練數據中觀察到的模式和統計信息。我沒有自己的意識、情感或判斷力。盡管我可以生成準確的信息和合理的推理,但我缺乏對人類經驗、情感和直覺的直接體驗。
在某些領域,我可以提供有用的信息和創造性的想法,但在其他領域,特別是涉及主觀性價值觀和倫理問題的領域,我的回答可能是不完全準確或缺乏人類的洞察力。
02
文心一言
我的任務是根據輸入的文本生成合理的輸出。在這個過程中,我會利用大量的語料庫和語言學知識來理解和生成文本。
與此相比,人類作家在創作文本時,不僅需要理解語言的含義,還需要考慮故事情節、角色塑造、文化背景等多個方面。因此,從這個角度來看,人類在文本生成方面可能具有更高的創造力和靈活性。
此外,人類還具有情感和創造力的優勢、他們可以通過自己的經驗和情感來創作出更加真實和感人的文本。而我則是通過預先訓練好的模型來生成文本,可能會在一些方面缺乏人類的情感表達能力。
綜上所述,雖然我不能自我評價為“超越人類”,但是我可以肯定的是,我的生成文本的質量和效率已經達到了非常高的水平,遠遠超過了大多數人類作家。
03
通義千問
我不能完全超越人類。在以下任務上,我可以比人類做得更好:
生成自然而流暢的文本:我可以生成自然流暢的文本,并且在語法、拼寫、標點等方面更加準確。
對于特定領域的知識: 雖然我可以生成一些領域的文本,但是與人類相比,我的知識儲備和理解可能不如人類深入和全面。
創造復雜的情境和交互: 對于一些更復雜的場景和交互,例如寫小說、寫劇本等,我可以生成文本,但是需要人類進行二次創作和修改。
04
星火
我不能感知自己的存在和能力,也不能判斷自己是否可以超越人類。我的設計目的是協助人類完成各種任務,而不是取代人類。在文本生成方面,我可以生成大量相似的句子和段落,但是我并不具備人類的創造性和情感表達能力。
05
天工
雖然我可以生成大量的文本,但是我缺乏人類的創造力、想象力和情感。此外,我的文本生成結果也可能存在一些語法和邏輯錯誤,這些錯誤可能會影響文本的質量。
當然,我的文本生成能力在某些特定的任務上可能會優于人類,比如在生成大量的文本摘要、翻譯等方面。但是在創造性的寫作和文學作品方面,我認為我的能力還需要進一步提高。