自媒體人必備:文心一言、Kimi等4款A(yù)I大模型測(cè)評(píng)對(duì)比及推薦
現(xiàn)在,國(guó)內(nèi)已經(jīng)有海量大模型誕生,那么,哪款大模型的表現(xiàn)會(huì)更好?這篇文章里,作者站在自媒體人的角度,對(duì)四款大模型做了評(píng)估和對(duì)比,一起來(lái)看一下。
說(shuō)到AI,很多人會(huì)想到ChatGPT,而我們現(xiàn)在也有許多好用的國(guó)產(chǎn)AI大模型。
在2023年的中國(guó),8個(gè)月內(nèi)誕生了238個(gè)大模型,阿里、華為、騰訊、京東、字節(jié)、360、科大訊飛等一眾大廠紛紛下場(chǎng),還有復(fù)旦、清華等高校機(jī)構(gòu)加速研究,以及智譜AI、月之暗面等黑馬出現(xiàn)。
這些海量AI大模型里,子木挑選了4款市面上反響比較好的、也是我常用的AI大模型進(jìn)行評(píng)估對(duì)比,幫助你選擇適合自己的國(guó)產(chǎn)AI大模型。
本文評(píng)估的4個(gè)AI大模型
文心一言4.0、通義千問(wèn)、kimiAI、天工AI。
一、大語(yǔ)言模型的5個(gè)評(píng)估維度
對(duì)于AI大模型的評(píng)估,目前還沒(méi)有權(quán)威、統(tǒng)一的評(píng)估維度,我根據(jù)文案創(chuàng)作的需求、使用習(xí)慣,建立了自己的AI大模型內(nèi)容創(chuàng)作評(píng)估維度:
1. 語(yǔ)言質(zhì)量與創(chuàng)意性
這是用AI創(chuàng)作中最關(guān)注的部分,體現(xiàn)AI寫出來(lái)的內(nèi)容質(zhì)量。
它包括:
文本流暢度,用來(lái)評(píng)估AI生成的文案是否自然流暢,語(yǔ)法正確,符合人類日常交流習(xí)慣,我會(huì)用主題文章、簡(jiǎn)歷撰寫這兩個(gè)題目來(lái)進(jìn)行測(cè)試評(píng)估;
個(gè)性化內(nèi)容,用來(lái)評(píng)估AI是否可以根據(jù)我們輸入的個(gè)性化要求,比如語(yǔ)氣、風(fēng)格等等來(lái)定制文案,滿足不同的創(chuàng)作需求,我會(huì)用不同人物介紹同一個(gè)事物的2個(gè)問(wèn)題來(lái)進(jìn)行測(cè)試評(píng)估。
2. 領(lǐng)域適應(yīng)性
用來(lái)評(píng)估AI模型是否具備特定行業(yè)或領(lǐng)域的專業(yè)知識(shí),能否生成相關(guān)性強(qiáng)、準(zhǔn)確無(wú)誤的文案內(nèi)容,我比較關(guān)注的是新媒體、教育培訓(xùn)行業(yè),所以我一般會(huì)用這兩個(gè)行業(yè)的代表性問(wèn)題來(lái)進(jìn)行測(cè)試評(píng)估,這一塊每個(gè)行業(yè)的問(wèn)題不一樣,大家可以根據(jù)自己的行業(yè)來(lái)設(shè)計(jì)問(wèn)題。如果有需要的話,也可以提問(wèn)或聯(lián)系我交流。
3. 邏輯性
用來(lái)評(píng)估AI創(chuàng)作內(nèi)容的邏輯性,我會(huì)用公務(wù)員考試常用的邏輯推理題,和故事的續(xù)寫這兩個(gè)問(wèn)題來(lái)測(cè)試評(píng)估,邏輯推理題是看它的推理過(guò)程,結(jié)果是否正確,而故事的續(xù)寫,看情節(jié)是否合理、人物的行為是否符合邏輯。
4. 時(shí)效性
時(shí)效性決定了AI生成內(nèi)容時(shí)是否能用到最新的案例或事件、我們?cè)谟肁I尋找資訊時(shí)是否能給到最新的信息。我會(huì)用最新的熱點(diǎn)事件、1個(gè)月前、3個(gè)月前的3個(gè)不同問(wèn)題,來(lái)評(píng)估測(cè)試AI的時(shí)效性。
5. 成本與易用性
AI作為一個(gè)輔助工具,是不是方便使用、使用成本如何,也是我們需要考慮的點(diǎn)。
二、4款國(guó)產(chǎn)大模型對(duì)比
1. 大模型簡(jiǎn)介
- 文心一言4.0:是百度推出的知識(shí)增強(qiáng)大語(yǔ)言模型,可以輸出文本內(nèi)容,也可以生成圖片。
- 通義千問(wèn):是阿里云發(fā)布的千億級(jí)參數(shù)大模型,可以分析文檔,提煉文檔的關(guān)鍵信息。
- KimiAI:月之暗面開(kāi)發(fā)的大模型,可以上傳PDF、word、ppt、圖片等多種格式的文檔,還可以分析網(wǎng)頁(yè)內(nèi)容,比較有意思的是,還能直接訪問(wèn)小紅書(shū)的鏈接,抓取內(nèi)容進(jìn)行總結(jié)。
- 天工AI:昆侖萬(wàn)維開(kāi)發(fā)的雙千億級(jí)大語(yǔ)言模型,它的語(yǔ)言能力也很不錯(cuò)。
2. 文本流暢度對(duì)比
我把4個(gè)大模型寫的“一花獨(dú)放不是春”命題作文內(nèi)容,給中學(xué)語(yǔ)文老師看了,滿分60分,可以打到40分以上的程度,整體表現(xiàn)都還不錯(cuò)。
文心一言4.0的文筆流暢度更高,文彩也更好。對(duì)于主題的整體理解更加準(zhǔn)確,沒(méi)有什么邏輯問(wèn)題,可以算得上是一篇文采不錯(cuò)的作文。
通義千問(wèn)的流暢度也還不錯(cuò),但是行文手法不如文心一言老練,比較中規(guī)中矩,相對(duì)文心一言4.0弱一些。
kimiAI的語(yǔ)言流暢度跟通義千問(wèn)類似,但對(duì)于主題的理解相對(duì)弱一些,文章的整體性相對(duì)最弱,有一些段落偏離了題目本身的意思。
天工AI的行文流暢、老練,只是有一兩個(gè)段落顯得有些生搬硬套,前后意思不一致,有意思的是,天工AI表現(xiàn)出了比較強(qiáng)的政治素養(yǎng),寫出來(lái)的內(nèi)容不像高考作文,而更像申論作文,做政務(wù)公文類的可以優(yōu)先考慮天工AI。
打分:
- 文心一言4.0 ? ? ? ? ?
- 通義千問(wèn) ? ? ? ?
- kimi AI ? ? ?
- 天工AI ? ? ?
3. 個(gè)性化內(nèi)容對(duì)比
四個(gè)AI大模型都能夠區(qū)分不同的口吻,同時(shí),也能夠區(qū)分不同的身份角色對(duì)于同一件事情所關(guān)注的不同的方面。
從8歲女孩的角度來(lái)介紹一輛新能源車,4個(gè)大模型都會(huì)把重點(diǎn)放在了車子是用電的、很神奇的描述上,也都用到了小孩子能理解的語(yǔ)言,用打比方的、形象化的描述來(lái)講這個(gè)車子。其中,kimi AI對(duì)于角色年齡的把握比其他三個(gè)大模型稍微弱一點(diǎn)。
而從男企業(yè)家的角度來(lái)介紹新能源車,4個(gè)大模型都選擇了將新能源車定義為這個(gè)企業(yè)家自己的產(chǎn)品,從更宏觀的角度開(kāi)始介紹這輛車,都表達(dá)了對(duì)于“未來(lái)出行”的創(chuàng)新和積極探索,側(cè)重從技術(shù)的角度來(lái)介紹。
所以在個(gè)性化內(nèi)容方面,4個(gè)大模型表現(xiàn)差不多,kimiAI要稍微弱一些。
打分:
- 文心一言4.0 ? ? ? ? ?
- 通義千問(wèn) ? ? ? ? ?
- kimi AI ? ? ? ?
- 天工AI ? ? ? ? ?
4. 邏輯性對(duì)比
AI思考邏輯測(cè)試,內(nèi)容是一道經(jīng)典的公務(wù)員考試的行測(cè)問(wèn)題。
4個(gè)AI都在很短的時(shí)間內(nèi)給出正確答案,AI參加公務(wù)員考試,估計(jì)能秒殺99.9%的人。
在回答的內(nèi)容中,文心一言給到的思路最詳盡、看起來(lái)?xiàng)l理也相對(duì)最清晰,而天工AI給到的思路最簡(jiǎn)略,沒(méi)有描述太多的思考過(guò)程,我認(rèn)為這是相對(duì)欠缺的。
AI續(xù)寫邏輯測(cè)試,內(nèi)容一個(gè)故事的續(xù)寫。
我在故事里設(shè)計(jì)了3個(gè)人物,發(fā)現(xiàn)藏寶地圖的小明、他的好朋友小帥、妹妹小美,而故事也是圍繞著尋寶的冒險(xiǎn)之旅展開(kāi),這樣,就能考察AI對(duì)于人物的設(shè)定,是否符合邏輯,以及故事線是否符合邏輯。
在這個(gè)測(cè)試中,文心一言的表現(xiàn)相對(duì)較好,發(fā)揮了較強(qiáng)的對(duì)于人物風(fēng)格的把控能力,能夠在故事中寫人物對(duì)話,對(duì)話的風(fēng)格也符合3個(gè)人物的性格設(shè)定,故事內(nèi)容更長(zhǎng),相對(duì)更細(xì)致。
而通義千問(wèn)則發(fā)揮了更多的創(chuàng)造力,賦予了人物更多不同的特點(diǎn),不過(guò)內(nèi)容更概括簡(jiǎn)短。
kimi的表現(xiàn)與通義千問(wèn)相似,也是通過(guò)賦予人物不同特點(diǎn)來(lái)塑造人物,對(duì)故事的描述更加細(xì)節(jié)一些,內(nèi)容也稍長(zhǎng)一點(diǎn)。
天工AI的內(nèi)容則更加簡(jiǎn)短,沒(méi)有把控不同的人物風(fēng)格、也沒(méi)有賦予人物不同的特點(diǎn),表現(xiàn)相對(duì)是最弱的。
打分:
- 文心一言4.0 ? ? ? ? ?
- 通義千問(wèn) ? ? ? ?
- kimi AI ? ? ? ?
- 天工AI ? ? ?
5. 時(shí)效性對(duì)比
這是我非常非??粗氐姆矫?,在內(nèi)容的創(chuàng)作中,引用時(shí)下的熱點(diǎn)資訊,對(duì)于自媒體運(yùn)營(yíng)而言,是一種重要的能力,所以我們會(huì)需要時(shí)效性強(qiáng)的AI。我用最新、一個(gè)月前、三個(gè)月前的三個(gè)問(wèn)題來(lái)進(jìn)行測(cè)試。
在這一輪測(cè)試中,表現(xiàn)最弱的,反而是曾經(jīng)的搜索巨頭百度所開(kāi)發(fā)的文心一言。
對(duì)于2月29日前的最新熱點(diǎn)“董宇輝為什么清空微博”這件事情的解釋上,通義千問(wèn)、kimi、天工三個(gè)大模型都給出了正確答案,只有文心一言給出的答案不正確。
對(duì)于一個(gè)月前哈爾濱的熱點(diǎn)、三個(gè)月前的雙十一銷售額,則4個(gè)大模型都給出了正確答案。
同時(shí),文心一言、kimi AI都給出了答案所引用的參考資料,但文心一言給的參考資料,主要都來(lái)自百度系自己的內(nèi)容,主要是好看視頻、百家號(hào),但這里存在一個(gè)bug:大語(yǔ)言模型不能解析視頻內(nèi)容,所以對(duì)于董宇輝為什么清空微博這件事情,文心一言雖然根據(jù)視頻的標(biāo)題,找到了好看視頻中的參考資料,但是因?yàn)椴荒芙馕鲆曨l內(nèi)容,找到參考資料也看不懂,就像找到一份天書(shū),仍然只能根據(jù)自己的邏輯編造一個(gè)回答。
而同樣給出了參考資料的kimi AI,對(duì)于董宇輝清空微博的事件,則引用了更新的、也更全面的資訊。它引用了最近1天的內(nèi)容鏈接,引用來(lái)源包括騰訊網(wǎng)、知乎、澎湃媒體等,搜索來(lái)源比文心一言更廣。
我在使用kimi AI搜索AI相關(guān)的內(nèi)容時(shí),它能給到的參考資料范圍也很廣、很精準(zhǔn),除了主要來(lái)源知乎之外,還會(huì)給到包括GitHub、人民數(shù)據(jù)、中國(guó)通信院,和一些可以公域訪問(wèn)的數(shù)據(jù)報(bào)告的鏈接,搜索能力和時(shí)效性是比較強(qiáng)的。
另外2個(gè)AI大模型,通義千問(wèn)和天工AI雖然沒(méi)有給到引用鏈接,但對(duì)3個(gè)問(wèn)題的回答都是準(zhǔn)確的。
所以在時(shí)效性上,kimiAI最強(qiáng),它不僅能比較大范圍地搜索到相關(guān)資訊,并且能給出引用鏈接,讓我們能夠直接通過(guò)鏈接,去判斷這個(gè)內(nèi)容的有效性、是否正確,通義千問(wèn)和天工AI相對(duì)較弱,因?yàn)椴荒芙o出引用鏈接,對(duì)我們判斷起來(lái)相對(duì)更困難一點(diǎn),最弱的是文心一言。
打分:
- 文心一言4.0 ? ? ?
- 通義千問(wèn) ? ? ? ?
- kimi AI ? ? ? ? ?
- 天工AI ? ? ? ?
6. 成本易用性對(duì)比
目前,4個(gè)AI大模型都能直接通過(guò)網(wǎng)頁(yè)鏈接訪問(wèn)到,kimiAI、文心一言、天工AI都能在微信小程序里使用,非常方便,通義千問(wèn)雖然沒(méi)有官方的小程序入口,但是使用網(wǎng)頁(yè)端也是比較方便的。在成本上,除了文心一言4.0需要49.9元的月費(fèi),或588.8元的年費(fèi),其他3款都是暫時(shí)免費(fèi)。
打分:
- 文心一言4.0 ? ? ? ?
- 通義千問(wèn) ? ? ? ? ?
- kimi AI ? ? ? ? ?
- 天工AI ? ? ? ? ?
三、總結(jié)
在實(shí)際使用中,我一般會(huì)選擇文心一言4.0加kimi AI的組合。
用kimiAI搜索資料、拓展內(nèi)容,它是我目前比較喜歡用的搜索方式,在向kimiAI提問(wèn)時(shí),我會(huì)先看它給的回答,然后看它給的參考資料,其中有哪些資料是權(quán)威、官方的,比如數(shù)據(jù)報(bào)告等,在這些資料中找一找是否有新的信息。這樣的搜索方式,比百度、小紅書(shū)、微信搜索更加精準(zhǔn)快速。
文本創(chuàng)作時(shí),我會(huì)傾向于用文心一言4.0,它生成的內(nèi)容更加流暢、符合邏輯,內(nèi)容質(zhì)量相對(duì)更高。
專欄作家
李子木說(shuō)運(yùn)營(yíng),公眾號(hào):李子木說(shuō)運(yùn)營(yíng),人人都是產(chǎn)品經(jīng)理專欄作家。自媒體及IP孵化顧問(wèn),前互聯(lián)網(wǎng)大廠品牌項(xiàng)目負(fù)責(zé)人,致力于研究企業(yè)及個(gè)人品牌影響力與獲客。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。