中文大模型基準(zhǔn)測評2023年度報告

來源：SuperCLUE 時間：2023-12-29 13:47:08 作者：

　　自2023年以來，AI大模型在全球范圍內(nèi)掀起了有史以來規(guī)模最大的人工智能浪潮。國內(nèi)學(xué)術(shù)和產(chǎn)業(yè)界在過去一年也有了實質(zhì)性的突破。中文大模型測評基準(zhǔn)SuperCLUE在過去一年對國內(nèi)外大模型的發(fā)展趨勢和綜合效果進行了實時跟蹤。

　　基于此，我們發(fā)布了《中文大模型基準(zhǔn)測評2023年度報告》，在AI大模型發(fā)展的巨大浪潮中，通過多維度綜合性測評，對國內(nèi)外大模型發(fā)展現(xiàn)狀進行觀察與思考。

　　國內(nèi)大模型關(guān)鍵進展

　　1. 2023年大模型關(guān)鍵進展與中文大模型全景圖

　　國內(nèi)學(xué)術(shù)和產(chǎn)業(yè)界在過去一年也有了實質(zhì)性的突破。大致可以分為三個階段，即準(zhǔn)備期（ChatGPT發(fā)布后國內(nèi)產(chǎn)學(xué)研迅速形成大模型共識）、成長期（國內(nèi)大模型數(shù)量和質(zhì)量開始逐漸增長）、爆發(fā)期（各行各業(yè)開源閉源大模型層出不窮，形成百模大戰(zhàn)的競爭態(tài)勢）。

　　截止目前為止，國內(nèi)已發(fā)布開源、閉源通用大模型及行業(yè)大模型已有上百個，SuperCLUE梳理了2023年值得關(guān)注的大模型全景圖。

　　2. 2023年國內(nèi)外大模型發(fā)展趨勢

　　過去半年，國內(nèi)領(lǐng)軍大模型企業(yè)實現(xiàn)了大模型代際追趕的奇跡，從7月份與GPT3.5的20分差距，每個月都有穩(wěn)定且巨大的提升，到11月份測評時已經(jīng)完成總分上對GPT3.5的超越。

　　數(shù)據(jù)來源于SuperCLUE基準(zhǔn)得分（7月-12月）

　　我們可以看到GPT3.5和GPT4在中文上的表現(xiàn)情況基本一致，在11月份測評結(jié)果中顯示，在中文能力都有一定的下滑，而國內(nèi)頭部模型則展現(xiàn)了繼續(xù)穩(wěn)健提升的能力。在12月份的測評結(jié)果中可以看到，國內(nèi)第一梯隊模型與GPT4的差距在縮小。但仍有較大的距離需要追趕。

　　數(shù)據(jù)來源于SuperCLUE基準(zhǔn)得分（7月-12月）

　　說明：

　　趨勢展示，選取了7月-12月SuperCLUE-OPEN測評分?jǐn)?shù)。國內(nèi)代表性模型，選取了文心一言、通義千問、ChatGLM。原因是綜合考慮了過去半年SuperCLUE測評結(jié)果、長期穩(wěn)定迭代及對國內(nèi)大模型生態(tài)的貢獻；GPT4成績，由GPT4-API（7-9月）與GPT4-Turbo（10-12月）組成，用以表現(xiàn)國外最好模型發(fā)展。

　　大模型綜合測評結(jié)果

　　1. 測評模型列表

　　本次測評數(shù)據(jù)選取了SuperCLUE-12月測評結(jié)果，模型選取了國內(nèi)外有代表性的26個大模型在12月份的版本。

　　2. SuperCLUE模型象限

　　SuperCLUE評測任務(wù)可劃分為基礎(chǔ)能力和應(yīng)用能力兩個維度。

　　基礎(chǔ)能力，包含：專業(yè)與技能、語言與知識（不包括角色扮演）、傳統(tǒng)安全；

　　應(yīng)用能力，包括：工具使用、角色扮演。

　　基于此，SuperCLUE構(gòu)建了大模型四個象限，它們代表大模型所處的不同階段與定位，其中【潛力探索者】代表模型正在技術(shù)探索階段擁有較大潛力；【技術(shù)領(lǐng)跑者】代表模型聚焦基礎(chǔ)技術(shù)研究；【實用主義者】代表模型在場景應(yīng)用上處于領(lǐng)先定位；【卓越領(lǐng)導(dǎo)者】代表模型在基礎(chǔ)和場景應(yīng)用上處于領(lǐng)先位置，引領(lǐng)國內(nèi)大模型發(fā)展。

　　SuperCLUE模型象限

　　3. 國內(nèi)外大模型總體表現(xiàn)

　　來源：SuperCLUE， 2023年12月28日

　　國內(nèi)外差距依然明顯。GPT4-Turbo總分90.63分遙遙領(lǐng)先，高于其他國內(nèi)大模型及國外大模型。其中國內(nèi)最好模型文心一言4.0（API）總分79.02分，距離GPT4-Turbo有11.61分，距離GPT4（網(wǎng)頁）有4.9分的差距。

　　必須看到的是，過去1年國內(nèi)大模型已經(jīng)有了長足的進步。綜合能力超過GPT3.5和Gemini-Pro的模型有11個，比如百度的文心一言4.0、阿里云的通義千問2.0和Qwen-72B-Chat、OPPO的AndesGPT、清華&智譜AI的智譜清言、字節(jié)跳動的云雀大模型等都有比較好的表現(xiàn)。

　　另外國內(nèi)開源模型在中文上表現(xiàn)要好于國外開源模型，如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Chat均優(yōu)于Llama2-13B-Chat。

　　國外模型平均成績 VS 國內(nèi)模型平均成績

　　在SuperCLUE測評中，國外模型的平均成績?yōu)?9.42分，國內(nèi)模型平均成績?yōu)?5.95分，差距在4分左右。可以看出，國內(nèi)外的平均水平差距在縮小，11月差距在10分左右。

　　4. 國內(nèi)大模型競爭格局

　　通過SuperCLUE測評結(jié)果發(fā)現(xiàn)，國內(nèi)大模型的第一梯隊有了更多新的模型加入。頭部模型如文心一言4.0、通義千問2.0引領(lǐng)國內(nèi)大模型的研發(fā)進度，部分高質(zhì)量大模型緊追不舍，分別在閉源應(yīng)用和開源生態(tài)中形成自己獨特的優(yōu)勢。

來源：SuperCLUE， 2023年12月28日

　　從國內(nèi)TOP19大模型的數(shù)量來看，創(chuàng)業(yè)公司有9個，大廠有10個，占比幾乎持平。

　　從大廠和創(chuàng)業(yè)公司的平均成績來看，大廠研發(fā)的大模型平均成績?yōu)?9.42分，創(chuàng)業(yè)公司研發(fā)的大模型平均成績?yōu)?2.09分，差值約6.33分，較11月份差距在略有增大。這說明大廠在大模型競爭中長期資源投入方面有一定優(yōu)勢。

　　5. 國內(nèi)大模型歷月前三甲

　　過去八個月國內(nèi)模型在SuperCLUE基準(zhǔn)上的前三名。

來源：SuperCLUE

　　曾經(jīng)取得過SuperCLUE月榜首位的大模型有6個。分別是文心一言、BlueLM、SenseChat3.0、Baichuan2-13B-Chat、360智腦。其中，百度的文心一言登頂SuperCLUE月榜的次數(shù)最多，分別在7月、11月、12月取得了SuperCLUE最好成績。

　　我們可以看到，在國內(nèi)大模型技術(shù)發(fā)展初期階段，各家大模型公司都投入了巨大的人力、算力和數(shù)據(jù)資源，以至于每個月測評結(jié)果的前三甲都不同程度的變化，經(jīng)常會因為新發(fā)布的高質(zhì)量模型引起榜單的變化。預(yù)計未來一年同樣會發(fā)生類似的情況。也非常期待有高質(zhì)量模型能夠持續(xù)保持非常高的水準(zhǔn)。

　　6. 大模型對戰(zhàn)勝率分布圖

　　從勝率來看，全球領(lǐng)跑者GPT4-Turbo勝率為41.77%，和率為52.46%，大幅領(lǐng)先于其他模型，而敗率僅為5.77%，足以說明GPT4-Turbo對GPT3.5在各項能力上的全面壓倒性優(yōu)勢。而國內(nèi)模型中，百度的文心一言4.0勝率國內(nèi)最高，接近30%。勝率超過25%的模型有智譜清言、通義千問2.0和AndesGPT。

來源：SuperCLUE， 2023年12月28日

　　在200億參數(shù)量級的開源模型中Baichuan2-13B-Chat的勝率排在首位，展現(xiàn)出不俗的對戰(zhàn)能力。排在2至3位的是XVERSE-13B-2-Chat、Qwen-14B-Chat，同樣表現(xiàn)可圈可點。

　　從勝率分布數(shù)據(jù)可以發(fā)現(xiàn)，所有模型的和率都在50%以上。這說明國內(nèi)外大部分模型在基礎(chǔ)題目上與GPT3.5的水平相近，隨著任務(wù)難度的提升，不同模型的表現(xiàn)才會有區(qū)分度。后續(xù)的測評數(shù)據(jù)會在題目難度的區(qū)分性和評價顆粒度上加強提升。

　　7. 主觀與客觀對比

　　通過對比模型在主觀簡答題OPEN和客觀選擇題OPT上的不同表現(xiàn)，可以發(fā)現(xiàn)，國內(nèi)大模型多數(shù)擅長做選擇題。普遍選擇題的分?jǐn)?shù)會高于簡答題的分?jǐn)?shù)。