2024大語言模型綜合能力測評

來源：InfoQ 研究中心時間：2024-01-19 13:27:42 作者：

　　進(jìn)入 2023 年下半年，國內(nèi)的大型模型已經(jīng)進(jìn)入了一個顯著的成長階段。不僅模型的數(shù)量呈現(xiàn)出爆炸式的增長趨勢，而且模型的質(zhì)量也在持續(xù)提升。隨著首批國產(chǎn)大型模型完成備案并向公眾開放，這些模型正在越來越多地進(jìn)入用戶的視野和認(rèn)知中。

　　據(jù)最新統(tǒng)計數(shù)據(jù)顯示，在目前的市場上，GPT 系列大型模型和百度文心大型模型已經(jīng)穩(wěn)居第一梯隊，受到了廣泛的關(guān)注和應(yīng)用。近半數(shù)的受訪開發(fā)者表示，他們了解或使用過這兩款模型，這充分證明了它們在行業(yè)內(nèi)的領(lǐng)先地位和影響力。

　　而阿里通義大型模型、LLaMA 2、訊飛星火大型模型、華為盤古大型模型以及智譜 Chat GLM 3 大型模型則構(gòu)成了第二梯隊。這些模型也受到了不少開發(fā)者的關(guān)注和使用，超過五分之一的受訪者表示了解或使用過它們。

　　此外，還有一批新興的大型模型正在嶄露頭角，它們包括百川大型模型、Stable Video、Diffusion、昆侖萬維天工大模型、360 智腦大型模型、MOSS 大型模型、智源悟道大型模型以及商湯科技的商量 Sense Chat 等，這些模型共同構(gòu)成了第三梯隊。

　　測評結(jié)果

　　相較于 2023 年 5 月的測試結(jié)果，本次測試的整體得分率平均提升了 23.39%，各項性能均取得了明顯的進(jìn)步。反映大模型基礎(chǔ)能力的認(rèn)知和學(xué)習(xí)能力穩(wěn)步提升，歷史、地理、商業(yè)、醫(yī)學(xué)、科學(xué)等領(lǐng)域，大模型依舊保持高水平。值得一提的是，反映大模型進(jìn)階能力的題目得分率平均提升了 35.77%；文生圖、文生語音的多模態(tài)題目得分率相較于以往提高了近 20 倍，文心一言專業(yè)版、訊飛星火、ChatGPT-4 等多項產(chǎn)品開始展現(xiàn)出強(qiáng)大的多模態(tài)能力，為大模型的發(fā)展開辟了更廣闊的前景。

測評領(lǐng)域整體得分情況