來源:InfoQ 研究中心 時間:2024-01-19 13:27:42 作者:
進(jìn)入 2023 年下半年,國內(nèi)的大型模型已經(jīng)進(jìn)入了一個顯著的成長階段。不僅模型的數(shù)量呈現(xiàn)出爆炸式的增長趨勢,而且模型的質(zhì)量也在持續(xù)提升。隨著首批國產(chǎn)大型模型完成備案并向公眾開放,這些模型正在越來越多地進(jìn)入用戶的視野和認(rèn)知中。
據(jù)最新統(tǒng)計數(shù)據(jù)顯示,在目前的市場上,GPT 系列大型模型和百度文心大型模型已經(jīng)穩(wěn)居第一梯隊,受到了廣泛的關(guān)注和應(yīng)用。近半數(shù)的受訪開發(fā)者表示,他們了解或使用過這兩款模型,這充分證明了它們在行業(yè)內(nèi)的領(lǐng)先地位和影響力。
而阿里通義大型模型、LLaMA 2、訊飛星火大型模型、華為盤古大型模型以及智譜 Chat GLM 3 大型模型則構(gòu)成了第二梯隊。這些模型也受到了不少開發(fā)者的關(guān)注和使用,超過五分之一的受訪者表示了解或使用過它們。
此外,還有一批新興的大型模型正在嶄露頭角,它們包括百川大型模型、Stable Video、Diffusion、昆侖萬維天工大模型、360 智腦大型模型、MOSS 大型模型、智源悟道大型模型以及商湯科技的商量 Sense Chat 等,這些模型共同構(gòu)成了第三梯隊。
測評結(jié)果
相較于 2023 年 5 月的測試結(jié)果,本次測試的整體得分率平均提升了 23.39%,各項性能均取得了明顯的進(jìn)步。反映大模型基礎(chǔ)能力的認(rèn)知和學(xué)習(xí)能力穩(wěn)步提升,歷史、地理、商業(yè)、醫(yī)學(xué)、科學(xué)等領(lǐng)域,大模型依舊保持高水平。值得一提的是,反映大模型進(jìn)階能力的題目得分率平均提升了 35.77%;文生圖、文生語音的多模態(tài)題目得分率相較于以往提高了近 20 倍,文心一言專業(yè)版、訊飛星火、ChatGPT-4 等多項產(chǎn)品開始展現(xiàn)出強(qiáng)大的多模態(tài)能力,為大模型的發(fā)展開辟了更廣闊的前景。
測評領(lǐng)域整體得分情況
與 2023 年 5 月的測評結(jié)果對比
各大語言模型測評結(jié)果
根據(jù)測試結(jié)果顯示,ChatGPT-4 的綜合能力位居第一,文心一言專業(yè)版以 82.90%的綜合得分位列榜單第二名。令人驚喜的是,文心一言的得分與 ChatGPT 得分非常接近,僅僅落后 0.42%。
具體內(nèi)容如下
責(zé)任編輯:張薇