大語(yǔ)言模型綜合能力測(cè)評(píng)報(bào)告（2023）

來(lái)源：InfoQ研究中心時(shí)間：2023-05-29 17:18:06 作者：

　　ChatGPT這一現(xiàn)象級(jí)產(chǎn)品橫空出世，拉開(kāi)了大語(yǔ)言模型技術(shù)蓬勃發(fā)展的序幕。但實(shí)際上，自2017年大語(yǔ)言模型誕生，OpenAI、微軟、谷歌、Facebook、百度、華為等科技巨頭在大語(yǔ)言模型領(lǐng)域的探索持續(xù)不斷，ChatGPT只是將大語(yǔ)言模型技術(shù)推進(jìn)至了爆發(fā)階段，當(dāng)下大模型產(chǎn)品格局更是呈現(xiàn)出了新形勢(shì)——國(guó)外基礎(chǔ)模型積累深厚，國(guó)內(nèi)應(yīng)用側(cè)優(yōu)先發(fā)力。

　　2022年年末以來(lái)，人工智能大模型成為技術(shù)領(lǐng)域乃至全球創(chuàng)新領(lǐng)域最炙手可熱的話題。以ChatGPT引領(lǐng)的大模型產(chǎn)品發(fā)展日新月異，有預(yù)測(cè)數(shù)據(jù)顯示，到2030年，AIGC的市場(chǎng)規(guī)模或?qū)⒊^(guò)萬(wàn)億人民幣。2023年國(guó)內(nèi)主要廠商也相繼推出自研的大語(yǔ)言模型產(chǎn)品，另外國(guó)內(nèi)也推出了大量的大語(yǔ)言模型應(yīng)用，逐步構(gòu)建起基于中文語(yǔ)言特色的大語(yǔ)言模型生態(tài)。

　　為此InfoQ研究中心基于桌面研究、專(zhuān)家訪談、科學(xué)分析三個(gè)研究方法，查找了大量文獻(xiàn)及資料，采訪了10+位領(lǐng)域內(nèi)的技術(shù)專(zhuān)家，同時(shí)圍繞語(yǔ)言模型準(zhǔn)確性、數(shù)據(jù)基礎(chǔ)、模型和算法的能力、安全和隱私四個(gè)大維度，拆分出語(yǔ)義理解、語(yǔ)法結(jié)構(gòu)、知識(shí)問(wèn)答、邏輯推理、代碼能力、上下文理解、語(yǔ)境感知、多語(yǔ)言能力、多模態(tài)能力、數(shù)據(jù)基礎(chǔ)、模型和算法的能力、安全和隱私12個(gè)細(xì)分維度。

　　分別對(duì)ChatGPTgpt-3.5-turbo、Claude-instant、Sagegpt-3.5-turbo、天工3.5、文心一言V2.0.1、通義千問(wèn)V1.0.1、訊飛星火認(rèn)知大模型、Moss-16B、ChatGLM-6B、vicuna-13B進(jìn)行了超過(guò)3000+道題的評(píng)測(cè)，根據(jù)測(cè)評(píng)結(jié)果發(fā)布了《大語(yǔ)言模型綜合能力測(cè)評(píng)報(bào)告2023》。

具體內(nèi)容如下