世界實(shí)時(shí)：模型“日日新”！中文語言大模型“商量2.0”多個(gè)評測基準(zhǔn)綜合表現(xiàn)超ChatGPT

2023-06-22 12:17:02 來源：新民晚報(bào)

近日，商湯科技公布了自研中文語言大模型“商量 2.0”在MMLU、AGIEval、C-Eval三個(gè)權(quán)威大語言模型評測基準(zhǔn)的成績。根據(jù)評測結(jié)果，“商量2.0”在三個(gè)測試集中表現(xiàn)均領(lǐng)先ChatGPT，實(shí)現(xiàn)了我國語言大模型研究的重要突破。

截至目前，已有近千家企業(yè)客戶通過申請，應(yīng)用和體驗(yàn)“商量2.0”的長文本理解、邏輯推理、多輪對話、情感分析、內(nèi)容創(chuàng)作、代碼生成等綜合能力，并且“商量2.0”還在服務(wù)客戶過程中，持續(xù)實(shí)現(xiàn)著快速迭代和提升，以及知識的實(shí)時(shí)更新。

“商量2.0”綜合能力超ChatGPT

【資料圖】

商湯科技公布的評測結(jié)果，選取了全球三大權(quán)威語言模型測評基準(zhǔn)MMLU、AGIEval、C-Eval，結(jié)果顯示“商量2.0”在三個(gè)測試集中表現(xiàn)均領(lǐng)先ChatGPT，部分已十分接近GPT-4的水平。

MMLU是由美國加州大學(xué)伯克利分校、哥倫比亞大學(xué)、芝加哥大學(xué)及伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合打造的大規(guī)模多任務(wù)語言理解的評測基準(zhǔn)，涵蓋了科學(xué)、技術(shù)、工程、數(shù)據(jù)，人文、社會科學(xué)等領(lǐng)域的57個(gè)科目，難度從初級水平到高級專業(yè)水平，考驗(yàn)世界知識和解決問題的能力。在該評測中，“商量2.0”綜合得分為68.6，超過了ChatGPT（67.3分），落后GPT-4（86.4分）。

AGIEval是由微軟研究院發(fā)布的，專門用于評估基礎(chǔ)模型在人類認(rèn)知和問題解決相關(guān)任務(wù)中表現(xiàn)出的一般能力，從而實(shí)現(xiàn)模型智能和人類智能的對比。該基準(zhǔn)選取20種面向普通人類考生的官方、公開、高標(biāo)準(zhǔn)往常和資格考試，包括普通大學(xué)入學(xué)考試（中國高考和美國SAT考試）、法學(xué)入學(xué)考試、數(shù)學(xué)競賽、律師資格考試、國家公務(wù)員考試等。在該評測中，“商量2.0”測出49.91的分?jǐn)?shù)，再次超越ChatGPT（42.9分），僅次于GPT-4的56.4分。在其中一項(xiàng)評測子集中，“商量2.0”以58.5分僅微弱差距落后GPT-4（58.8分）。

C-Eval是由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集，包含了13948個(gè)多項(xiàng)選擇題，涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級別。面對C-Eval評測基準(zhǔn)，“商量2.0”拿到了66.1的分?jǐn)?shù)，在參評的18個(gè)大模型中，僅次于GPT-4（68.7分），全面領(lǐng)先ChatGPT、Claude、Bloom等一眾海內(nèi)外大模型。

技術(shù)創(chuàng)新+應(yīng)用落地推動能力持續(xù)提升

今年4月，商湯正式發(fā)布“商湯日日新”大模型體系，以及自研中文語言大模型“商量”。截至6月，全球范圍內(nèi)正式發(fā)布的大語言模型已超過40款，其中由中國廠商、高校、科研院所等發(fā)布的大語言模型近20款。

在“百花齊放”的市場格局中，通過對比成績與表現(xiàn)，可以了解各大預(yù)言模型的特點(diǎn)與差異，并且直觀地了解每個(gè)大語言模型當(dāng)前的智能水平。目前“商量2.0”實(shí)現(xiàn)了對GPT-3.5超越，并且隨著商業(yè)化落地的推進(jìn)，在眾多行業(yè)、場景中發(fā)揮令人滿意的作用。

例如在需要大量文案工作的場景中，“商量2.0”可以協(xié)助處理各類文章、報(bào)告、信函、產(chǎn)品信息、IT信息等，進(jìn)行編輯、重寫、總結(jié)、分類、提取信息、制作Q&A等，有效提高企業(yè)員工的生產(chǎn)效率。在客戶服務(wù)場景中，“商量 2.0”還可以扮演許多不同的企業(yè)角色，如銀行客服、給孩子講故事的繪本老師等等，并進(jìn)行順暢的交流和互動，提升客戶體驗(yàn)。

此外，“商量2.0”還擁有廣泛的知識儲備，能夠結(jié)合企業(yè)自身所在行業(yè)的專有數(shù)據(jù)，非常高效地打造滿足企業(yè)需要的高階知識庫，幫助實(shí)現(xiàn)更智能化的知識庫管理?！吧塘?.0”還是高水平的AI代碼助手，能夠極大幫助提高開發(fā)效率，實(shí)現(xiàn)新的“二八定律”——80%的代碼由AI生成，20%則由人工生成。

據(jù)悉，商湯大語言模型能力的提升源于更多高質(zhì)量中文數(shù)據(jù)的訓(xùn)練學(xué)習(xí)，得益于團(tuán)隊(duì)在底層大模型技術(shù)上的不斷創(chuàng)新。商湯團(tuán)隊(duì)在訓(xùn)練階段采用自研的一系列增強(qiáng)復(fù)雜推理能力的方法，以及更加有效的反饋學(xué)習(xí)機(jī)制，讓大模型增強(qiáng)推理能力的同時(shí)，減輕了傳統(tǒng)大模型的幻覺問題。

新民晚報(bào)記者郜陽

【延伸閱讀】商湯大模型體系“日日新”帶來什么驚喜？和ChatGPT之類比“會有一點(diǎn)差距，但可以很快追上?！?/p>

關(guān)鍵詞：

国产综合久久久久久精品,国产精品成人av片免费看,国产精品天天看天天狠,国产专区国产精品国产三级,国产大片内射1区2区

世界實(shí)時(shí)：模型“日日新”！中文語言大模型“商量2.0”多個(gè)評測基準(zhǔn)綜合表現(xiàn)超ChatGPT

相關(guān)閱讀

世界實(shí)時(shí)：模型“日日新”！中文語言大...

每日速讀!問鼎天下_關(guān)于問鼎天下的介紹

西媒：巴薩今晚將與京多安簽約，年薪900...

76場演出、12個(gè)夏令營、3個(gè)音樂馬拉松等...

福建二建成績查詢時(shí)間2023 全球今熱點(diǎn)

從2699元跌至1929元，256GB+1.6億像素+...

杭州一男子在綠化帶內(nèi)迷路3天吃野花喝...

中華1951細(xì)20支煙價(jià)格-環(huán)球微速訊

科學(xué)幼小銜接，高埂學(xué)校助力孩子有準(zhǔn)備...

全球熱消息：華為5G殺回來了？余承東：假！

【千年榮昌?歷史文化周】瀨溪河上劃槳...

每日資訊：日照路吉綜合開發(fā)有限公司開...

浙江發(fā)布今年首個(gè)山洪紅色預(yù)警

研究生英國留學(xué)有哪些學(xué)校比較好

【天天速看料】2023水產(chǎn)預(yù)制菜行業(yè)規(guī)模...

世界微速訊：通貨膨脹的影響有哪些簡答...

寧德時(shí)代：擬使用不超過人民幣78億元閑...

環(huán)球通訊！天津美達(dá)菲學(xué)校高中部2023招...

三好男人_關(guān)于三好男人的介紹熱消息

分享com 超值分享匯

業(yè)界

世界實(shí)時(shí)：模型“日日新”！中文語言大模型“商量2.0”多個(gè)評測基準(zhǔn)綜合表現(xiàn)超ChatGPT

相關(guān)閱讀

業(yè)界

要聞

世界實(shí)時(shí)：模型“日日新”！中文語言大模型“商量2.0”多個(gè)評測基準(zhǔn)綜合表現(xiàn)超ChatGPT