來(lái)源/東方IC
(資料圖)
近日,商湯科技公布了自研中文語(yǔ)言大模型“商量 2.0”在MMLU、AGIEval、C-Eval三個(gè)權(quán)威大語(yǔ)言模型評(píng)測(cè)基準(zhǔn)的成績(jī)。根據(jù)評(píng)測(cè)結(jié)果,“商量2.0”在三個(gè)測(cè)試集中表現(xiàn)均領(lǐng)先ChatGPT,實(shí)現(xiàn)了我國(guó)語(yǔ)言大模型研究的重要突破。
截至目前,已有近千家企業(yè)客戶通過(guò)申請(qǐng),應(yīng)用和體驗(yàn)“商量2.0”的長(zhǎng)文本理解、邏輯推理、多輪對(duì)話、情感分析、內(nèi)容創(chuàng)作、代碼生成等綜合能力,并且“商量2.0”還在服務(wù)客戶過(guò)程中,持續(xù)實(shí)現(xiàn)著快速迭代和提升,以及知識(shí)的實(shí)時(shí)更新。
圖說(shuō):各語(yǔ)言大模型在三個(gè)評(píng)測(cè)基準(zhǔn)中的得分情況 采訪對(duì)象供圖(下同)
“商量2.0”綜合能力超ChatGPT
商湯科技公布的評(píng)測(cè)結(jié)果,選取了全球三大權(quán)威語(yǔ)言模型測(cè)評(píng)基準(zhǔn)MMLU、AGIEval、C-Eval,結(jié)果顯示“商量2.0”在三個(gè)測(cè)試集中表現(xiàn)均領(lǐng)先ChatGPT,部分已十分接近GPT-4的水平。
圖說(shuō):圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二
MMLU是由美國(guó)加州大學(xué)伯克利分校、哥倫比亞大學(xué)、芝加哥大學(xué)及伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合打造的大規(guī)模多任務(wù)語(yǔ)言理解的評(píng)測(cè)基準(zhǔn),涵蓋了科學(xué)、技術(shù)、工程、數(shù)據(jù),人文、社會(huì)科學(xué)等領(lǐng)域的57個(gè)科目,難度從初級(jí)水平到高級(jí)專業(yè)水平,考驗(yàn)世界知識(shí)和解決問(wèn)題的能力。在該評(píng)測(cè)中,“商量2.0”綜合得分為68.6,超過(guò)了ChatGPT(67.3分),落后GPT-4(86.4分)。
圖說(shuō):圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二
AGIEval是由微軟研究院發(fā)布的,專門用于評(píng)估基礎(chǔ)模型在人類認(rèn)知和問(wèn)題解決相關(guān)任務(wù)中表現(xiàn)出的一般能力,從而實(shí)現(xiàn)模型智能和人類智能的對(duì)比。該基準(zhǔn)選取20種面向普通人類考生的官方、公開(kāi)、高標(biāo)準(zhǔn)往常和資格考試,包括普通大學(xué)入學(xué)考試(中國(guó)高考和美國(guó)SAT考試)、法學(xué)入學(xué)考試、數(shù)學(xué)競(jìng)賽、律師資格考試、國(guó)家公務(wù)員考試等。在該評(píng)測(cè)中,“商量2.0”測(cè)出49.91的分?jǐn)?shù),再次超越ChatGPT(42.9分),僅次于GPT-4的56.4分。在其中一項(xiàng)評(píng)測(cè)子集中,“商量2.0”以58.5分僅微弱差距落后GPT-4(58.8分)。
C-Eval是由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集,包含了13948個(gè)多項(xiàng)選擇題,涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級(jí)別。面對(duì)C-Eval評(píng)測(cè)基準(zhǔn),“商量2.0”拿到了66.1的分?jǐn)?shù),在參評(píng)的18個(gè)大模型中,僅次于GPT-4(68.7分),全面領(lǐng)先ChatGPT、Claude、Bloom等一眾海內(nèi)外大模型。
技術(shù)創(chuàng)新+應(yīng)用落地 推動(dòng)能力持續(xù)提升
今年4月,商湯正式發(fā)布“商湯日日新”大模型體系,以及自研中文語(yǔ)言大模型“商量”。截至6月,全球范圍內(nèi)正式發(fā)布的大語(yǔ)言模型已超過(guò)40款,其中由中國(guó)廠商、高校、科研院所等發(fā)布的大語(yǔ)言模型近20款。
在“百花齊放”的市場(chǎng)格局中,通過(guò)對(duì)比成績(jī)與表現(xiàn),可以了解各大預(yù)言模型的特點(diǎn)與差異,并且直觀地了解每個(gè)大語(yǔ)言模型當(dāng)前的智能水平。目前“商量2.0”實(shí)現(xiàn)了對(duì)GPT-3.5超越,并且隨著商業(yè)化落地的推進(jìn),在眾多行業(yè)、場(chǎng)景中發(fā)揮令人滿意的作用。
例如在需要大量文案工作的場(chǎng)景中,“商量2.0”可以協(xié)助處理各類文章、報(bào)告、信函、產(chǎn)品信息、IT信息等,進(jìn)行編輯、重寫(xiě)、總結(jié)、分類、提取信息、制作Q&A等,有效提高企業(yè)員工的生產(chǎn)效率。在客戶服務(wù)場(chǎng)景中,“商量 2.0”還可以扮演許多不同的企業(yè)角色,如銀行客服、給孩子講故事的繪本老師等等,并進(jìn)行順暢的交流和互動(dòng),提升客戶體驗(yàn)。
此外,“商量2.0”還擁有廣泛的知識(shí)儲(chǔ)備,能夠結(jié)合企業(yè)自身所在行業(yè)的專有數(shù)據(jù),非常高效地打造滿足企業(yè)需要的高階知識(shí)庫(kù),幫助實(shí)現(xiàn)更智能化的知識(shí)庫(kù)管理?!吧塘?.0”還是高水平的AI代碼助手,能夠極大幫助提高開(kāi)發(fā)效率,實(shí)現(xiàn)新的“二八定律”——80%的代碼由AI生成,20%則由人工生成。
據(jù)悉,商湯大語(yǔ)言模型能力的提升源于更多高質(zhì)量中文數(shù)據(jù)的訓(xùn)練學(xué)習(xí),得益于團(tuán)隊(duì)在底層大模型技術(shù)上的不斷創(chuàng)新。商湯團(tuán)隊(duì)在訓(xùn)練階段采用自研的一系列增強(qiáng)復(fù)雜推理能力的方法,以及更加有效的反饋學(xué)習(xí)機(jī)制,讓大模型增強(qiáng)推理能力的同時(shí),減輕了傳統(tǒng)大模型的幻覺(jué)問(wèn)題。
新民晚報(bào)記者 郜陽(yáng)
【延伸閱讀】商湯大模型體系“日日新”帶來(lái)什么驚喜?和ChatGPT之類比“會(huì)有一點(diǎn)差距,但可以很快追上?!?/p>
近日,第七屆中國(guó)汽車工程學(xué)會(huì)巴哈大賽(簡(jiǎn)稱巴哈大賽)在湖北襄陽(yáng)落下帷幕。該項(xiàng)賽事是繼中國(guó)大學(xué)生方程式汽車大賽(FSC)成功舉辦之后,中國(guó)
近年來(lái),受國(guó)際能源價(jià)格大幅上漲影響,發(fā)揮壓艙石作用的新疆煤炭抓住契機(jī),融入到全國(guó)統(tǒng)一大市場(chǎng),有效緩解了國(guó)內(nèi)能源供應(yīng)偏緊形勢(shì)。隨之而
近日,備受矚目的東風(fēng)天龍GX上市發(fā)布會(huì)暨東風(fēng)天龍中國(guó)卡車駕駛員大賽(第6季)暨東風(fēng)陽(yáng)光杯(第2屆)全國(guó)商用車維修技能競(jìng)賽總決賽在車城十堰隆
隨著科技進(jìn)步,新一輪產(chǎn)業(yè)變革蓬勃興起。數(shù)字化發(fā)展,是互聯(lián)網(wǎng)時(shí)代向大數(shù)據(jù)時(shí)代、后數(shù)據(jù)時(shí)代的必由之路,抓住數(shù)字經(jīng)濟(jì)的發(fā)展新機(jī)遇,是實(shí)現(xiàn)
5月19日,由國(guó)家郵政局、中華全國(guó)總工會(huì)指導(dǎo),中國(guó)郵政快遞報(bào)社主辦的第五屆中國(guó)夢(mèng)·郵政情 尋找最美快遞員活動(dòng)揭曉發(fā)布會(huì)在北京國(guó)際會(huì)議
明月出天山,蒼茫云海間。5月21日,耀世登場(chǎng)·擎鈴未來(lái)慶鈴五十鈴2023款ELF輕卡家族在克拉瑪依煥新上市。憑借智能、效能、全能的產(chǎn)品優(yōu)勢(shì),
2023年5月15日,國(guó)產(chǎn)高端重卡東風(fēng)天龍GX全場(chǎng)景干線接力實(shí)測(cè)圓滿收官。歷時(shí)6天,途徑成都-恩施-潛山-上海-武漢-十堰,全場(chǎng)景驗(yàn)證盆地、高原
5月10日,東風(fēng)天龍GX成都-上海-十堰全場(chǎng)景干線實(shí)測(cè)拉開(kāi)序幕,本次實(shí)測(cè)的重頭戲,不僅在于東風(fēng)天龍GX的全方位展示,更是圍繞著百公里油耗的
近日,由國(guó)家互聯(lián)網(wǎng)信息辦公室、國(guó)家發(fā)展和改革委員會(huì)、工業(yè)和信息化部、國(guó)務(wù)院國(guó)有資產(chǎn)監(jiān)督管理委員會(huì)、福建省人民政府等共同主辦的第六屆
5月11日,峰捷(湖北)供應(yīng)鏈有限公司、東風(fēng)商用車有限公司與荊門中澤汽車有限公司在湖北十堰共同簽署了采購(gòu)100臺(tái)東風(fēng)天龍牽引車的戰(zhàn)略合作協(xié)

速看:上半年甘肅省金融運(yùn)行總體平穩(wěn)
記者從中國(guó)人民銀行蘭州中心支行獲悉,今年上半年,甘肅省金融運(yùn)行總體

天天簡(jiǎn)訊:仁懷水塘村小院議事搭起民
“今天主要是想了解大家對(duì)水塘村的發(fā)展,有些什么想法?特別是鄉(xiāng)村旅游

2023年度西安市社會(huì)信用體系建設(shè)典型
近日,“2023年度西安市社會(huì)信用體系建設(shè)典型案例”活動(dòng)結(jié)果出爐。經(jīng)網(wǎng)

陜西在非煤礦山領(lǐng)域落實(shí)兩項(xiàng)機(jī)制遏制
為防范遏制非煤礦山事故,保障從業(yè)人員生命安全,近日,省應(yīng)急管理廳制

最高1億元生活獎(jiǎng)補(bǔ) 貴安新區(qū)真金白
發(fā)布會(huì)現(xiàn)場(chǎng)。新華網(wǎng)盧志佳攝新華網(wǎng)貴陽(yáng)6月20日電(盧志佳)“對(duì)具有引