機(jī)器之心報(bào)道
編輯:小舟、張倩
大型語(yǔ)言模型能否捕捉到它們所處理和生成的文本中的語(yǔ)義信息?這一問(wèn)題在計(jì)算機(jī)科學(xué)和自然語(yǔ)言處理領(lǐng)域一直存在爭(zhēng)議。然而,MIT的一項(xiàng)新研究表明,僅基于文本形式訓(xùn)練、用于預(yù)測(cè)下一個(gè)token的語(yǔ)言模型確實(shí)能學(xué)習(xí)和表示文本的意義。
雖然大型預(yù)訓(xùn)練語(yǔ)言模型(LLM)在一系列下游任務(wù)中展現(xiàn)出飛速提升的性能,但它們是否真的理解其使用和生成的文本語(yǔ)義?
(資料圖)
長(zhǎng)期以來(lái),AI社區(qū)對(duì)這一問(wèn)題存在很大的分歧。有一種猜測(cè)是,純粹基于語(yǔ)言的形式(例如訓(xùn)練語(yǔ)料庫(kù)中token的條件分布)進(jìn)行訓(xùn)練的語(yǔ)言模型不會(huì)獲得任何語(yǔ)義。相反,它們僅僅是根據(jù)從訓(xùn)練數(shù)據(jù)中收集的表面統(tǒng)計(jì)相關(guān)性來(lái)生成文本,其強(qiáng)大的涌現(xiàn)能力則歸因于模型和訓(xùn)練數(shù)據(jù)的規(guī)模。這部分人將LLM稱為「隨機(jī)鸚鵡」。
但也有一部分人不認(rèn)同此觀點(diǎn)。一項(xiàng)最近的研究表明,大約51%的NLP社區(qū)受訪者同意:「一些僅通過(guò)文本訓(xùn)練的生成模型,在擁有足夠的數(shù)據(jù)和計(jì)算資源的情況下,可以以某種有意義的方式理解自然語(yǔ)言(超越表面層面的統(tǒng)計(jì)關(guān)聯(lián),涉及對(duì)語(yǔ)言背后的語(yǔ)義和概念的理解)」。
為了探究這個(gè)懸而未決的問(wèn)題,來(lái)自MIT CSAIL的研究人員展開了詳細(xì)研究。
論文地址:https://paperswithcode.com/paper/evidence-of-meaning-in-language-models
該研究使用的語(yǔ)言模型僅訓(xùn)練成為文本預(yù)測(cè)下一個(gè)token的模型,并制定兩個(gè)假設(shè):
H1:僅通過(guò)對(duì)文本進(jìn)行下一個(gè)token預(yù)測(cè)訓(xùn)練的LM在根本上受限于重復(fù)其訓(xùn)練語(yǔ)料庫(kù)中的表面層次統(tǒng)計(jì)相關(guān)性;H2LM無(wú)法對(duì)其消化和生成的文本賦予意義。為了探究 H1 和 H2兩個(gè)假設(shè)的正確性,該研究將語(yǔ)言建模應(yīng)用于程序合成任務(wù),即在給定輸入輸出示例形式規(guī)范的情況下合成程序。該研究采用這種方法的主要是因?yàn)槌绦虻囊饬x(和正確性)完全由編程語(yǔ)言的語(yǔ)義決定。
具體來(lái)說(shuō),該研究在程序及其規(guī)范的語(yǔ)料庫(kù)上訓(xùn)練語(yǔ)言模型(LM),然后使用線性分類器探測(cè) LM 對(duì)于程序語(yǔ)義表征的隱藏狀態(tài)。該研究發(fā)現(xiàn)探測(cè)器提取語(yǔ)義的能力在初始化時(shí)是隨機(jī)的,然后在訓(xùn)練期間經(jīng)歷相變,這種相變與 LM 在未見過(guò)規(guī)范的情況下生成正確程序的能力強(qiáng)相關(guān)。此外,該研究還展示了一項(xiàng)介入實(shí)驗(yàn)的結(jié)果,該實(shí)驗(yàn)表明語(yǔ)義在模型狀態(tài)中得以表征(而不是通過(guò)探測(cè)器(probe)進(jìn)行學(xué)習(xí))。
該研究的主要貢獻(xiàn)包括:
1、實(shí)驗(yàn)結(jié)果表明,在執(zhí)行預(yù)測(cè)下一個(gè)token任務(wù)的 LM 中出現(xiàn)了有意義的表征。具體來(lái)說(shuō),該研究使用經(jīng)過(guò)訓(xùn)練的 LM 在給定幾個(gè)輸入輸出示例的情況下生成程序,然后訓(xùn)練一個(gè)線性探測(cè)器,以從模型狀態(tài)中提取有關(guān)程序狀態(tài)的信息。研究者發(fā)現(xiàn)內(nèi)部表征包含以下線性編碼:(1) 抽象語(yǔ)義(抽象解釋)——在程序執(zhí)行過(guò)程中跟蹤指定輸入;(2) 與尚未生成的程序token對(duì)應(yīng)的未來(lái)程序狀態(tài)預(yù)測(cè)。在訓(xùn)練期間,這些語(yǔ)義的線性表征與 LM 在訓(xùn)練步驟中生成正確程序的能力同步發(fā)展。
2、該研究設(shè)計(jì)并評(píng)估了一種新穎的介入(interventional)方法,以探究從表征中提取意義時(shí)LM 和探測(cè)器的貢獻(xiàn)。具體來(lái)說(shuō),該研究試圖分析以下兩個(gè)問(wèn)題中哪個(gè)成立:(1) LM 表征包含純(句法)轉(zhuǎn)錄本(transcript),同時(shí)探測(cè)器學(xué)習(xí)解釋轉(zhuǎn)錄本以推斷含義;(2)LM 表征包含語(yǔ)義狀態(tài),探測(cè)器只是從語(yǔ)義狀態(tài)中提取含義。實(shí)驗(yàn)結(jié)果表明 LM 表征實(shí)際上與原始語(yǔ)義對(duì)齊(而不是僅僅編碼一些詞匯和句法內(nèi)容),這說(shuō)明假設(shè)H2是錯(cuò)誤的。
3、該研究表明 LM 的輸出與訓(xùn)練分布不同,具體表現(xiàn)為L(zhǎng)M 傾向于生成比訓(xùn)練集中的程序更短的程序(并且仍然是正確的)。雖然 LM 合成正確程序的能力有所提高,但LM 在訓(xùn)練集中的程序上的困惑度仍然很高,這表明假設(shè)H1是錯(cuò)誤的。
總的來(lái)說(shuō),該研究提出了一個(gè)框架,用于根據(jù)編程語(yǔ)言的語(yǔ)義對(duì) LM 進(jìn)行實(shí)證研究。這種方法使我們能夠定義、測(cè)量和試驗(yàn)來(lái)自底層編程語(yǔ)言的精確形式語(yǔ)義的概念,從而有助于理解當(dāng)前 LM 的涌現(xiàn)能力。
研究背景
該研究使用跟蹤語(yǔ)義作為程序含義模型。作為編程語(yǔ)言理論中一個(gè)基礎(chǔ)主題,形式語(yǔ)義學(xué)主要研究如何正式地為語(yǔ)言中的字符串分配語(yǔ)義。該研究使用的語(yǔ)義模型包括跟蹤程序的執(zhí)行:給定一組輸入(即變量賦值),一個(gè)(句法)程序的含義是用從表達(dá)式中計(jì)算出的語(yǔ)義值標(biāo)識(shí)的,跟蹤軌跡是根據(jù)輸入執(zhí)行程序時(shí)生成的中間值序列。
將跟蹤軌跡用于程序含義模型具有幾個(gè)重要原因:首先,準(zhǔn)確跟蹤一段代碼的能力與解釋代碼的能力直接相關(guān);其次,計(jì)算機(jī)科學(xué)教育也強(qiáng)調(diào)跟蹤是理解程序開發(fā)和定位推理錯(cuò)誤的重要方法;第三,專業(yè)的程序開發(fā)依賴基于跟蹤的調(diào)試器(dbugger)。
該研究使用的訓(xùn)練集包含100萬(wàn)個(gè)隨機(jī)抽樣的Karel程序。20世紀(jì)70年代,斯坦福大學(xué)畢業(yè)生 Rich Pattis 設(shè)計(jì)了一個(gè)程序環(huán)境,讓學(xué)生教機(jī)器人來(lái)解決簡(jiǎn)單的問(wèn)題,這個(gè)機(jī)器人被稱為Karel機(jī)器人。
該研究通過(guò)隨機(jī)采樣來(lái)構(gòu)造訓(xùn)練樣本的參考程序,然后采樣5個(gè)隨機(jī)輸入并執(zhí)行程序得到對(duì)應(yīng)的5個(gè)輸出。LM 被訓(xùn)練為對(duì)樣本語(yǔ)料庫(kù)執(zhí)行下一個(gè)token預(yù)測(cè)。在測(cè)試時(shí),該研究只提供輸入輸出前綴給LM,并使用貪心解碼完成程序。下圖1描繪了一個(gè)實(shí)際的參考程序和經(jīng)過(guò)訓(xùn)練的 LM 的完成情況。
該研究訓(xùn)練了一個(gè)現(xiàn)成的 Transformer 模型對(duì)數(shù)據(jù)集執(zhí)行下一個(gè)token預(yù)測(cè)。經(jīng)過(guò) 64000 個(gè)訓(xùn)練步驟(training step),大約 1.5 個(gè) epoch,最終訓(xùn)練好的 LM 在測(cè)試集上達(dá)到了 96.4% 的生成準(zhǔn)確率。每 2000 個(gè)訓(xùn)練步驟,該研究會(huì)捕獲一個(gè)跟蹤數(shù)據(jù)集。對(duì)于每個(gè)訓(xùn)練軌跡數(shù)據(jù)集,該研究訓(xùn)練一個(gè)線性探測(cè)器來(lái)預(yù)測(cè)給定模型狀態(tài)的程序狀態(tài)。
意義的涌現(xiàn)
研究者對(duì)以下假設(shè)進(jìn)行了研究:在訓(xùn)練語(yǔ)言模型執(zhí)行下一個(gè)token預(yù)測(cè)的過(guò)程中,語(yǔ)義狀態(tài)的表示會(huì)作為副產(chǎn)品出現(xiàn)在模型狀態(tài)中??紤]到最終訓(xùn)練得到的語(yǔ)言模型達(dá)到了96.4%的生成準(zhǔn)確性,如果否定這個(gè)假設(shè),將與H2一致,即語(yǔ)言模型已經(jīng)學(xué)會(huì)「僅僅」利用表面統(tǒng)計(jì)來(lái)一致生成正確的程序。
為了測(cè)試這個(gè)假設(shè),研究者訓(xùn)練了一個(gè)線性探測(cè)器,將語(yǔ)義狀態(tài)從模型狀態(tài)中提取出來(lái),作為5個(gè)獨(dú)立的4-way任務(wù)(每個(gè)輸入面向一個(gè)方向),如第2.2節(jié)所述。
意義的涌現(xiàn)與生成準(zhǔn)確性呈正相關(guān)
圖2展示了主要結(jié)果。研究者的第一個(gè)觀察結(jié)果是,語(yǔ)義內(nèi)容從隨機(jī)猜測(cè)的基線表現(xiàn)(25%)開始,并且在訓(xùn)練過(guò)程中顯著增加。這個(gè)結(jié)果表明,語(yǔ)言模型的隱藏狀態(tài)確實(shí)包含語(yǔ)義狀態(tài)的(線性)編碼,并且關(guān)鍵的是,這種意義是在一個(gè)純粹用于對(duì)文本執(zhí)行下一個(gè)token預(yù)測(cè)的語(yǔ)言模型中出現(xiàn)的。
將生成準(zhǔn)確性與語(yǔ)義內(nèi)容進(jìn)行線性回歸,二者在訓(xùn)練步驟中呈現(xiàn)出意外的強(qiáng)大且具有統(tǒng)計(jì)學(xué)意義的線性相關(guān)性(R2 = 0.968, p
表征是對(duì)未來(lái)程序語(yǔ)義的預(yù)測(cè)
前一節(jié)討論了語(yǔ)言模型能否表示其生成的文本的意義。本文的結(jié)果對(duì)這個(gè)問(wèn)題給出了積極的答案,即語(yǔ)言模型能夠(抽象地)解釋生成的程序。然而,解釋者(interpreter)并不等同于合成者(synthesizer),僅有理解能力是不足以進(jìn)行生成的。就人類語(yǔ)言的產(chǎn)生而言,廣泛的共識(shí)是語(yǔ)言起源于思維中的一種非言語(yǔ)的信息,然后被轉(zhuǎn)化為反映初始概念的話語(yǔ)(utterance)。研究者假設(shè)訓(xùn)練后的語(yǔ)言模型的生成過(guò)程遵循類似的機(jī)制,即語(yǔ)言模型的表示編碼了尚未生成的文本的語(yǔ)義。
為了驗(yàn)證這個(gè)假設(shè),他們使用與上述相同的方法訓(xùn)練了一個(gè)線性探測(cè)器,來(lái)預(yù)測(cè)從模型狀態(tài)中得到的未來(lái)語(yǔ)義狀態(tài)。需要注意的是,由于他們使用貪婪解碼策略,未來(lái)的語(yǔ)義狀態(tài)也是確定性的,因此這個(gè)任務(wù)是明確定義的。
圖3展示了線性探測(cè)器在預(yù)測(cè)未來(lái)1步和2步的語(yǔ)義狀態(tài)方面的表現(xiàn)(綠段線表示「Semantic (+1)」,綠點(diǎn)線表示「Semantic (+2)」)。與先前的結(jié)果類似,探測(cè)器的性能從隨機(jī)猜測(cè)的基線開始,然后隨著訓(xùn)練顯著提高,并且他們還發(fā)現(xiàn)未來(lái)狀態(tài)的語(yǔ)義內(nèi)容與生成準(zhǔn)確性(藍(lán)線)在訓(xùn)練步驟中呈現(xiàn)出強(qiáng)烈的相關(guān)性。將語(yǔ)義內(nèi)容與生成準(zhǔn)確性進(jìn)行線性回歸分析得到的R2值分別為0.919和0.900,對(duì)應(yīng)于未來(lái)1步和2步的語(yǔ)義狀態(tài),兩者的p值均小于0.001。
他們還考慮了這樣一個(gè)假設(shè),即模型的表示只編碼了當(dāng)前的語(yǔ)義狀態(tài),而探測(cè)器僅僅是從當(dāng)前語(yǔ)義狀態(tài)預(yù)測(cè)未來(lái)的語(yǔ)義狀態(tài)。為了測(cè)試這個(gè)假設(shè),他們計(jì)算了一個(gè)最優(yōu)分類器,將當(dāng)前程序中的ground truth面向方向映射到未來(lái)程序中的4個(gè)面向方向之一。
需要注意的是,其中的5個(gè)操作中有3個(gè)保持了面向方向,并且下一個(gè) token是均勻采樣的。因此他們預(yù)期,對(duì)于未來(lái)1步的情況,預(yù)測(cè)未來(lái)的語(yǔ)義狀態(tài)的最優(yōu)分類器應(yīng)該通過(guò)預(yù)測(cè)面向方向保持不變來(lái)達(dá)到60%的準(zhǔn)確率。事實(shí)上,通過(guò)直接擬合測(cè)試集,他們發(fā)現(xiàn)從當(dāng)前語(yǔ)義狀態(tài)預(yù)測(cè)未來(lái)語(yǔ)義狀態(tài)的上限分別為62.2%和40.7%(對(duì)應(yīng)于未來(lái)1步和2步的情況)。相比之下,當(dāng)給定探測(cè)器正確預(yù)測(cè)當(dāng)前狀態(tài)的條件下,探測(cè)器在預(yù)測(cè)未來(lái)狀態(tài)方面的準(zhǔn)確率分別為68.4%和61.0%。
這表明,探測(cè)器從模型狀態(tài)中提取未來(lái)語(yǔ)義狀態(tài)的能力不能僅僅通過(guò)從當(dāng)前語(yǔ)義狀態(tài)的表示中推斷得出。因此,他們的結(jié)果表明,語(yǔ)言模型會(huì)學(xué)習(xí)去表示尚未生成的token的含義,這否定了語(yǔ)言模型無(wú)法學(xué)習(xí)意義的觀點(diǎn)(H2),并且也表明生成過(guò)程不僅僅基于純粹的表面統(tǒng)計(jì)(H1)。
生成的輸出與訓(xùn)練分布不同
接下來(lái),研究者通過(guò)比較訓(xùn)練后的語(yǔ)言模型生成的程序分布與訓(xùn)練集中的程序分布,提供反駁H1的證據(jù)。如果H1成立,他們預(yù)期兩個(gè)分布應(yīng)該大致相等,因?yàn)檎Z(yǔ)言模型只是在重復(fù)訓(xùn)練集中文本的統(tǒng)計(jì)相關(guān)性。
圖6a顯示了LM生成的程序的平均長(zhǎng)度隨時(shí)間的變化情況(實(shí)線藍(lán)色線條),與訓(xùn)練集中參考程序的平均長(zhǎng)度(虛線紅色線條)進(jìn)行對(duì)比。他們發(fā)現(xiàn)二者存在統(tǒng)計(jì)學(xué)上的顯著差異,這表明LM的輸出分布確實(shí)與其訓(xùn)練集中的程序分布不同。這與H1中提到的觀點(diǎn)(即LM只能重復(fù)其訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)相關(guān)性)相矛盾。
最后,他們還測(cè)量了LM在訓(xùn)練集中的程序上的困惑度隨時(shí)間的變化情況。圖6b展示了他們的結(jié)果??梢钥吹?,LM從來(lái)沒(méi)有學(xué)會(huì)很好地?cái)M合訓(xùn)練集中程序的分布,這進(jìn)一步反駁了H1的觀點(diǎn)。這可能是因?yàn)樵谟?xùn)練集中隨機(jī)抽樣的程序包含了許多無(wú)操作指令,而LM更傾向于生成更簡(jiǎn)潔的程序。有趣的是,困惑度的急劇增加——當(dāng)LM超越了模仿階段——似乎導(dǎo)致了生成準(zhǔn)確率(和語(yǔ)義內(nèi)容)的提高。由于程序等價(jià)性問(wèn)題與程序語(yǔ)義密切相關(guān),LM能夠生成簡(jiǎn)短且正確的程序表明它確實(shí)學(xué)到了語(yǔ)義的某個(gè)方面。
詳細(xì)內(nèi)容參見原論文。
隨著科技進(jìn)步,新一輪產(chǎn)業(yè)變革蓬勃興起。數(shù)字化發(fā)展,是互聯(lián)網(wǎng)時(shí)代向大數(shù)據(jù)時(shí)代、后數(shù)據(jù)時(shí)代的必由之路,抓住數(shù)字經(jīng)濟(jì)的發(fā)展新機(jī)遇,是實(shí)現(xiàn)
5月19日,由國(guó)家郵政局、中華全國(guó)總工會(huì)指導(dǎo),中國(guó)郵政快遞報(bào)社主辦的第五屆中國(guó)夢(mèng)·郵政情 尋找最美快遞員活動(dòng)揭曉發(fā)布會(huì)在北京國(guó)際會(huì)議
明月出天山,蒼茫云海間。5月21日,耀世登場(chǎng)·擎鈴未來(lái)慶鈴五十鈴2023款ELF輕卡家族在克拉瑪依煥新上市。憑借智能、效能、全能的產(chǎn)品優(yōu)勢(shì),
2023年5月15日,國(guó)產(chǎn)高端重卡東風(fēng)天龍GX全場(chǎng)景干線接力實(shí)測(cè)圓滿收官。歷時(shí)6天,途徑成都-恩施-潛山-上海-武漢-十堰,全場(chǎng)景驗(yàn)證盆地、高原
5月10日,東風(fēng)天龍GX成都-上海-十堰全場(chǎng)景干線實(shí)測(cè)拉開序幕,本次實(shí)測(cè)的重頭戲,不僅在于東風(fēng)天龍GX的全方位展示,更是圍繞著百公里油耗的
近日,由國(guó)家互聯(lián)網(wǎng)信息辦公室、國(guó)家發(fā)展和改革委員會(huì)、工業(yè)和信息化部、國(guó)務(wù)院國(guó)有資產(chǎn)監(jiān)督管理委員會(huì)、福建省人民政府等共同主辦的第六屆
5月11日,峰捷(湖北)供應(yīng)鏈有限公司、東風(fēng)商用車有限公司與荊門中澤汽車有限公司在湖北十堰共同簽署了采購(gòu)100臺(tái)東風(fēng)天龍牽引車的戰(zhàn)略合作協(xié)
冠軍之路、巔峰對(duì)決,東風(fēng)天龍中國(guó)卡車駕駛員大賽(第6季)暨東風(fēng)陽(yáng)光杯第2屆全國(guó)商用車維修技能競(jìng)賽決賽單元即將火熱開戰(zhàn)。高手云集、比武論
5月10日,期待已久的東風(fēng)天龍GX全場(chǎng)景干線接力實(shí)測(cè)在成都啟創(chuàng)嘉立正式啟動(dòng),東風(fēng)商用車有限公司營(yíng)銷公司品牌傳播首席師趙金宿、東風(fēng)商用車
5月10日,期待已久的東風(fēng)天龍GX全場(chǎng)景干線接力實(shí)測(cè)活動(dòng)在成都啟動(dòng),從成都至上?;厥?,5位眾測(cè)官將完成油耗接力挑戰(zhàn)和實(shí)測(cè)品鑒,為我們真
制種玉米新發(fā)展 云天化“良田守護(hù)者
主題活動(dòng)走入田間地頭(5月20日攝)。云天化集團(tuán)供圖5月20日至21日,《良田守護(hù)者計(jì)劃》主題活動(dòng)走進(jìn)云南省
當(dāng)前視訊!廣西3縣(市)入選第二批
原標(biāo)題:廣西3縣(市)入選第二批國(guó)家創(chuàng)新型縣(市)近日,科技部公布了第二批國(guó)家創(chuàng)新型縣(市)建設(shè)名單
全球微速訊:平安:綠色生態(tài)作譜,奏
初夏,河湟谷地的亮麗綠色勾勒出滿山蒼翠,古驛平安如一顆綠色明珠熠熠生輝。黨的二十大報(bào)告提出,必須牢固
2023多彩貴州文化旅游推廣暨招商推介
5月19日,由貴州省文化和旅游廳主辦的“有貴有福福貴雙全”2023多彩貴州文化旅游推廣暨招商推介會(huì)(廈門站
天天看熱訊:西安這場(chǎng)就業(yè)洽談會(huì) 為
圖為應(yīng)聘者向招聘單位咨詢相關(guān)事宜。(首席記者王健攝)今年5月21日是第三十三次全國(guó)助殘日,由陜西省殘疾