九九热视频在线观看,樱花草在线社区www中文,亚洲国产激情五月色丁香小说,天堂中文最新版,中文字幕一区二区三区日韩精品


 

有證據(jù)了,MIT表明:大型語言模型≠隨機鸚鵡,確實能學(xué)到語義
發(fā)布時間:2023-05-22 19:22:41 文章來源:機器之心Pro
有證據(jù)了,MIT表明:大型語言模型≠隨機鸚鵡,確實能學(xué)到語義,句法,鸚鵡,鳥類,mit,分類器,鸚形目,語言模型,

機器之心報道

編輯:小舟、張倩

大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息?這一問題在計算機科學(xué)和自然語言處理領(lǐng)域一直存在爭議。然而,MIT的一項新研究表明,僅基于文本形式訓(xùn)練、用于預(yù)測下一個token的語言模型確實能學(xué)習(xí)和表示文本的意義。

雖然大型預(yù)訓(xùn)練語言模型(LLM)在一系列下游任務(wù)中展現(xiàn)出飛速提升的性能,但它們是否真的理解其使用和生成的文本語義?


(資料圖)

長期以來,AI社區(qū)對這一問題存在很大的分歧。有一種猜測是,純粹基于語言的形式(例如訓(xùn)練語料庫中token的條件分布)進(jìn)行訓(xùn)練的語言模型不會獲得任何語義。相反,它們僅僅是根據(jù)從訓(xùn)練數(shù)據(jù)中收集的表面統(tǒng)計相關(guān)性來生成文本,其強大的涌現(xiàn)能力則歸因于模型和訓(xùn)練數(shù)據(jù)的規(guī)模。這部分人將LLM稱為「隨機鸚鵡」。

但也有一部分人不認(rèn)同此觀點。一項最近的研究表明,大約51%的NLP社區(qū)受訪者同意:「一些僅通過文本訓(xùn)練的生成模型,在擁有足夠的數(shù)據(jù)和計算資源的情況下,可以以某種有意義的方式理解自然語言(超越表面層面的統(tǒng)計關(guān)聯(lián),涉及對語言背后的語義和概念的理解)」。

為了探究這個懸而未決的問題,來自MIT CSAIL的研究人員展開了詳細(xì)研究。

論文地址:https://paperswithcode.com/paper/evidence-of-meaning-in-language-models

該研究使用的語言模型僅訓(xùn)練成為文本預(yù)測下一個token的模型,并制定兩個假設(shè):

H1:僅通過對文本進(jìn)行下一個token預(yù)測訓(xùn)練的LM在根本上受限于重復(fù)其訓(xùn)練語料庫中的表面層次統(tǒng)計相關(guān)性;H2LM無法對其消化和生成的文本賦予意義。

為了探究 H1 和 H2兩個假設(shè)的正確性,該研究將語言建模應(yīng)用于程序合成任務(wù),即在給定輸入輸出示例形式規(guī)范的情況下合成程序。該研究采用這種方法的主要是因為程序的意義(和正確性)完全由編程語言的語義決定。

具體來說,該研究在程序及其規(guī)范的語料庫上訓(xùn)練語言模型(LM),然后使用線性分類器探測 LM 對于程序語義表征的隱藏狀態(tài)。該研究發(fā)現(xiàn)探測器提取語義的能力在初始化時是隨機的,然后在訓(xùn)練期間經(jīng)歷相變,這種相變與 LM 在未見過規(guī)范的情況下生成正確程序的能力強相關(guān)。此外,該研究還展示了一項介入實驗的結(jié)果,該實驗表明語義在模型狀態(tài)中得以表征(而不是通過探測器(probe)進(jìn)行學(xué)習(xí))。

該研究的主要貢獻(xiàn)包括:

1、實驗結(jié)果表明,在執(zhí)行預(yù)測下一個token任務(wù)的 LM 中出現(xiàn)了有意義的表征。具體來說,該研究使用經(jīng)過訓(xùn)練的 LM 在給定幾個輸入輸出示例的情況下生成程序,然后訓(xùn)練一個線性探測器,以從模型狀態(tài)中提取有關(guān)程序狀態(tài)的信息。研究者發(fā)現(xiàn)內(nèi)部表征包含以下線性編碼:(1) 抽象語義(抽象解釋)——在程序執(zhí)行過程中跟蹤指定輸入;(2) 與尚未生成的程序token對應(yīng)的未來程序狀態(tài)預(yù)測。在訓(xùn)練期間,這些語義的線性表征與 LM 在訓(xùn)練步驟中生成正確程序的能力同步發(fā)展。

2、該研究設(shè)計并評估了一種新穎的介入(interventional)方法,以探究從表征中提取意義時LM 和探測器的貢獻(xiàn)。具體來說,該研究試圖分析以下兩個問題中哪個成立:(1) LM 表征包含純(句法)轉(zhuǎn)錄本(transcript),同時探測器學(xué)習(xí)解釋轉(zhuǎn)錄本以推斷含義;(2)LM 表征包含語義狀態(tài),探測器只是從語義狀態(tài)中提取含義。實驗結(jié)果表明 LM 表征實際上與原始語義對齊(而不是僅僅編碼一些詞匯和句法內(nèi)容),這說明假設(shè)H2是錯誤的。

3、該研究表明 LM 的輸出與訓(xùn)練分布不同,具體表現(xiàn)為LM 傾向于生成比訓(xùn)練集中的程序更短的程序(并且仍然是正確的)。雖然 LM 合成正確程序的能力有所提高,但LM 在訓(xùn)練集中的程序上的困惑度仍然很高,這表明假設(shè)H1是錯誤的。

總的來說,該研究提出了一個框架,用于根據(jù)編程語言的語義對 LM 進(jìn)行實證研究。這種方法使我們能夠定義、測量和試驗來自底層編程語言的精確形式語義的概念,從而有助于理解當(dāng)前 LM 的涌現(xiàn)能力。

研究背景

該研究使用跟蹤語義作為程序含義模型。作為編程語言理論中一個基礎(chǔ)主題,形式語義學(xué)主要研究如何正式地為語言中的字符串分配語義。該研究使用的語義模型包括跟蹤程序的執(zhí)行:給定一組輸入(即變量賦值),一個(句法)程序的含義是用從表達(dá)式中計算出的語義值標(biāo)識的,跟蹤軌跡是根據(jù)輸入執(zhí)行程序時生成的中間值序列。

將跟蹤軌跡用于程序含義模型具有幾個重要原因:首先,準(zhǔn)確跟蹤一段代碼的能力與解釋代碼的能力直接相關(guān);其次,計算機科學(xué)教育也強調(diào)跟蹤是理解程序開發(fā)和定位推理錯誤的重要方法;第三,專業(yè)的程序開發(fā)依賴基于跟蹤的調(diào)試器(dbugger)。

該研究使用的訓(xùn)練集包含100萬個隨機抽樣的Karel程序。20世紀(jì)70年代,斯坦福大學(xué)畢業(yè)生 Rich Pattis 設(shè)計了一個程序環(huán)境,讓學(xué)生教機器人來解決簡單的問題,這個機器人被稱為Karel機器人。

該研究通過隨機采樣來構(gòu)造訓(xùn)練樣本的參考程序,然后采樣5個隨機輸入并執(zhí)行程序得到對應(yīng)的5個輸出。LM 被訓(xùn)練為對樣本語料庫執(zhí)行下一個token預(yù)測。在測試時,該研究只提供輸入輸出前綴給LM,并使用貪心解碼完成程序。下圖1描繪了一個實際的參考程序和經(jīng)過訓(xùn)練的 LM 的完成情況。

該研究訓(xùn)練了一個現(xiàn)成的 Transformer 模型對數(shù)據(jù)集執(zhí)行下一個token預(yù)測。經(jīng)過 64000 個訓(xùn)練步驟(training step),大約 1.5 個 epoch,最終訓(xùn)練好的 LM 在測試集上達(dá)到了 96.4% 的生成準(zhǔn)確率。每 2000 個訓(xùn)練步驟,該研究會捕獲一個跟蹤數(shù)據(jù)集。對于每個訓(xùn)練軌跡數(shù)據(jù)集,該研究訓(xùn)練一個線性探測器來預(yù)測給定模型狀態(tài)的程序狀態(tài)。

意義的涌現(xiàn)

研究者對以下假設(shè)進(jìn)行了研究:在訓(xùn)練語言模型執(zhí)行下一個token預(yù)測的過程中,語義狀態(tài)的表示會作為副產(chǎn)品出現(xiàn)在模型狀態(tài)中??紤]到最終訓(xùn)練得到的語言模型達(dá)到了96.4%的生成準(zhǔn)確性,如果否定這個假設(shè),將與H2一致,即語言模型已經(jīng)學(xué)會「僅僅」利用表面統(tǒng)計來一致生成正確的程序。

為了測試這個假設(shè),研究者訓(xùn)練了一個線性探測器,將語義狀態(tài)從模型狀態(tài)中提取出來,作為5個獨立的4-way任務(wù)(每個輸入面向一個方向),如第2.2節(jié)所述。

意義的涌現(xiàn)與生成準(zhǔn)確性呈正相關(guān)

圖2展示了主要結(jié)果。研究者的第一個觀察結(jié)果是,語義內(nèi)容從隨機猜測的基線表現(xiàn)(25%)開始,并且在訓(xùn)練過程中顯著增加。這個結(jié)果表明,語言模型的隱藏狀態(tài)確實包含語義狀態(tài)的(線性)編碼,并且關(guān)鍵的是,這種意義是在一個純粹用于對文本執(zhí)行下一個token預(yù)測的語言模型中出現(xiàn)的。

將生成準(zhǔn)確性與語義內(nèi)容進(jìn)行線性回歸,二者在訓(xùn)練步驟中呈現(xiàn)出意外的強大且具有統(tǒng)計學(xué)意義的線性相關(guān)性(R2 = 0.968, p

表征是對未來程序語義的預(yù)測

前一節(jié)討論了語言模型能否表示其生成的文本的意義。本文的結(jié)果對這個問題給出了積極的答案,即語言模型能夠(抽象地)解釋生成的程序。然而,解釋者(interpreter)并不等同于合成者(synthesizer),僅有理解能力是不足以進(jìn)行生成的。就人類語言的產(chǎn)生而言,廣泛的共識是語言起源于思維中的一種非言語的信息,然后被轉(zhuǎn)化為反映初始概念的話語(utterance)。研究者假設(shè)訓(xùn)練后的語言模型的生成過程遵循類似的機制,即語言模型的表示編碼了尚未生成的文本的語義。

為了驗證這個假設(shè),他們使用與上述相同的方法訓(xùn)練了一個線性探測器,來預(yù)測從模型狀態(tài)中得到的未來語義狀態(tài)。需要注意的是,由于他們使用貪婪解碼策略,未來的語義狀態(tài)也是確定性的,因此這個任務(wù)是明確定義的。

圖3展示了線性探測器在預(yù)測未來1步和2步的語義狀態(tài)方面的表現(xiàn)(綠段線表示「Semantic (+1)」,綠點線表示「Semantic (+2)」)。與先前的結(jié)果類似,探測器的性能從隨機猜測的基線開始,然后隨著訓(xùn)練顯著提高,并且他們還發(fā)現(xiàn)未來狀態(tài)的語義內(nèi)容與生成準(zhǔn)確性(藍(lán)線)在訓(xùn)練步驟中呈現(xiàn)出強烈的相關(guān)性。將語義內(nèi)容與生成準(zhǔn)確性進(jìn)行線性回歸分析得到的R2值分別為0.919和0.900,對應(yīng)于未來1步和2步的語義狀態(tài),兩者的p值均小于0.001。

他們還考慮了這樣一個假設(shè),即模型的表示只編碼了當(dāng)前的語義狀態(tài),而探測器僅僅是從當(dāng)前語義狀態(tài)預(yù)測未來的語義狀態(tài)。為了測試這個假設(shè),他們計算了一個最優(yōu)分類器,將當(dāng)前程序中的ground truth面向方向映射到未來程序中的4個面向方向之一。

需要注意的是,其中的5個操作中有3個保持了面向方向,并且下一個 token是均勻采樣的。因此他們預(yù)期,對于未來1步的情況,預(yù)測未來的語義狀態(tài)的最優(yōu)分類器應(yīng)該通過預(yù)測面向方向保持不變來達(dá)到60%的準(zhǔn)確率。事實上,通過直接擬合測試集,他們發(fā)現(xiàn)從當(dāng)前語義狀態(tài)預(yù)測未來語義狀態(tài)的上限分別為62.2%和40.7%(對應(yīng)于未來1步和2步的情況)。相比之下,當(dāng)給定探測器正確預(yù)測當(dāng)前狀態(tài)的條件下,探測器在預(yù)測未來狀態(tài)方面的準(zhǔn)確率分別為68.4%和61.0%。

這表明,探測器從模型狀態(tài)中提取未來語義狀態(tài)的能力不能僅僅通過從當(dāng)前語義狀態(tài)的表示中推斷得出。因此,他們的結(jié)果表明,語言模型會學(xué)習(xí)去表示尚未生成的token的含義,這否定了語言模型無法學(xué)習(xí)意義的觀點(H2),并且也表明生成過程不僅僅基于純粹的表面統(tǒng)計(H1)。

生成的輸出與訓(xùn)練分布不同

接下來,研究者通過比較訓(xùn)練后的語言模型生成的程序分布與訓(xùn)練集中的程序分布,提供反駁H1的證據(jù)。如果H1成立,他們預(yù)期兩個分布應(yīng)該大致相等,因為語言模型只是在重復(fù)訓(xùn)練集中文本的統(tǒng)計相關(guān)性。

圖6a顯示了LM生成的程序的平均長度隨時間的變化情況(實線藍(lán)色線條),與訓(xùn)練集中參考程序的平均長度(虛線紅色線條)進(jìn)行對比。他們發(fā)現(xiàn)二者存在統(tǒng)計學(xué)上的顯著差異,這表明LM的輸出分布確實與其訓(xùn)練集中的程序分布不同。這與H1中提到的觀點(即LM只能重復(fù)其訓(xùn)練數(shù)據(jù)中的統(tǒng)計相關(guān)性)相矛盾。

最后,他們還測量了LM在訓(xùn)練集中的程序上的困惑度隨時間的變化情況。圖6b展示了他們的結(jié)果。可以看到,LM從來沒有學(xué)會很好地擬合訓(xùn)練集中程序的分布,這進(jìn)一步反駁了H1的觀點。這可能是因為在訓(xùn)練集中隨機抽樣的程序包含了許多無操作指令,而LM更傾向于生成更簡潔的程序。有趣的是,困惑度的急劇增加——當(dāng)LM超越了模仿階段——似乎導(dǎo)致了生成準(zhǔn)確率(和語義內(nèi)容)的提高。由于程序等價性問題與程序語義密切相關(guān),LM能夠生成簡短且正確的程序表明它確實學(xué)到了語義的某個方面。

詳細(xì)內(nèi)容參見原論文。

關(guān)鍵詞:

最近更新

熱門推薦HOT

  • 數(shù)字場景再創(chuàng)佳績 東風(fēng)商用車以數(shù)字化轉(zhuǎn)型助力商用車行業(yè)高質(zhì)量發(fā)展
    數(shù)字場景再創(chuàng)佳績 東風(fēng)商用車以

    隨著科技進(jìn)步,新一輪產(chǎn)業(yè)變革蓬勃興起。數(shù)字化發(fā)展,是互聯(lián)網(wǎng)時代向大數(shù)據(jù)時代、后數(shù)據(jù)時代的必由之路,抓住數(shù)字經(jīng)濟的發(fā)展新機遇,是實現(xiàn)

  • 中國夢·郵政情 東風(fēng)商用車攜手國家郵政局致敬最美快遞員
    中國夢·郵政情 東風(fēng)商用車攜手

    5月19日,由國家郵政局、中華全國總工會指導(dǎo),中國郵政快遞報社主辦的第五屆中國夢·郵政情 尋找最美快遞員活動揭曉發(fā)布會在北京國際會議

  • 2023款輕卡家族燃情上市 慶鈴五十鈴助力克拉瑪依
    2023款輕卡家族燃情上市 慶鈴五

    明月出天山,蒼茫云海間。5月21日,耀世登場·擎鈴未來慶鈴五十鈴2023款ELF輕卡家族在克拉瑪依煥新上市。憑借智能、效能、全能的產(chǎn)品優(yōu)勢,

  • 百公里油耗27L,東風(fēng)天龍GX全場景接力實測圓滿收官
    百公里油耗27L,東風(fēng)天龍GX全場

    2023年5月15日,國產(chǎn)高端重卡東風(fēng)天龍GX全場景干線接力實測圓滿收官。歷時6天,途徑成都-恩施-潛山-上海-武漢-十堰,全場景驗證盆地、高原

  • 為了卡友“高興而來” 東風(fēng)天龍GX油耗飚低擔(dān)國產(chǎn)高端重任
    為了卡友“高興而來” 東風(fēng)天龍

    5月10日,東風(fēng)天龍GX成都-上海-十堰全場景干線實測拉開序幕,本次實測的重頭戲,不僅在于東風(fēng)天龍GX的全方位展示,更是圍繞著百公里油耗的

  • 數(shù)字轉(zhuǎn)型,勇摘桂冠!東風(fēng)商用車榮獲國資委首屆國企數(shù)字創(chuàng)新場景專業(yè)賽一等獎
    數(shù)字轉(zhuǎn)型,勇摘桂冠!東風(fēng)商用車

    近日,由國家互聯(lián)網(wǎng)信息辦公室、國家發(fā)展和改革委員會、工業(yè)和信息化部、國務(wù)院國有資產(chǎn)監(jiān)督管理委員會、福建省人民政府等共同主辦的第六屆

  • 簽約百臺東風(fēng)天龍牽引車 東風(fēng)商用車賦能危險品運輸安全升級
    簽約百臺東風(fēng)天龍牽引車 東風(fēng)商

    5月11日,峰捷(湖北)供應(yīng)鏈有限公司、東風(fēng)商用車有限公司與荊門中澤汽車有限公司在湖北十堰共同簽署了采購100臺東風(fēng)天龍牽引車的戰(zhàn)略合作協(xié)

  • 巔峰對決 東風(fēng)天龍中國卡車駕駛員大賽暨全國商用車維修技能競賽決賽在即
    巔峰對決 東風(fēng)天龍中國卡車駕駛

    冠軍之路、巔峰對決,東風(fēng)天龍中國卡車駕駛員大賽(第6季)暨東風(fēng)陽光杯第2屆全國商用車維修技能競賽決賽單元即將火熱開戰(zhàn)。高手云集、比武論

  • 國產(chǎn)高端重卡之光 東風(fēng)天龍GX實測啟程
    國產(chǎn)高端重卡之光 東風(fēng)天龍GX實

    5月10日,期待已久的東風(fēng)天龍GX全場景干線接力實測在成都啟創(chuàng)嘉立正式啟動,東風(fēng)商用車有限公司營銷公司品牌傳播首席師趙金宿、東風(fēng)商用車

  • 中國品牌·世界共享 東風(fēng)商用車引領(lǐng)自主商用車品牌走向世界舞臺
    中國品牌·世界共享 東風(fēng)商用車

    5月10日,期待已久的東風(fēng)天龍GX全場景干線接力實測活動在成都啟動,從成都至上?;厥?,5位眾測官將完成油耗接力挑戰(zhàn)和實測品鑒,為我們真

猜你喜歡LOVE