大型語言模型(Large Language Models,LLMs)的設(shè)計初衷是接受大量語言文本的輸入,并理解、總結(jié)、生成以及預(yù)測出新的內(nèi)容。計算機(jī)科學(xué)家們原本只是想通過擴(kuò)大數(shù)據(jù)規(guī)模來提高這些模型在已知任務(wù)上的性能。然而,像ChatGPT這樣的大型語言模型卻在逐步超出人類的預(yù)期,可以自主完成越來越多新的、難以預(yù)測的任務(wù)。
為了明確LLMs目前所具備的能力,來自谷歌研究院、斯坦福大學(xué)等研究機(jī)構(gòu)的技術(shù)人員開發(fā)并選定了204項任務(wù),并用這些不同的任務(wù)來辨認(rèn)LLMs的已有能力。這其中的一項任務(wù)就是根據(jù)人類常用的表情符號來推測電影名稱。
(相關(guān)資料圖)
在測試中研究人員發(fā)現(xiàn):不同復(fù)雜程度的LLMs給出的答案并不相同——簡單LLMs的回答也十分簡陋:“電影是一個男人,他也是一個男人,還是一個男人”;中等復(fù)雜模型的回答會更接近答案一些,“答案是《表情包電影》”;而最復(fù)雜的模型則一猜就中,直接猜出電影為《海底總動員》。
猜猜看,這些表情符號描述的是什么電影?
通過表情包猜測電影名稱只是LLMs所具備能力的冰山一角。最近研究表明,LLMs具有數(shù)百種“涌現(xiàn)”能力,能夠完成很多小模型無法完成的任務(wù),其中有一些與文本分析關(guān)系并不大——這些任務(wù)包括進(jìn)行乘法運(yùn)算、生成可執(zhí)行的計算機(jī)代碼以及前面提到的根據(jù)表情符號猜中電影名稱。
新的分析表明,在一些任務(wù)和模型中,存在一個關(guān)于模型復(fù)雜度的閾值,超過該閾值,模型的功能將會急劇上升;但隨著復(fù)雜度的增加,一些模型的回答可能會出現(xiàn)偏差和不準(zhǔn)確性。而這,和生物學(xué)中的一個現(xiàn)象十分相似。
大型AI模型中“涌現(xiàn)”的出現(xiàn)
當(dāng)一些基本的小型物質(zhì)聚合在一起時,往往會出現(xiàn)一些驚人的變化。例如,由原子構(gòu)成的物質(zhì)形成了生命細(xì)胞,水分子聚集形成波浪,細(xì)胞使得肌肉運(yùn)動和心臟跳動,這些自組織、集體的行為被科學(xué)家們稱之為“涌現(xiàn)”。涌現(xiàn)出現(xiàn)在涉及大量個體的系統(tǒng)中,而現(xiàn)在,隨著LLMs規(guī)模的不斷擴(kuò)大,人們也開始發(fā)現(xiàn)并記錄到了LLMs中出現(xiàn)的涌現(xiàn)行為。
近幾年出現(xiàn)的GPT-3等LLMs具有上千億的參數(shù),通過這些模型,用戶可以實(shí)現(xiàn)一些涌現(xiàn)行為:比如ChatGPT-3可以在沒有任何特定訓(xùn)練數(shù)據(jù)的情況下解決零樣本或極少樣本問題,就像前面提到的根據(jù)表情符號猜電影名稱。這類涌現(xiàn)行為表明,LLMs可以在零樣本或者少樣本學(xué)習(xí)的情況下解決以前從未或極少見過的問題,這是以往的模型所不具備的能力。
那么,為什么LLMs會出現(xiàn)涌現(xiàn)行為?其背后的機(jī)制是怎樣的?為了更好地理解涌現(xiàn)行為的機(jī)制,一批研究人員正在對其做追蹤記錄,以期開發(fā)出更加智能的自然語言模型。
“涌現(xiàn)行為”背后的可能機(jī)制
在ChatGPT-3問世引發(fā)大規(guī)模關(guān)注之前,Ethan Dyer等研究人員就已在2020年預(yù)測LLMs將產(chǎn)生變革性影響,并呼吁研究界提供多樣化的hard模式任務(wù),以探索LLMs能夠達(dá)到的極限。這一任務(wù)項目被稱為“超越模擬游戲基準(zhǔn)”(Beyond the Imitation Game Benchmark,BIG-bench),旨在測試大型LLMs是否能以人類的方式回答問題,并給出令人信服的答案。
Dyer提出了一個非常重要的研究問題:如何理解LLMs能力上的這些轉(zhuǎn)變,即如何理解LLMs出現(xiàn)涌現(xiàn)?
在研究中,Dyer發(fā)現(xiàn):在某些任務(wù)中,隨著復(fù)雜度的增加,模型的性能呈現(xiàn)可預(yù)測性地平穩(wěn)提高;而在其他任務(wù)中,增加參數(shù)數(shù)量并不會帶來任何性能上的改善;但在大約5%的任務(wù)中,研究人員發(fā)現(xiàn)了一個突破——在某些閾值范圍內(nèi),模型性能會顯著躍升,這個閾值因任務(wù)和模型而異。
研究人員很快意識到模型的復(fù)雜度可能并不是唯一驅(qū)動涌現(xiàn)出現(xiàn)的因素。如果數(shù)據(jù)質(zhì)量足夠高,較小模型(或在較小的數(shù)據(jù)集上進(jìn)行訓(xùn)練的模型)也可以在訓(xùn)練中誘導(dǎo)產(chǎn)生一些意想不到的能力。此外,措辭方式同樣會影響模型在回答上的準(zhǔn)確性。例如,當(dāng)Dyer使用多項選擇題的方式提出根據(jù)表情符號猜電影名稱任務(wù)時,模型的準(zhǔn)確率并不是突然躍升,而是會隨著問題的復(fù)雜度逐漸增加。
除了模型復(fù)雜程度、數(shù)據(jù)質(zhì)量以及訓(xùn)練措辭之外,另一個被稱為“思維鏈推理”的能力也在涌現(xiàn)的出現(xiàn)過程中扮演著重要的角色。
注:思維鏈推理能力,在NeurIPS會議上報告的一篇谷歌Brain的論文指出[1],一個有自我解釋要求的模型(一種稱為思維鏈推理的能力)能夠正確地解決一個數(shù)學(xué)應(yīng)用問題,而沒有這個要求的對照模型則無法做到。
Yi Tay近期的研究表明:思維鏈提示詞(chain-of-thought prompting)可以改變縮放曲線,從而改變涌現(xiàn)出現(xiàn)的位置。他們所做的一項研究發(fā)現(xiàn),使用思維鏈提示詞可誘發(fā)BIG-bench研究中沒有發(fā)現(xiàn)的涌現(xiàn)行為,這類提示詞會要求模型解釋其推理過程,這也是模型出現(xiàn)涌現(xiàn)行為的一個因素。
除此之外,也有其他的研究者對于涌現(xiàn)行為的出現(xiàn)給出了自己的答案。Ellie Pavlick最近的發(fā)現(xiàn)表明LLMs出現(xiàn)涌現(xiàn)行為至少有兩種原因:
一種是大模型確實(shí)可能像生物系統(tǒng)一樣自發(fā)地獲得新的能力。大模型相較于小模型,學(xué)到了新的、不同的信息,從而發(fā)生一些根本性的變化;
另一種可能性是盡管大型LLMs模型看似出現(xiàn)了涌現(xiàn)行為,但是實(shí)際上可能是一種內(nèi)部的、基于統(tǒng)計學(xué)的過程,這個過程只有通過思維鏈條式的推理才發(fā)揮作用。LLMs只是學(xué)習(xí)了一些啟發(fā)式方法,而這些方法對于參數(shù)較少或數(shù)據(jù)質(zhì)量較低的模型來說是無法實(shí)現(xiàn)的。
Pavlick表示,只有我們更近一步了解了LLMs的工作原理,才有可能確定是哪種可能性導(dǎo)致了涌現(xiàn)行為的出現(xiàn)。
涌現(xiàn):瑰麗且危險
涌現(xiàn)行為會導(dǎo)致模型出現(xiàn)不可預(yù)測性,而這種不可預(yù)測性似乎會隨著模型規(guī)模的擴(kuò)大而增加。Deep Ganguli指出,在研究模型的規(guī)模對涌現(xiàn)行為的影響之前,我們并不知道這個模型會出現(xiàn)什么能力或限制,同時我們也很難提前知道這些模型是如何被使用或部署的,這將可能帶來一些潛在的風(fēng)險。
Anthropic公司的研究團(tuán)隊在去年6月份發(fā)布的對LLMs的分析中,就對LLMs是否存在某些類型的種族歧視或社會偏見進(jìn)行了測試。這項研究的靈感源于一個與涌現(xiàn)行為相關(guān)的明顯悖論:模型規(guī)模的擴(kuò)大和性能的提高,可能會同時增加模型的不可預(yù)測行為,其中就包括一些可能出現(xiàn)的導(dǎo)致偏見或傷害的行為。
Ganguli表示,某些有害的行為會在一些模型中突然出現(xiàn)?!耙?guī)模越大的模型可能會變得更加有偏見?!辈贿^當(dāng)研究人員告訴模型不要依賴于刻板印象或社會偏見時,模型能夠做到減少預(yù)測和反應(yīng)中的偏見,這表明,一些涌現(xiàn)特性可能會減少模型自身的偏見。在最近的一篇論文中,Anthropic團(tuán)隊提出了一種新的“道德自我糾正”模式,在這種模式下,根據(jù)用戶的反饋和提示,模型會表現(xiàn)得更加樂于助人、誠實(shí)和無害,這將有望減少不可預(yù)測的涌現(xiàn)行為對人類可能帶來的潛在的傷害。
Ganguli指出,涌現(xiàn)既表現(xiàn)了驚人的潛力,也帶來了不可預(yù)測的風(fēng)險——類似于ChatGPT-3這樣的大型LLMs模型的應(yīng)用正在不斷增加,只有更好的理解其相互作用以及涌現(xiàn)出現(xiàn)的原理,才能更好地發(fā)揮出語言模型多樣化能力。
關(guān)鍵詞: