最新亚洲人成网站在线观看 ,一个人www在线视频免费

當(dāng)前位置：科技 >

通曉萬(wàn)物的GPT，能理解它自己?jiǎn)幔?全球球精選

文章來(lái)源：鈦媒體APP　發(fā)布時(shí)間： 2023-06-21 10:18:37　責(zé)任編輯：cfenews.com

+|-

ChatGPT的橫空出世讓人們認(rèn)識(shí)到了語(yǔ)言模型的強(qiáng)大，其功能也會(huì)隨著版本的迭代而進(jìn)一步完善，也必將更深入地參與到人們的工作與生活之中。然而，我們并不能完全理解這些模型是如何運(yùn)作的。最近一些研究讓人們厘清了小規(guī)模模型的機(jī)理，但要完全理解語(yǔ)言模型，則需要分析數(shù)百萬(wàn)個(gè)神經(jīng)元。

OpenAI的研究團(tuán)隊(duì)嘗試使用GPT-4自動(dòng)編寫(xiě)大型語(yǔ)言模型中神經(jīng)元行為的解釋?zhuān)?duì)這些解釋進(jìn)行評(píng)分。他們研究的對(duì)象是早一代模型GPT-2，研究為GPT-2中的每個(gè)神經(jīng)元給出了（或許不完美的）解釋和評(píng)分。

?圖源：OpenAI官網(wǎng)

(資料圖片)

運(yùn)作過(guò)程

在這項(xiàng)研究中，科學(xué)家旨在解釋文本中的哪些模式會(huì)導(dǎo)致神經(jīng)元激活。這具體包括解釋、仿真、評(píng)分三個(gè)步驟。

1. 解釋?zhuān)?/strong>使用GPT-4解釋神經(jīng)元的激活

給出一個(gè)GPT-2神經(jīng)元，通過(guò)向GPT-4展示相關(guān)文本序列和GPT-2神經(jīng)元的激活來(lái)生成對(duì)其行為的解釋。

?在這個(gè)例子中，研究者研究了神經(jīng)元“Marvel comics vibes”。研究者將其展示給GPT-4，GPT-4對(duì)此給出的解釋是“references to movies, characters, and entertainment.”

2. 仿真：以上一步的解釋為條件，使用GPT-4模擬神經(jīng)元激活

再次使用GPT-4進(jìn)行仿真模擬，以解釋被激活的神經(jīng)元會(huì)做什么。

3. 評(píng)分：通過(guò)對(duì)比神經(jīng)元的仿真激活和真實(shí)激活來(lái)對(duì)第一步解釋進(jìn)行評(píng)分

?比較仿真激活（左）和真實(shí)激活（右）以查看二者的匹配程度，上面例子的“解釋得分”為0.34

上述方法讓研究者可以利用GPT-4來(lái)定義定量描述可解釋性的指標(biāo)（即“解釋得分”）并自動(dòng)測(cè)算，藉此研究者就可以衡量語(yǔ)言模型使用自然語(yǔ)言壓縮和重建神經(jīng)元激活的能力。使用上述定量評(píng)分框架，研究者可以衡量其方法在神經(jīng)網(wǎng)絡(luò)不同部分的工作情況，并針對(duì)目前無(wú)法充分解釋的部分的方法進(jìn)行改進(jìn)。例如，研究者發(fā)現(xiàn)現(xiàn)有技術(shù)對(duì)于較大的模型效果不佳，可能是因?yàn)殡y以對(duì)更深層神經(jīng)網(wǎng)絡(luò)進(jìn)行解釋。

盡管研究中絕大多數(shù)解釋的得分很低，但研究者相信現(xiàn)在可以利用機(jī)器學(xué)習(xí)技術(shù)來(lái)進(jìn)一步提高其產(chǎn)生解釋的能力。例如，他們發(fā)現(xiàn)可以通過(guò)以下方式提高解釋分?jǐn)?shù)：

· 迭代解釋。研究者要求GPT-4提出可能的反例，然后據(jù)此修改解釋。

· 使用更有效的模型來(lái)給出解釋。解釋得分的平均值隨著解釋器模型能力的提高而上升，其中GPT-4獲得的分?jǐn)?shù)最高。然而，即使是GPT-4給出的解釋尚不及人類(lèi)的表現(xiàn)，這也說(shuō)明模型還有改進(jìn)的余地。

· 更改已解釋模型的架構(gòu)。訓(xùn)練具有不同激活函數(shù)的模型可以提高解釋得分。

研究者們將開(kāi)源他們的數(shù)據(jù)集和可視化工具，這些工具可以利用GPT-4對(duì)GPT-2中所有的307200個(gè)神經(jīng)元給出解釋?zhuān)瑫r(shí)將開(kāi)源解釋和評(píng)分所使用的代碼，這些部分使用的是OpenAI API上公開(kāi)的模型。研究者希望學(xué)界能夠開(kāi)發(fā)出新的技術(shù)來(lái)生成得分更高的解釋?zhuān)约翱梢愿玫乩脤?duì)神經(jīng)元的解釋來(lái)探索GPT-2。

研究人員還發(fā)現(xiàn)，超過(guò)1000個(gè)神經(jīng)元的解釋得分至少為0.8，這意味著根據(jù)GPT-4，它們解釋了神經(jīng)元的大部分上層激活行為。大多數(shù)能被上述方法很好解釋的神經(jīng)元都不是很有趣。然而，研究人員們也發(fā)現(xiàn)了許多GPT-4不理解的有趣神經(jīng)元。他們希望隨著解釋工作的進(jìn)一步改進(jìn)，能夠快速發(fā)現(xiàn)對(duì)模型計(jì)算而言更為有趣的定性理解。

不過(guò)值得一提的是，上面的方法目前還有很多局限性：

首先，當(dāng)前的研究專(zhuān)注于簡(jiǎn)短的自然語(yǔ)言解釋?zhuān)窠?jīng)元可能具有非常復(fù)雜的行為，無(wú)法進(jìn)行簡(jiǎn)潔的描述。例如，神經(jīng)元可能是高度多義的（代表許多不同的概念），或者可以代表人類(lèi)不理解或無(wú)法用語(yǔ)言表達(dá)的某一概念。

其次，研究者希望最終可以實(shí)現(xiàn)自動(dòng)找尋并解釋包括神經(jīng)元和多頭注意力機(jī)制*在內(nèi)的實(shí)現(xiàn)復(fù)雜行為的整個(gè)神經(jīng)回路。當(dāng)前的方法僅僅是將神經(jīng)元行為解釋為原始文本輸入的函數(shù)，而沒(méi)有說(shuō)明其下游影響。例如，一個(gè)在句號(hào)上激活的神經(jīng)元可能指示下一個(gè)單詞應(yīng)該以大寫(xiě)字母開(kāi)頭，或者遞增某個(gè)語(yǔ)句計(jì)數(shù)器。

*注意力機(jī)制是一種模仿人類(lèi)視覺(jué)和認(rèn)知系統(tǒng)的方法，可幫助神經(jīng)網(wǎng)絡(luò)集中注意力于相關(guān)的部分，從而提高模型的性能和泛化能力。多頭注意力機(jī)制使用多個(gè)獨(dú)立的注意力頭，分別計(jì)算注意力權(quán)重，并將它們的結(jié)果進(jìn)行拼接或加權(quán)求和，從而獲得更豐富的表示。

第三，上述研究解釋了神經(jīng)元的行為，但沒(méi)有試圖解釋產(chǎn)生這種行為的機(jī)制。這意味著即使是高分解釋在分布外的文本上也可能表現(xiàn)得很差，因?yàn)榈梅直举|(zhì)上只是一種相關(guān)性的描述。

此外，整個(gè)過(guò)程是計(jì)算密集型的，需要有強(qiáng)大的算力作為支撐。

未來(lái)展望

雖然有以上所述的種種局限性，但研究人員仍然相信這項(xiàng)工作可以大大改進(jìn)并與其他現(xiàn)有方法進(jìn)行有效的集成。比如，將常見(jiàn)可解釋性技術(shù)（例如多頭注意力機(jī)制、消融實(shí)驗(yàn)*等）集成到上述自動(dòng)化方法中。

*消融實(shí)驗(yàn)類(lèi)似于“控制變量法”，通過(guò)破壞或消除某個(gè)特定的組織或結(jié)構(gòu)，以研究其功能、作用或重要性。

從長(zhǎng)遠(yuǎn)來(lái)看，研究者設(shè)想解釋器模型可以生成、測(cè)試和迭代素材豐富的有關(guān)主題模型的假設(shè)空間，其作用類(lèi)似于今天進(jìn)行可解釋性研究的科研人員所做的工作。這種模型將包括關(guān)于神經(jīng)網(wǎng)絡(luò)回路功能和分布外行為的假設(shè)。解釋器模型的工作環(huán)境可能包括訪(fǎng)問(wèn)代碼執(zhí)行、主題模型可視化以及與研究人員交互等。

研究人員相信，上述研究有助于我們建立起高層次的視角，來(lái)理解轉(zhuǎn)換器語(yǔ)言模型內(nèi)部正在發(fā)生的一切。通過(guò)可訪(fǎng)問(wèn)解釋性數(shù)據(jù)庫(kù)的用戶(hù)界面，我們可以開(kāi)啟一種更宏觀的方法，幫助研究人員可視化成千上萬(wàn)個(gè)神經(jīng)元，進(jìn)而查看它們之間相互作用的高級(jí)模式。

總而言之，科學(xué)家希望從使用較小且可信賴(lài)的輔助工具出發(fā)，擴(kuò)展到實(shí)現(xiàn)完整的可解釋性審核；或者在將這些輔助工具用于可解釋性研究的過(guò)程中充分了解模型的工作原理，從而幫助我們開(kāi)發(fā)更強(qiáng)大的審核方法。畢竟，如果我們不知道輔助工具本身是否值得信賴(lài)，那么使用強(qiáng)大的輔助工具也可能會(huì)使問(wèn)題變得更加復(fù)雜。

參考資料：

[1] Chughtai, B., Chan, L., & Nanda, N. (2023). A toy model of universality: Reverse engineering how networks learn group operations. arXiv preprint arXiv:2302.03025.[2] Wang, K., Variengien, A., Conmy, A., Shlegeris, B., & Steinhardt, J. (2022). Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small. arXiv preprint arXiv:2211.00593.[3] Bills, et al. (2023). Language models can explain neurons in language models. https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html.[4] Zhong, R., Snell, C., Klein, D., & Steinhardt, J. (2022, June). Describing differences between text distributions with natural language. In International Conference on Machine Learning (pp. 27099-27116). PMLR.[5] Singh, C., Morris, J. X., Aneja, J., Rush, A. M., & Gao, J. (2022). Explaining patterns in data with language models via interpretable autoprompting. arXiv preprint arXiv:2210.01848.[6] OpenAI (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.[7] Bau, D., Zhou, B., Khosla, A., Oliva, A., & Torralba, A. (2017). Network dissection: Quantifying interpretability of deep visual representations. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6541-6549).[8] Chan, L., Garriga-Alonso, A., Goldowsky-Dill, N., Greenblatt, R., Nitishinskaya, J., Radhakrishnan, A., ... & Thomas, N. (2022, December). Causal scrubbing: A method for rigorously testing interpretability hypotheses. In Alignment Forum.[9] Hernandez, E., Schwettmann, S., Bau, D., Bagashvili, T., Torralba, A., & Andreas, J. (2022, January). Natural language descriptions of deep visual features. In International Conference on Learning Representations.[10] Hubinger, E. (2021). Automating auditing: An ambitious concrete technical research proposal.[11] Shah, R., Varma, V., Kumar, R., Phuong, M., Krakovna, V., Uesato, J., & Kenton, Z. (2022). Goal misgeneralization: Why correct specifications aren"t enough for correct goals. arXiv preprint arXiv:2210.01790.[12] Ngo, R. (2022). The alignment problem from a deep learning perspective. arXiv preprint arXiv:2209.00626.[13] Hubinger, E., van Merwijk, C., Mikulik, V., Skalse, J., & Garrabrant, S. (2019). Risks from learned optimization in advanced machine learning systems. arXiv preprint arXiv:1906.01820.

關(guān)鍵詞：

更多資訊>>

更多>> 滾動(dòng)

權(quán)傾天下，功蓋一世，卻沒(méi)有被猜疑的臣

宋佳琪

當(dāng)前滾動(dòng):文化退跌71.25% 2010年上市

2023數(shù)字多用表行業(yè)發(fā)展現(xiàn)狀前景分析_

環(huán)球熱推薦：艾青詩(shī)選為什么我的眼里常

快評(píng)丨調(diào)查“女子派出所身亡”，也要調(diào)

環(huán)球新動(dòng)態(tài)：云天化：公司未生產(chǎn)芯片

望變電氣：股價(jià)受多方因素影響，

孔明午評(píng)：弱勢(shì)震蕩，反彈趨勢(shì)仍未改變

隔夜SHIBOR報(bào)1.9890% 下降23.90個(gè)基點(diǎn)

半自動(dòng)洗衣機(jī)上蓋拆卸視頻_半自動(dòng)洗衣

環(huán)球視點(diǎn)！機(jī)務(wù)段是干什么的工作好嗎_

海南省教育廳、海南省消費(fèi)者委員會(huì)發(fā)布

焦點(diǎn)訊息：降息靴子落地，對(duì)指數(shù)算利好

愛(ài)上傳統(tǒng)文化，從這堂課出發(fā) ——湖南

更多>>商業(yè)

6月21日 10:22分深圳燃?xì)猓?01139

長(zhǎng)春一東（600148）：該股換手率大于8%

【環(huán)球熱聞】6月21日 10:22分福田

山東高速（600350）：技術(shù)指標(biāo)出現(xiàn)看漲

6月21日 10:22分東安動(dòng)力（600178

更多>> 科技

通曉萬(wàn)物的GPT，能理解它自

捷利交易寶：年內(nèi)股價(jià)表現(xiàn)強(qiáng)

Alibaba Embraces Managem

騰訊不懂的二次元，破天荒被

更多>> 原創(chuàng)

最新：海油工程：深圳子公司

重點(diǎn)聚焦!The Adventures

環(huán)球快看：庾公造周伯仁的造

我的一天作文初一疫情我的