女人久久久,最近更新中文字幕在线,成人国内精品久久久久影院vr,中文字幕亚洲综合久久综合,久久精品秘?一区二区三区美小说

原創(chuàng)生活

國內(nèi) 商業(yè) 滾動

基金 金融 股票

期貨金融

科技 行業(yè) 房產(chǎn)

銀行 公司 消費

生活滾動

保險 海外 觀察

財經(jīng) 生活 期貨

當(dāng)前位置:科技 >

通曉萬物的GPT,能理解它自己嗎?-全球球精選

文章來源:鈦媒體APP  發(fā)布時間: 2023-06-21 10:18:37  責(zé)任編輯:cfenews.com
+|-

ChatGPT的橫空出世讓人們認識到了語言模型的強大,其功能也會隨著版本的迭代而進一步完善,也必將更深入地參與到人們的工作與生活之中。然而,我們并不能完全理解這些模型是如何運作的。最近一些研究讓人們厘清了小規(guī)模模型的機理,但要完全理解語言模型,則需要分析數(shù)百萬個神經(jīng)元。

OpenAI的研究團隊嘗試使用GPT-4自動編寫大型語言模型中神經(jīng)元行為的解釋,并對這些解釋進行評分。他們研究的對象是早一代模型GPT-2,研究為GPT-2中的每個神經(jīng)元給出了(或許不完美的)解釋和評分。

?圖源:OpenAI官網(wǎng)


(資料圖片)

運作過程

在這項研究中,科學(xué)家旨在解釋文本中的哪些模式會導(dǎo)致神經(jīng)元激活。這具體包括解釋、仿真、評分三個步驟。

1. 解釋:使用GPT-4解釋神經(jīng)元的激活

給出一個GPT-2神經(jīng)元,通過向GPT-4展示相關(guān)文本序列和GPT-2神經(jīng)元的激活來生成對其行為的解釋。

?在這個例子中,研究者研究了神經(jīng)元“Marvel comics vibes”。研究者將其展示給GPT-4,GPT-4對此給出的解釋是“references to movies, characters, and entertainment.”

2. 仿真:以上一步的解釋為條件,使用GPT-4模擬神經(jīng)元激活

再次使用GPT-4進行仿真模擬,以解釋被激活的神經(jīng)元會做什么。

3. 評分:通過對比神經(jīng)元的仿真激活和真實激活來對第一步解釋進行評分

?比較仿真激活(左)和真實激活(右)以查看二者的匹配程度,上面例子的“解釋得分”為0.34

上述方法讓研究者可以利用GPT-4來定義定量描述可解釋性的指標(biāo)(即“解釋得分”)并自動測算,藉此研究者就可以衡量語言模型使用自然語言壓縮和重建神經(jīng)元激活的能力。使用上述定量評分框架,研究者可以衡量其方法在神經(jīng)網(wǎng)絡(luò)不同部分的工作情況,并針對目前無法充分解釋的部分的方法進行改進。例如,研究者發(fā)現(xiàn)現(xiàn)有技術(shù)對于較大的模型效果不佳,可能是因為難以對更深層神經(jīng)網(wǎng)絡(luò)進行解釋。

盡管研究中絕大多數(shù)解釋的得分很低,但研究者相信現(xiàn)在可以利用機器學(xué)習(xí)技術(shù)來進一步提高其產(chǎn)生解釋的能力。例如,他們發(fā)現(xiàn)可以通過以下方式提高解釋分?jǐn)?shù):

· 迭代解釋。研究者要求GPT-4提出可能的反例,然后據(jù)此修改解釋。

· 使用更有效的模型來給出解釋。解釋得分的平均值隨著解釋器模型能力的提高而上升,其中GPT-4獲得的分?jǐn)?shù)最高。然而,即使是GPT-4給出的解釋尚不及人類的表現(xiàn),這也說明模型還有改進的余地。

· 更改已解釋模型的架構(gòu)。訓(xùn)練具有不同激活函數(shù)的模型可以提高解釋得分。

研究者們將開源他們的數(shù)據(jù)集和可視化工具,這些工具可以利用GPT-4對GPT-2中所有的307200個神經(jīng)元給出解釋,同時將開源解釋和評分所使用的代碼,這些部分使用的是OpenAI API上公開的模型。研究者希望學(xué)界能夠開發(fā)出新的技術(shù)來生成得分更高的解釋,以及可以更好地利用對神經(jīng)元的解釋來探索GPT-2。

研究人員還發(fā)現(xiàn),超過1000個神經(jīng)元的解釋得分至少為0.8,這意味著根據(jù)GPT-4,它們解釋了神經(jīng)元的大部分上層激活行為。大多數(shù)能被上述方法很好解釋的神經(jīng)元都不是很有趣。然而,研究人員們也發(fā)現(xiàn)了許多GPT-4不理解的有趣神經(jīng)元。他們希望隨著解釋工作的進一步改進,能夠快速發(fā)現(xiàn)對模型計算而言更為有趣的定性理解。

不過值得一提的是,上面的方法目前還有很多局限性:

首先,當(dāng)前的研究專注于簡短的自然語言解釋,但神經(jīng)元可能具有非常復(fù)雜的行為,無法進行簡潔的描述。例如,神經(jīng)元可能是高度多義的(代表許多不同的概念),或者可以代表人類不理解或無法用語言表達的某一概念。

其次,研究者希望最終可以實現(xiàn)自動找尋并解釋包括神經(jīng)元和多頭注意力機制*在內(nèi)的實現(xiàn)復(fù)雜行為的整個神經(jīng)回路。當(dāng)前的方法僅僅是將神經(jīng)元行為解釋為原始文本輸入的函數(shù),而沒有說明其下游影響。例如,一個在句號上激活的神經(jīng)元可能指示下一個單詞應(yīng)該以大寫字母開頭,或者遞增某個語句計數(shù)器。

*注意力機制是一種模仿人類視覺和認知系統(tǒng)的方法,可幫助神經(jīng)網(wǎng)絡(luò)集中注意力于相關(guān)的部分,從而提高模型的性能和泛化能力。多頭注意力機制使用多個獨立的注意力頭,分別計算注意力權(quán)重,并將它們的結(jié)果進行拼接或加權(quán)求和,從而獲得更豐富的表示。

第三,上述研究解釋了神經(jīng)元的行為,但沒有試圖解釋產(chǎn)生這種行為的機制。這意味著即使是高分解釋在分布外的文本上也可能表現(xiàn)得很差,因為得分本質(zhì)上只是一種相關(guān)性的描述。

此外,整個過程是計算密集型的,需要有強大的算力作為支撐。

未來展望

雖然有以上所述的種種局限性,但研究人員仍然相信這項工作可以大大改進并與其他現(xiàn)有方法進行有效的集成。比如,將常見可解釋性技術(shù)(例如多頭注意力機制、消融實驗*等)集成到上述自動化方法中。

*消融實驗類似于“控制變量法”,通過破壞或消除某個特定的組織或結(jié)構(gòu),以研究其功能、作用或重要性。

從長遠來看,研究者設(shè)想解釋器模型可以生成、測試和迭代素材豐富的有關(guān)主題模型的假設(shè)空間,其作用類似于今天進行可解釋性研究的科研人員所做的工作。這種模型將包括關(guān)于神經(jīng)網(wǎng)絡(luò)回路功能和分布外行為的假設(shè)。解釋器模型的工作環(huán)境可能包括訪問代碼執(zhí)行、主題模型可視化以及與研究人員交互等。

研究人員相信,上述研究有助于我們建立起高層次的視角,來理解轉(zhuǎn)換器語言模型內(nèi)部正在發(fā)生的一切。通過可訪問解釋性數(shù)據(jù)庫的用戶界面,我們可以開啟一種更宏觀的方法,幫助研究人員可視化成千上萬個神經(jīng)元,進而查看它們之間相互作用的高級模式。

總而言之,科學(xué)家希望從使用較小且可信賴的輔助工具出發(fā),擴展到實現(xiàn)完整的可解釋性審核;或者在將這些輔助工具用于可解釋性研究的過程中充分了解模型的工作原理,從而幫助我們開發(fā)更強大的審核方法。畢竟,如果我們不知道輔助工具本身是否值得信賴,那么使用強大的輔助工具也可能會使問題變得更加復(fù)雜。

參考資料:

[1] Chughtai, B., Chan, L., & Nanda, N. (2023). A toy model of universality: Reverse engineering how networks learn group operations. arXiv preprint arXiv:2302.03025.[2] Wang, K., Variengien, A., Conmy, A., Shlegeris, B., & Steinhardt, J. (2022). Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small. arXiv preprint arXiv:2211.00593.[3] Bills, et al. (2023). Language models can explain neurons in language models. https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html.[4] Zhong, R., Snell, C., Klein, D., & Steinhardt, J. (2022, June). Describing differences between text distributions with natural language. In International Conference on Machine Learning (pp. 27099-27116). PMLR.[5] Singh, C., Morris, J. X., Aneja, J., Rush, A. M., & Gao, J. (2022). Explaining patterns in data with language models via interpretable autoprompting. arXiv preprint arXiv:2210.01848.[6] OpenAI (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.[7] Bau, D., Zhou, B., Khosla, A., Oliva, A., & Torralba, A. (2017). Network dissection: Quantifying interpretability of deep visual representations. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6541-6549).[8] Chan, L., Garriga-Alonso, A., Goldowsky-Dill, N., Greenblatt, R., Nitishinskaya, J., Radhakrishnan, A., ... & Thomas, N. (2022, December). Causal scrubbing: A method for rigorously testing interpretability hypotheses. In Alignment Forum.[9] Hernandez, E., Schwettmann, S., Bau, D., Bagashvili, T., Torralba, A., & Andreas, J. (2022, January). Natural language descriptions of deep visual features. In International Conference on Learning Representations.[10] Hubinger, E. (2021). Automating auditing: An ambitious concrete technical research proposal.[11] Shah, R., Varma, V., Kumar, R., Phuong, M., Krakovna, V., Uesato, J., & Kenton, Z. (2022). Goal misgeneralization: Why correct specifications aren"t enough for correct goals. arXiv preprint arXiv:2210.01790.[12] Ngo, R. (2022). The alignment problem from a deep learning perspective. arXiv preprint arXiv:2209.00626.[13] Hubinger, E., van Merwijk, C., Mikulik, V., Skalse, J., & Garrabrant, S. (2019). Risks from learned optimization in advanced machine learning systems. arXiv preprint arXiv:1906.01820.

關(guān)鍵詞:

專題首頁|財金網(wǎng)首頁

投資
探索

精彩
互動

獨家
觀察

京ICP備2021034106號-38   營業(yè)執(zhí)照公示信息  聯(lián)系我們:55 16 53 8 @qq.com 關(guān)于我們 財金網(wǎng)  版權(quán)所有  cfenews.com