女人久久久,最近更新中文字幕在线,成人国内精品久久久久影院vr,中文字幕亚洲综合久久综合,久久精品秘?一区二区三区美小说

原創(chuàng)生活

國(guó)內(nèi) 商業(yè) 滾動(dòng)

基金 金融 股票

期貨金融

科技 行業(yè) 房產(chǎn)

銀行 公司 消費(fèi)

生活滾動(dòng)

保險(xiǎn) 海外 觀察

財(cái)經(jīng) 生活 期貨

當(dāng)前位置:公司 >

快訊:“中文版ChatGPT”之我見

文章來(lái)源:中國(guó)電子銀行網(wǎng)  發(fā)布時(shí)間: 2023-02-16 10:11:49  責(zé)任編輯:cfenews.com
+|-

AI大模型重要的是基礎(chǔ)能力,一開始就把訓(xùn)練中文能力作為目標(biāo)的意義不大。

很多人在體驗(yàn)ChatGPT時(shí)都遺憾它似乎對(duì)中文世界的知識(shí)沒有那么熟悉,不太會(huì)背古詩(shī),對(duì)中國(guó)名人張冠李戴,甚至對(duì)很多中國(guó)人廣為人知的歷史、名著強(qiáng)行胡說八道,而相應(yīng)地對(duì)歐美世界的歷史、社會(huì)常識(shí)就好得多。所以,大家都在呼吁中文版ChatGPT在哪里。我自然也有這種期盼,但我個(gè)人認(rèn)為,只有做出一個(gè)英文能力超過ChatGPT的模型才可能同時(shí)更好地實(shí)現(xiàn)中文能力。因?yàn)槟P偷幕A(chǔ)能力強(qiáng),才能吊打一切,而語(yǔ)種只是上層表達(dá)。如果英文不能超越或持平ChatGPT,單單提升中文能力是遠(yuǎn)遠(yuǎn)不夠的。

有證據(jù)表明,大模型學(xué)習(xí)到的基礎(chǔ)能力是超越語(yǔ)言跨越語(yǔ)種的“高級(jí)知識(shí)”,很多研究論文都有闡述,我這里僅說一些我的直觀感受:


(資料圖)

1、RLHF論文中的訓(xùn)練數(shù)據(jù)英文占比99%+,西、法、德語(yǔ)還占了剩下的大部分,中文估計(jì)就是0.0x%這個(gè)級(jí)別,效果大家都體驗(yàn)到了。中文和其他小語(yǔ)種能力的提升同樣也非常顯著,這很強(qiáng)有力地證明了這種訓(xùn)練方法是讓模型學(xué)到了跨越語(yǔ)種的隱含信息;

2、ChatGPT為對(duì)話模型做了很多防止有害信息、承認(rèn)自己不知道、盡量公正客觀等限制。其中一個(gè)方法是預(yù)先的prompt提示語(yǔ)。我認(rèn)為,且也有一些蛛絲馬跡表明這個(gè)prompt提示語(yǔ)只是用英語(yǔ)寫的,但很明顯它對(duì)所有語(yǔ)種都有效了。

3、很多人都發(fā)現(xiàn)ChatGPT中文回復(fù)時(shí)偶爾有翻譯腔的情況,這固然可能是訓(xùn)練中翻譯數(shù)據(jù)的直接結(jié)果,但從宏觀上也能看作是“高級(jí)知識(shí)”跨語(yǔ)種適配的體現(xiàn)。

再回到開始的“中文能力”。其實(shí)熟背古詩(shī)、對(duì)中國(guó)歷史文化倒背如流只能算是“中文能力”的細(xì)枝末節(jié),技術(shù)上也不特別困難,國(guó)內(nèi)很多中文訓(xùn)練足夠的模型都能做到。但是大家想一想,這次ChatGPT火爆的原因可不是能熟背知識(shí),而是能理解提問者意圖,然后流暢地生成新的相關(guān)文字內(nèi)容、雖然內(nèi)容可能是錯(cuò)的,但很少自身矛盾。這對(duì)于之前的NLP模型來(lái)說可太難了。

舉個(gè)例子,我曾用ChatGPT改寫顧城的現(xiàn)代詩(shī)為古詩(shī),雖然它生成的古詩(shī)并不怎么樣,但是卻能牢牢地扣住原詩(shī)內(nèi)容,絕不跑題。我還可以明確地告訴它“第三句太現(xiàn)代化,再增加些古風(fēng),請(qǐng)重寫”。這種交互對(duì)于以往所有的計(jì)算機(jī)程序都是不可想象的。所以,真正的中文能力是指:對(duì)語(yǔ)言的理解和應(yīng)用,而不僅是熟知中文知識(shí)。

中文的語(yǔ)言數(shù)據(jù)集需要艱苦卓絕的整理工作

垃圾信息問題。很多人不知道自動(dòng)生成文本信息的技術(shù)在中文互聯(lián)網(wǎng)早就泛濫成災(zāi),但大多只管生成數(shù)量完全不在乎質(zhì)量。比如SEO搜索垃圾生成、水軍機(jī)器人、電商評(píng)論機(jī)器人、各文庫(kù)/知道自動(dòng)改寫、論文防查重“技術(shù)”等等。你只需用中文搜索稍不常見的詞就能體會(huì)到垃圾信息的體量和威力。這些中文垃圾信息是完全不能出現(xiàn)在訓(xùn)練數(shù)據(jù)中的。很不幸,我在測(cè)試一些國(guó)產(chǎn)大模型時(shí)都或多或少發(fā)現(xiàn)了互聯(lián)網(wǎng)垃圾體的影子。英文互聯(lián)網(wǎng)當(dāng)然也有垃圾問題,但僅從搜索信息來(lái)看似乎要好很多。

移動(dòng)互聯(lián)網(wǎng)發(fā)達(dá)的意外之害。中國(guó)移動(dòng)互聯(lián)網(wǎng)的繁榮成功不可否認(rèn),但現(xiàn)在意外地發(fā)現(xiàn)這對(duì)于中文信息的開放共享是個(gè)災(zāi)難。各位是不是對(duì)“下載App繼續(xù)閱讀”深有體會(huì)?還有微信王國(guó)中各種海量的號(hào)。從十幾年前開始,各個(gè)領(lǐng)域優(yōu)質(zhì)用戶產(chǎn)生的優(yōu)質(zhì)中文數(shù)據(jù)只有通過移動(dòng)渠道/登錄賬號(hào)才能訪問,還會(huì)把原有開放互聯(lián)網(wǎng)上的信息刪除或者加上層層限制。我甚至懷疑目前在互聯(lián)網(wǎng)上能公開扒取到的語(yǔ)言數(shù)據(jù)已經(jīng)不能完整反映中文世界的客觀信息,并且對(duì)于微信、百度、知乎、小紅書、各電商、教育平臺(tái)等各相對(duì)優(yōu)質(zhì)數(shù)據(jù)的所有者,它們能聯(lián)合起來(lái)共享么?

中文標(biāo)注數(shù)據(jù)集匱乏。相信很多NLP的長(zhǎng)期從業(yè)者深有體會(huì)。海量數(shù)據(jù)的自監(jiān)督訓(xùn)練階段結(jié)束后,那些之前積累的各種人工標(biāo)注語(yǔ)言數(shù)據(jù)的監(jiān)督訓(xùn)練才是畫龍點(diǎn)睛那一筆。ChatGPT除了自己請(qǐng)人標(biāo)注,也用了已有的共享數(shù)據(jù)集??上У氖?,中文里這種數(shù)據(jù)集太少了。標(biāo)注工作枯燥乏味而且很難出亮眼成績(jī),不過是為他人做嫁衣。我們經(jīng)常羨慕別人重大突破時(shí)天才的靈光一閃,但是勤勤懇懇做基礎(chǔ)整理工作的老黃牛們同樣重要,我們也很缺。

訓(xùn)練中文版ChatGPT的可能正確方式

訓(xùn)練仍然要以英文為主。不得不承認(rèn),作為世界語(yǔ)言以及相對(duì)開放的互聯(lián)網(wǎng)環(huán)境,英文信息尤其是高質(zhì)量信息處于統(tǒng)治地位。2022年,某項(xiàng)統(tǒng)計(jì)顯示,互聯(lián)網(wǎng)上開放信息的中文占比僅1.3%,而英文占比63%,其中高質(zhì)量部分優(yōu)勢(shì)更大,比如論文,包括中國(guó)人在內(nèi)的各非英語(yǔ)國(guó)家,一旦做出較大科研成果幾乎肯定先發(fā)英文論文,后續(xù)也未必有中文翻譯,維基百科、StackOverflow、Reddit等資源也是中文只能羨慕的存在,而我們獲取英文數(shù)據(jù)可能還更加容易。另外,英文本身是和代碼及大多外語(yǔ)是同源,而象形單音節(jié)的中文略顯孤獨(dú),這可能也是個(gè)問題??傊热灰呀?jīng)證明了英文為主的道路暢通,最理智的做法是先走著。

其次以程序代碼為輔。英語(yǔ)為主漢語(yǔ)為輔?不,不,第二重要的應(yīng)該是程序代碼。有一些研究者認(rèn)為,ChatGPT展現(xiàn)出了初級(jí)推理能力要?dú)w功于其使用代碼作為語(yǔ)言數(shù)據(jù)訓(xùn)練,進(jìn)化出的初級(jí)邏輯思維鏈在中文上也有體現(xiàn),說實(shí)話,我并不確信這個(gè)推論,但很值得想象。即使此結(jié)論不正確,大模型擁有寫代碼的能力也極其重要,比如使用外部工具,為無(wú)限能力擴(kuò)展提供了接口。 代碼數(shù)據(jù)的重要性對(duì)我們不是個(gè)好消息,ChatGPT應(yīng)該用了github匯聚的全世界代碼庫(kù),包括私有庫(kù),我們?nèi)绾潍@取高質(zhì)量的代碼數(shù)據(jù)是個(gè)大問題。

頂住誘惑激進(jìn)清洗數(shù)據(jù)。中文數(shù)據(jù)貴精不貴多,GPT3收集訓(xùn)練數(shù)據(jù)45TB,清洗后為570GB,僅保留了1.2%。中文數(shù)據(jù)清洗保留比例可能還要少個(gè)數(shù)量級(jí),很考驗(yàn)數(shù)據(jù)工程師的心理承受能力。辛辛苦苦收集的數(shù)據(jù),你只讓用0.0x%?我拍腦袋認(rèn)為,訓(xùn)練集中有3~5%的中文數(shù)據(jù)就足以改進(jìn)ChatGPT缺乏中文知識(shí)的情況了,甚至在上述推論下,中文也沒必要追求體量上超過西班牙語(yǔ)、法語(yǔ)、德語(yǔ)。后續(xù)監(jiān)督、對(duì)齊、聯(lián)網(wǎng)階段還可以針對(duì)中文做優(yōu)化。

最后聲明,我不能算是NLP的實(shí)際從業(yè)者,因此以上是不負(fù)責(zé)任沒有顧忌的紙上談兵。

(李闖系中國(guó)金融認(rèn)證中心(CFCA)技術(shù)專家、中國(guó)電子銀行網(wǎng)專欄專家。)

文章僅為個(gè)人投稿,不代表所在公司的觀點(diǎn)和立場(chǎng)。

關(guān)鍵詞: 高級(jí)知識(shí) 中國(guó)移動(dòng)

專題首頁(yè)|財(cái)金網(wǎng)首頁(yè)

投資
探索

精彩
互動(dòng)

獨(dú)家
觀察

京ICP備2021034106號(hào)-38   營(yíng)業(yè)執(zhí)照公示信息  聯(lián)系我們:55 16 53 8 @qq.com  財(cái)金網(wǎng)  版權(quán)所有  cfenews.com