當(dāng)前位置：原創(chuàng) >

環(huán)球快看：實(shí)測(cè)昆侖萬(wàn)維大模型「天工」3.5：“文科腦”能說(shuō)會(huì)道也解不出雞兔同籠

文章來(lái)源：科創(chuàng)板日?qǐng)?bào)　發(fā)布時(shí)間： 2023-04-19 06:44:06　責(zé)任編輯：cfenews.com

+|-

財(cái)聯(lián)社4月18日訊（記者崔銘） 昨日，昆侖萬(wàn)維（300418.SZ）正式發(fā)布大語(yǔ)言模型「天工」3.5，同時(shí)宣布即日起啟動(dòng)邀請(qǐng)測(cè)試。財(cái)聯(lián)社記者第一時(shí)間對(duì)其進(jìn)行了測(cè)評(píng)。

「天工」3.5由昆侖萬(wàn)維與奇點(diǎn)智源聯(lián)合研發(fā)，昆侖萬(wàn)維方面稱，其為第一個(gè)真正實(shí)現(xiàn)智能涌現(xiàn)的國(guó)產(chǎn)大語(yǔ)言模型，已“非常接近OpenAI ChatGPT的智能水平”，可滿足文案創(chuàng)作、知識(shí)問(wèn)答、代碼編程、邏輯推演、數(shù)理推算等多元化需求。

(資料圖)

那么，該產(chǎn)品實(shí)際表現(xiàn)如何？讓我們一探究竟。

在開(kāi)始測(cè)試前，記者先請(qǐng)「天工」3.5做了個(gè)自我介紹。

考慮到在此之前，業(yè)內(nèi)已有多家企業(yè)推出大模型，記者也順勢(shì)問(wèn)了它與其他大模型相比有什么優(yōu)點(diǎn)？

「天工」3.5回答其優(yōu)點(diǎn)在于靈活、高效、智能、安全和環(huán)保，并表示自己是一個(gè)“非常有用和可靠的工具”。

初步了解之后，記者接下來(lái)分別從文本寫作、語(yǔ)義理解、邏輯推理、數(shù)學(xué)計(jì)算、撰寫代碼這幾個(gè)方面，實(shí)測(cè)「天工」3.5的各項(xiàng)能力。

首先，我們拋出了一個(gè)比較常規(guī)的寫作要求：如果續(xù)寫《西游記》故事，可以有哪些角度？

可以看到，「天工」3.5給出了幾個(gè)寫作方向，語(yǔ)言組織能力較為通順，也較為符合邏輯。

隨后，記者讓其以“月光”為主題寫一首有平仄且押韻的七言律詩(shī)，「天工」3.5在幾秒鐘內(nèi)便完成了。

有趣的是，記者也讓ChatGPT（3.5版本）寫了一首，發(fā)現(xiàn)兩首詩(shī)竟有不少重疊的部分。

工具總歸是要落到實(shí)處，記者讓其寫一條MMORPG游戲廣告文案，要求要有梗有轉(zhuǎn)折?！柑旃ぁ?.5迅速給出了答案，內(nèi)容整體風(fēng)格符合該類游戲特點(diǎn)，但轉(zhuǎn)折部分稍顯生硬。

記者又提出讓它撰寫電商運(yùn)營(yíng)崗位的招聘JD（職位描述），「天工」3.5給出了非常詳細(xì)的答復(fù)，涵蓋職位名稱、職位描述、任職要求、薪資待遇，甚至最后還附上了公司介紹和投遞郵箱。不僅格式工整，內(nèi)容也較為合理。

語(yǔ)義理解方面，「天工」3.5能準(zhǔn)確說(shuō)出成語(yǔ)釋義。

也懂一點(diǎn)上海話。

記者決定加大難度，問(wèn)一些“陷阱題”，看看「天工」3.5能否從容應(yīng)對(duì)。

先來(lái)一個(gè)腦筋急轉(zhuǎn)彎，提問(wèn)：小明的爸爸有三個(gè)兒子，大兒子叫大毛，二兒子叫二毛，三兒子叫什么名字？

「天工」3.5一次就答對(duì)了。

同樣的問(wèn)題，記者去問(wèn)ChatGPT（3.5版本），雖也回答正確，但多了一句靈魂拷問(wèn)：所以小明的名字是什么。

再來(lái)一道燈謎題，提問(wèn)：說(shuō)它是頭牛，不會(huì)拉犁頭，說(shuō)它力氣小，背著屋子走。（打一個(gè)動(dòng)物）

「天工」3.5又一次答對(duì)了。

而ChatGPT（3.5版本）并沒(méi)有答對(duì)。

面對(duì)“蒸包子”問(wèn)題，「天工」3.5也回答的頭頭是道，頗為“理性”。

ChatGPT（3.5版本）則給出了略微不同的回答。

接著，記者希望能考一下它的數(shù)學(xué)能力。

最經(jīng)典的“雞兔同籠”問(wèn)題：若干只雞兔同在一個(gè)籠子里，已知籠子里有9個(gè)頭，有30只腳，請(qǐng)問(wèn)籠中各有多少只雞和兔？

這次「天工」3.5列出了正確的方程式，卻得出了錯(cuò)誤的答案。

在被指出這一問(wèn)題后，「天工」3.5 “虛心認(rèn)錯(cuò)”并重新計(jì)算了一遍，但還是沒(méi)有得出正確的答案。

同樣的題目，我們又問(wèn)了一遍ChatGPT（3.5版本），依然是列出了正確的方程式，但在運(yùn)算過(guò)程中出錯(cuò)，最后也沒(méi)有回答正確。

記者又問(wèn)了一道奧數(shù)題：已知父親今年32歲，兒子今年5歲，請(qǐng)問(wèn)幾年后父親的年齡正好是兒子的年齡的4倍？

這次「天工」3.5沒(méi)有答出。

同樣的問(wèn)題，ChatGPT（3.5版本）算出了正確答案。

記者還嘗試使用「天工」3.5寫代碼，提問(wèn)：用Scala實(shí)現(xiàn)并查集，在得到回答后，又再次提問(wèn)：用Java再寫一遍。

隨后記者拿給程序員朋友檢查，對(duì)方稱結(jié)果是對(duì)的，還表示這一問(wèn)題相對(duì)基礎(chǔ)，寫代碼能力如何還要視具體需求，若能進(jìn)行多輪對(duì)話聯(lián)系上下文修改，會(huì)是個(gè)輔助業(yè)務(wù)的“好幫手”。

最后，以一個(gè)哲學(xué)問(wèn)題結(jié)尾。

記者問(wèn)了著名的“電車難題”，「天工」3.5指出這是一個(gè)倫理困境的問(wèn)題，并給出了一個(gè)辯證的答復(fù)。

從記者體驗(yàn)來(lái)看，「天工」3.5已經(jīng)能夠較為準(zhǔn)確、完整、流暢地回答問(wèn)題，較少出現(xiàn)“答非所問(wèn)”的情況。在跟ChatGPT（3.5版本）對(duì)比使用過(guò)程中，二者的文本寫作能力接近，在一些與數(shù)理相關(guān)問(wèn)題上，還有優(yōu)化的空間。

昆侖萬(wàn)維CEO方漢在昨日發(fā)布會(huì)上透露，「天工」3.5累計(jì)投入數(shù)億元，由數(shù)百人研發(fā)團(tuán)隊(duì)歷時(shí)3年時(shí)間打造。目前最高已能支持1萬(wàn)字以上文本對(duì)話，實(shí)現(xiàn)20輪次以上用戶交互，在多類問(wèn)答場(chǎng)景中都能實(shí)現(xiàn)較高的輸出水平及較強(qiáng)記憶能力。

據(jù)悉，未來(lái)昆侖萬(wàn)維「天工」大模型在數(shù)理、邏輯推理等方面也將不斷迭代優(yōu)化，隨著產(chǎn)品技術(shù)成熟，將根據(jù)監(jiān)管和合規(guī)要求逐步啟動(dòng)開(kāi)源，「天工」4和「天工」5也在推進(jìn)計(jì)劃中。

（編輯劉琰）

關(guān)鍵詞：

更多資訊>>