女人久久久,最近更新中文字幕在线,成人国内精品久久久久影院vr,中文字幕亚洲综合久久综合,久久精品秘?一区二区三区美小说

原創(chuàng)生活

國內(nèi) 商業(yè) 滾動

基金 金融 股票

期貨金融

科技 行業(yè) 房產(chǎn)

銀行 公司 消費

生活滾動

保險 海外 觀察

財經(jīng) 生活 期貨

當(dāng)前位置:科技 >

從狂熱到理性:大模型訓(xùn)練三堵墻,一場少數(shù)人的游戲 | 鈦媒體深度

文章來源:鈦媒體APP  發(fā)布時間: 2023-06-29 08:14:12  責(zé)任編輯:cfenews.com
+|-

“只要有GPU卡,把服務(wù)器買走都行”。3月份開始,張陽明顯感受大模型帶來的沖擊,作為一家云廠商算力平臺負(fù)責(zé)人,他意識到市場甚至有些盲目?!爱?dāng)時客戶比較慌,相當(dāng)于對產(chǎn)品都沒有什么要求,不關(guān)心網(wǎng)絡(luò)和存儲,就是感覺大家都在搶機器,先搶過來固定住時間,然后再去看怎么用,那會大家還沒有想明白怎么用?!?/p>

到了4月,有些客戶已經(jīng)嘗試過或者見過大模型訓(xùn)練,逐漸開始想明白,大概知道想要什么樣的配置。要一堆GPU卡,實際上是一個認(rèn)知誤區(qū),大模型訓(xùn)練的實現(xiàn)依靠的是一個算力集群,包含整套的服務(wù)。


(資料圖)

但不是所有企業(yè)都能駕馭大規(guī)模算力集群,這注定是一場少數(shù)人的游戲。事實上,微軟和OpenAI的合作也已經(jīng)證明,用云來訓(xùn)練大模型,似乎是更合理的選擇。

作為中間層,云廠商向下屏蔽底層軟硬件的復(fù)雜性,向上對接企業(yè)的研發(fā)和算法工程師、個人開發(fā)者等,此外背靠集團的云廠商,還具備資金、人才、數(shù)據(jù)等優(yōu)勢,也就最先開始聲勢浩大的進軍大模型。

AI算力芯片、服務(wù)器/交換機、光模塊/光芯片、數(shù)據(jù)中心、云計算……算力產(chǎn)業(yè)鏈條的每個角色,仿佛齒輪般咬合在一起,構(gòu)成數(shù)字經(jīng)濟的產(chǎn)業(yè)發(fā)動機,如今,大模型讓每個齒輪都極速傳動起來。

訓(xùn)練基礎(chǔ)模型,是一切大模型產(chǎn)業(yè)生態(tài)的起點,也只有闖過算力關(guān),才能拿到大模型競賽的入場券。

大模型訓(xùn)練的三堵墻

技術(shù)的發(fā)展有其延續(xù)性,正如微軟Azure為OpenAI打造的“超級計算機”,經(jīng)歷了數(shù)年的演進才有成果,現(xiàn)階段大模型訓(xùn)練比拼的,其實是過去幾年廠商的戰(zhàn)略預(yù)判與技術(shù)積累,能上牌桌的大多是老玩家。

“大模型存在明顯的炒作過熱傾向,行業(yè)應(yīng)該更加理性,而不是套著大模型概念做資本或者業(yè)務(wù)的炒作。我自己的觀點是,真的不要去考慮端到端地去做一個大模型,對于非要做的企業(yè),我只能說有機會,但是挑戰(zhàn)很大。”一家互聯(lián)網(wǎng)大廠大模型產(chǎn)品負(fù)責(zé)人對鈦媒體表示。

在學(xué)術(shù)界看來,OpenAI并沒有做出革命性的創(chuàng)新,本質(zhì)是圍繞AGI產(chǎn)品進行的“工程創(chuàng)新”,但正是工程化造就了OpenAI和大模型的成功,工程化體現(xiàn)在大模型研究、工程、產(chǎn)品、組織各個環(huán)節(jié),算力訓(xùn)練集群也是如此。

“工程化做得好也很難,它證明了往上堆算力,堆數(shù)據(jù)是可以往前推進的?!蔽④浖夹g(shù)中心首席架構(gòu)師韓凱對鈦媒體表示。

這一看似簡單的邏輯背后,對企業(yè)而言卻是極大的考驗——看不見可能的出路,擔(dān)心巨大的投入沒有產(chǎn)出,這是最大的風(fēng)險,也是為什么國內(nèi)沒有先做出“ChatGPT”的原因——他們更多選擇跟隨,而不是對一條沒被驗證過的路投資。

算力集群的工程化,至少要突破三堵墻。

首先是“算力”墻。“完成一個千億參數(shù)級別的大模型例如GPT-3需要314ZFLOPs算力的模型訓(xùn)練,而單卡只有312TFLOPS算力時,一張卡訓(xùn)練一個模型要耗時32年。所以需要引入分布式訓(xùn)練的方法,使用多機多卡的方式來加速模型的訓(xùn)練,包括比較常見的數(shù)據(jù)并行和張量并行?!碧煲碓瀑Y深專家陳希表示。

其次是“存儲”墻。單顯卡的顯存已經(jīng)無法加載千億級參數(shù)。千億級參數(shù)完全加載到顯存大概需要幾個TB,如果再考慮梯度、優(yōu)化器狀態(tài)等訓(xùn)練過程產(chǎn)生的一些中間結(jié)果,占用的顯存量就更大了,往往需要上百張卡才可以支持。

所以廠商一般會引入流水線并行,將模型不同的層放到不同的節(jié)點的顯卡內(nèi)進行計算。對于這一組節(jié)點只需要加載某一些層的參數(shù),降低顯存的壓力。

隨之而來的是“通信”墻。大模型并行切分到集群后,模型切片間會產(chǎn)生大量通信,包括節(jié)點內(nèi)多卡通信,節(jié)點間通信。幾種并行方式都會涉及到大量的節(jié)點與節(jié)點間的通信,這時候就會對總線和總帶寬都有很高的要求,要達(dá)到幾百G的吞吐。

另外除了這三堵墻以外,還有一些其他問題:如大模型參數(shù)的增長速度和芯片工藝發(fā)展之間的矛盾也日趨明顯。最近幾年隨著transformer結(jié)構(gòu)的引入,平均每兩年,模型參數(shù)數(shù)量增長15倍。而相應(yīng)的芯片制程從7nm提升到4nm,單卡算力增長不超過4倍,芯片工藝發(fā)展落后于大模型的需求

大模型訓(xùn)練需要的不單單是算力,對存儲,對安全,對訓(xùn)練框架都有一定的要求,需要一套比較完整的平臺或服務(wù)來提供支持?!按蠹易罱囊粋€普遍的感受,就是能滿足大模型訓(xùn)練平臺的提供商不多,高性能算力供應(yīng)整體比較緊張。”陳希說。

為什么“他們”能成?

現(xiàn)在仍有不少企業(yè)毫無準(zhǔn)備或者自我感覺有所準(zhǔn)備,就沖進基礎(chǔ)模型領(lǐng)域。

然而,如果細(xì)細(xì)研究現(xiàn)階段做出基礎(chǔ)模型的廠商,無一例外在AI領(lǐng)域都有足夠積累,特別是底層基礎(chǔ)設(shè)施層面,他們的實踐也在驗證“云是規(guī)模算力的最佳承載平臺”這一判斷。

“為了打造AI超級計算機,微軟早在2018年就開始布局,除了OpenAI還投資了幾個小公司,大數(shù)據(jù)是AI的前序,云計算基礎(chǔ)設(shè)施是算力平臺,大模型是算力、算法和數(shù)據(jù)的集合,微軟的成功在于全棧能力?!表n凱表示。

回到國內(nèi),百度也遵循類似的邏輯。百度副總裁謝廣軍提到,算力和存儲一定要達(dá)到更高的密度,才能夠支持大模型。顯著的問題還有網(wǎng)絡(luò)互聯(lián),大模型訓(xùn)練用的比較多的顯卡是帶有NVLink高速互連的A800,需要比傳統(tǒng)云計算做到更低延時、更高帶寬,大量的小文件,也需要低延時、高存儲的基礎(chǔ)設(shè)施。

“大模型跑起來之后,還有非常多的地方需要加速,像通信需要加速、顯存需要壓縮、整個推理也需要加速。百度智能云能夠把調(diào)優(yōu)手段集成到基礎(chǔ)庫,對于大模型計算和推理非常有幫助?!敝x廣軍說。

從平臺的視角來說,不管是訓(xùn)練任務(wù)還是推理任務(wù),單個的任務(wù)就需要非常長的時間,需要占用很多資源。怎么能夠保證資源的充分利用,以及降低它的訓(xùn)練和推理時間。這里面需要切任務(wù)、調(diào)度、并行,對于模型訓(xùn)練的加速比和并行度的支撐。

同時,一個平臺上往往有有很多任務(wù),如何靈活調(diào)度,進而能夠讓這些任務(wù)充分地使用資源,甚至能夠感知到異構(gòu)算力的拓?fù)?,使得平臺效率得到提升……這類AI任務(wù)調(diào)度、容器化支持方面都有非常多的工作需要去做。

以文心一言的訓(xùn)練為例,千卡規(guī)模的A100或者A800數(shù)據(jù)并行加速比達(dá)到90%,其中用了非常多的調(diào)優(yōu)手段和技術(shù),百度智能云圍繞著大模型一層一層做優(yōu)化,在平臺上分成了AI 計算、AI 存儲、AI 加速和 AI 容器等四層,共同組成了 AI IaaS,這些基礎(chǔ)設(shè)施可以支持上萬億參數(shù)大模型的訓(xùn)練。

此外,預(yù)訓(xùn)練模型需要通過千卡以上的集群訓(xùn)練,而在大多數(shù)情況,精調(diào)或者微調(diào)更普遍,基于大模型訓(xùn)練行業(yè)模型,相當(dāng)于在樹干上長樹枝,不需要超大規(guī)模的集群,小幾十張卡足以滿足企業(yè)所需訓(xùn)練資源。

達(dá)觀數(shù)據(jù)將在7月份正式推出國產(chǎn)版GPT“曹植”系統(tǒng),也是得益于多年文本智能技術(shù)積累和垂直領(lǐng)域場景業(yè)務(wù)經(jīng)驗,算法和數(shù)據(jù)層面有所儲備,而在測試階段的算力層面,達(dá)觀數(shù)據(jù)CEO陳運文表示,自建算力數(shù)據(jù)中心較為吃力,達(dá)觀尋求了多種算力平臺的支持,包括運營商算力中心、鵬程實驗室等。

達(dá)觀數(shù)據(jù)也曾嘗試某家頭部云廠商的GPU算力,但經(jīng)過測算成本太高,租一年半下來的成本,足夠達(dá)觀數(shù)據(jù)自家購置一個自己的算力平臺,達(dá)觀數(shù)據(jù)選擇了英偉達(dá)DGX高性能工作站方案,相當(dāng)于英偉達(dá)自身做了很多集群優(yōu)化,解決了存儲和網(wǎng)絡(luò)的大部分問題,直接買GPU卡自建集群和英偉達(dá)解決方案相比,綜合性能相差一倍。

“我們自己的模型訓(xùn)練成本其實還是很高的,但是我們幫客戶算過賬,模型在推理階段需要的算力投入并不大,很多客戶只要單機多卡就夠,硬件投入不算很大,但是給客戶帶來的效果和體驗提升非常明顯?!标愡\文表示。

英偉達(dá)不只有GPU

小廠商用英偉達(dá)的商業(yè)技術(shù)補齊能力,大廠商以英偉達(dá)的硬件為核心構(gòu)建高性能計算集群、提升性能,進一步縮短訓(xùn)練時間……基本所有廠商的大模型的推理、訓(xùn)練都高度依賴英偉達(dá)的GPU。

來自市場的消息顯示,A800的價格一度超過8萬元人民幣,A100更貴,甚至超過9萬元。

“英偉達(dá)的策略是既要確保每家大客戶都能拿到貨,同時又不會完全滿足其短時大量的需求,這使得英偉達(dá)GPU保持在一個供應(yīng)緊張的狀態(tài)。”一位業(yè)內(nèi)人士表示,英偉達(dá)全球A100的產(chǎn)能并不缺,供貨沒有問題,對于禁售A100之后,特供中國的替代品A800,英偉達(dá)特意開了一條產(chǎn)品線,因其產(chǎn)能相對有限,造成了供需矛盾。

一些廠商也在想其他辦法,比如在香港建立算力集群,同時H800和A800復(fù)用了一部分產(chǎn)品線,未來H800的產(chǎn)能上來之后或許會壓制A800,不排除英偉達(dá)會繼續(xù)增加適用于中國市場的產(chǎn)線。

除了產(chǎn)量,高企的價格也源于英偉達(dá)芯片的工程化能力,這是其成為大模型訓(xùn)練核心的決定性原因。

業(yè)界內(nèi)外對英偉達(dá)有兩種極端認(rèn)知:一種認(rèn)為,英偉達(dá)難以戰(zhàn)勝;另一種是諸多廠商在PPT上“吊打”英偉達(dá)。然而,即便在理念和先進性上領(lǐng)先,但這一切只停留在芯片設(shè)計環(huán)節(jié),沒有真正工業(yè)落地,也就無從對比。

現(xiàn)實情況是,在大模型算力領(lǐng)域,英偉達(dá)的壁壘在于GPU+NVlink/Infiniband網(wǎng)絡(luò)+CUDA的組合能力。

以英偉達(dá)最新發(fā)布的GH200GraceHopper超級芯片,以及擁有256個GH200超級芯片的DGXGH200超級計算機為例,產(chǎn)品性能上至少領(lǐng)先其他廠商一個身位。

涉及到算力集群,RDMA網(wǎng)絡(luò)成為大模型時代的底層通信技術(shù),業(yè)內(nèi)主要使用的是Infiniband、RoCE,NVlink僅用于GPU之間通信,InfiniBand網(wǎng)絡(luò)則為通用高性能網(wǎng)絡(luò),既可用于GPU之間通信,也可用于CPU之間通信。

Infiniband網(wǎng)絡(luò)以往在超算領(lǐng)域應(yīng)用較為廣泛,隨后擴展至人工智能計算,2019年,英偉達(dá)以69億美元收購邁絡(luò)思,補全了自己了網(wǎng)絡(luò)短板,目前IB較為成熟,很多廠商都在嘗試自研RoCE路線,在部分場景下較IB網(wǎng)絡(luò)還有一定差距。

例如文心一言,早在2021年6月,百度智能云開始規(guī)劃全新的高性能GPU集群的建設(shè),聯(lián)合NVIDIA共同完成了可以容納萬卡以上規(guī)模的IB網(wǎng)絡(luò)架構(gòu)設(shè)計,集群中節(jié)點間的每張GPU卡都通過IB網(wǎng)絡(luò)連接,并在2022年4月將集群建設(shè)完成,提供單集群EFLOPS級別的算力。

2023年3月,文心一言在這個高性能集群上誕生,并不斷迭代出新的能力。目前,這個集群的規(guī)模還在不斷擴大。NVIDIA中國區(qū)解決方案與工程總經(jīng)理賴俊杰也提到,高速IB網(wǎng)絡(luò)互聯(lián)的GPU集群是大模型時代的關(guān)鍵基礎(chǔ)設(shè)施。

據(jù)了解,百度僅半年時間就采購了數(shù)萬片英偉達(dá)A800,其他互聯(lián)網(wǎng)廠商的采購量也在上萬片,刨除一開始發(fā)生了擠兌現(xiàn)象導(dǎo)致供不應(yīng)求外,目前英偉達(dá)產(chǎn)品的供貨周期在三個月以內(nèi)。

CUDA(ComputeUnifiedDeviceArchitecture)軟件生態(tài),也是備受開發(fā)人員好評的產(chǎn)品,它允許開發(fā)者使用C/C++、Fortran等編程語言在英偉達(dá)GPU上進行并行計算,提供了強大的計算能力和高效的數(shù)據(jù)傳輸方式,使得GPU在科學(xué)計算、機器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域得到了廣泛的應(yīng)用。

目前,英偉達(dá)是大模型熱潮中最受益的廠商,沒有之一,即便是微軟為OpenAI搭建的超級計算機,也依賴于英偉達(dá)的產(chǎn)品,絕大多數(shù)訓(xùn)練算力都來自于英偉達(dá)GPU,面對全球如雪花般飛來的訂單,英偉達(dá)賺的盆滿缽滿。

其最新的2024財年第一季度財報顯示,英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)營收為42.8億美元,創(chuàng)下歷史紀(jì)錄,與上年同期相比增長14%,與上一財季相比增長18%,股價也創(chuàng)下歷史新高。財報具有滯后性,大模型帶來的業(yè)績增收還沒有完全體現(xiàn)在財報上。

國產(chǎn)算力的機會

在自主創(chuàng)新的大背景下,大模型算力也在加速擁抱國產(chǎn)化,大家的態(tài)度是遠(yuǎn)期普遍看好,短期仍有挑戰(zhàn)。大模型時代到來之后,很多國產(chǎn)芯片雖然有所準(zhǔn)備,但是在最高端的芯片上存在一定的差距。

燧原COO張亞林表示,當(dāng)前所有人在做大模型訓(xùn)練的時候,時間至關(guān)重要,現(xiàn)在大家需要成熟的產(chǎn)品,不會傾向于選用國產(chǎn)化芯片,避免遇到一些穩(wěn)定性或者成熟度的問題。

但推理層面是國產(chǎn)芯片的機會,張亞林表示,推理模型本身支持的方向比較單一,只要在推理模型上做到極致的調(diào)優(yōu),把性價比拿出來,很多用戶反而愿意用國產(chǎn)化芯片。“我認(rèn)為現(xiàn)在國產(chǎn)芯片應(yīng)該倒過來,先做推理和微調(diào),然后慢慢通過研究所、高校、國家級實驗室的研究,牽引到集群化的能力,從推理到訓(xùn)練的曲線會更加合理?!彼f。

謝廣軍提到,AI芯片的發(fā)展比摩爾定律更加激進,也會有更大的下降空間。算力短缺一方面算力跟不上需求,另一方面,還是由于整個供應(yīng)形勢所帶來的問題。

“大模型的需求也會加速國產(chǎn)芯片的迭代。以昆侖芯來講,今年年底昆侖第三代,更加適合大模型,不管是訓(xùn)練還是推理,包括通信、顯存都會有非常大的提升。我相信其他的國產(chǎn)算力也是這樣的,國產(chǎn)算力更具備競爭力,會使得整個算力成本進一步下降,而且是加速下降?!敝x廣軍說。

鈦媒體App了解到,今年國產(chǎn)芯片的發(fā)展呈現(xiàn)錯位狀態(tài),國產(chǎn)芯片還沒有對標(biāo)到英偉達(dá)最高端的產(chǎn)品,比如A100。有幾家國產(chǎn)芯片廠商已經(jīng)預(yù)備在今年晚些時候,推出類似的對標(biāo)產(chǎn)品。不論是訓(xùn)練還是推理,國產(chǎn)芯片的發(fā)展或多或少有一些滯后。

與之對應(yīng)地,英偉達(dá)芯片供應(yīng)相對緊張,國產(chǎn)算力在明年之后,會有比較大的機會,現(xiàn)在算力市場還在急劇增長,國產(chǎn)芯片的匹配度不夠,主要還是英偉達(dá)在增長,如果需求匹配上之后,國內(nèi)芯片會有很大的機會。

張亞林表示,如果燧原要真的“殺”到互聯(lián)網(wǎng)客戶場景,一定是在他們需要的場景和業(yè)務(wù)下,具備1.5倍的英偉達(dá)產(chǎn)品性能,和兩倍的性價比。

“互聯(lián)網(wǎng)客戶普遍追求極致性價比,但是在集群方面要看TCO(總體擁有成本),集群的軟硬件整體價格、運維服務(wù)部署等,比如我1000卡的集群,跟英偉達(dá)的600卡集群對比,可能性能差不多,但是我性價比更高,同時我提供更好的定制化的服務(wù)支持,在市場上也是很有競爭力的?!彼f。

6月,關(guān)于大模型算力的討論漸歇,基礎(chǔ)模型廠商初窺門徑,要么身體力行地去訓(xùn)練大模型,要么買到更有性價比的算力,但總體來說,以算力為中心的大模型基礎(chǔ)設(shè)施,成本依然處于較高的水平。

IT產(chǎn)業(yè)總是遵循否定之否定的鐘擺定理,在大模型的產(chǎn)業(yè)熱潮中,接下來算力的各個環(huán)節(jié)如何進化,也更值得期待。(文中張陽為化名)

(本文首發(fā)鈦媒體APP,作者 | 張帥,編輯 | 蓋虹達(dá))

關(guān)鍵詞:

專題首頁|財金網(wǎng)首頁

投資
探索

精彩
互動

獨家
觀察

京ICP備2021034106號-38   營業(yè)執(zhí)照公示信息  聯(lián)系我們:55 16 53 8 @qq.com 關(guān)于我們 財金網(wǎng)  版權(quán)所有  cfenews.com