“大模型訓(xùn)練需要大量數(shù)據(jù),因此對(duì)算力的要求很高。”在日前召開(kāi)的首屆“AI Tech Day(人工智能科技日)”峰會(huì)上,中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授鄭緯民介紹,自去年12月份以來(lái),大模型需要的AI芯片漲價(jià)一倍,國(guó)外芯片“一卡難求”。盡管?chē)?guó)內(nèi)數(shù)十家公司在AI芯片研制和生產(chǎn)方面取得了很大進(jìn)步,但國(guó)產(chǎn)芯片尚未受到市場(chǎng)的廣泛青睞。
對(duì)此,與會(huì)專(zhuān)家呼吁,解決算力難題,應(yīng)重塑大模型算力生態(tài),助力國(guó)產(chǎn)AI芯片系統(tǒng)練好“內(nèi)功”。
加強(qiáng)底層研發(fā),提升國(guó)產(chǎn)AI芯片“包容力”
“如果基于國(guó)外芯片編寫(xiě)的軟件能夠很容易移植到我們的國(guó)產(chǎn)芯片系統(tǒng)上來(lái),用戶(hù)就會(huì)感覺(jué)到國(guó)產(chǎn)芯片好用。”鄭緯民認(rèn)為,但由于生態(tài)建設(shè)不完備,目前國(guó)產(chǎn)芯片在大模型訓(xùn)練相關(guān)軟件移植方面表現(xiàn)不太順暢,因此需要進(jìn)一步加強(qiáng)底層研發(fā),做好包括編程框架、并行加速、通信庫(kù)在內(nèi)的軟件研發(fā)工作。
“為了發(fā)展AI芯片的生態(tài)體系,一些國(guó)際大企業(yè)甚至可以放棄一些高利潤(rùn)的項(xiàng)目和方案。”英博數(shù)科CEO周韡韡介紹,營(yíng)造生態(tài)需要發(fā)動(dòng)整個(gè)行業(yè)的創(chuàng)新力量,例如國(guó)際企業(yè)曾通過(guò)主動(dòng)開(kāi)源部分軟件的底層代碼、讓利給基于芯片的軟件開(kāi)發(fā)者,形成以AI芯片為核心的算力體系。
相較于芯片本身的硬件性能提升,鄭緯民認(rèn)為,通過(guò)營(yíng)造生態(tài),提升國(guó)產(chǎn)AI芯片的“包容力”更加急迫。“如果算力生態(tài)做得非常好,即使國(guó)產(chǎn)芯片的硬件性能只有國(guó)外性能的60%及以上,大家也會(huì)喜歡用。”鄭緯民說(shuō),但如果算力生態(tài)沒(méi)做好,新型軟件跑不起來(lái)、軟件移植不順暢,即便硬件性能達(dá)到國(guó)外的120%,照樣難以轉(zhuǎn)變?yōu)橛行懔Α?/p>
為凝聚行業(yè)力量、改變當(dāng)前的大模型算力生態(tài),英博數(shù)科聯(lián)合百川智能、中國(guó)計(jì)算機(jī)學(xué)會(huì)、清華大學(xué)等單位共同成立北京AI創(chuàng)新賦能中心技術(shù)委員會(huì)。作為該技術(shù)委員會(huì)的顧問(wèn),清華大學(xué)電子工程系教授汪玉表示:“在大模型領(lǐng)域,我們將同時(shí)從軟件側(cè)和硬件側(cè)方面開(kāi)展聯(lián)合優(yōu)化。在打造通用型人工智能服務(wù)平臺(tái)的同時(shí),推動(dòng)高性能計(jì)算領(lǐng)域智能芯片和高模態(tài)電路關(guān)鍵技術(shù)的研發(fā)。”
共建基礎(chǔ)生態(tài),推動(dòng)現(xiàn)有算力融合創(chuàng)新
“大模型興起之前建設(shè)的算力,相對(duì)而言利用率較低,跟不上現(xiàn)階段大模型對(duì)算力指數(shù)級(jí)發(fā)展的需求。”艾瑞咨詢(xún)產(chǎn)業(yè)數(shù)字化研究院負(fù)責(zé)人徐樊磊介紹,為提升整體算力效率和滿(mǎn)足差異化需求,應(yīng)建立支撐大模型萬(wàn)億量級(jí)參數(shù)計(jì)算的“智算中心”。“智算中心”可利用現(xiàn)有高質(zhì)量數(shù)據(jù)中心,通過(guò)提升組網(wǎng)能力、協(xié)同能力、軟硬件適配能力等實(shí)現(xiàn)部署。當(dāng)前,“萬(wàn)卡”級(jí)別的智算中心正在主要節(jié)點(diǎn)城市發(fā)展起來(lái)。
與會(huì)專(zhuān)家認(rèn)為,推動(dòng)現(xiàn)有算力融合創(chuàng)新將進(jìn)一步提升當(dāng)前算力使用效率。“1萬(wàn)塊卡(AI芯片)應(yīng)該怎么連?是不是每塊卡和其他9999塊直連?如果這樣,中間的連接將需要1萬(wàn)乘以9999個(gè)連接卡,成本將非常高。”鄭緯民說(shuō),通過(guò)最有效的連接支持模型并行、數(shù)據(jù)并行等不同的要求,是融合創(chuàng)新的關(guān)鍵。
大模型背后運(yùn)行的是更加復(fù)雜的網(wǎng)絡(luò)架構(gòu)和智能算法。如何在降本增效的同時(shí),促進(jìn)大模型算力使用門(mén)檻的降低?“‘云’模式是打通供需不對(duì)稱(chēng)、達(dá)成算力普惠的有效路徑。”周韡韡表示,通過(guò)共享、共融集結(jié)現(xiàn)有算力,萬(wàn)卡平臺(tái)及配備高效網(wǎng)絡(luò)交互機(jī)制的大模型訓(xùn)練與推理平臺(tái),可以開(kāi)放給大企業(yè)、小微企業(yè)共用。通過(guò)搭載數(shù)據(jù)遷徙、訓(xùn)練數(shù)據(jù)庫(kù)等工具,云平臺(tái)等基礎(chǔ)生態(tài)的搭建有望讓算力像水和電一樣隨取隨用。
來(lái)源:科技日?qǐng)?bào) 記者 張佳星
評(píng)論