日韩毛片在线视频-日韩毛片在线影视-日韩美aaa特级毛片-日韩美a一级毛片-久久夜夜操妹子-久久夜夜肉肉热热日日

快速發(fā)布求購(gòu) 登錄 注冊(cè)
行業(yè)資訊行業(yè)財(cái)報(bào)市場(chǎng)標(biāo)準(zhǔn)研發(fā)新品會(huì)議盤點(diǎn)政策本站速遞

南科大余浩團(tuán)隊(duì)在具身智能硬件領(lǐng)域取得突破性成果

研發(fā)快訊 2025年05月28日 10:42:45來(lái)源:南方科技大學(xué) 17587
摘要隨著大模型時(shí)代的到來(lái),深度神經(jīng)網(wǎng)絡(luò)模型的算力需求呈指數(shù)級(jí)增長(zhǎng),但傳統(tǒng)芯片架構(gòu)面臨能效與性能的雙重瓶頸。

  【儀表網(wǎng) 研發(fā)快訊】近日,南方科技大學(xué)深港微電子學(xué)院余浩教授研發(fā)團(tuán)隊(duì)在具身智能硬件領(lǐng)域取得多項(xiàng)突破性成果。團(tuán)隊(duì)共發(fā)表3篇期刊論文,分別發(fā)表在集成電路設(shè)計(jì)領(lǐng)域期刊《固態(tài)電路雜志》(IEEE Journal of Solid-State Circuits, JSSC)、電路與系統(tǒng)領(lǐng)域期刊 IEEE Transactions on Circuits and Systems I: Regular Papers 、電路與系統(tǒng)領(lǐng)域期刊《集成電路與系統(tǒng)》(IEEE Integrated Circuits & Systems, ISC)上。
 
  基于矢量脈動(dòng)的高能效深度神經(jīng)網(wǎng)絡(luò)加速器,突破傳統(tǒng)AI芯片設(shè)計(jì)中“能效-面積-靈活性”三角矛盾
 
  團(tuán)隊(duì)提出了基于矢量脈動(dòng)的高能效深度神經(jīng)網(wǎng)絡(luò)加速器。相關(guān)成果以“A 29.12 TOPS/W Vector Systolic Accelerator with NAS-optimized DNNs in 28-nm CMOS”為題被集成電路設(shè)計(jì)領(lǐng)域期刊《固態(tài)電路雜志》(IEEE Journal of Solid-State Circuits, JSSC)接收。
 
  隨著大模型時(shí)代的到來(lái),深度神經(jīng)網(wǎng)絡(luò)模型的算力需求呈指數(shù)級(jí)增長(zhǎng),但傳統(tǒng)芯片架構(gòu)面臨能效與性能的雙重瓶頸。研究團(tuán)隊(duì)針對(duì)這一挑戰(zhàn)突破傳統(tǒng)AI芯片設(shè)計(jì)中“能效-面積-靈活性”三角矛盾,實(shí)現(xiàn)了三大技術(shù)創(chuàng)新:動(dòng)態(tài)精度調(diào)控:打破固定精度限制,在能效與準(zhǔn)確率間實(shí)現(xiàn)動(dòng)態(tài)平衡;結(jié)構(gòu)化稀疏編碼:通過(guò)對(duì)數(shù)尺度稀疏策略,在壓縮率提升30%的同時(shí)保持模型精度;矢量脈動(dòng)陣列:創(chuàng)新的脈動(dòng)架構(gòu)將內(nèi)存帶寬利用率提升至92%,顯著降低數(shù)據(jù)搬運(yùn)能耗。
 
  圖1.1 基于4-bit的矢量處理單元(SCV PE)中實(shí)現(xiàn)8-bit的組合和2-bit/1-bit的拆分運(yùn)算
 
  圖1.1展示了基于拆分和組和矢量(SCV)的動(dòng)態(tài)精度調(diào)控的混合精度加速器,該加速器利用在每一層復(fù)用可變精度單元矢實(shí)現(xiàn)1-bit、2-bit、4-bit和8-bit精度的計(jì)算,并進(jìn)一步采用實(shí)現(xiàn)脈動(dòng)陣列(VSA)實(shí)現(xiàn)更大規(guī)模的集成,以提升芯片的吞吐量。芯片在對(duì) NSA 優(yōu)化的混合精度 VGG-16 模型測(cè)試中,實(shí)現(xiàn)了平均能量效率達(dá)到29.12 TOPS/W(等效于2-bit精度的高能效),模型的推理準(zhǔn)確率達(dá)到70.146%(等效于4-bit精度模型的高準(zhǔn)確率)。該研究實(shí)現(xiàn)了很好的能效和面積效率,且實(shí)現(xiàn)了模型的低成本和高能效部署。
 
圖1.2 動(dòng)態(tài)精度調(diào)控加速器芯片測(cè)試
 
  圖1.2展示了動(dòng)態(tài)精度調(diào)控芯片的測(cè)試環(huán)境及結(jié)果,實(shí)驗(yàn)結(jié)果標(biāo)明該論文設(shè)計(jì)的芯片與目前國(guó)際最先進(jìn)的研究工作相比,基于矢量的可拆分與組合實(shí)現(xiàn)的混合精度實(shí)現(xiàn)了最高的峰值能效(63.54 TOPS/W)和最高的峰值面積效率(7.94 TOPS/mm2)。
 
  圖1.3  對(duì)數(shù)尺度的結(jié)構(gòu)化稀疏編碼策略以及混合稀疏的 Booth MAC 設(shè)計(jì)
 
  圖1.3展示了提出的對(duì)數(shù)尺度的結(jié)構(gòu)化稀疏編碼策略,本工作同時(shí)結(jié)合混合稀疏的 Booth 算法的 MAC 單元以及組矢量脈動(dòng)陣列(G-VSA)來(lái)優(yōu)化提高系統(tǒng)性能和能效。該混合加速器芯片采用28-nm CMOS 工藝,在工作電壓為0.7V和工作頻率為400MHz時(shí),實(shí)現(xiàn)了平均能量效率高達(dá) 21.7 TOPS/W 的模型部署能效。測(cè)量結(jié)果顯示,該混合稀疏芯片在能量效率和準(zhǔn)確性方面均優(yōu)于當(dāng)前先進(jìn)的稀疏芯片。
 
圖1.4 混合稀疏加速器的芯片測(cè)試
 
  圖1.4展示了混合稀疏芯片的測(cè)試環(huán)境及結(jié)果。在0.6V到1V的運(yùn)行電壓下,芯片頻率從199 MHz變化到986 MHz,大約比先前的先進(jìn)工作高出約2.5倍,這得益于 G-VSA 和優(yōu)化的混合稀疏 MAC 設(shè)計(jì)。加速卷積層的峰值吞吐量在1V時(shí)達(dá)到4.04 TOPs。在不同的供電電壓下,能耗范圍從26mW到314mW,對(duì)應(yīng)的能效為1.67到31.26 TOPS/W。
 
圖1.5 具有混合精度及稀疏的立方脈動(dòng)架構(gòu)芯片的性能比較
 
  論文對(duì)基于立方脈動(dòng)架構(gòu)的混合精度和混合稀疏芯片,在相同測(cè)試用例的條件下進(jìn)行了公平的比較,如圖1.5所示,混合精度 VSA 在相似的準(zhǔn)確度水平上展示了更優(yōu)越的能量效率,而混合稀疏模型則實(shí)現(xiàn)了更優(yōu)的模型壓縮效果。因此,對(duì)于內(nèi)存限制嚴(yán)重的場(chǎng)景推薦使用混合稀疏模型,而當(dāng)能量效率和準(zhǔn)確度是主要考慮因素時(shí),則混合精度加速器更為合適。
 
  2021級(jí)博士生李凱為論文第一作者,余浩為論文的唯一通訊作者,南方科技大學(xué)為論文的第一單位。該論文得到了國(guó)家科技重點(diǎn)研發(fā)計(jì)劃項(xiàng)目和孔雀團(tuán)隊(duì)項(xiàng)目經(jīng)費(fèi)的支持。
 
  成功部署端側(cè) FPGA 大模型推理系統(tǒng),攻克大語(yǔ)言模型(LLM)在資源受限邊緣設(shè)備上的部署難題
 
  研發(fā)團(tuán)隊(duì)與深圳市邁特芯科技有限公司合作,進(jìn)一步攻克大語(yǔ)言模型(LLM)在資源受限邊緣設(shè)備上的部署,利用已驗(yàn)證的混合精度計(jì)算單元以及立方脈動(dòng)陣列架構(gòu),成功部署了多個(gè) 7B LLM 語(yǔ)言模型及多模態(tài)模型。與GPU相比,該系統(tǒng)的吞吐量提高了1.91倍,能效提高了7.55倍;與最先進(jìn)的 FPGA 加速器 FlightLLM 相比,整體性能提升了10%到24%。相關(guān)研究成果以“EdgeLLM: A Highly Efficient CPU-FPGA Heterogeneous Edge Accelerator for Large Language Models”為題發(fā)表在 IEEE Transactions on Circuits and Systems I: Regular Papers 上。
 
圖2.1  端側(cè)大模型推理卡
 
  為了將大語(yǔ)言模型在資源受限的端側(cè)系統(tǒng)部署,團(tuán)隊(duì)解決了幾大困難挑戰(zhàn)。首先,大語(yǔ)言模型計(jì)算量龐大以及內(nèi)存訪問(wèn)需求極高,現(xiàn)有解決方案通常將這些權(quán)重參數(shù)量化為 INT4 格式。為了確保計(jì)算精度,模型中的激活函數(shù)仍然保持 FP16 格式。因此,在前饋神經(jīng)網(wǎng)絡(luò)(FFN)層中,系統(tǒng)需要支持 FP16INT4 格式的矩陣乘法。另一方面,在多頭注意力(MHA)模塊中,KV緩存作為激活數(shù)據(jù)動(dòng)態(tài)生成,涉及KV緩存的矩陣乘法需要 FP16FP16 格式。因此,團(tuán)隊(duì)沿用混合精度的思路,定制化實(shí)現(xiàn)了FP16INT4以及 FP16FP16 的混合精度計(jì)算單元以加速 LLM。團(tuán)隊(duì)分析了前饋網(wǎng)絡(luò)(FFN)和多頭注意力(MHA)的計(jì)算需求,在高效率的混合精度計(jì)算單元的基礎(chǔ)上,構(gòu)建了立方脈動(dòng)陣列架構(gòu)以進(jìn)一步提升計(jì)算密度。團(tuán)隊(duì)還提出了對(duì)數(shù)尺度結(jié)構(gòu)化稀疏性和塊級(jí)量化方法,以在硬件效率和算法精度之間取得平衡。
 
  此外,在大語(yǔ)言模型中,定義計(jì)算流程的算子圖極其復(fù)雜,包含數(shù)百甚至數(shù)千個(gè)以復(fù)雜方式相互連接的算子,確保從一個(gè)算子到另一個(gè)算子的過(guò)渡無(wú)縫且高效成為了一項(xiàng)重大挑戰(zhàn)。團(tuán)隊(duì)分析了大語(yǔ)言模型中的編譯需求,設(shè)計(jì)了一種統(tǒng)一且通用的數(shù)據(jù)格式,適用于所有算子和AI算法中的高維張量結(jié)構(gòu),使系統(tǒng)能夠快速執(zhí)行算子操作而無(wú)需任何數(shù)據(jù)重排。隨后,開(kāi)發(fā)了端到端的編譯方案,其中動(dòng)態(tài)編譯用于處理不同輸入 token 長(zhǎng)度,指令流水線策略用于減少延遲。該方案能夠動(dòng)態(tài)編譯所有算子,并將整個(gè)模型映射到 CPU-FPGA 異構(gòu)系統(tǒng)上。
 
圖2.2 不同端側(cè)大模型推理卡對(duì)比
 
  南方科技大學(xué)深港微電子學(xué)院2023級(jí)碩士生申奧同與中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院黃明強(qiáng)研究員同為第一作者,余浩為論文的唯一通訊作者,南方科技大學(xué)為論文的通訊單位。該研究得到了醫(yī)學(xué)成像科學(xué)與技術(shù)系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室、科技創(chuàng)新2030重大科技項(xiàng)目的資助。
 
  進(jìn)行LLM 具身智能 NGS 研究,促成具身智能系統(tǒng)應(yīng)用落地
 
  研發(fā)團(tuán)隊(duì)還為解決大語(yǔ)言模型的具身智能系統(tǒng)應(yīng)用落地提供了解決方案,相關(guān)成果以“emGene: An Embodied LLM NGS Sequencer for Real-time Precision Diagnostics”為題發(fā)表在電路與系統(tǒng)領(lǐng)域期刊《集成電路與系統(tǒng)》(IEEE Integrated Circuits & Systems, ISC)上。
 
  余浩團(tuán)隊(duì)聯(lián)合上海芯像生物科技有限公司合作研發(fā)了 LLM 具身化的 NGS 測(cè)序儀-emGene,優(yōu)化后的大語(yǔ)言模型得以在端側(cè)大模型推理卡上高效部署,使診斷流程大幅提速,從而實(shí)現(xiàn)實(shí)時(shí)、現(xiàn)場(chǎng) DNA 分析,在醫(yī)療領(lǐng)域?qū)崿F(xiàn)實(shí)時(shí)、現(xiàn)場(chǎng)基因智能診斷的實(shí)際應(yīng)用。
 
圖3.1 emGene大語(yǔ)言模型(LLM)邊緣 NGS 測(cè)序儀
 
  精準(zhǔn)醫(yī)療正在革新全球醫(yī)療保健,通過(guò)實(shí)現(xiàn)個(gè)性化診斷、疾病預(yù)測(cè)以及定制化治療策略,極大地提升了醫(yī)療水平。雖然基因組學(xué)與數(shù)據(jù)科學(xué)的整合蘊(yùn)藏著優(yōu)化精準(zhǔn)治療效果的巨大潛力,如何將基因測(cè)序數(shù)據(jù)轉(zhuǎn)化為可應(yīng)用于體外診斷的洞察力仍是一個(gè)關(guān)鍵挑戰(zhàn),這一瓶頸主要源自邊緣側(cè)智能處理和自動(dòng)化能力的局限。盡管基因測(cè)序技術(shù)和生物信息學(xué)工具不斷進(jìn)步,從樣本采集到診斷報(bào)告生成的工作流程依然零散、低效且缺乏智能化支持。
 
  為了解決這些問(wèn)題,團(tuán)隊(duì)提出了一款 emGene 大語(yǔ)言模型(LLM)的邊緣NGS測(cè)序儀(圖3.1),實(shí)現(xiàn)實(shí)時(shí)、現(xiàn)場(chǎng)智能基因診斷。該儀器整合了一個(gè)高效且全面的 emGene 處理流水線。采用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行初步數(shù)據(jù)分析,利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)二次數(shù)據(jù)處理,并通過(guò)經(jīng)過(guò)量化與壓縮優(yōu)化的大語(yǔ)言模型完成三階數(shù)據(jù)解讀。借助于 FPGA 部署,該方案加速了診斷流程。實(shí)驗(yàn)結(jié)果顯示,其通量提高了13.72%,Q30達(dá)到了99.50%,并且在邊緣側(cè)實(shí)現(xiàn)了高達(dá)75 token/s 的智能診斷性能。
 
圖3.2 emGene 一二三階段處理流水線
 
  研發(fā)團(tuán)隊(duì)開(kāi)發(fā)了一整套先進(jìn)的 emGene 數(shù)據(jù)分析系統(tǒng),以提升 NGS 設(shè)備上 DNA 測(cè)序的表現(xiàn):在一階分析中,團(tuán)隊(duì)利用深度學(xué)習(xí)構(gòu)建了高通量簇檢測(cè)模型,通過(guò)優(yōu)化 CNN 和 Transformer 模型實(shí)現(xiàn)卓越的堿基識(shí)別,實(shí)現(xiàn)了較低的錯(cuò)誤率、提高了數(shù)據(jù)質(zhì)量、增加了吞吐量并加快處理速度;在二階數(shù)據(jù)分析中,團(tuán)隊(duì)整合了機(jī)器學(xué)習(xí)模型,來(lái)提高變異檢測(cè)的精度;同時(shí),在三階數(shù)據(jù)分析中并利用向量數(shù)據(jù)庫(kù)和提示學(xué)習(xí)技術(shù)將領(lǐng)域特定的DNA知識(shí)嵌入大語(yǔ)言模型中,為各種應(yīng)用提供智能報(bào)告解讀。最后,團(tuán)隊(duì)采用了 CPU-FPGA 異構(gòu)加速框架優(yōu)化邊緣設(shè)備上部署量化大語(yǔ)言模型(LLMs)的性能。該 FPGA 實(shí)現(xiàn)整合了多項(xiàng)定制優(yōu)化措施,包括 FP16*INT4 和 FP16I*FP16 計(jì)算引擎、脈動(dòng)計(jì)算陣列、結(jié)構(gòu)化稀疏等技術(shù)。這些優(yōu)化均針對(duì) LLMs 特有的數(shù)據(jù)格式量身定制,顯著提高了 FPGA 在邊緣部署時(shí)的效率。
 
圖3.3  emGene一二三階段處理流水線結(jié)果
 
  圖3.3展示了深度學(xué)習(xí)在一階數(shù)據(jù)分析模塊超越了傳統(tǒng)方法性能:其平均處理速度快19%,檢測(cè)到的簇?cái)?shù)量多13.72%,且平均Q30 >99.50%。在二階數(shù)據(jù)分析中,F(xiàn)-1 Score 超越了其他設(shè)備處理結(jié)果。在三階數(shù)據(jù)分析方面,通過(guò)引入 ChatGLM2-6B 模型和提示學(xué)習(xí)技術(shù),在邊緣設(shè)備上經(jīng)過(guò) INT8 量化后,準(zhǔn)確性和速度均獲得了顯著提升,達(dá)到71.64%的精度,且性能最高可達(dá)75 tokens/s。
 
  本研究工作使得實(shí)時(shí)邊緣基因數(shù)據(jù)分析成為可能,從而大幅提升了精準(zhǔn)醫(yī)療的可及性和效率,同時(shí)顯著提高了診斷準(zhǔn)確性和自動(dòng)化水平,為人工智能驅(qū)動(dòng)的個(gè)性化醫(yī)療構(gòu)建了一個(gè)穩(wěn)健平臺(tái),并為未來(lái)的醫(yī)療服務(wù)設(shè)定了全新的標(biāo)桿。
 
  余浩為論文的通訊作者,南方科技大學(xué)為論文的第一單位,該論文得到了國(guó)家科技重點(diǎn)研發(fā)計(jì)劃項(xiàng)目和孔雀團(tuán)隊(duì)項(xiàng)目經(jīng)費(fèi)的支持。

我要評(píng)論
文明上網(wǎng),理性發(fā)言。(您還可以輸入200個(gè)字符)

所有評(píng)論僅代表網(wǎng)友意見(jiàn),與本站立場(chǎng)無(wú)關(guān)。

版權(quán)與免責(zé)聲明
  • 凡本網(wǎng)注明"來(lái)源:儀表網(wǎng)"的所有作品,版權(quán)均屬于儀表網(wǎng),未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明"來(lái)源:儀表網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
  • 本網(wǎng)轉(zhuǎn)載并注明自其它來(lái)源的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。
  • 如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
  • 合作、投稿、轉(zhuǎn)載授權(quán)等相關(guān)事宜,請(qǐng)聯(lián)系本網(wǎng)。聯(lián)系電話:0571-87759945,QQ:1103027433。
廣告招商
今日換一換
新發(fā)產(chǎn)品更多+

客服熱線:0571-87759942

采購(gòu)熱線:0571-87759942

媒體合作:0571-87759945

  • 儀表站APP
  • 微信公眾號(hào)
  • 儀表網(wǎng)小程序
  • 儀表網(wǎng)抖音號(hào)
Copyright ybzhan.cn    All Rights Reserved   法律顧問(wèn):浙江天冊(cè)律師事務(wù)所 賈熙明律師   儀表網(wǎng)-儀器儀表行業(yè)“互聯(lián)網(wǎng)+”服務(wù)平臺(tái)
意見(jiàn)反饋
我知道了
主站蜘蛛池模板: 国产国产成人人免费影院 | 免费一级a毛片在线播 | 2021天天躁夜夜燥西西 | 久在草在线 | 亚洲日韩中文字幕天堂不卡 | 三级全黄的全黄三级三级播放 | 在线免费观看黄视频 | 亚洲h在线观看 | 一级中国毛片 | 在线免费看a爱片 | 日韩 欧美 亚洲国产 | 国产成人免费永久播放视频平台 | 免费观看欧美一区二区三区 | 天堂va在线高清一区 | 手机在线视频成人 | 欧美乱人伦视频 | 91最新地址 | 国产三级黄色片 | 男人下面进女人下面视频免费 | 亚洲人成网站在线观看播放动漫 | 在线观看黄色毛片 | 在线簧片| 色秀视频免费高清网站 | 五月深爱婷婷 | 丁香五月欧美成人 | 在线看片成人免费视频 | 亚洲欧美成人网 | 开心成人激情 | 日韩激情文学 | 天堂在线中文网 | 久久yy | 亚洲国产亚洲片在线观看播放 | 国产精品欧美亚洲 | 国产精品福利在线观看秒播 | 亚洲综合男人的天堂色婷婷 | 成人午夜免费福利 | 日本日b | 日韩在线不卡一区在线观看 | www91在线观看 | 日日碰日日摸日日澡视频播放 | 99er精品 |