国产麻豆无套高潮AV浪潮_亚洲精品偷拍无码不卡av_91人妻无码精品一区二区毛片_老太精品揄拍高潮少妇_国产欧美一区成人影片精品

適用于邊緣的生成式 AI

適用于邊緣的生成式 AI

linjunyuan 2025-03-07 男性 38 次瀏覽 0個(gè)評(píng)論

Synopsys ARC? NPX6 NPU IP 系列基于第六代神經(jīng)網(wǎng)絡(luò)架構(gòu),旨在支持包括 CNN 和轉(zhuǎn)換器在內(nèi)的一系列機(jī)器學(xué)習(xí)模型。NPX6 系列可通過(guò)可配置數(shù)量的內(nèi)核進(jìn)行擴(kuò)展,每個(gè)內(nèi)核都有自己的獨(dú)立矩陣乘法引擎、通用張量加速器 (GTA) 和專用直接內(nèi)存訪問(wèn) (DMA) 單元,用于簡(jiǎn)化數(shù)據(jù)處理。NPX6 可以使用相同的開(kāi)發(fā)工具,將需要性能低于 1 TOPS 的應(yīng)用擴(kuò)展為需要數(shù)千 TOPS 的應(yīng)用,從而最大限度地提高軟件的重復(fù)使用。

矩陣乘法引擎、GTA 和 DMA 全都經(jīng)過(guò)優(yōu)化以支持轉(zhuǎn)換器,使 ARC NPX6 能夠支持 GenAI 算法。每個(gè)內(nèi)核的 GTA 都經(jīng)過(guò)明確設(shè)計(jì)和優(yōu)化,可高效執(zhí)行非線性函數(shù),例如 ReLU、GELU、Sigmoid。這些功能使用靈活的查找表方法加以實(shí)現(xiàn),可預(yù)測(cè)未來(lái)的非線性函數(shù)。GTA 還支持其他關(guān)鍵操作,包括轉(zhuǎn)換器所需的 SoftMax 和 L2 標(biāo)準(zhǔn)化。除此之外,每個(gè)內(nèi)核內(nèi)的矩陣乘法引擎每個(gè)循環(huán)可以執(zhí)行 4,096 次乘法。由于 GenAI 基于轉(zhuǎn)換器,因此在 NPX6 處理器上運(yùn)行 GenAI 沒(méi)有計(jì)算限制。

要針對(duì) GenAI 等基于轉(zhuǎn)換器的模型實(shí)現(xiàn)高效的 NPU 設(shè)計(jì),就需要復(fù)雜的多級(jí)內(nèi)存管理。ARC NPX6 處理器具有靈活的內(nèi)存架構(gòu),可支持可擴(kuò)展的 L2 內(nèi)存,最高可支持 64MB 的片上 SRAM。此外,每個(gè) NPX6 內(nèi)核都配備了獨(dú)立的 DMA,專門(mén)用于執(zhí)行獲取特征圖和系數(shù)以及編寫(xiě)新特征圖的任務(wù)。這種任務(wù)區(qū)分可以實(shí)現(xiàn)高效的流水線數(shù)據(jù)流,從而最大限度地減少瓶頸并最大化處理吞吐量。該系列在硬件和軟件中還具有一系列帶寬節(jié)省技術(shù),以最大化利用帶寬。

在嵌入式 GenAI 應(yīng)用中,ARC NPX6 系列將僅受系統(tǒng)中可用 LPDDR 的限制。NPX6 成功運(yùn)行 Stable Diffusion(文本到圖像)和 Llama-2 7B(文本到文本)GenAI 算法,而其效率取決于系統(tǒng)帶寬和片上 SRAM 的使用情況。雖然更大的 GenAI 模型也可以在 NPX6 上運(yùn)行,但它們將比在服務(wù)器上實(shí)現(xiàn)的更慢(按照每秒令牌數(shù)測(cè)量)。

適用于邊緣的生成式 AI

如需了解更多信息,請(qǐng)?jiān)L問(wèn) www.synopsys.com/npx。

轉(zhuǎn)載請(qǐng)注明來(lái)自宜賓民心創(chuàng)傷骨科醫(yī)院有限責(zé)任公司,本文標(biāo)題:《適用于邊緣的生成式 AI》

百度分享代碼,如果開(kāi)啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!
Top