國(guó)泰海通:NPU+3DDRAM或成端側(cè)AI下一代技術(shù)趨勢(shì) 推薦兆易創(chuàng)新
國(guó)泰海通發(fā)布研報(bào)稱,DRAM制程微縮放緩背景下,3D架構(gòu)轉(zhuǎn)型與NPU協(xié)處理器結(jié)合將成為端側(cè)AI發(fā)展的關(guān)鍵技術(shù)路徑。研報(bào)指出,當(dāng)前AI端側(cè)推理速度的瓶頸在于內(nèi)存帶寬而非算力,而3DDRAM通過(guò)混合鍵合技術(shù)可顯著提升傳輸效率(如800GB/s帶寬下高通驍龍8GEN3的推理速度可從4.8tokens/s躍升至57tokens/s)。NPU作為協(xié)處理器的運(yùn)用疊加3DDRAM極有可能是下一代的端側(cè)技術(shù)趨勢(shì),給予行業(yè)“增持”評(píng)級(jí),推薦兆易創(chuàng)新(603986)(603986.SH)。
國(guó)泰海通主要觀點(diǎn)如下:
DRAM制程微縮放緩,長(zhǎng)遠(yuǎn)命題在于從2D轉(zhuǎn)向3D架構(gòu)
隨著DRAM制程節(jié)點(diǎn)不斷縮小,目前DRAM芯片工藝已經(jīng)突破到了10nm級(jí)別。工藝完整性、成本、電容器漏電和干擾、傳感裕度等方面的挑戰(zhàn)愈發(fā)明顯,要在更小的空間內(nèi)實(shí)現(xiàn)穩(wěn)定的電荷存儲(chǔ)和讀寫(xiě)操作變得日益困難。隨著DRAM芯片制程愈發(fā)先進(jìn),長(zhǎng)遠(yuǎn)命題在于從2D轉(zhuǎn)向3D架構(gòu);混合鍵合方案改進(jìn)了Micro bump的堆疊高度限制等問(wèn)題,代表3DDRAM未來(lái)技術(shù)路徑。從技術(shù)差異上來(lái)說(shuō),WoW3DDRAM與CUBE及現(xiàn)有的HBM方案主要差異在于鍵合方式分別為混合鍵合與Micro bump。與已廣泛使用的Micro Bump堆疊技術(shù)相比,混合鍵合不配置凸塊,可容納較多堆疊層數(shù),也能容納較厚的晶粒厚度,以改善翹曲問(wèn)題。使用混合鍵合方案的芯片傳輸速度較快,散熱效果也較好。考慮到堆疊高度限制、IO密度、散熱等要求,三大HBM原廠已確定于HBM520hi世代使用HybridBonding。
AI應(yīng)用目前在走向百花齊放,而不是高度范化的統(tǒng)一模型
硬件側(cè)在為應(yīng)用的落地醞釀很多新技術(shù)儲(chǔ)備,這些機(jī)會(huì)更加重要。MOE模型開(kāi)始驅(qū)動(dòng)小的大模型,小型MoE模型Qwen3-30B-A3B的激活參數(shù)數(shù)量是QwQ-32B的10%,表現(xiàn)更勝一籌,激活10%參數(shù)量卻能超過(guò)滿血模型,也為端側(cè)應(yīng)用提供了模型基礎(chǔ)。該行認(rèn)為,海外硬件大廠在儲(chǔ)備能讓AI“泛在”與“常開(kāi)”的技術(shù),NPU作為協(xié)處理器的運(yùn)用疊加3DDRAM極有可能是下一代的端側(cè)技術(shù)趨勢(shì)。
當(dāng)前AI端側(cè)推理速度的主要瓶頸在內(nèi)存帶寬而非算力,內(nèi)存限制問(wèn)題由3DDRAM解決
以高通驍龍8GEN3為例,其NPU算力約45TOPs,內(nèi)存帶寬約為67GB/s,若運(yùn)行7B大模型,代入前述公式得到計(jì)算能力限制約3215tokens/s,內(nèi)存帶寬限制約4.8tokens/s,最終速度取兩者中的最小值,確保實(shí)際推理不受硬件瓶頸限制,而其內(nèi)存限制瓶頸明顯遠(yuǎn)大于計(jì)算限制。DRAM+NPU通過(guò)HB堆疊的形式合封,該行假設(shè)以800GB/s的內(nèi)存帶寬代入上述高通驍龍8GEN3的問(wèn)題,內(nèi)存限制將提升至57tokens/s。中國(guó)大陸玩家兆易創(chuàng)新及其投資子公司青耘科技、光羽芯成,以及中國(guó)臺(tái)灣存儲(chǔ)IDM華邦電、手機(jī)AP龍頭高通等,均發(fā)力3DDRAM+NPU方案,技術(shù)趨勢(shì)明確。
風(fēng)險(xiǎn)提示:AI應(yīng)用滲透不及預(yù)期;3DDRAM技術(shù)發(fā)展不及預(yù)期。
0人