集邦科技股份有限公司-個股新聞
告別舊時代:推理經濟崛起 AI晶片規則面臨全面重寫 ...
【集邦科技/TrendForce】
2025年底,NVIDIA以200億美元取得Groq的Inference(推理)技術授權與核心團隊。兩個月後,加拿大AI晶片新創Taalas發表推理晶片 HC1,於Llama 3.1 8B模型實現每秒16,960 tokens的單用戶吞吐速率。2026年5月,以晶圓級整合(WSI)為技術核心的Cerebras掛牌上市,AI Inference晶片再成市場關注焦點。反映在AI推理時代,產業競爭已從「更大」轉向「更有效率」的模型。
隨著AI服務進入常態化部署,成本壓力結構出現改變。有別於AI訓練是高資本但低頻率的研發支出,AI推理是高頻、長期與營收直接連動,單位推理成本與能效表現將影響毛利率與規模擴張能力。每次A PI呼叫、每個生成 Token,都代表算力消耗與毛利壓力。若Token生成成本無法隨規模下降,商業模式的存續將受挑戰。
因此,軟硬體發展焦點轉向吞吐量、能效比與記憶體架構優化,強調資料搬移效率與低延遲設計,而非單純追求峰值算力。
以往通用型GPU依賴HBM與外部DRAM儲存模型權重,計算核心與記憶體分離,資料需頻繁在晶片與封裝間搬移,當推理流量呈現長期、連續成長,通用GPU架構的技術瓶頸逐漸浮現。
以矩陣乘法為主的Transformer推理而言,記憶體頻寬與存取延遲是主要瓶頸。HBM雖然提供高頻寬,但封裝複雜、良率與成本壓力並存,功耗亦隨頻寬提升而攀升,若推理任務多為低批次、高即時性請求,GPU難以大規模並行優勢攤提成本,導致效能利用率下降,能效比與單位Token成本成為限制條件。
硬式編碼推理晶片即是因應效率瓶頸而生,Taalas等廠商透過將模型權重固化於Mask ROM,並以片上SRAM處理動態資料,大幅降低外部記憶體搬運功耗,顯著提升每瓦與每美元Token產出,達到低延遲、低功耗與高吞吐,並可簡化散熱與封裝設計。
然而,市場擔憂其硬體缺乏彈性,難以應對快速迭代的模型更新。此外,相較可程式化架構,專用晶片幾乎沒有調整空間,應用場景須高度穩定且規模足夠,才能攤提高額一次性工程費用(NRE)成本。
生態系亦是關鍵門檻,當前雲端市場仍依賴通用平台,客戶可能更偏好可隨模型升級的彈性解決方案。為降低風險,廠商透過自動化模型轉晶片流程、預製晶圓與混合可編程架構,結合量化與LoRA微調設計,在「硬化」與「彈性」間取得折衷,使專用化得以商業落地。
今年2月Taalas發佈HC1,將Meta開源AI模型 Llama 3.1 8B直接刻印在晶片中,可實現16,960 tokens/s/user的極高速率。其中關鍵在採用記憶體內運算(CIM)的概念。CIM旨在將運算功能整合至記憶體,以消除資料在運算單元、記憶體間頻繁傳輸的需求,去除記憶體牆限制,降低運算時的多餘延遲及功耗。
Taalas採取相較一般CIM更激進的硬式編碼做法,創造完全由硬體定義的AI硬體模型,將AI模型的權重直接刻印在晶片的Mask ROM中,享有CIM技術的低延遲、低功耗同時,避開了CIM軟體生態系尚未成熟的瓶頸。
2026-07-01
By: 摘錄工商A7版