集邦科技股份有限公司 - 個股新聞 - 永旺未上市股票資訊網 0928-601-458 0928601458

告別舊時代：推理經濟崛起 AI晶片規則面臨全面重寫 ...

【集邦科技／TrendForce】

　　2025年底，NVIDIA以200億美元取得Groq的Inference（推理）技術授權與核心團隊。兩個月後，加拿大AI晶片新創Taalas發表推理晶片 HC1，於Llama 3.1 8B模型實現每秒16,960 tokens的單用戶吞吐速率。2026年5月，以晶圓級整合（WSI）為技術核心的Cerebras掛牌上市，AI Inference晶片再成市場關注焦點。反映在AI推理時代，產業競爭已從「更大」轉向「更有效率」的模型。

　　隨著AI服務進入常態化部署，成本壓力結構出現改變。有別於AI訓練是高資本但低頻率的研發支出，AI推理是高頻、長期與營收直接連動，單位推理成本與能效表現將影響毛利率與規模擴張能力。每次A PI呼叫、每個生成 Token，都代表算力消耗與毛利壓力。若Token生成成本無法隨規模下降，商業模式的存續將受挑戰。

　　因此，軟硬體發展焦點轉向吞吐量、能效比與記憶體架構優化，強調資料搬移效率與低延遲設計，而非單純追求峰值算力。

　　以往通用型GPU依賴HBM與外部DRAM儲存模型權重，計算核心與記憶體分離，資料需頻繁在晶片與封裝間搬移，當推理流量呈現長期、連續成長，通用GPU架構的技術瓶頸逐漸浮現。

　　以矩陣乘法為主的Transformer推理而言，記憶體頻寬與存取延遲是主要瓶頸。HBM雖然提供高頻寬，但封裝複雜、良率與成本壓力並存，功耗亦隨頻寬提升而攀升，若推理任務多為低批次、高即時性請求，GPU難以大規模並行優勢攤提成本，導致效能利用率下降，能效比與單位Token成本成為限制條件。

　　硬式編碼推理晶片即是因應效率瓶頸而生，Taalas等廠商透過將模型權重固化於Mask ROM，並以片上SRAM處理動態資料，大幅降低外部記憶體搬運功耗，顯著提升每瓦與每美元Token產出，達到低延遲、低功耗與高吞吐，並可簡化散熱與封裝設計。

　　然而，市場擔憂其硬體缺乏彈性，難以應對快速迭代的模型更新。此外，相較可程式化架構，專用晶片幾乎沒有調整空間，應用場景須高度穩定且規模足夠，才能攤提高額一次性工程費用（NRE）成本。

　　生態系亦是關鍵門檻，當前雲端市場仍依賴通用平台，客戶可能更偏好可隨模型升級的彈性解決方案。為降低風險，廠商透過自動化模型轉晶片流程、預製晶圓與混合可編程架構，結合量化與LoRA微調設計，在「硬化」與「彈性」間取得折衷，使專用化得以商業落地。

　　今年2月Taalas發佈HC1，將Meta開源AI模型 Llama 3.1 8B直接刻印在晶片中，可實現16,960 tokens/s/user的極高速率。其中關鍵在採用記憶體內運算（CIM）的概念。CIM旨在將運算功能整合至記憶體，以消除資料在運算單元、記憶體間頻繁傳輸的需求，去除記憶體牆限制，降低運算時的多餘延遲及功耗。

　　Taalas採取相較一般CIM更激進的硬式編碼做法，創造完全由硬體定義的AI硬體模型，將AI模型的權重直接刻印在晶片的Mask ROM中，享有CIM技術的低延遲、低功耗同時，避開了CIM軟體生態系尚未成熟的瓶頸。

2026-07-01

By: 摘錄工商A7版

最新公告

相關連結

集邦科技股份有限公司-個股新聞

產業一欄表

討論園地

相關連結