可模組化堆疊的 AI 算力架構
MemryX 具備極佳的硬體相容性與靈活的擴充架構,能為各類主機處理器提供強大的 AI 運算支援。
- 單一邏輯單元架構: 多顆 MemryX 晶片可協同運作,並透過標準介面(PCIe 或 USB)與主機連接。對系統而言,多晶片配置仍被視為單一邏輯單元,大幅簡化管理難度。
- 全量化模型卸載 (Full Offload): 將 AI 模型運算完全卸載至 MemryX 硬體執行。主機處理器僅需負責資料的前處理(Pre-processing)與後處理(Post-processing),顯著降低系統主晶片的負擔。
- 廣泛的系統支援: * 硬體架構: 完美相容 x86、ARM 及 RISC-V 處理器。
- 作業系統: 支援主流的 Windows 與 Linux 平台。

近記憶體 AI 運算架構
(At-Memory AI Processing)
MemryX 透過創新的硬體設計,從根本上消除了傳統運算架構中的效能瓶頸:
- 消除記憶體瓶頸: 採用高頻寬的「近記憶體運算」技術,大幅減少數據在處理器與記憶體間的往返時間,徹底解決運算延遲問題。
- 原生資料流架構 (Dataflow Architecture): 具備高度可配置性的創新架構,能根據不同的 AI 模型結構動態調整,確保運算資源獲得最佳化利用。
- 極簡化數據傳輸設計: 運算引擎之間僅透過記憶體直接互連。不同於傳統架構需要複雜的控制平面或片上網絡 (NoC) 來管理數據移動,這種設計能顯著降低功耗並提升處理效率。
打破模型庫 (Model Zoo) 的限制
- 實質算力領先:MX3的硬體利用率比競爭對手高出 2 倍以上。這代表在相同的算力指標下,MemryX能提供更流暢、更高效的運算輸出。
- BF16 確保高精確度: 採用高效的 BF16 (Block Floating Point) 格式,無需引導影像(Pilot Images)或耗時的模型重新訓練(Retraining),即可直接獲得高精度的推論結果。
- 智慧自動化部署: 內建的 Compiler (編譯器) 與 Mapper (映射器) 在優化運算資源分配上,展現了超越人工調優的卓越效率。
- 零門檻操作流程: 無論技術背景深淺,使用者皆能透過直觀的線上軟體工具,將自有模型快速轉化為高效執行的 AI 應用。


流水線執行架構 (Pipelined Execution)
- 極致運算效率: 不同於採用控制流 (Control Flow) 的 CPU、GPU 或傳統 AI 加速器,我們的架構能最小化數據搬移,實現最高運算效率。
- 跨晶片無縫串流: 數據不僅能在單一晶片內順暢傳遞,更支援跨多顆晶片的無縫串流處理,確保運算不間斷。
- 確定的效能表現 (Deterministic Performance): 系統對每一個輸入訊號的處理方式完全一致,能提供穩定且可預測的效能輸出,這對於即時反應系統至關重要。
- 零延遲處理 (Batch = 1): 所有的數據處理皆以 Batch = 1 的模式進行,無需等待數據堆疊即可即時反應,完美契合邊緣端的即時應用需求。

