esportsMLBB

Skymizer 的 HTX301 想把 700B AI 模型塞進一張 PCIe Card

作者 Aimirul|
分享

Skymizer 是一家來自台灣的 AI hardware 與 software 公司,最近公開了 HTX301,一張 PCIe AI accelerator card,主打讓大型語言模型可以在 on-premises 環境運行,而不是依賴超大型 cloud GPU clusters。

這次最大的 claim 真的有點 wild:Skymizer 表示 HTX301 可以在單一 PCIe card 上處理最高 700 billion parameters 模型的 inference。對公司、實驗室,甚至認真的區域 AI builders 來說,如果這些數字在 real-world testing 裡站得住腳,這可能會是大件事。

一張擁有 384GB memory 的本地 AI card

HTX301 被設計成 PCIe add-in card,所以外型上更像是你會插進 server 裡的 accelerator,而不是那種巨大的外接 AI rack。根據 Skymizer,每張 board 搭載六顆 HTX301 chips,並提供最高 384GB memory。

有趣的是,這張 card 並沒有依賴 HBM、GDDR6、GDDR7 或 LPDDR5X 這類昂貴 memory types。相反,Skymizer 使用的是標準 LPDDR4 與 LPDDR5 DRAM。聽起來沒那麼 flashy,但公司的說法是,它的 architecture 是圍繞較低 bandwidth needs 和更聰明的 compression 來調校,而不是用最貴的 memory stack 硬 brute-force 全部東西。

這顆 chip 採用較舊的 28nm process 製造,這也讓它的 performance claims 更值得注意。Skymizer 表示 HTX301 在 100GB/s bandwidth 下,以 0.5 TOPS 可達到每秒 30 tokens。其 Octa-Core LPU 也聲稱能在 Llama2 7B prefill 中達到每秒 240 tokens,而 multi-chip configurations 則可把同一模型 scale 到每秒 1,200 tokens。

為什麼這對 Malaysia 和 SEA 很重要

對 Malaysia 和 Southeast Asia 來說,這類 hardware 值得關注,因為 AI infrastructure 正在變成一個很現實的成本問題。不是每一家 startup、大學實驗室、game studio 或 local enterprise 都能永遠負擔 premium cloud GPU capacity。而且如果你處理的是 private business data、customer records、government workloads 或 internal tools,把所有東西都送上 cloud 也不一定理想。

這就是 on-prem AI 開始變得有趣的地方。Skymizer 把 HTX301 定位在 data sovereignty、predictable latency 和 fixed infrastructure cost 上。講白一點:把 AI model 留在自己的 server room、清楚知道每月成本,並避免完全依賴 cloud providers。

對 SEA game studios、esports analytics teams、localisation companies 和 content platforms 來說,本地 AI inference 未來可能代表更便宜的 internal chatbots、translation tools、moderation systems、data analysis 和 player-support automation。我們不是說每一家 Malaysian company 明天就會突然買一張 card 然後跑 700B model,但這個方向很重要。

240W 功耗 claim 才是 spicy 的部分

最吸睛的 spec 是功耗。Skymizer 表示 HTX301 card 運行功耗為 240W,低於消息來源提到的主流 PCIe AI accelerators 600W 級別的一半,包括 NVIDIA RTX PRO 6000 Blackwell 和 AMD Instinct MI350P。

對 Malaysia 來說,power draw 不只是 spec-sheet flex。更低 wattage 代表更容易散熱、更低電費,以及對小型 server setups 來說更少麻煩。任何在這裡組過或維護過 serious PC hardware 的人都知道,heat 就是敵人,bro。我們的氣候不會原諒散熱做得爛的系統。

Skymizer 也表示其 compression methods 有助降低 memory pressure。據稱,它的 weight compression 比 open-source llama.cpp 好 9% 至 17.8%,而 KV cache compression 則能把 perplexity loss 維持在很低的範圍,介於低於 0.06% 至 3.52%。

仍然等待真正證明

目前來看,這仍然只是 on-paper announcement。Skymizer 計劃在 Computex preview HTX301,而真正的問題會是:公司的這些 claims 能不能經得起更仔細的檢驗。

如果它真的如宣傳般運作,HTX301 可能會讓無法合理化投資大型 GPU clusters 的小型公司,更現實地部署 serious local AI。如果不是,它依然顯示了 AI hardware race 接下來的方向:不再只是「誰有最大的 data centre」,而是「誰能在普通 server 裡高效率運行 powerful models」。

無論如何,這都是值得繼續關注的一張 card,尤其是那些想 build AI、但不想每個月燒 cloud money 的 SEA businesses。

來源:Wccftech Gaming

标签

AI hardwareSkymizerComputexPC tech