Groq 的 AI 晶片讓 NVIDIA 的 GPU 定價看起來沒那麼不可撼動了

NVIDIA 仍然是 AI hardware 裡的 boss fight，但挑戰者之間的差距開始看起來沒那麼不可能追上了。

根據 Wccftech 報導的一場 AlphaSense 訪談中 Nebius 專家的說法，隨著產業不再只是用 GPU 租用時數來思考，而是開始更重視每百萬 tokens 的成本，替代型 AI 晶片正獲得更多關注。

這聽起來很 enterprise-core，但它比你想像中更重要。Tokens 基本上就是 AI models 在閱讀、寫作、總結、coding、生成 NPC dialogue、驅動 chatbots，或運行 backend tools 時處理的單位。如果產業開始按 tokens 而不是單純 GPU 時間來為 AI 定價，贏家突然就不一定是最強大的晶片。有時候，是能以最低成本處理足夠 output 的那顆晶片。

NVIDIA GPUs 依然很貴，尤其是 on demand

Nebius 專家表示，定價取決於 GPU 類型，以及客戶是預留 capacity 還是 on-demand 租用。

以 on-demand AI compute 來說，給出的數字是：

NVIDIA H100：每小時 US$2.95
NVIDIA H200：每小時 US$3.50
NVIDIA Blackwell B200：每小時介於 US$4.90 至 US$6.50

Reserved capacity 會把價格壓低，但前提是公司規模夠大。對於至少涉及 10,000 GPUs、為期一至兩年的合約，報價是 H100 每小時 US$1.50、H200 每小時 US$2.20，而 B200 至少每小時 US$3.50。

那是 hyperscaler 等級的錢，不是一般 Malaysian startup 的預算。對於在 SEA 建 AI tools、game services、localisation systems、support bots 或 creator platforms 的公司來說，一旦 usage scale 起來，這些成本很快就會變得很痛。

大轉變：inference 現在才是主要 workload

有趣的部分是 demand 來自哪裡。Nebius 專家估計，inference 現在佔 enterprise AI workloads 大約 90% 到 95%。

簡單來說，越來越少公司從零開始 training 自己的巨型 models。大多數公司是在使用 pre-trained models 或 APIs，並在那些 models 生成答案時花錢。這就是 inference。

對 gaming 和 esports-adjacent businesses 來說，這非常相關。想想 toxic chat 的 AI moderation、自動 highlight clipping、match summaries、customer support、content translation、NPC dialogue tools，以及 analytics dashboards。這些任務不一定很 training-heavy，但它們很 usage-heavy。

Groq 的賣點：更便宜的 tokens，更快的 output

這就是 Groq 登場的地方。NVIDIA 在 2025 年底前後宣布，已與 Groq 簽署一項非獨家授權協議，涵蓋這家 startup 的 AI inference technology。Wccftech 指出，根據 Nebius 專家的說法，Groq 的晶片成本可低至每百萬 tokens 約 5 至 10 美分。

相比之下，NVIDIA 的 B100、B200 或 B300 GPUs 被描述為每百萬 tokens 約 25 美分。同一位專家也表示，Groq 的晶片最高可輸出每秒 800 tokens，而 NVIDIA 晶片則被估在每秒約 450 tokens。

如果這些數字在真實 workloads 中站得住腳，那就不是小差距了。這種 pricing gap 會改變公司選 provider 的方式，尤其當 AI features 每天被使用成千上萬甚至數百萬次時。

為什麼 Malaysia 和 SEA 應該關心

對 Malaysian gamers 來說，這不會立刻讓你的 GPU 變便宜，也不會讓你的 ping 變好。但在幕後，更便宜的 AI inference 可能會讓很多 digital services 的營運成本降低。

SEA studios 和 platforms 通常不能像 US hyperscalers 那樣大把燒錢。如果 AI tools 的每 token 成本下降，小團隊可能就能加入更好的 support bots、多語言 features、creator tools、anti-cheat analysis 或 community moderation，而不會把整個 budget 燒完。

這對 local content 也很重要。Malaysia 和 SEA 本來就是 multilingual by default。English、Malay、Mandarin、Tamil、Indonesian、Thai、Vietnamese——真正做好 localisation 很貴。如果 inference 成本下降，更多 apps 和 games 就有理由提供更好的翻譯與 regional support，而不是繼續把 SEA 當成 afterthought。

NVIDIA 不會一夜之間突然陷入麻煩。它的 top-end AI GPUs 依然是 performance standard，而且 compute demand 仍然非常高，providers 也能接近 full utilisation 運行。但討論方向正在改變。如果公司開始針對每百萬 tokens 的成本做優化，那像 Groq 這類 specialised inference chips 就會變得更難被忽視。

對 AI hardware meta 來說，這基本上就是那個 overpowered champion 仍然是 S-tier，但 counter-picks 終於開始看起來真的有戲的時刻。

Source: Wccftech Gaming

Groq 的 AI 晶片讓 NVIDIA 的 GPU 定價看起來沒那麼不可撼動了

NVIDIA GPUs 依然很貴，尤其是 on demand

大轉變：inference 現在才是主要 workload

Groq 的賣點：更便宜的 tokens，更快的 output

為什麼 Malaysia 和 SEA 應該關心

标签