Anthropic 的 Claude Mythos 在網路安全領域看起來強得嚇人，但更便宜的 AI 模型可能已經夠用

Anthropic 全新的 Claude Mythos 模型以大老闆的氣勢登場，宣稱能協助發掘主流瀏覽器和作業系統中的嚴重漏洞。它也是 Project Glasswing 的核心，這是一項 Anthropic 與大型科技公司合作、在模型廣泛曝光前修復問題的計劃。

聽起來很厲害，但最新研究表明，故事並不像「Mythos 全面碾壓」那麼簡單。

Aisle 的一篇論文指出，儘管 Mythos 可能是網路安全工作整體表現最強的 AI 模型之一，它卻並未大幅領先業界其他選手。在某些情況下，更便宜、更易取得的模型已經能完成大部分相同的任務。

這包括 GPT-OSS-120B、Qwen3 32B 和 Kimi K2 等開放或較實惠的選項，Aisle 表示這些模型也能偵測到與 Mythos 相關的多個備受矚目的漏洞。論文的核心論點相當直接：網路安全不是單一任務。

發現漏洞、確認漏洞、找出利用方式、再協助修補——這些是不同的階段。在某一環節表現出色的模型，不代表在所有環節都是最佳選擇。Aisle 的觀點是：每個 token 的成本、速度，以及整體安全工作流程的設定方式，其重要性與模型的原始智能不相上下。

對於馬來西亞和更廣泛的 SEA 地區的團隊而言，這一點格外重要。這裡的大多數公司，無論是遊戲工作室、電競平台、應用程式開發商，還是企業技術團隊，都沒有無限預算可以採用最頂級的 AI 方案。如果更輕量的模型能以更低的成本實現大部分價值，這對試圖在不大量燒錢的情況下提升安全性的本地企業來說，是更切實可行的路徑。

不過，這個問題還有另一面。英國 AI 安全研究所（AISI）的研究據報發現，Mythos 在難度更高的網路安全基準測試中確實領先，尤其是在更複雜的漏洞發現和利用任務上。這部分優勢來自於它處理超大 context window 的能力，測試時 context 高達 1 億個 token。AISI 認為，若給予更多推論算力，Mythos 的表現還能進一步提升。

所以是的，Mythos 可能真的是精英中的精英。問題是，精英通常意味著昂貴。

Anthropic 尚未公布 Mythos 的定價，但 Tom's Hardware 的報導指出，在 AISI 測試中排名第二的模型是 Claude Opus 4.6，這已是 Anthropic 較貴的產品之一。如果 Mythos 的定價更高，各公司就必須面對一個非常實際的問題：最終的性能提升是否值得這筆費用？

當 uptime 也成為考量因素時，這個問題就更加重要了。根據報導，在撰文時，Anthropic 模型在過去 90 天內的 uptime 為 98.4%。對一般消費者而言，這或許聽起來還好。但在企業網路安全領域，這個數字並不理想。認真的雲端採購商通常要求的標準是 99.99% uptime。

為什麼一般讀者應該關心這件事？很簡單。更好的 AI 安全工具能幫助企業更快修補日常使用產品中的漏洞——從遊戲啟動器和支付系統，到社群平台和雲端服務。但如果最強的模型太貴或無法穩定運行，許多團隊可能會選擇「夠用就好」的更便宜工具。

這就是為什麼 Mythos 感覺不像一個乾淨的 KO，更像是一記警示槍聲。Anthropic 目前可能擁有業界最好的網路安全模型之一，但市場已經清楚表明：價格、可靠性和工作流程契合度的重要性，絕不亞於那些亮眼的基準測試成績。

對 SEA 而言，這或許才是真正的啟示。勝出的不一定是發布聲勢最大的模型，而是這裡的企業真正負擔得起、能穩定運行、並能大規模部署的那一個。

來源：Tom's Hardware

Anthropic 的 Claude Mythos 在網路安全領域看起來強得嚇人，但更便宜的 AI 模型可能已經夠用

标签

相关文章

Nintendo 最新捕捉怪物專利申請在日本遭駁回

Nintendo 的 Pictonico! 把朋友照片變成混沌 WarioWare 風格 Minigames

Valve 迎戰 New York Loot Box 訴訟，CS2 Skin 經濟成焦點