esportsMLBB

Anthropic 的 Claude Mythos 在網路安全領域看起來強得嚇人,但更便宜的 AI 模型可能已經夠用

作者 Aimirul|
分享

Anthropic 全新的 Claude Mythos 模型以大老闆的氣勢登場,宣稱能協助發掘主流瀏覽器和作業系統中的嚴重漏洞。它也是 Project Glasswing 的核心,這是一項 Anthropic 與大型科技公司合作、在模型廣泛曝光前修復問題的計劃。

聽起來很厲害,但最新研究表明,故事並不像「Mythos 全面碾壓」那麼簡單。

Aisle 的一篇論文指出,儘管 Mythos 可能是網路安全工作整體表現最強的 AI 模型之一,它卻並未大幅領先業界其他選手。在某些情況下,更便宜、更易取得的模型已經能完成大部分相同的任務。

這包括 GPT-OSS-120BQwen3 32BKimi K2 等開放或較實惠的選項,Aisle 表示這些模型也能偵測到與 Mythos 相關的多個備受矚目的漏洞。論文的核心論點相當直接:網路安全不是單一任務。

發現漏洞、確認漏洞、找出利用方式、再協助修補——這些是不同的階段。在某一環節表現出色的模型,不代表在所有環節都是最佳選擇。Aisle 的觀點是:每個 token 的成本、速度,以及整體安全工作流程的設定方式,其重要性與模型的原始智能不相上下。

對於馬來西亞和更廣泛的 SEA 地區的團隊而言,這一點格外重要。這裡的大多數公司,無論是遊戲工作室、電競平台、應用程式開發商,還是企業技術團隊,都沒有無限預算可以採用最頂級的 AI 方案。如果更輕量的模型能以更低的成本實現大部分價值,這對試圖在不大量燒錢的情況下提升安全性的本地企業來說,是更切實可行的路徑。

不過,這個問題還有另一面。英國 AI 安全研究所(AISI)的研究據報發現,Mythos 在難度更高的網路安全基準測試中確實領先,尤其是在更複雜的漏洞發現和利用任務上。這部分優勢來自於它處理超大 context window 的能力,測試時 context 高達 1 億個 token。AISI 認為,若給予更多推論算力,Mythos 的表現還能進一步提升。

所以是的,Mythos 可能真的是精英中的精英。問題是,精英通常意味著昂貴。

Anthropic 尚未公布 Mythos 的定價,但 Tom's Hardware 的報導指出,在 AISI 測試中排名第二的模型是 Claude Opus 4.6,這已是 Anthropic 較貴的產品之一。如果 Mythos 的定價更高,各公司就必須面對一個非常實際的問題:最終的性能提升是否值得這筆費用?

當 uptime 也成為考量因素時,這個問題就更加重要了。根據報導,在撰文時,Anthropic 模型在過去 90 天內的 uptime 為 98.4%。對一般消費者而言,這或許聽起來還好。但在企業網路安全領域,這個數字並不理想。認真的雲端採購商通常要求的標準是 99.99% uptime

為什麼一般讀者應該關心這件事?很簡單。更好的 AI 安全工具能幫助企業更快修補日常使用產品中的漏洞——從遊戲啟動器和支付系統,到社群平台和雲端服務。但如果最強的模型太貴或無法穩定運行,許多團隊可能會選擇「夠用就好」的更便宜工具。

這就是為什麼 Mythos 感覺不像一個乾淨的 KO,更像是一記警示槍聲。Anthropic 目前可能擁有業界最好的網路安全模型之一,但市場已經清楚表明:價格、可靠性和工作流程契合度的重要性,絕不亞於那些亮眼的基準測試成績。

對 SEA 而言,這或許才是真正的啟示。勝出的不一定是發布聲勢最大的模型,而是這裡的企業真正負擔得起、能穩定運行、並能大規模部署的那一個。

來源:Tom's Hardware

标签

AICybersecurityAnthropicTechreviews