Cip AI Groq Buat Harga GPU NVIDIA Nampak Tak Lagi Kebal

NVIDIA masih boss fight dalam hardware AI, tapi jurang untuk pencabar sekarang dah mula nampak tak mustahil sangat.

Menurut komen daripada pakar Nebius dalam temu bual AlphaSense yang dilaporkan oleh Wccftech, cip AI alternatif semakin mendapat perhatian bila industri mula bergerak keluar daripada sekadar fikir pasal jam sewaan GPU, dan mula lebih peduli tentang kos per juta tokens.

Bunyi macam benda enterprise gila, tapi sebenarnya ia lebih penting daripada yang anda sangka. Tokens pada asasnya ialah unit yang model AI proses bila ia membaca, menulis, meringkaskan, code, menjana dialog NPC, menggerakkan chatbots, atau menjalankan backend tools. Kalau industri mula meletakkan harga AI berdasarkan tokens dan bukannya masa GPU mentah, tiba-tiba pemenangnya bukan semestinya cip paling power. Kadang-kadang, ia ialah cip yang boleh proses output secukupnya pada kos paling rendah.

GPU NVIDIA masih mahal, terutama untuk on-demand

Pakar Nebius itu berkata harga bergantung pada jenis GPU dan sama ada pelanggan reserve capacity atau sewa secara on-demand.

Untuk AI compute on-demand, angka yang diberikan ialah:

NVIDIA H100: sekitar RM14 sejam
NVIDIA H200: sekitar RM16.50 sejam
NVIDIA Blackwell B200: antara sekitar RM23 hingga RM31 sejam

Reserved capacity boleh turunkan harga, tapi hanya kalau sesebuah syarikat bermain pada skala yang sangat besar. Untuk kontrak satu hingga dua tahun melibatkan sekurang-kurangnya 10,000 GPU, harga yang disebut ialah sekitar RM7 sejam untuk H100, sekitar RM10.30 untuk H200, dan sekurang-kurangnya sekitar RM16.50 untuk B200.

Itu duit tahap hyperscaler, bukan duit startup Malaysia biasa. Untuk syarikat SEA yang membina AI tools, game services, sistem localisation, support bots, atau creator platforms, kos macam ini boleh jadi brutal dengan cepat bila usage mula scale.

Peralihan besar: inference kini jadi workload utama

Bahagian menarik ialah dari mana demand ini datang. Pakar Nebius itu menganggarkan inference kini merangkumi sekitar 90% hingga 95% workload AI enterprise.

Secara mudah, makin kurang syarikat yang train model gergasi sendiri dari kosong. Kebanyakannya menggunakan model pre-trained atau API, dan membayar bila model itu menjana jawapan. Itulah inference.

Untuk bisnes gaming dan esports-adjacent, ini memang relevan. Fikir AI moderation untuk toxic chat, automated highlight clipping, match summaries, customer support, content translation, NPC dialogue tools, dan analytics dashboards. Ini bukan semestinya tugas yang heavy pada training. Ia lebih heavy pada usage.

Pitch Groq: tokens lebih murah, output lebih laju

Di sinilah Groq masuk cerita. NVIDIA mengumumkan hampir penghujung 2025 bahawa ia telah menandatangani perjanjian pelesenan non-exclusive dengan Groq yang meliputi teknologi AI inference startup tersebut. Wccftech menyatakan bahawa, menurut pakar Nebius itu, cip Groq boleh menelan kos sekitar RM0.24 hingga RM0.47 per juta tokens.

Sebagai perbandingan, GPU NVIDIA B100, B200, atau B300 digambarkan menelan kos sekitar RM1.18 per juta tokens. Pakar yang sama juga berkata cip Groq boleh menghasilkan sehingga 800 tokens sesaat, manakala cip NVIDIA dianggarkan sekitar 450 tokens sesaat.

Kalau angka ini kekal dalam workload sebenar, itu bukan beza kecil. Itu jenis jurang harga yang boleh mengubah provider mana yang sesebuah syarikat pilih, terutama bila ciri AI digunakan ribuan atau jutaan kali sehari.

Kenapa Malaysia dan SEA patut ambil peduli

Untuk gamer Malaysia, benda ini takkan terus buat GPU anda jadi murah atau ping anda jadi lebih baik. Tapi di belakang tabir, AI inference yang lebih murah boleh buat banyak servis digital lebih mampu dijalankan.

Studio dan platform SEA biasanya tak boleh tabur duit macam hyperscaler US. Kalau AI tools jadi lebih murah per token, team kecil mungkin boleh tambah support bots yang lebih baik, ciri multilingual, creator tools, analisis anti-cheat, atau community moderation tanpa membakar seluruh bajet mereka.

Ia juga penting untuk content lokal. Malaysia dan SEA memang multilingual secara default. English, Malay, Mandarin, Tamil, Indonesian, Thai, Vietnamese — localisation yang betul memang mahal. Kalau kos inference turun, lebih banyak app dan game boleh justify translation dan sokongan regional yang lebih baik, bukannya layan SEA macam afterthought.

NVIDIA bukan tiba-tiba dalam masalah overnight. GPU AI top-end mereka masih standard prestasi, dan demand untuk compute masih sangat tinggi, dengan provider mampu beroperasi hampir pada full utilisation. Tapi perbualannya sedang berubah. Kalau syarikat mula optimising untuk kos per juta tokens, cip inference khusus seperti Groq akan jadi jauh lebih susah untuk diabaikan.

Untuk meta hardware AI, ini basically saat di mana champion overpowered masih S-tier, tapi counter-picks akhirnya mula nampak real.

Sumber: Wccftech Gaming

Cip AI Groq Buat Harga GPU NVIDIA Nampak Tak Lagi Kebal

GPU NVIDIA masih mahal, terutama untuk on-demand

Peralihan besar: inference kini jadi workload utama

Pitch Groq: tokens lebih murah, output lebih laju

Kenapa Malaysia dan SEA patut ambil peduli

Tag