OpenAI 正式推出了 ChatGPT Images 2.0,也就是它最新的圖像生成模型,而這次的大升級不只是 AI 圖變得更漂亮。OpenAI 表示,這個新版本更能理解詳細指令、處理圖片裡大量文字,並讓物件之間的位置關係保持正確。
這聽起來已經很實用了,但對馬來西亞和更廣 SEA 創作者圈來說,最可能吸引注意的是這點:OpenAI 表示這個模型在非拉丁文字方面有重大進步,尤其是 日文、韓文、中文、Hindi 和 Bengali。如果這個說法在實際使用中站得住腳,對區域創作者、indie game 團隊、fan artists 和行銷人來說,這會是相當有感的升級,因為大家終於不用一要求亞洲語言文字,整張圖就馬上翻車。
根據 OpenAI 的說法,Images 2.0 也是它第一個具備 reasoning capabilities 的圖像模型。OpenAI 表示,這讓系統能做到像是搜尋網頁和驗證輸出等操作,目標是在準確度、一致性和視覺協調性很重要的情況下,讓結果更可靠。
對 anime、manga 和 game-adjacent 創作來說,這點真的很重要。AI 圖像工具最大的不爽點之一,就是第一眼看起來不錯,但當你需要可讀文字、角色一致性,或是合理 layout 時,它就會直接翻車。OpenAI 表示,新模型也更擅長忠實重現不同視覺語言,並把這點定位成對 game prototyping 和 storyboarding 很有用。
實用面也有一些升級。Images 2.0 現在支援最寬 3:1、最高 1:3 的 aspect ratio,可以生成最高 2K resolution,並且一次最多可產出 八個 outputs。這讓使用者在製作 banners、vertical social posts、manga-style panels,以及其他不適合一般方形圖片 workflow 的格式時,有更多彈性。
在 Engadget 的早期 preview 中,他們用三個 prompts 測試了這個模型:一隻 以 Pokemon 第三世代遊戲 pixel art 風格呈現的 tortoiseshell cat、要求把那張圖轉成 transparent PNG,以及一篇關於那隻貓在城市小溪旁享受晴天的 四頁 manga。Preview 表示,Pokemon-style 的結果意外地穩,尤其 pixel art 通常是 AI 模型比較弱的部分。
transparent PNG 測試就稍微不穩一點。它花了更久時間,而且輸出跟原圖有些不同,代表它多少偏離了 prompt。不過據說它還是成功產出了一張真正透明背景的圖片,這是其他圖像模型不一定能處理好的事情。
對馬來西亞和 SEA 讀者來說,非拉丁文字支援大概才是真正的重點。很多區域創意作品本來就同時跨越多種語言與視覺文化,尤其當你在處理 anime fandom、中文 promo art、韓系設計趨勢,或是面向混合受眾的 game assets 時。如果 Images 2.0 真的能讓文字更乾淨、style reference 更穩,那可以省下不少 cleanup 時間。
這個新模型從 今天起 開放給 所有 ChatGPT users 使用,包括 Free 和 Go 方案。Plus 和 Pro 訂閱者則可使用更進階的輸出。OpenAI 也會透過它的 API 和 Codex coding app 推出這項功能,而 Codex 也是最近才加入內建圖像生成。這次發布也剛好發生在 Anthropic 推出自家 visual design assistant、正式進軍視覺設計之後沒幾天,所以 AI 圖像賽道現在真的越來越熱了。
Source: Engadget