ChatGPT Images 2.0 登場，強化非拉丁文字支援與更聰明的圖像生成

OpenAI 正式推出了 ChatGPT Images 2.0，也就是它最新的圖像生成模型，而這次的大升級不只是 AI 圖變得更漂亮。OpenAI 表示，這個新版本更能理解詳細指令、處理圖片裡大量文字，並讓物件之間的位置關係保持正確。

這聽起來已經很實用了，但對馬來西亞和更廣 SEA 創作者圈來說，最可能吸引注意的是這點：OpenAI 表示這個模型在非拉丁文字方面有重大進步，尤其是 日文、韓文、中文、Hindi 和 Bengali。如果這個說法在實際使用中站得住腳，對區域創作者、indie game 團隊、fan artists 和行銷人來說，這會是相當有感的升級，因為大家終於不用一要求亞洲語言文字，整張圖就馬上翻車。

根據 OpenAI 的說法，Images 2.0 也是它第一個具備 reasoning capabilities 的圖像模型。OpenAI 表示，這讓系統能做到像是搜尋網頁和驗證輸出等操作，目標是在準確度、一致性和視覺協調性很重要的情況下，讓結果更可靠。

對 anime、manga 和 game-adjacent 創作來說，這點真的很重要。AI 圖像工具最大的不爽點之一，就是第一眼看起來不錯，但當你需要可讀文字、角色一致性，或是合理 layout 時，它就會直接翻車。OpenAI 表示，新模型也更擅長忠實重現不同視覺語言，並把這點定位成對 game prototyping 和 storyboarding 很有用。

實用面也有一些升級。Images 2.0 現在支援最寬 3:1、最高 1:3 的 aspect ratio，可以生成最高 2K resolution，並且一次最多可產出 八個 outputs。這讓使用者在製作 banners、vertical social posts、manga-style panels，以及其他不適合一般方形圖片 workflow 的格式時，有更多彈性。

在 Engadget 的早期 preview 中，他們用三個 prompts 測試了這個模型：一隻 以 Pokemon 第三世代遊戲 pixel art 風格呈現的 tortoiseshell cat、要求把那張圖轉成 transparent PNG，以及一篇關於那隻貓在城市小溪旁享受晴天的 四頁 manga。Preview 表示，Pokemon-style 的結果意外地穩，尤其 pixel art 通常是 AI 模型比較弱的部分。

transparent PNG 測試就稍微不穩一點。它花了更久時間，而且輸出跟原圖有些不同，代表它多少偏離了 prompt。不過據說它還是成功產出了一張真正透明背景的圖片，這是其他圖像模型不一定能處理好的事情。

對馬來西亞和 SEA 讀者來說，非拉丁文字支援大概才是真正的重點。很多區域創意作品本來就同時跨越多種語言與視覺文化，尤其當你在處理 anime fandom、中文 promo art、韓系設計趨勢，或是面向混合受眾的 game assets 時。如果 Images 2.0 真的能讓文字更乾淨、style reference 更穩，那可以省下不少 cleanup 時間。

這個新模型從 今天起 開放給 所有 ChatGPT users 使用，包括 Free 和 Go 方案。Plus 和 Pro 訂閱者則可使用更進階的輸出。OpenAI 也會透過它的 API 和 Codex coding app 推出這項功能，而 Codex 也是最近才加入內建圖像生成。這次發布也剛好發生在 Anthropic 推出自家 visual design assistant、正式進軍視覺設計之後沒幾天，所以 AI 圖像賽道現在真的越來越熱了。

Source: Engadget

ChatGPT Images 2.0 登場，強化非拉丁文字支援與更聰明的圖像生成

标签