Anime / ACG

ChatGPT Images 2.0 登場,強化非拉丁文字支援與更聰明的圖像生成

作者 Aimirul|
分享

OpenAI 正式推出了 ChatGPT Images 2.0,也就是它最新的圖像生成模型,而這次的大升級不只是 AI 圖變得更漂亮。OpenAI 表示,這個新版本更能理解詳細指令、處理圖片裡大量文字,並讓物件之間的位置關係保持正確。

這聽起來已經很實用了,但對馬來西亞和更廣 SEA 創作者圈來說,最可能吸引注意的是這點:OpenAI 表示這個模型在非拉丁文字方面有重大進步,尤其是 日文、韓文、中文、Hindi 和 Bengali。如果這個說法在實際使用中站得住腳,對區域創作者、indie game 團隊、fan artists 和行銷人來說,這會是相當有感的升級,因為大家終於不用一要求亞洲語言文字,整張圖就馬上翻車。

根據 OpenAI 的說法,Images 2.0 也是它第一個具備 reasoning capabilities 的圖像模型。OpenAI 表示,這讓系統能做到像是搜尋網頁和驗證輸出等操作,目標是在準確度、一致性和視覺協調性很重要的情況下,讓結果更可靠。

對 anime、manga 和 game-adjacent 創作來說,這點真的很重要。AI 圖像工具最大的不爽點之一,就是第一眼看起來不錯,但當你需要可讀文字、角色一致性,或是合理 layout 時,它就會直接翻車。OpenAI 表示,新模型也更擅長忠實重現不同視覺語言,並把這點定位成對 game prototypingstoryboarding 很有用。

實用面也有一些升級。Images 2.0 現在支援最寬 3:1、最高 1:3 的 aspect ratio,可以生成最高 2K resolution,並且一次最多可產出 八個 outputs。這讓使用者在製作 banners、vertical social posts、manga-style panels,以及其他不適合一般方形圖片 workflow 的格式時,有更多彈性。

在 Engadget 的早期 preview 中,他們用三個 prompts 測試了這個模型:一隻 以 Pokemon 第三世代遊戲 pixel art 風格呈現的 tortoiseshell cat、要求把那張圖轉成 transparent PNG,以及一篇關於那隻貓在城市小溪旁享受晴天的 四頁 manga。Preview 表示,Pokemon-style 的結果意外地穩,尤其 pixel art 通常是 AI 模型比較弱的部分。

transparent PNG 測試就稍微不穩一點。它花了更久時間,而且輸出跟原圖有些不同,代表它多少偏離了 prompt。不過據說它還是成功產出了一張真正透明背景的圖片,這是其他圖像模型不一定能處理好的事情。

對馬來西亞和 SEA 讀者來說,非拉丁文字支援大概才是真正的重點。很多區域創意作品本來就同時跨越多種語言與視覺文化,尤其當你在處理 anime fandom、中文 promo art、韓系設計趨勢,或是面向混合受眾的 game assets 時。如果 Images 2.0 真的能讓文字更乾淨、style reference 更穩,那可以省下不少 cleanup 時間。

這個新模型從 今天起 開放給 所有 ChatGPT users 使用,包括 FreeGo 方案。PlusPro 訂閱者則可使用更進階的輸出。OpenAI 也會透過它的 APICodex coding app 推出這項功能,而 Codex 也是最近才加入內建圖像生成。這次發布也剛好發生在 Anthropic 推出自家 visual design assistant、正式進軍視覺設計之後沒幾天,所以 AI 圖像賽道現在真的越來越熱了。

Source: Engadget

标签

OpenAIChatGPTAI artMangaTech