ChatGPT Images 2.0 重點整理:推理能力、Codex 整合與中文渲染三大突破

OpenAI 發布新一代圖片生成模型 ChatGPT Images 2.0。這次更新橫跨推理能力、彈性長寬比、多語言文字渲染,以及與 Codex 開發環境的整合,幾項改動指向同一個方向:讓圖像生成從創意探索,延伸到可交付的設計產出。

對企業團隊而言,這代表圖像 AI 的應用範圍可以更廣,從發想階段的靈感素材,擴展到資訊圖表、投影片、UI 原型等日常設計與內容工作。

本篇 Aiworks 將帶你看 ChatGPT Images 2.0 的核心更新、與前代模型的關鍵升級,並透過 5 個情境實測對照,讓你一次了解實際差異。

(source: Introducing ChatGPT Images 2.0, OpenAI)
(source: Introducing ChatGPT Images 2.0, OpenAI)

ChatGPT Images 2.0 的 4 大新功能

推理能力:圖像模型的首次突破

ChatGPT Images 2.0 是 OpenAI 首個具備推理能力的圖像模型。在選用 Thinking 或 Pro 模型時,它能夠:

  • 搜尋網路以獲取即時資訊
  • 從單一提示生成最多 8 張各異的圖像,並維持角色與物件的一致性
  • 自我檢查輸出內容的準確性

這代表圖像生成不再是單步驟的「輸入提示、輸出圖片」,而是可以在生成過程中參考外部資料、進行自我修正。對需要基於最新資訊產出視覺內容的團隊,例如季報封面、活動素材、產業簡報,這是直接影響工作流程的改變。

彈性長寬比:從社群圖文到 360 度全景

Images 2.0 支援最寬 3:1、最高 1:3 的長寬比,輸出結果可直接用於橫幅、海報、手機螢幕、社群圖文等各種場景。過去圖像 AI 多半預設 1:1 或 16:9,超出標準比例就需要後製拼接或重新生成,Images 2.0 把版面規劃直接納入生成範圍。

ChatGPT Images 2.0 支援生成 360 度全景圖
(source: @minchoi on X/Twitter)

更高解析度

API 端支援最高 2K 解析度,2K 以上的輸出目前仍在 beta 測試階段。對企業實務用途來說,這讓同一張圖更可能直接用於印刷品、大螢幕投影或高解析度的數位素材。

與 Codex 整合:開發工作流的內建能力

圖像生成功能現已內建於 Codex。開發者不需離開工作環境,就能生成、迭代並交付應用程式、UI 原型及設計素材。

遊戲製作從美術到程式,都可透過整合了 ChatGPT Images 2.0 的 Codex 來完成。
(source: @Angaisb on X/Twitter)

與前代模型相比:5 個關鍵升級

  1. 指令遵循與精確度:ChatGPT Images 2.0 在遵循細節提示、保留指定元素,以及呈現小字體、圖示、UI 元件等精細內容方面都有顯著進步,降低了「講清楚要什麼卻得不到什麼」的反覆修正成本。
  2. 多語言文字渲染:ChatGPT Images 2.0 在日文、韓文、中文、印地語及孟加拉語方面有重大改進,包含中文資訊的圖表、投影片、海報都可以產出,不僅文字渲染正確,也能與整體設計自然融合。
  3. 風格真實感與還原度:在寫實攝影、電影感畫面、像素藝術、漫畫等多種風格上均有提升,在材質、光影與構圖的一致性方面也更為出色。整體成果「更像是有意為之的設計,而非 AI 生成的產物」。
  4. 物件擺放與構圖:模型在場景中物件的擺放與相對關係上更為精準,整體構圖感與視覺品味也更加成熟。
  5. 視覺與世界理解能力:模型能夠端到端地整合資訊,從撰寫說明文字、規劃版面結構,到生成視覺內容,結構更清晰,留白運用也更具設計意識。
ChatGPT Images 2.0 在非拉丁字系(英文字母)的生成上變得更加精準,且支援更多種語言的文字。
(source: Introducing ChatGPT Images 2.0, OpenAI)
ChatGPT Images 2.0 在非拉丁字系(英文字母)的生成上變得更加精準,且支援更多種語言的文字。
(source: Introducing ChatGPT Images 2.0, OpenAI)

ChatGPT Images 2.0 vs GPT Image-1.5:五大情境實測對照

Aiworks 先前發布過 AI 圖片生成實測:ChatGPT vs Gemini 五大情境深度解析,這次我們挑選部分 GPT Image 1.5 的實測結果,以 ChatGPT Images 2.0 再次生成對照。

資訊圖表(Infographic)中英文精準度

可以發現 ChatGPT Images 2.0 在中文文字精準度上大幅提升,較不容易出現模糊的似字非字。 -Aiworks
可以發現 ChatGPT Images 2.0 在中文文字精準度上大幅提升,較不容易出現模糊的似字非字。

Prompt(提示詞)

根據以下內容,製作一張介紹「什麼是 ETF 及其如何運作」的資訊圖表(infographic),若有文字請以 zh-tw 撰寫。
風格:低飽和度、簡約、俐落、橘色調
```
ETF 由證券投資信託公司或期貨信託公司發行,是一種開放式基金 。基金公司會用投資人的錢去購買一籃子的股票或債券,這些標的通常會追蹤某個特定指數,例如台灣 50 指數或高股息指數。投資人買進 ETF 後,就等於同時持有這一籃子裡所有的股票,不需要自己一支一支去買 。
ETF 在證券交易所掛牌交易,你可以在股市開盤時間內隨時買賣,就像交易一般股票一樣 。這點跟傳統共同基金不同,傳統基金只能在每天收盤後以當日淨值申購或贖回。
```

寫實情境示意圖:自然的人物與景物互動

ChatGPT Images 2.0 多了中文字渲染,UI 擬真度與場景敘事上明顯進步,整體質感更接近專業商用視覺。 -Aiworks
ChatGPT Images 2.0 多了中文字渲染,UI 擬真度與場景敘事上明顯進步,整體質感更接近專業商用視覺。

Prompt(提示詞)

* 風格:寫實,暖色調,長焦大光圈,整體氣氛明亮、溫馨且輕鬆愉悅。
* 內容:一位梳起髮髻、著淺橘色正裝制服、掛著耳麥的台灣女性客服人員,正在協助一位銀捲髮、台灣阿嬤。在門市服務櫃檯,客服人員面帶微笑,操作手機 APP 給阿嬤看,周圍有少量暖橘色調的科技感霓虹 icon 和 UI。

圖片風格轉換:精準重塑物品與角色視覺風格

ChatGPT Images 2.0 的生成在絨毛材質、刺繡工法與情境光線上明顯更擬真,貼近真實娃娃開箱攝影的質感,且包含了原圖背景的細節。 -Aiworks
ChatGPT Images 2.0 的生成在絨毛材質、刺繡工法與情境光線上明顯更擬真,貼近真實娃娃開箱攝影的質感,且包含了原圖背景的細節。

Prompt(提示詞)

將人物或圖像轉化為質地柔軟且比例圓潤的可愛絨毛玩具造型。如果畫面中有人物,則保留標誌性特徵;否則,用毛氈或絨布等材質將物件或動物重新詮釋為觸感舒適的填充玩具。賦予他們舒適的毛氈或絨布質感,簡化造型,並用精緻的刺繡點綴眼睛、嘴巴和五官。使用溫暖的粉彩色調或中性色,搭配柔和的陰影和細緻的縫線,就像手工製作的填充玩具。保持人物表情友善可愛,頭有點大,四肢短小,整體輪廓圓潤可愛。最終作品應該感覺像一個迷人、值得收藏的絨毛玩具 —— 溫馨舒適、令人愛不釋手,同時又能辨認出原始人物。

角色一致性實測:根據參考圖片精準還原特定角色

在 ChatGPT Images 2.0 的生成中,不僅維持了角色一致性,也讓角色更合理地融入現實場景。例如右圖 ChatGPT Images 2.0 的生成讓貓咪的毛髮也被海水浸濕,更符合衝浪的情境。 -Aiworks
在 ChatGPT Images 2.0 的生成中,不僅維持了角色一致性,也讓角色更合理地融入現實場景。例如右圖 ChatGPT Images 2.0 的生成讓貓咪的毛髮也被海水浸濕,更符合衝浪的情境。

Prompt(提示詞)

附圖皆是我的貓 —— 茂茂。
請參考附圖並保留角色細節,生成一張茂茂站在衝浪板上、在大海的浪管中衝浪的真實照片。

局部編輯實測:精準修改圖片指定細節與顏色

相較於 GPT Image 1.5,ChatGPT Images 2.0 在生成時更貼近原圖中蠟燭的風格和形狀。 -Aiworks
相較於 GPT Image 1.5,ChatGPT Images 2.0 在生成時更貼近原圖中蠟燭的風格和形狀。

Prompt(提示詞)

幫我將圖中蛋糕上的生日歲數蠟燭替換成「26」

現階段依然有限制

ChatGPT Images 2.0 是重大進步,但並非完美。目前仍有以下侷限:

  • 需要完整且連貫的物理世界模型的任務,例如摺紙教學、魔術方塊等立體拼圖,仍有困難。
  • 需要在隱藏、傾斜或反轉表面正確呈現的細節,可能無法準確生成。
  • 非常密集或重複的視覺細節(例如細緻的沙粒),可能超出模型處理能力。
  • 標籤與圖表仍需人工檢查準確性,特別是依賴精確箭頭或零件標註時。

對企業應用來說,這代表 ChatGPT Images 2.0 適合設計成「AI 先產、人審後交付」的工作流程,不適合直接把輸出連接到對外發布流程。

需要完整且連貫的物理世界模型的任務,例如摺紙教學、魔術方塊等立體拼圖,仍有困難。
(source: Introducing ChatGPT Images 2.0, OpenAI)
需要完整且連貫的物理世界模型的任務,例如摺紙教學、魔術方塊等立體拼圖,仍有困難。
(source: Introducing ChatGPT Images 2.0, OpenAI)

Aiworks 觀點:從「試驗工具」到「可交付的設計產出系統」

GPT Image-1.5 時期,圖像 AI 的定位仍然是創意探索或輔助設計:好玩、有潛力,但真正能用在正式交付場合的產出有限。ChatGPT Images 2.0 定位更接近可直接交付資訊圖表、投影片、說明文件與 UI 原型的工作流程工具,並把它整合進 Codex 開發環境。這是定位上的質變。

對企業而言,這代表評估角度要從「這個工具有什麼新功能」改為「這是否能嵌入我們現有的設計與內容工作流程,縮短從構思到可用素材的時間」。值得盤點的具體問題包含:

  • 哪些例行產出(月報圖、活動海報、產品說明圖、UI 原型)可以由 AI 先產、人審後交付?
  • 哪些角色的工作會因此改變?是省下時間,還是需要重新定位職責?
  • 在品牌一致性、法遵審查與素材管理上,需要建立什麼新的流程?

圖像 AI 的進步不會自動轉換成企業能力,決定成效的是工作流程的設計,以及人對工具的共識。Aiworks 會持續追蹤這類工具在企業實際場景中的落地方式,協助團隊把圖像生成納入可被複製、可被驗證的產出流程。


📩 想為你的組織打造 AI 協作能力?

Aiworks 提供企業內訓、客製化培訓與實作工作坊,協助各產業團隊規劃生成式 AI 的導入與應用策略。

▼ 聯絡我們|規劃你的 AI 實戰課程,讓轉型真正落地 ▼

(若表單未正常顯示,請點擊此連結進入表單填寫頁面)


推薦延伸閱讀

▶︎ AI 圖片生成實測:ChatGPT vs Gemini 五大情境深度解析

▶︎ 什麼是 Agent Skills?為 AI 打造一本企業級任務攻略

▶︎ 同樣使用 AI,為什麼成效因人而異?用 Prompt Library 打造企業專屬的 AI 溝通指南

▶︎ 2026 Anthropic 經濟指數報告解析:AI 如何重塑知識工作與企業專業價值

▶︎ 從醫療 AI 策略看企業合規:AI 如何踏入高度監管產業?


參考資料