2025 年起,AI 圖像生成技術迎來了突破性的發展,不僅生成品質大幅提升,操作也幾乎不再有門檻。兩大 AI 圖片生成模型 —— OpenAI 的 GPT Image 1.5 與 Google 的 Nano Banana Pro 的發布更是推波助瀾而備受矚目。如今不論是社群媒體經營或各種商業情境,AI 圖像生成工具都已成為不可或缺的得力助手。
本篇 Aiworks 將帶你了解如何透過 ChatGPT 及 Gemini 使用這些模型生成圖片,並以 5 大常見 AI 圖片生成情境實測,幫助你更清楚地了解這兩款頂尖工具的優勢與差異,一窺目前 AI 圖像生成的最新發展與實際表現!
文章大綱
GPT Image 1.5 與 Nano Banana Pro 核心特色
OpenAI GPT Image 1.5
如何使用?
在 ChatGPT 內啟動圖片生成功能,或在側邊欄點選「圖像」即可使用。
新模型有哪些進步?
- 編輯與一致性:編輯圖片時能直接修改指定部分並保留原始細節,維持光影、構圖與人物外貌的一致性,具備添加、移除、混合與轉換等多種編輯能力,不再需要每次都重新生成一張全新的圖片。
- 強化文字渲染能力:圖片中的文字生成能力獲得大幅提升,複雜或微小的文字皆能清晰正確地顯示,藉此生成排版精美的海報、資訊圖表或設計草圖。
- 確實遵循指令:以自然對話生成圖片時,更能確實理解並遵循使用者的指令,並依據使用者上傳的參考圖片,保留圖片中的品牌商標、人物臉孔等核心視覺特徵與細節,讓成品看起來更自然、更寫實。
- 專屬操作介面:在 ChatGPT 的側邊欄加入了專屬的圖像生成介面,內建多種預設濾鏡與熱門提示詞,幫助使用者快速尋找靈感 。系統提供一次性人像上傳功能,未來的創作可以直接套用相同外貌而無須重複上傳照片 。
Google Nano Banana Pro
如何使用?
在 Gemini 內啟動圖片生成功能即可使用,也已應用在 NotebookLM 等各項 Google Workspace 應用程式中。
新模型有哪些進步?
- 知識與推理能力強化:具備更強大的推理能力,並連結 Google 搜尋的龐大知識庫,可以將真實世界的即時資訊轉化為精確的視覺圖像,適合製作包含豐富脈絡的資訊圖表與教學圖解。
- 多語系文字渲染能力:大幅提升文字生成的清晰度與正確性,且支援多國語言的文字轉換與在地化設計,可以自由套用多種字體、書法與紋理效果。
- 強大的影像一致性:允許使用者一次輸入高達 14 張參考圖片,並在複雜場景中維持多達 5 個角色的外貌一致性。
- 專業攝影棚等級影像:精細的局部影像編輯能力,可以自由調整相機視角、景深與光影變化,並提供多種長寬比選擇,最高可輸出 4K 解析度的高畫質影像。
如何開啟 AI 圖像生成功能?
ChatGPT





Gemini




5 大圖片生成情境實測
1. 文字生成實測:資訊圖表(Infographic)中英文精準度
在商業簡報或企劃提案中,將繁雜的資料轉化為一目了然的資訊圖表(Infographic)是提升溝通效率的關鍵。透過 AI 直接讀取文字資料,並將其轉換為簡單易懂的資訊圖表,作為強而有力的簡報視覺輔助。
中文資訊圖表生成
Prompt(提示詞)
根據以下內容,製作一張介紹「什麼是 ETF 及其如何運作」的資訊圖表(infographic),若有文字請以 zh-tw 撰寫。
風格:低飽和度、簡約、俐落、橘色調
```
ETF 由證券投資信託公司或期貨信託公司發行,是一種開放式基金 。基金公司會用投資人的錢去購買一籃子的股票或債券,這些標的通常會追蹤某個特定指數,例如台灣 50 指數或高股息指數。投資人買進 ETF 後,就等於同時持有這一籃子裡所有的股票,不需要自己一支一支去買 。
ETF 在證券交易所掛牌交易,你可以在股市開盤時間內隨時買賣,就像交易一般股票一樣 。這點跟傳統共同基金不同,傳統基金只能在每天收盤後以當日淨值申購或贖回。
```
生成結果

實測結果顯示,由 Nano Banana Pro 驅動的 Gemini 在中文字生成的精準度上,優於使用 GPT Image 1.5 的 ChatGPT。
但當面臨筆畫繁複的難字或生僻字時,無論是 Gemini 還是 ChatGPT,仍有一定機率出現文字渲染錯誤的情況,建議產出後仍需進行人工校對。
英文資訊圖表生成
Prompt(提示詞)
Create an infographic based on the content below introducing "What is an ETF and How It Works." If there is any text in the image, please write it in en-US.
**Style:** Low saturation, minimalist, sleek, orange color scheme.
**Content:**
ETFs are open-end funds issued by securities investment trust companies or futures trust companies. Fund companies use investors' money to purchase a basket of stocks or bonds; these underlying assets typically track a specific index, such as the Taiwan 50 Index or a High Dividend Index. When investors buy an ETF, it is equivalent to holding all the stocks in that basket simultaneously, without needing to buy each one individually.
ETFs are listed on stock exchanges, and you can buy and sell them anytime during market hours, just like trading regular stocks. This differs from traditional mutual funds, which can only be subscribed to or redeemed at the net asset value after the market closes each day.
生成結果

相較於中文字的挑戰,在英文字生成的表現上,GPT Image 1.5 與 Nano Banana Pro 皆展現了極高的精準度與穩定性。
2. 寫實情境示意圖:自然的人物與景物互動
在行銷企劃與廣告文案中,經常需要搭配具備高度真實感的情境示意圖來引起受眾共鳴。現在能更精準地產出自然的人物表情與景物互動,快速打造符合品牌形象的高質感視覺素材。
客戶服務
Prompt(提示詞)
* 風格:寫實,暖色調,長焦大光圈,整體氣氛明亮、溫馨且輕鬆愉悅。
* 內容:一位梳起髮髻、著淺橘色正裝制服、掛著耳麥的台灣女性客服人員,正在協助一位銀捲髮、台灣阿嬤。在門市服務櫃檯,客服人員面帶微笑,操作手機 APP 給阿嬤看,周圍有少量暖橘色調的科技感霓虹 icon 和 UI。
生成結果

旅遊情境
Prompt(提示詞)
* 風格:寫實,明亮,整體氣氛充滿希望與期待,像是隨手捕捉到的紀錄影像。
* 內容:全景。在機場大廳,三位穿著打扮充滿夏日感的台灣少女勾肩搭背,興奮且開心地為前往熱帶島嶼的綠行即將開始而歡呼。他們手持護照夾機票,身旁有行李箱。
生成結果

3. 圖片風格轉換:精準重塑物品與角色視覺風格
想要為既有圖片換個全新面貌,只需上傳參考圖片並輸入精準的提示詞,就能輕鬆將既有的物品或角色轉換成截然不同的視覺風格。
原圖

療癒系 Q 版塗鴉
Prompt(提示詞)
將圖中角色轉換成俏皮插畫,採用日本寬鬆慵懶的吉祥物(ゆるキャラ)風格。角色身體柔軟、軟綿綿且呈團塊狀,有著微小的豆豆眼和簡單的表情。藝術風格具有顫抖的手繪輪廓線,類似軟石墨或棕色色鉛筆觸感。上色柔和呈粉彩色調,帶有明顯的紙張紋理和蠟筆般的陰影。充滿溫馨、療癒和可愛的氛圍。奶油色或米白色背景。
生成結果

絨毛玩具(plushie)
Prompt(提示詞)
將人物或圖像轉化為質地柔軟且比例圓潤的可愛絨毛玩具造型。如果畫面中有人物,則保留標誌性特徵;否則,用毛氈或絨布等材質將物件或動物重新詮釋為觸感舒適的填充玩具。賦予他們舒適的毛氈或絨布質感,簡化造型,並用精緻的刺繡點綴眼睛、嘴巴和五官。使用溫暖的粉彩色調或中性色,搭配柔和的陰影和細緻的縫線,就像手工製作的填充玩具。保持人物表情友善可愛,頭有點大,四肢短小,整體輪廓圓潤可愛。最終作品應該感覺像一個迷人、值得收藏的絨毛玩具 —— 溫馨舒適、令人愛不釋手,同時又能辨認出原始人物。
source: ChatGPT Image default style prompt
生成結果

3D 盲盒公仔(figurine)
Prompt(提示詞)
製作圖中角色的 1/7 比例公仔,呈現 3D 盲盒玩具的可愛風格,置於真實環境中的電腦桌上。公仔配有圓形透明壓克力底座,底座上無文字。公仔旁邊放著一個玩具包裝盒,盒身正面繪有該公仔的單幅 2D 平面插畫,且盒子上無任何文字或 Logo。
source: Google – 4 tips for using Nano Banana to create amazing image
生成結果

4. 角色一致性實測:根據參考圖片精準還原特定角色
過去在使用 AI 生成圖片時,最大的痛點往往是每次生成的角色長相都不一樣。現在,只要提供清晰的參考圖片,就能精準抓取角色的特徵細節,並在不同場景中完美還原。
參考圖片

在波斯菊花田中
Prompt(提示詞)
附圖皆是我的貓 —— 茂茂。
請參考附圖並保留角色細節,生成一張茂茂在波斯菊花田中玩樂的真實照片。
生成結果

在浪管中衝浪
Prompt(提示詞)
附圖皆是我的貓 —— 茂茂。
請參考附圖並保留角色細節,生成一張茂茂站在衝浪板上、在大海的浪管中衝浪的真實照片。
生成結果

在雪地中玩耍
Prompt(提示詞)
附圖皆是我的貓 —— 茂茂。
請參考附圖並保留角色細節,生成一張茂茂在正在飄雪的雪地中玩樂的真實照片。
生成結果

在太空中漂流
Prompt(提示詞)
附圖皆是我的貓 —— 茂茂。
請參考附圖並保留角色細節,生成一張茂茂穿著太空裝在宇宙中漂流的真實照片。
生成結果

5. 局部編輯實測:精準修改圖片指定細節與顏色
有時候我們只對 AI 生成圖片中某個小細節不滿意,過去只能不斷重新生成,現在則可以透過對話直接指定並替換圖片中的特定元素,同時完美保留其他未更動的部分,輕鬆實現理想的畫面細節。
蛋糕上的生日蠟燭歲數更換
原圖

Prompt(提示詞)
幫我將圖中蛋糕上的生日歲數蠟燭替換成「26」
生成結果

指定位置船隻顏色變化
原圖

Prompt(提示詞)
將照片中的正中央的藍色船隻顏色換成紅色
生成結果

實測心得與比較:ChatGPT vs. Gemini 哪款更適合你?
在多數通用的圖像生成情境中,GPT Image 1.5 與 Nano Banana Pro 兩大模型在提示詞理解力、生成速度、品質與穩定度上表現皆十分優異且不相上下。Aiworks 特別整理了兩者在功能特色、操作介面與影像風格上的關鍵差異,提供讀者作為評估與參考:
ChatGPT 圖像生成獨家亮點
- 專屬圖像生成操作介面:在 ChatGPT 的側邊欄點擊「圖像」即可進入圖像生成專屬頁面,已內建多種預設濾鏡與熱門提示詞,使用者可以直接挑選喜好的範本進行生成。
- 選取區域編輯功能:在 ChatGPT 中點擊生成的圖片,可以點選「選擇區域」,根據使用者框選的區域進行編輯。



Gemini 圖像生成獨家亮點
- 中文字生成精準度高:Nano Banana Pro 在生成具有中文字的圖片時,已經能相當精準地呈現一般常用中文字,適合用於需要呈現中文字的圖片生成場景,如資訊圖表、簡報等。
- Google 生態系整合:不僅限於 Gemini,在 NotebookLM 及 Google Workspace 系列應用程式中,皆已整合 Nano Banana Pro 模型。NotebookLM 可以根據參考資料生成多張投影片簡報;Google Docs 和 Google Slides 也可在文件中插入 AI 生成的圖片。



影像風格主觀差異分析
經過實際測試與大量 AI 圖片生成結果的觀察,我們發現在未特別指定影像風格的提示詞下,兩款工具的預設風格有些微的不同:
- ChatGPT 生成的圖像風格:偏向可愛、溫和、圓潤且色彩明亮。
- Gemini 生成的圖像風格:更傾向真實感、銳利度高且對比鮮明。
建議使用者在實際應用時,可以根據專案的視覺需求或品牌調性,來選擇適合的生成工具,以達到符合預期的視覺效果。
Aiworks 洞察:善用 AI 圖像生成工具,提升企業視覺競爭力
總結上述 5 大情境的實測結果,目前的 AI 圖像生成技術已跨越單純「產出圖片」的階段,向更精準、具備高度商業應用價值的方向邁進。無論是 OpenAI GPT Image 1.5 憑藉直覺對話修改與局部細節編輯所帶來的靈活性,或是 Google Nano Banana Pro 在中英文文字渲染及角色一致性上展現的強大穩定度,這兩款頂尖模型皆能有效降低圖像產製門檻,大幅提升企業視覺內容的產出效率。
AI 圖片生成無疑為社群行銷與品牌視覺設計帶來了極大的潛力。然而,Aiworks 建議企業在導入相關技術時,應建立完善的內部審核機制,嚴格遵守版權、肖像權等法律規範,並落實 AI 內容標籤的透明揭露。透過合法、合規且具策略性的應用,企業才能充分發揮 ChatGPT 與 Gemini 等 AI 圖像生成工具的商業價值,在數位市場中保持長遠的競爭優勢。
📩 想為你的組織打造 AI 協作能力?
Aiworks 提供企業內訓、客製化培訓與實作工作坊,協助各產業團隊規劃生成式 AI 的導入與應用策略。
▼ 聯絡我們|規劃你的 AI 實戰課程,讓轉型真正落地 ▼
(若表單未正常顯示,請點擊此連結進入表單填寫頁面)
推薦延伸閱讀
▶︎ 建立你的社群行銷 AI 工作流(下)小編救星!ChatGPT 幫你快速生成圖片
▶︎ ChatGPT 與 Gemini 排程功能教學:3 大情境讓 AI 變身全天候貼身秘書
▶︎ 5 分鐘學會 ChatGPT Prompt 提示詞優化術!(內附實戰範例)
▶︎ 為什麼你的 AI 看不懂 Excel?從 AI 閱讀邏輯看懂 Markdown 的關鍵角色
▶︎ AI 不該只是幫企業省成本:從 Thoughtworks 報告看見 AI 創造成長的關鍵轉向
圖片生成安全與法律風險提醒
避免未經同意挪用他人肖像
依據 OpenAI 與 Google 等主流 AI 平台的使用政策(Usage Policy),皆明文禁止「未經當事人同意擅自使用其肖像」。因此,若使用者企圖上傳他人照片生成圖像,極可能觸發平台的安全機制而遭到阻擋。
除違反平台規範外,未經授權挪用他人肖像,更將面臨以下法律咎責:
刑事裁決
台灣已有多起濫用 Deepfake(深度偽造)技術進行犯罪而遭刑事判決的案例。若未經當事人同意,擅自挪用他人肖像生成 AI 圖片並藉此從事非法行為(包含但不限於生成不實色情影像),極可能觸犯《刑法》第 319-4 條「妨害性隱私及不實性影像罪」或第 339-4 條「加重詐欺罪」。
註:Deepfake(深度偽造)是一種合成或偽造影像、聲音與影片的技術,能將特定人士的臉部特徵或聲音,無縫移植到另一個人的影音中,製造出足以亂真的虛假內容。
延伸閱讀 ▷
民事責任
台灣《民法》雖未明文定有「肖像權」之獨立條文,但實務判決多認定肖像權屬於「人格權」之一環。若遭不當使用,當事人得依《民法》第 18 條規定「人格權受侵害時,得請求法院除去其侵害」,並依法請求損害賠償。
須特別注意的是,即便 AI 最終生成的圖像是卡通或動漫風格,只要其特徵足以使一般大眾辨識出該特定人物(如五官、身體特徵等),仍無法豁免侵害肖像權之法律風險。
避免侵害著作權及商標權
若未經授權,逕自使用他人享有著作權之作品作為 AI 生成圖片的參考,可能涉及《著作權法》第 22 條之「重製」或第 28 條之「改作」行為,當事人可主張其著作財產權受侵害,並依法請求損害賠償。
此外,若生成的圖片中包含他人已合法註冊之商標,亦可能構成《商標法》第 68 條所定之侵害商標權行為。
儘管目前國內相關的 AI 侵權判決尚在發展階段,但企業若欲將 AI 生成圖片用於商業營利,務必避免將他人 IP、藝術作品、品牌或商標作為生成參考,以免引發侵權爭議與公關危機。
禁止生成違反善良風俗或造假之資訊
OpenAI 與 Google 等平台皆制定了嚴格的使用政策(Usage Policy),明文禁止使用者利用 AI 模型生成、散布以下內容:
- CSAM(兒童及少年性剝削與虐待內容)
- 暴力、仇恨言論或成人色情內容
- 意圖操弄或誤導大眾之不實資訊
若蓄意生成此類內容,不僅帳號將面臨永久停權處分,若涉及違法行為,平台亦會主動通報執法機關進行後續處理。
標明內容由 AI 生成
根據 2026 年 1 月 14 日公布的《人工智慧基本法》第四條「七大基本原則」:
五、透明與可解釋:人工智慧之產出應做適當資訊揭露或標記,以利評估可能風險,並瞭解對相關權益之影響,進而提升人工智慧可信任度。
因此,將 AI 生成內容用於公開發表或商業用途時,強烈建議先透過人工進行內容審核,並明確標示「此內容為 AI 生成」,以避免錯誤或不當資訊散布而造成負面影響。
