OpenAI 推出 GPT-4o 圖像生成 功能

圖像生成領(lǐng)域傳來了新進展,OpenAI在攻克“生成圖像中的文字”方面的難題。北京時間3月26日凌晨,OpenAI進行了直播,對GTP-4o和Sora進行更新,在ChatGPT和Sora中推出GPT-4o的圖像生成功能。OpenAI此次強調(diào)了新功能在精準(zhǔn)理解文本描述、準(zhǔn)確生成文本方面的優(yōu)勢。
據(jù)OpenAI介紹,GPT-4o圖像生成功能擅長準(zhǔn)確呈現(xiàn)文本,并精準(zhǔn)遵循提示詞,該功能還會將GPT-4o的知識庫和聊天上下文作為靈感來源,這有助于使用者與圖像生成工具更有效地溝通并提高生成圖像的質(zhì)量。該功能供ChatGPT Plus、Pro、Team和免費用戶使用,并計劃隨后向企業(yè)、教育和API使用者推出。
在OpenAI的示例中,要求大模型生成一名女子在一個俯瞰海灣大橋的房間里用筆在白板上寫字,衣服上印有OpenAI字樣,白板映著攝影師的身影,并描述了白板上所寫的文字。GPT-4o生成的圖像都體現(xiàn)了以上要求。隨后,OpenAI要求攝影師走到鏡頭前與女子擊掌,GPT-4o也呈現(xiàn)了這一畫面,且白板上的字不會變得凌亂,女子的身形和發(fā)型也與前一張圖像呈現(xiàn)的背影一致。

在其他示例中,OpenAI要求大模型生成上世紀(jì)中葉一個家庭中冰箱上貼著的詩歌短句,并要求畫面中的人手拿著特定的幾個詞,GPT-4o可以精準(zhǔn)還原。GPT-4o還能生成漫畫,但需要人準(zhǔn)確地描述畫面中的情節(jié)。OpenAI還展示了這個圖像生成功能在科學(xué)實驗中的用途,該功能可以生成牛頓棱鏡實驗的示意圖。此外,OpenAI還展示了該圖像生成功能在生成路牌、菜單、游戲畫面時的效果,以及生成雞尾酒配方、天氣信息圖像時,大模型生成的專業(yè)配方和天氣文本描述。

就如何訓(xùn)練GPT-4o圖像生成功能,OpenAI解釋,OpenAI使用了網(wǎng)絡(luò)上的圖像和文本訓(xùn)練模型,讓模型學(xué)習(xí)圖像與文字、圖像與圖像之間的關(guān)系,使模型具有視覺流暢性,生成的圖片是有用的、具備上下文連貫性的。
就GPT-4o圖像生成功能的特點,OpenAI還表示,用戶可以通過自然對話與大模型交流,要求大模型改進圖像,在這個過程中圖像中的人物等要素會保持一致性。使用者與大模型的交流也更順暢,可以同時要求大模型處理10到20個不同的對象,以便圖像中各要素呈現(xiàn)出相關(guān)性。OpenAI對比其他圖像生成系統(tǒng)時稱,其他系統(tǒng)只能同時處理5到8個對象。
不過,OpenAI也指出,GPT-4o圖像生成功能也具備一些限制,例如存在幻覺、難以呈現(xiàn)太多依賴知識庫的圖像要素(例如元素周期表)、圖表準(zhǔn)確性不足、呈現(xiàn)非拉丁語言時可能容易出現(xiàn)幻覺、要求修改圖像中的錯別字時難以精準(zhǔn)編輯。
更新GPT-4o的圖像生成功能之后,OpenAI更大的產(chǎn)品更新將是推出GPT-5。今年2月,OpenAI首席執(zhí)行官山姆·奧爾特曼表示,OpenAI將會在ChatGPT和API服務(wù)中搭載新模型GPT-5,GPT-5將集成公司多項技術(shù),包括推理模型o3的技術(shù),GPT-5可能會在未來幾個月內(nèi)推出。



