前言
GPT-4O最近几天更新了绘图能力,相比于原来的Dall-e-3提升不小,让OpenAI再次回到了人们的视线(前几次更新,包括12天发布会、o3、gpt-4.5-preview这些都没有激起任何波澜,加上前几天谷歌出了绘图模型gemini2.0flash,可能奥特曼也快坐不住了吧)。这次带来的GPT-4O绘图能力,总结了一下,大概有以下几个特点:
- 继承DALL·E系列一贯作风,指令遵从度依旧遥遥领先;
- 艺术感较头部的Midjourney稍显逊色;
- 支持中文拓字;
- 风格一致性稳定;
- 出图速度略慢;
- 可以支持多轮生图、修图。
终于,用嘴修图的时代就要到来了。唯一的遗憾是官方api在未来几周才会实装,目前只能通过官方网页版或者官网逆向api进行调用(在国内该方式更合适一些)。最近闲着没事,尝试了一下它的绘图能力,如下所示:
图片生成风格
全网火爆的吉卜力风格
吉卜力风格把人物画的稍胖了一些,不过整体还是非常尊重原作的,包括李云龙身上的扣子和字幕。
美国自由主义漫画
还原度100%
赛博朋克风格转换
像素化风格转换
图片去水印,精修
不仔细看,这个重置确实很成功。
乐高风格转换
乐高风格保留了电影中达叔的标志性微笑,画出“神”了。
漫画转真人风格
OpenAI对人物的检测还是非常严格的,我尝试生成了一次之后就再也生成不了了(提示有违禁图)。形象和动作都有那么点意思了,唯一不足的是一张欧美脸,有点毁~
给产品添加商标
帽子上LOGO的质感做出来了,看起来很真实。
其它
这个针织效果真的挺不错,第二张是迪士尼风格,保镖是不是因为头发长而被模型当成了女性?文字写的还是比较不错的,国旗的星星数量也对。
如何使用
本文使用聚合AI提供的API模型gpt-4o-image配合LibreChat生成,购买地址>>
总结
相比于其它画图模型,GPT-4O这次带来的画图提升比较显著,还原度能达到70%之多,AI味也不是很浓了。但是它每次出图并不是真正意义上的修图,而是“临摹”,所以像这种凭空想象、真人转艺术风格的图像是非常有帮助的,但是像抠图、改图这样的操作恐怕还无法达到生产的要求(期间尝试了抠图,效果不是很理想,这里就不放出来了)。
官方也会在未来的几周内修复一些已知存在的问题,到时api也开放出来了,相信AI画图会越做越好,恐怕真的又有一些创业公司和设计工种面临“倒闭”了,拭目以待。