消息
×
loading..

  • 今日视点
  • 2025年03月31日 星期一

正文内容 评论(0

OpenAI一更新 把我朋友圈变成了吉卜力
2025-03-28 07:21:14  出处:差评  作者:纳西 编辑:随心     评论(0)点击可以复制本篇文章的标题和链接对文章内容进行纠错

自打前天凌晨,奥特曼这老小子发布了 GPT-4o 文生图模型以后,哥们是真被这玩意给刷屏了。

 这两天一打开工作群,就能看到编辑部同事们拿 GPT-4o 疯狂整活,有做头像的,有做表情包的,还有画漫画的,点子王是一个比一个高。

OpenAI一更新 把我朋友圈变成了吉卜力

甚至我一打开小红书,首页推送的好多也都是拿 GPT 画画的。。。

 好好好,看来 OpenAI 这是真支棱了,奥特曼抱完孩子,归来仍是顶流是吧。

OpenAI一更新 把我朋友圈变成了吉卜力

可能有差友还不知道这是发生啥了,简单说吧,OpenAI 放出来了个 GPT-4o 文生图模型,这玩意直接让用嘴 P 图、敲字画图的离谱需求,成了可能。

 不仅在他们官网直接就能用,而且效果可以说是相当攒劲,当时看完我就一个想法,这波可能要把不少 AI 从业者和设计师们都给整得怀疑人生了。。。

OpenAI一更新 把我朋友圈变成了吉卜力

你瞅瞅他们官网的演示案例,像什么抓拍的马克思、心有猛虎的小猫;还有让简单的草图变成照片、让倒影里的摄影师转过身来和你击掌啥的,这特么你告诉我居然没P图?

 于是,昨天一大早,哥们就爬起来充了 20 刀,直接上手就是一个测的开。

爽玩了一天以后,我只能说,虽然瑕疵还是有不少,但至少从四个方面看,OpenAI 这一波的生图功能,确实又秀又6。

OpenAI一更新 把我朋友圈变成了吉卜力

首先,画面保持和图片风格转化方面,4o 主打一个驾轻就熟。

在经过了金毛火锅的同意下,我们拿出了一张火锅和机器狗的对峙照片,来让 AI 转成漫画版。

OpenAI一更新 把我朋友圈变成了吉卜力

你瞅瞅,这神态,真别说还挺对味的。

 虽然细节上有点翻车,把火锅眼睛补上了,但鉴于咱给的图也比较糊,倒也可以理解。

反过来,把画改成真实风格,这玩意搞得也不错,我们也上传了一张刻在不少人基因里的孔子图片,让它以此为原型,生成一张真实照片。

OpenAI一更新 把我朋友圈变成了吉卜力

反正看到效果,不知道大伙们感受到一股时空穿越的感觉没?

 对比一下目前其他搞得不错的文生图模型,大伙儿可能就会对GPT-4o到底什么水平有个参考了。

下面这几幅都是同一套提示词搞出来的,依次是 Midjourney , ImageFX , GPT-4o和之前挺火的 Gemini-2.0-flash-exp 。

OpenAI一更新 把我朋友圈变成了吉卜力

很明显,GPT-4o 和 Midjourney 是一档的,而且效果可以说遥遥领先于同行。。。

 不过,虽然类似风格转化和逼真图像生成的活,像 Midjourney 之类的 AI 也能跟 GPT-4o 掰掰手腕,大伙们之间顶多就是 80 分和 90 分之间的差别。

而接下来的四点,可能真的就是 Only OpenAI can do 了。

OpenAI一更新 把我朋友圈变成了吉卜力

第一个是在文本的渲染上,4o 模型这次残暴得甚至有点可怕。

看下面这个,我让他生成一个学者在白板上写量子力学的公式和理论,虽然内容我也基本告诉它了,但这又有数学公式又有框图的,怎么说也很难整对吧。

OpenAI一更新 把我朋友圈变成了吉卜力

 结果人家全识别出来整到板书上去了,白板的倒影效果甚至都能做出来。

以防大伙们不知道这是个啥水平,相同的提示词,我用 OpenAI 某友商旗下的模型试了试,效果是这样的。

虽然看起来是那么一回事儿,但细看一下图里的文字内容,你就知道为啥 OpenAI 这波有点强得离谱了。

OpenAI一更新 把我朋友圈变成了吉卜力

第二个就是在多主体的生成上,4o 模型这次主打一个又准又狠。

比如大伙们请看这段提示词,小小的一段话里面暗藏玄机,7个不同的元素里,个数和颜色都不一样。。。

OpenAI一更新 把我朋友圈变成了吉卜力

其他模型这边,则直接慌了阵脚,交出了这样的作业,在数字上翻了车。

OpenAI一更新 把我朋友圈变成了吉卜力

反观 OpenAI 这边,分毫不差地执行了咱的要求,稳如老狗简直是。

 按照 OpenAI 的说法,其他模型在处理 5-8 个对象时就顶不住了,而 4o 最多能处理 10-20 个不同的对象。

而且你要回头细品,还会发现 OpenAI 的图里元素都不是跟别的模型一样随机摆放的,而是有设计,像是一个有故事的动画场景一样。。。

OpenAI一更新 把我朋友圈变成了吉卜力

最后一点,我觉得最牛的,那就是 4o 的图片生成模型在对于文字和图像的理解这方面,就跟长了脑子一样。

比如说在复杂指令,特别是在长文本上理解上,它不仅能搞懂你想表达啥,还跟开挂一样,能把你要的那个画面直接给到。

 咱在测试的时候还专门给它上了强度,叫它画一个房间里的大象,但不能让观众直接看见有大象,得是那种明明存在,但所有人都看不见,但在氛围里又真的存在的大象。

很刁钻是吧,就是像这种复杂指令,你看看它怎么处理。

OpenAI一更新 把我朋友圈变成了吉卜力

该说不说,看到这个图的时候我是真没想到,这人家都能画出来,还是写实风格的,用光影搞了一个透明的空气大象。

 除了理解,它这种把知识作为链接,真正能把让文本和图像联系起来的能力尤其出色。

举个例子,不给任何参考信息,让它直接用插图解释一样牛顿发现的光的折射原理,他能直接给出教科书级的专业插图。

OpenAI一更新 把我朋友圈变成了吉卜力

所以说,这 OpenAI 也是支棱起来了,在大家都以为他要拉的时候,搞出来这么一个牛逼哄哄的东西。

 不过,这玩意之所以比以往的文生图模型厉害,里边其实也有一些说法。

在技术博客里,OpenAI 说他们用的是自回归方法,而不是以前文生图里常用的Diffusion 扩散模型。前者是不停靠之前的信息来预测后面的,再用后面的预测更后面的;Diffusion 则是让模型从一堆乱码中,逐渐从混乱变清晰。

OpenAI一更新 把我朋友圈变成了吉卜力

相比 Diffusion,自回归的好处恰恰就是在语义识别上更牛,特别是你要给出唠唠叨叨的一大串需求的时候,以前的文生图模型就理解不全面,所以大家老是没法跑出来符合自己心意的图。

 所以在用 GPT-4o 问生图的时候你就会发现,这玩意出图实际上也是从上往下,一点一点画出来的,就跟 AI 写文章一样一个词一个词往外蹦,这就很自回归。

OpenAI一更新 把我朋友圈变成了吉卜力

好玩的是,OpenAI 第一次大火就是在用了自回归 Transformer 模型的GPT-3.5上,没想到现在图片生成领域,他们又靠着自回归扳回一局。

 当然了,用了这种新方法,可能生成图片的时间会稍微长一点,但是 OpenAI 觉得,为了这么高质量的图片,这点时间还是值得的。

OpenAI一更新 把我朋友圈变成了吉卜力

或许也因为是自回归模型的原因,GPT-4o 生成的图片也会出现一些大模型幻觉。

但这倒不是多根手指啥的,而是图片元素如果过多,或者长度太长,到后面就会崩了。

比方下面这个,我们让它生成一堆元素贴纸组成的海报:

OpenAI一更新 把我朋友圈变成了吉卜力

结果虽然你一打眼觉得它好像搞得像模像样,但细看就会发现,它多搞了机器人和冲浪者,弄丢了无人机,就还是比较马虎的。

官方博客还说,他们虽然在拉丁文字处理上整挺好,但对别的小语种,就不大行了。

 比如我们搞点三哥那边的文字,它给生成的就有问题,细节上也是缺胳膊少腿的。

OpenAI一更新 把我朋友圈变成了吉卜力

但话又说回来,这其实也都能理解。照我看,相比 GPT-4o 尚有的这些小缺点,这玩意给业界最大的震撼恐怕还不止是图片质量,而是它越来越让人意识到,AI更新的速度实在是太快了。

OpenAI一更新 把我朋友圈变成了吉卜力

 以前费老大劲研究出来的那些所谓的“经验”,在模型能力突飞猛进面前,真的就显得有点尴尬,甚至可能一夜之间就变得毫无价值。

比如有个老哥,看到 GPT-4o 的效果以后,心态就崩了。

OpenAI一更新 把我朋友圈变成了吉卜力

好不容易花了大把时间,又是琢磨提示词,又是各种调参,刚把一个提示词或者工作流弄得差不多能打个 70 分了,结果没过几天,人家又冒出来个知识库加工作流的新玩意儿,直接把之前的努力给顶替了。等你刚适应了知识库加工作流,还没捂热乎呢,更厉害的智能体又来了。

 所以说这么来看的话,我们使用AI的这些经验,保质期实在跟不上 AI 的速度,于是真正能让你立于不败之地的,还得是模型本身的能力够不够硬。

也就是说,模型能力强了,很多以前需要我们绞尽脑汁去琢磨的东西,模型自己就能轻松搞定,我们的创造力也能更自由,而这,才是技术爆发时代对人的红利。

责任编辑:随心

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |

  • 热门文章
  • 换一波

    • 关注我们

    • 微博

      微博:快科技官方

      快科技官方微博
    • 今日头条

      今日头条:快科技

      带来硬件软件、手机数码最快资讯!
    • 抖音

      抖音:kkjcn

      科技快讯、手机开箱、产品体验、应用推荐...