OpenAI一更新把我朋友圈变成了吉卜力--快科技--科技改变未来

当前位置：首页 > 资讯中心 > 软件之家 > 移动应用 > 文章详情

正文内容 评论（0）

OpenAI一更新把我朋友圈变成了吉卜力

2025-03-28 07:21:14 出处：差评作者：纳西编辑：随心评论(0)

#OpenAI #朋友圈

自打前天凌晨，奥特曼这老小子发布了 GPT-4o 文生图模型以后，哥们是真被这玩意给刷屏了。

这两天一打开工作群，就能看到编辑部同事们拿 GPT-4o 疯狂整活，有做头像的，有做表情包的，还有画漫画的，点子王是一个比一个高。

甚至我一打开小红书，首页推送的好多也都是拿 GPT 画画的。。。

好好好，看来 OpenAI 这是真支棱了，奥特曼抱完孩子，归来仍是顶流是吧。

可能有差友还不知道这是发生啥了，简单说吧，OpenAI 放出来了个 GPT-4o 文生图模型，这玩意直接让用嘴 P 图、敲字画图的离谱需求，成了可能。

不仅在他们官网直接就能用，而且效果可以说是相当攒劲，当时看完我就一个想法，这波可能要把不少 AI 从业者和设计师们都给整得怀疑人生了。。。

你瞅瞅他们官网的演示案例，像什么抓拍的马克思、心有猛虎的小猫；还有让简单的草图变成照片、让倒影里的摄影师转过身来和你击掌啥的，这特么你告诉我居然没P图？

于是，昨天一大早，哥们就爬起来充了 20 刀，直接上手就是一个测的开。

爽玩了一天以后，我只能说，虽然瑕疵还是有不少，但至少从四个方面看，OpenAI 这一波的生图功能，确实又秀又6。

OpenAI一更新把我朋友圈变成了吉卜力

首先，画面保持和图片风格转化方面，4o 主打一个驾轻就熟。

在经过了金毛火锅的同意下，我们拿出了一张火锅和机器狗的对峙照片，来让 AI 转成漫画版。

你瞅瞅，这神态，真别说还挺对味的。

虽然细节上有点翻车，把火锅眼睛补上了，但鉴于咱给的图也比较糊，倒也可以理解。

反过来，把画改成真实风格，这玩意搞得也不错，我们也上传了一张刻在不少人基因里的孔子图片，让它以此为原型，生成一张真实照片。

反正看到效果，不知道大伙们感受到一股时空穿越的感觉没？

对比一下目前其他搞得不错的文生图模型，大伙儿可能就会对GPT-4o到底什么水平有个参考了。

下面这几幅都是同一套提示词搞出来的，依次是 Midjourney , ImageFX , GPT-4o和之前挺火的 Gemini-2.0-flash-exp 。

OpenAI一更新把我朋友圈变成了吉卜力

很明显，GPT-4o 和 Midjourney 是一档的，而且效果可以说遥遥领先于同行。。。

不过，虽然类似风格转化和逼真图像生成的活，像 Midjourney 之类的 AI 也能跟 GPT-4o 掰掰手腕，大伙们之间顶多就是 80 分和 90 分之间的差别。

而接下来的四点，可能真的就是 Only OpenAI can do 了。

第一个是在文本的渲染上，4o 模型这次残暴得甚至有点可怕。

看下面这个，我让他生成一个学者在白板上写量子力学的公式和理论，虽然内容我也基本告诉它了，但这又有数学公式又有框图的，怎么说也很难整对吧。

结果人家全识别出来整到板书上去了，白板的倒影效果甚至都能做出来。

以防大伙们不知道这是个啥水平，相同的提示词，我用 OpenAI 某友商旗下的模型试了试，效果是这样的。

虽然看起来是那么一回事儿，但细看一下图里的文字内容，你就知道为啥 OpenAI 这波有点强得离谱了。

第二个就是在多主体的生成上，4o 模型这次主打一个又准又狠。

比如大伙们请看这段提示词，小小的一段话里面暗藏玄机，7个不同的元素里，个数和颜色都不一样。。。

其他模型这边，则直接慌了阵脚，交出了这样的作业，在数字上翻了车。

反观 OpenAI 这边，分毫不差地执行了咱的要求，稳如老狗简直是。

按照 OpenAI 的说法，其他模型在处理 5-8 个对象时就顶不住了，而 4o 最多能处理 10-20 个不同的对象。

而且你要回头细品，还会发现 OpenAI 的图里元素都不是跟别的模型一样随机摆放的，而是有设计，像是一个有故事的动画场景一样。。。

最后一点，我觉得最牛的，那就是 4o 的图片生成模型在对于文字和图像的理解这方面，就跟长了脑子一样。

比如说在复杂指令，特别是在长文本上理解上，它不仅能搞懂你想表达啥，还跟开挂一样，能把你要的那个画面直接给到。

咱在测试的时候还专门给它上了强度，叫它画一个房间里的大象，但不能让观众直接看见有大象，得是那种明明存在，但所有人都看不见，但在氛围里又真的存在的大象。

很刁钻是吧，就是像这种复杂指令，你看看它怎么处理。

该说不说，看到这个图的时候我是真没想到，这人家都能画出来，还是写实风格的，用光影搞了一个透明的空气大象。

除了理解，它这种把知识作为链接，真正能把让文本和图像联系起来的能力尤其出色。

举个例子，不给任何参考信息，让它直接用插图解释一样牛顿发现的光的折射原理，他能直接给出教科书级的专业插图。

所以说，这 OpenAI 也是支棱起来了，在大家都以为他要拉的时候，搞出来这么一个牛逼哄哄的东西。

不过，这玩意之所以比以往的文生图模型厉害，里边其实也有一些说法。

在技术博客里，OpenAI 说他们用的是自回归方法，而不是以前文生图里常用的Diffusion 扩散模型。前者是不停靠之前的信息来预测后面的，再用后面的预测更后面的；Diffusion 则是让模型从一堆乱码中，逐渐从混乱变清晰。

相比 Diffusion，自回归的好处恰恰就是在语义识别上更牛，特别是你要给出唠唠叨叨的一大串需求的时候，以前的文生图模型就理解不全面，所以大家老是没法跑出来符合自己心意的图。

所以在用 GPT-4o 问生图的时候你就会发现，这玩意出图实际上也是从上往下，一点一点画出来的，就跟 AI 写文章一样一个词一个词往外蹦，这就很自回归。

好玩的是，OpenAI 第一次大火就是在用了自回归 Transformer 模型的GPT-3.5上，没想到现在图片生成领域，他们又靠着自回归扳回一局。

当然了，用了这种新方法，可能生成图片的时间会稍微长一点，但是 OpenAI 觉得，为了这么高质量的图片，这点时间还是值得的。

或许也因为是自回归模型的原因，GPT-4o 生成的图片也会出现一些大模型幻觉。

但这倒不是多根手指啥的，而是图片元素如果过多，或者长度太长，到后面就会崩了。

比方下面这个，我们让它生成一堆元素贴纸组成的海报：

结果虽然你一打眼觉得它好像搞得像模像样，但细看就会发现，它多搞了机器人和冲浪者，弄丢了无人机，就还是比较马虎的。

官方博客还说，他们虽然在拉丁文字处理上整挺好，但对别的小语种，就不大行了。

比如我们搞点三哥那边的文字，它给生成的就有问题，细节上也是缺胳膊少腿的。

但话又说回来，这其实也都能理解。照我看，相比 GPT-4o 尚有的这些小缺点，这玩意给业界最大的震撼恐怕还不止是图片质量，而是它越来越让人意识到，AI更新的速度实在是太快了。

OpenAI一更新把我朋友圈变成了吉卜力

以前费老大劲研究出来的那些所谓的“经验”，在模型能力突飞猛进面前，真的就显得有点尴尬，甚至可能一夜之间就变得毫无价值。

比如有个老哥，看到 GPT-4o 的效果以后，心态就崩了。

好不容易花了大把时间，又是琢磨提示词，又是各种调参，刚把一个提示词或者工作流弄得差不多能打个 70 分了，结果没过几天，人家又冒出来个知识库加工作流的新玩意儿，直接把之前的努力给顶替了。等你刚适应了知识库加工作流，还没捂热乎呢，更厉害的智能体又来了。

所以说这么来看的话，我们使用AI的这些经验，保质期实在跟不上 AI 的速度，于是真正能让你立于不败之地的，还得是模型本身的能力够不够硬。

也就是说，模型能力强了，很多以前需要我们绞尽脑汁去琢磨的东西，模型自己就能轻松搞定，我们的创造力也能更自由，而这，才是技术爆发时代对人的红利。

责任编辑：随心

文章内容举报

相关资讯

支持打赏
支持0人
反对
打赏

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#OpenAI #朋友圈 #吉卜力

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

关于我们
关于我们
隐私权说明

交流合作
加入我们
意见反馈
广告刊例

关注我们
微信公众号：
微博号：快科技官方
QQ群：53467377

安卓客户端下载
IOS客户端下载

APP下载

手机扫码下载

支持Android/iOS/iPad
投稿
纠错

线索爆料

爆料群

爆料1群

打开微信扫一扫
扫描入群，加入爆料
意见反馈
评论
返回顶部