正文内容 评论(0)
现在是2026年2月13日。
如果你还没能搞清楚现在的 AI 有多强,那请你立刻去看下目前 B 站上最火的 AI 短片——《牌子》。(文末左下角点击阅读原文可观看)
7 分钟视频,上线一周,1000 多万次播放,80 多万点赞,30 多万投币。
《流浪地球》导演郭帆看到后转发点赞,YouTube 上也是一堆老外被震惊,弹幕里大家喊着封神,评论区有人在逐帧分析剧情。差评编辑部的后期们也在上班时间,讨论到底是怎么做的。
视频一开始,一个人戴着帽子走进森林,在看到一个“禁戴帽子”的牌子后,他原地被“消失”了。镜头迅速下拉,帽子滚到画面前方。
接着音乐一起,短片名《SIGN》出现在屏幕前。

再紧接着镜头一个丝滑转场,SIGN 成了汽车里的一个按钮,收音机正在播报新闻:
火星上发现了一块神秘“?”警示牌,地球上也开始出现越来越多看不懂的牌子。这些告示牌一出现,警告的事情就会立即发生,即便它不符合常理。

随着镜头晃动着转向车窗外,路边突然出现“奶牛从天而降”的警告牌,下一秒奶牛真的从山坡上滑下来。
后视镜里映出司机的脸,奶牛摔下来的灰尘四溅,急刹车的惯性让司机来了一个大踉跄。看到这些,差评君已经坐不住了,要知道这些物理细节一直都是 AI 视频最容易穿帮的地方啊。
接下来更绝。
一个长达 20 秒左右的十字路口镜头,几乎是一镜到底的感觉。上一个牌子的效果还在触发,下一个牌子已经到来,滑倒的行人、骑着自行车的熊、各种超自然事件一个接一个在画面里发生。

要知道 AI 视频模型通常只能生成几秒钟片段,时间一长,场景、人物都会漂移、变形。我真无法想象这个镜头是怎么撑住的。
最后一张报纸飞过来挡住画面,当它被吹走后,我们又被带到了下一个场景。转场丝滑到你根本意识不到这是拼接出来的。

整支片子 7 分钟,几乎每一帧都是这个密度。
剧情也同样扎实:
越来越多看不懂的告示牌让世界陷入混乱,一个巨大的“不言不视不闻”的警告牌从月球砸向地球,人类的文字开始被吞噬,无法沟通交流,秩序逐渐崩塌。

好在人类发现了交流的本质在于表情、手势。于是大家利用 emoji 重建了沟通方式。
最后我们飞回火星踢翻了那块牌子,并插上新的牌子:

这条视频是 UP 主 DiDi_OK 参加 B 站首届 AI 创作大赛的参赛作品。 1 月 5 日,B 站面向全球创作者启动了这场比赛,第一名奖金 100 万,3 月 20 日截稿。比赛还没结束,这条片子已经提前炸场了。
看完这条视频,我的第一反应就是,这哥们是谁?他究竟怎么做到的?我甚至想立刻知道他每个镜头、每一帧都用了哪些模型和提示词?
托朋友联系上 DiDi_OK 之后,差评君立刻就把语音拨过去了。
DiDi_OK 是河南郑州人,在英国留学学的 3D 动画,毕业后进了伦敦 WPP 总部,全球最大的广告传播集团之一,干了快 4 年。
早在三年前,公司就要求全员接触 AI,但那会儿的 AI 视频是什么水平呢?差评君估摸着也就威尔·史密斯第一次吃意面的水平吧。

但他当时排斥的,倒不是 AI 本身,只是觉得没到 AI 够用的那个时间:我用 Blender 自己做都比你快,不伺候。
去年 4 月,Runway 推出了 Gen4,他发现画面开始有物理规律了,石头可以正常地落地、弹开,心里想着“那一天终于还是来了”。
DiDi_OK 觉得这个起点够了,就去参加了一个 AI 电影节。公司一看,行你小子,直接给他开了个 AI 导演新的岗位。
所以现在他的生活是这样的:白天给大客户做 AI 广告,晚上下班回家自己做 AI 短片。有时美国客户的时差逼得他凌晨 1 点才下班,但他还想再做一两个小时自己的东西。
DiDi_OK 工作中
《牌子》视频的灵感,来自于一趟圣诞假期。
去年圣诞节,DiDi_OK 跑去英国最西边的康沃尔。因为康沃尔有自己的方言和标识习惯,所以他一路上遇到一堆看不懂的牌子,导致每次经过都会小心翼翼。
最后让他下定决心要做这个选题的,是这边朋友家洗漱台旁边居然也贴着一张小纸条,上面也写了一行字,看不懂,但他总觉得好像有什么不得了的东西。他没问,就让这个疑惑一直留着。
朋友家的感叹号
圣诞节结束后 DiDi_OK 又去了土耳其,这里语言就更不通了。他跟出租车司机聊天都得两人打开 ChatGPT,互相翻译着对话。
这一路上他拍了很多那种看不懂的标识牌,也经历了很多只能靠手势和微笑交流的时刻。
土耳其牌子
慢慢地他开始想一个问题:当语言不通的时候,人和人之间的沟通会退化到什么状态?
手势、微笑、emoji。
这就是《牌子》视频最后的设定:当人类语言被吞噬后,大家开始用 emoji 沟通、最终实现反击。

灵感有了,但从灵感到一个 7 分钟的完整故事,中间还有他 2 个月的打磨。
DiDi_OK 的习惯是在 iPhone 备忘录里随手记灵感,想到一句就记一句。这个视频的剧本,他前后记了四五个不同的文档,才开始搭出一个大概的框架。因为对剧本的高要求,有时他一觉醒来会推翻自己写了半个月的东西。
灵感&剧本
在《牌子》的剧本定稿后,DiDi_OK 其实预判到了:比赛周期这么长,中间大概率会有新模型发布。当时他猜是 Google 的 Veo4,结果来的是 Seedance 2.0,效果比他预想的还猛。
但这在他计划之内——写剧本的时候他就定了一个原则:故事要能扛住技术迭代。
他认为 AI 再怎么发展,最好的状态也不过是无限接近实拍和传统 CG 的效果。既然如此,那从古至今的规律就不会变,好故事永远是好故事。
当然在技术上,他也努力做了亿点点模型超标。
比如十字路口那个镜头,DiDi_OK 明知道当时的模型做那种复杂场景很吃力,但他偏要在那个点上死磕,把技术表现往前推。这样就算新模型出来了,观众回头看也不会觉得过时。
说到这,重点也来了,大家一定特好奇:
《牌子》到底是怎么做出来的?为什么 DiDi_OK 的 AI 这么听他话,能把视频一致性做得这么强?
嗯,首先,你要失望了。DiDi_OK 的 AI 视频模型也不听话。
DiDi_OK 说他没有做分镜的习惯,不是他不想做,是因为至少在当时的 AI 水平下,就算画了分镜它也不听你的。
所以他后来的策略是靠“体感”。把满意度区间设在 80 到 100 分之间,专业积累让他知道什么是 80 分,而 AI 偶尔会暴击到 100 分以上。
但满意也是要代价的,代价就是无限抽卡。
十字路口那个 15-20 秒的镜头,是整个视频里成本最高的。
DiDi_OK 有一次闲着无聊数了一下生成记录:他每次点 4 个一组批量生成,菜单里排了 1000 多组。也就是说,单算那一个镜头,他生成了三四千条视频。
水獭那个镜头也折磨人。
因为画面里同时出现大量动物,AI 很难保证每一只都没有 bug。数量一多,模型就顾不上别的了,有时候镜头会莫名锁定在一个士兵的脸上。DiDi_OK 只能把已经满意的构图和运镜保留下来,再用视频生视频的方式重新跑一遍细节。
传单和二维码的镜头也一样。
他希望有一张传单刚好扑到镜头前面,好让上面二维码能被观众扫出来。这种事你没法跟 AI 商量,只能一遍遍地生成,指望老天爷给你一次机会。
DiDi_OK 后来总结出一套应对挫败的方法。
他就一口气闭着眼点生成,成本点够 1000 块钱的,然后就去看电影、打游戏,回来再一个一个看。反正别盯着进度条,不然看着从 99% 终于到 100%,点开一看很差劲,就会觉得有内伤。
另外他不会死守一个模型,每个镜头他会根据需求选择不同的工具:
Nana Banana 生图最好,尤其能输出 4K;Veo 的嘴型同步和稳定性最强,只要涉及人物对话就用它,但运镜很呆板,角色老是正对镜头站画面正中间说话;可灵的运镜有张力,能做很大的推拉,但画面容易拉伸变形;Runway 的物理效果最牛,但不稳定。
至于很多人好奇的,《牌子》如何做到不同场景看起来风格统一,如何保持一致性的。
其实 DiDi_OK 用了一个聪明的办法:他坚持写实风格、低饱和度,而且大部分角色只出现一次。
观众觉得一致,不是因为同一个角色贯穿始终,而是因为整体美术调性始终在一个框架内。这个思路来自他做游戏概念设计和 3D 动画时的积累。
当然了,并不是一切工作都能 100% 交给 AI。
比如贪吃蛇吃文字那个片段,蛇和文字都是 AI 生成的,但要做到可控,就得先把它们转化成带透明通道的素材,再通过后期合成叠在一起。
贪吃蛇追踪细节
《牌子》惊艳大家的不只是画面。
它的配乐像一条隐形的情绪线,前段压抑悬疑,中段混乱加速,到最后 emoji 反攻的时候一下子昂扬起来,整段音乐是跟着故事的心跳走的。
这段配乐,是 DiDi_OK 花了整整一周,用 Suno 生成了 1500 多次磨出来的。最关键的是,他自己完全不懂乐理,连五线谱都不认识。
他判断好坏的办法很简单,让女朋友听。女朋友全程不知道他在做什么片子,没有泡在创作环境里,就是一个纯粹的第一次听众。DiDi_OK 说,一个没听过这首歌的脑子,对他来说非常宝贵。
整个视频,DiDi_OK 前后打磨了两个月。剧本一个多月,AI 生成制作 23 天,也自费了不少钱。
聊到最后,差评君问了那个所有人都想问的问题:AI 会取代导演吗?
DiDi_OK 的回答是,不会。
他说 AI 再怎么发展,大前提不会变。它最好的状态就是完全等于实拍和传统 CG 的效果。那么,从古至今有一个事情是不用 AI 大家都会的,就是写字。
“写小说谁都可以写,谁都不犯法,但并不是每个人最后都去写小说了,也不是说会写字的人最后都做到了一个自己满意的状态。”
贪吃蛇 AI 素材
DiDi_OK 认为 AI 最能帮助到的那类人需要同时满足两个条件:知道自己想要什么,也知道别人想要什么。但这两个条件其实蛮苛刻,“很多人包括我也未必知道自己到底想要什么,而知道别人想要什么就更难。”
DiDi_OK家里工作区
其实差评君觉得,DiDi_OK 自己的经历就是最好的样本。
他从小学画画,考上了伦敦艺术大学,做过游戏概念设计师,做过 3D 动画师,现在又变成了 AI 导演。每一次转型,上一个技能看起来都被“替代”了,他不再需要花几百个小时手动建模、手动上色、手动调动画。
但是他之前积累的审美判断、叙事能力、对画面的理解,没有一样被浪费。
甚至可以说,这些看不见的积累恰恰是他能把 AI 用好的原因。
他之所以知道哪种叙述方式更吸引人,知道如何用音乐调动情绪,知道 80 分的画面和 60 分的区别在哪,全靠那些“被替代”的年头里攒下来的东西。
包括《牌子》这个故事本身。
“警示牌带来混乱,emoji 重建沟通”这个灵感,不是 AI 从数据库里算出来的,是从康沃尔看不懂的路牌和土耳其出租车后座上迸发出来的。
AI 是能生成画面,但它没有生活。没看过告示牌,没坐过那趟出租车,就写不出那个故事,更没法用情绪曲线、符号叙事、镜头语言去构成了一个完整的导演意图,去打动成千上万人。
就像 DiDi_OK 说,他之所以喜欢在 B 站发作品,是因为弹幕,“一个作品加入了大家所有人的想法之后,才算是正式完成”,大家的想法也是 AI 没法给到的东西。
所以 AI 真正替代的东西是什么?
是那些你花在机械执行上的时间。建模、渲染、调参数、一帧一帧修动画,这些事 AI 确实越来越能干。但你脑子里那套判断系统,观众在这个节点需要什么情绪,AI 还做不了。
软件行业也一样,AI 出来后,产品思维、理解意图、关键决策是开发者们的重心。
前两天差评君自己用 AI 写了两个 App,功能确实能跑,但交互逻辑稀碎。DiDi_OK 听完也说了一句:一个很顶尖的程序员,他是会比我多出非常多的软件思维、产品思维。
Node.js 之父 Ryan Dahl 今年 1 月也在 X 上写了句话:人类写代码的时代已经结束了,不是说工程师没活干了,是“直接写语法”这件事不再是重点。
无论是做视频、写代码、画画,AI 替掉的始终是同一样东西:手上那些重复的机械劳动。留下来的也是同一样东西:你脑子里那套审美、叙事、品味、判断系统。
在采访中 DiDi_OK 说了一句话,我觉得可以拿来当这篇文章的结尾——
AI 正在把创造的权利归还给人。
但我想补半句:还给那些有能力接住的人。
- 热门文章
- 换一波
- 好物推荐
- 换一波
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...




















