谷歌新AI火了：世界最长单词都能画！--快科技--科技改变未来

正文内容 评论（0）

谷歌新AI火了：世界最长单词都能画！

2022-06-30 20:21:21 出处：量子位作者：杨净金磊编辑：落木评论(0)

#谷歌 #AI

朋友，你知道这个英文单词是什么吗？

Pneumonoultramicroscopicsilicovolcanoconiosis.

这个世界公认最长——由45个字母组成的单词，意思是“因肺部沉积火山矽质微粒所引起的疾病”（俗称火山矽肺病）。

但如果说，现在不是让你拼读这个单词，而是……把它给画出来呢？

（读都读不出来，还画画？？？）

谷歌新AI火了：世界最长单词都能画！

谷歌最新提出来的一个AI——Parti，它就能轻松hold住这事。

在把这个单词“投喂”给Parti后，它就能有模有样地生成多张合情合理的肺部疾病图片：

但这只是Parti小试牛刀的能力，据谷歌介绍，它是目前最先进的“文本转图像”AI。

例如，跟它说句：“把悉尼歌剧院和巴黎铁塔做个结合”，输出结果是这样的：

（不知道的还真以为是画报呢）

而且在算法路数上，还不同于谷歌自家的Imagen，Parti可以说是把“AI作画”卷出了新高度。

就连谷歌AI负责人Jeff Dean也连发数条推文，玩得不亦乐乎：

谷歌新AI火了：世界最长单词都能画！

可扩展到200亿参数：更逼真，更“聪明”

事实上，Parti的能力还不止于此。

得益于模型可扩展到200亿参数，一方面，它生成的图像更加细节逼真。

不管是短短几个字，还是五十多个个单词的小段落，都能清晰展现出来。

比如，The back of a violin，小提琴的背面。

亦或是照着梵高《星空》来描述的夜晚画面。ps，这段有67个单词。

结果Parti也不在话下，一揽子把各种风格的图全给你画出来了~

这也正是Parti的第二大能力，不光细节到位，风格也能做到多变。

还有像“浣熊穿正装，头戴礼帽，拄着拐杖，拿着个垃圾袋”这种奇特的描述，它也能在整出花活的同时还不落细节。

风格上，则有梵高风、埃及法老风、像素风、中国传统绘画风、抽象主义风……

甚至有时候它还会讲双关笑话。

（Toad’ay，癞蛤蟆）

具体在测试结果上，MS-COCO、Localized Narrative（LN，4倍长的描述）上FID分数，Parti都取得了最先进的结果。

尤其在MS-COCO零样本的FID得分仅为7.23，微调FID得分为3.22，超过了此前的Imagen和DALL-E 2。

所有组件都是Transformer

时隔一个月，谷歌再把AI作画卷出新高度，结果作者却说：秘诀很简单。

Parti主要是将文本生成图像视作序列到序列之间建模。这有点类似于机器翻译，将文本标记作为编码器的输入，目标输出从文本变成了图像。

从结构上看，它的所有组件只有三部分：编码器、解码器以及图像标记器，且都是基于标准Transformer。

首先，使用基于Transformer的图像标记器ViT-VQGAN，将图像编码为离散的标记序列。

然后再通过Transformer的编码-解码结构，将参数扩展到200亿。

以往关于文本生成图像的研究，除了最早出现的GAN，大体可以分成两种思路。

一种是基于自回归模型，首先文本特征映射到图像特征，再使用类似于Transformer的序列架构，来学习语言输入和图像输出之间的关系。

这种方法的一个关键组成部分就是图像标记器，将每个图像转换为一个离散单元的序列。比如DALL-E和CogView，就采用了这一思路。

另一种则是这段时间以来进展频频的路线——基于扩散的文本到图像模型，比如DALL-E 2和Imagen。

他们摒弃了图像标记器，而是采用扩散模型来直接生成图像。可以看到的是，这些模型产生的图像质量更高，在MS-COCO零样本FID得分更好。

而Parti模型的成功，则证明了自回归模型可以用来改善文本生成图像的效果。

与此同时，Parti还引入并发布了新的基准测试——PartiPrompts，用于衡量模型在12个类别和11个挑战方面的能力。

但Parti还是有一定的局限性，研究人员也展示了一些bug：

比如，对否定的描述就没招了~

一个没有香蕉的盘子，旁边一个没有橙汁儿的玻璃杯。

还会犯一些常识性错误，例如不合理地缩放。比如这张图，机器人竟然比赛车高出好几倍。

一个穿着赛车服和黑色遮阳板的闪亮机器人自豪地站在一辆F1赛车前。太阳落在城市景观上。漫画书插图。

谷歌“自己卷自己”

在这项研究来自Google Research，团队中的华人居多。

研究核心工作人员包括Yuanzhong Xu、Thang Luong等，目前均就职于谷歌从事AI相关研究工作。

（Thang Luong在谷歌学术上的引用量高达20000+）

△左：Yuanzhong Xu；右：Thang Luong

不过有意思的是，同为“说句话让AI作画”，同为出自谷歌之手的Imagen，它跟Parti还真有点千丝万缕的关系。

在Parti的GitHub的项目文档中就有提到：

感谢Imagen团队，他们在发布Imagen之前与我们分享了其最近完整的结果。

他们在CF-guidance方面的重要发现，对最终的Parti模型特别有帮助。

而且Imagen的作者之一Burcu Karagol Ayan，也参与到了Parti的项目中。

（有种谷歌“自己卷自己”那味了）

不仅如此，就连“隔壁”DALL-E 2的作者Aditya Ramesh，也给Parti在MS-COCO评价方面做了讨论工作。

以及DALL-Eval的作者们，也在Parti数据方面的工作提供了帮助。

One More Thing

有一说一，就“文本生成图像”这事，可不只是研究人员们的宠儿。

网友们在“玩”它这条路上，也是乐此不疲（脑洞不要太大好吧）。

前一阵子让Imagen画一幅宋朝“虎戴VR”，直接演变成AI作画大战。

△图：Imagen作画DALL·E、MidJourney等“闻讯赶来”参与其中。

△ DALL·E作画甚至还有把Wordle和 DALL-E 2搞到一起的：

……

不过回归到这次的Parti，好玩归好玩，但还是有网友提出了“直击灵魂”的问题：

啥时候商业化？要是自己“关门玩”就没意思了。

Parti论文地址：

https://parti.research.google/

GitHub项目地址：

https://github.com/google-research/parti

参考链接：

[1]https://twitter.com/lmthang/status/1539664610596225024

[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289

[3]https://imagen.research.google/

责任编辑：落木

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#谷歌 #AI #企业动态

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波