算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家--快科技--科技改变未来

正文内容 评论（0）

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家

2023-04-24 21:23:40 出处：太平洋电脑网作者：月亮背面的外星人编辑：万南评论(0)

#AI #算力

随着GPT的爆火，每个企业、组织、个人都看到了利用Ai来提升生产效率的可能，这其中，以Ai绘画为代表正在快速席卷着设计、绘画、动漫行业，个人用户也可以通过stable diffusion等引擎来训练自己的Ai人物形象或者设计物品。

而stable diffusion依赖的正是本地显卡算力，所以如果想要拥有快速、精准的Ai图像生成，一张算力强劲的显卡是必不可少的。

最近，RTX4070发布，早就听闻RTX40系在Ai算力上的提升，所以问DIY大佬借了20系到40系的主流显卡，来让它们华山论剑，看看谁在Ai绘画上的能力更强。

Ai作品

首先介绍一下出战的选手们，老当益壮组的20系显卡：RTX2070、RTX2070S、RTX2080。正值壮年的30系显卡：RTX3050、RTX3060 12GB、RTX3060Ti、RTX3070 、RTX3070Ti、RTX3080、RTX3080Ti、RTX3090Ti。

青春无限的40系显卡：RTX4070、RTX4070Ti、RTX4080、RTX4090。

赛前首先是选手们的身份信息大公布：

对于本次的Ai绘画能力对决，区别选手们的主要点是显卡的架构、CUDA核心数量、显存与Tensor核心。

其中Tensor核心是NVIDIA部分显卡中专门用于加速深度学习任务的处理单元。Tensor核心针对深度学习中的矩阵运算进行了优化，能够显著提高神经网络模型的训练和推理速度。在后续的对比中，我们也能看出Tensor核心的代数与核心数与成绩的关系。

第一代Tensor核心首次出现在Volta架构显卡中，针对混合精度矩阵乘法进行优化。第二代Tensor核心引入Turing架构显卡，增加了对INT8和INT4整数精度的支持，并引入了RT核心用于实时光线追踪计算。

第三代Tensor核心出现在Ampere架构显卡，提高了FP16混合精度矩阵乘法的FLOPs，并支持稀疏性计算。

而第四代Tensor核心随着RTX40系的发布而更新，在全新的NVIDIA Ada架构中，通过引入DLSS技术和Optical Flow Accelerator等新技术，为Ai提供了显著的性能提升。并通过Tensor Cores加速器（专门用于深度学习任务的硬件加速器）大幅提高深度学习模型训练和推理性能，并且支持FP16、BF16和TF32精度。

此外，Ada GPU架构还支持CUDA-X AI软件库，这是一套用于加速AI应用的软件工具包。CUDA-X AI包括TensorRT、cuDNN、cuBLAS等组件，可以提高深度学习推理性能和训练速度。

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家

好的，简单介绍完参战选手们的基本信息，就来到本次比赛的第一关，基础性能参数对比，将由“AIDA64 GPGPU”考官出题，考察选手们的综合实力。想看Ai美女的观众先别急，先放出一张美女垫胃口。

stable diffusion Ai绘画；来自RTX2080显卡，1024*1024分辨率，单张耗时：1.14分钟

第一道题是Single-Precision，这个测试项目评估显卡在单精度浮点数运算（32位浮点数）上的性能，单精度浮点数通常用于表示小数，以GFLOPS为单位，其表示每秒千亿次浮点运算。

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家

第二道题是Double-Precision，评估显卡处理另一种称为"双精度浮点数"的数据时的计算能力。双精度浮点数比单精度浮点数更精确，常用于科学计算等要求高精度的场景。以GFLOPS为单位，其表示每秒千亿次浮点运算。

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家

第三道题是24-Bit Integer，这个测试项目评估显卡在24位整数运算上的性能。整数是没有小数部分的数字，如1、2、3等。以GFLOPS为单位，其表示每秒千亿次浮点运算。IOPS表示每秒整数运算次数，GIOPS表示每秒千亿次整数运算（Giga IOPS），以GIOPS为单位。

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家

第四道题和第五道题分别是32-Bit Integer、64-Bit Integer，聪明的小伙伴都知道这是跟上面24-Bit Integer是一组组合题，考察显卡32位整数运算、64位整数运算能力。

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家

第六题是AES-256计算能力，评估显卡处理一种名为AES-256的加密任务时的性能。加密是为了保护数据安全而对数据进行编码的过程。

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家

第七题是SHA-1 Hash编码能力，这个可能很多玩家都比较熟悉，这就是挖矿佬喜欢的哈希算力，哈希算法是一种将数据转换成固定长度的唯一字符串的过程，通常用于校验数据完整性和安全应用，常用于区块链应用中。

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家

第八题是Single-Precision julia，这个测试项目评估显卡在渲染单精度Julia分形图像时的性能。Julia分形是一种复杂数学对象，需要大量计算资源进行渲染。测试结果以FPS表示。

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家

最后一题便是Double-Precision Mandel；双精度Mandelbrot分形渲染，评估显卡渲染一种名为Mandelbrot分形的复杂数学图形时的性能。类似于Julia分形渲染，但使用更高精度的数据进行计算。

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家

对于AIDA64 GPGPU的测试，我们可以看出，除了顶级的RTX4090外，剩下显卡之间都存在着明显的递进关系，等级森严，与售价与定位严格挂钩，此外，数据测试仅能作为Ai制图的一个参考项目，旨在对比不同显卡之间的数据。

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家

参战选手的首发价格对比

接下来就进入正式的Ai绘画环节，首先是画NVIDIA官方指定的小房子，看看效果。画图的参数是：使用v2-1 768-emapruned模型；768*768的尺寸；Steps: 50；CFG scale: 7.5，共画10组，每组2张。

Ai作品

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家

从测试结果来看，各位参战选手的Ai绘画表现与他们在AIDA64 GPGPU中的各项考试表现类似，柱状图的分布几乎一致，其中低于5张/min的选手有RTX2070、RTX3050、RTX3060，虽然RTX3060配有12GB的大显存，但在Ai画图所需要的高算力面前还是只能甘拜下风，112核心的第三代Tensor没能让它在Ai画图中继续“甜品”下去。

而超过了优秀水平10张/min的选手就比较多了，RTX3080Ti、RTX3090Ti、RTX4070Ti、RTX4080、RTX4090，以及两个9张/min的差点成为优秀水平的RTX3080和RTX4070，这两位选手的用时几乎一致，但RTX4070只搭载了184核心的第四代Tensor，而RTX3080则是使用了272核心的第三代Tensor，这33%的核心数差距，就是通过技术迭代来弥补的。

接下来看一下选手们在画NVIDIA小屋时的显存占用情况，为了方便比赛公平起见，我们按照显存容量进行了分组：

算力提升！N卡画的小姐姐们越发逼真：想把AI女友带回家
8GB显存组