讯飞AI大模型“领跑国内”？做数学题堪比GPT-4！--快科技--科技改变未来

正文内容 评论（0）

讯飞AI大模型“领跑国内”？做数学题堪比GPT-4！

2023-05-11 00:14:47 出处：差评作者：世超编辑：上方文Q 评论(0)

#科大讯飞 #人工智能

前两天，科大讯飞开了场发布会。

在这个时段开发布会的互联网公司，大家用脚指头想，都能想到，发布的肯定又是一个大模型了。

一开始我还没太在意，结果今天转头就看到科大讯飞在发喜报了。

他们发布的“ 星火大模型 ”，领跑国内了？

星火大模型在一个名为“ Super Clue ”的 AI 评测榜单上，一骑绝尘，国际上仅次于 GPT-4 和 ChatGPT，国内更是豪取第一。

说实话，看到这个信息的我，一时间感觉有点不真实。

而且我上网溜达了一大圈，也还没搞清楚这个“ Super Clue ”榜单到底是怎么搞出来的，背后有没有什么大佬或者组织，至于靠不靠谱，我也下不了定义。

国内好几家大模型，像阿里、360、天工，在这上面也都看不到踪影。

但科大讯飞竟然敢在自家的公众号上，大张旗鼓地把这个事给发出来了。这可就引发我的好奇心了啊。

于是，我们就搞到了一个测试资格，给大家验验货。

不过在正式测试开始前，咱们先摸个底，看看星火有没有基本的学习能力。

我教了它一套自创的规则，正向的句子标“ 正 ”，负向的句子标“ 负 ”。

结果，星火很快地就掌握了这套规则，既能给新句子打标记，也能按我们的要求进行相关创作。

看来星火这小子，基本的底子还行，可以做正式的测试了。下面，我将从逻辑、数学、代码和文本四个方面，对星火进行考察。

按照国际惯例，第一道测试题肯定得是——弱智吧精选 100 问。

我先上了一道经典测试：张三差点没上上上上海的车，什么意思？

星火的回答过于完美了，精准解读了几个“ 上 ”的意思。我拉了几个人一起看，都没看出毛病来。

不信邪的我，又给了个经典难题：

提问：小明问小红：今天小白来上班了嘛？小红回答：说曹操曹操就到。请问，谁到了。

结果，星火的回答依旧滴水不漏，从语意理解和文字表述上，堪比真人水平了。

我接着试了好几道经典题目，发现星火应对的都完美得像标准答案一样。

不服输的我，去弱智吧找了点新货，上了之前 AI 测试里没见过的生面孔。

提问：失主怎么一直给我的新手机打电话？

这回星火的答案明显不如前面几个回答简洁了，来了一堆车轱辘话。

接着提问：为什么西游记不请唐僧本人来演呢，他不是长生不老吗？

星火还是非常机械地来了一段名词解释 + 不懂装懂。

这么看来，我怎么感觉星火在新问题上，就表现得像个正常的大语言模型的水平了，似乎有专门训练过一些题目。

不过，抛开疑似训练过的问题，单从结果上看，第一项的弱智吧逻辑题，星火表现还算可以，能给到三星。

咱们测试继续。接下来，我准备试一下大模型的另一类难题——数学测验。

上来我还是先问了些测试题常客，连着问了三道，星火依旧表现出色，全部答对。

尤其是经典的鸡兔同笼问题，不管怎么变参数和问法，星火都能答对。

但是，测试到后面，我又发现了问题。

一些经典的测试题，当我替换掉参数之后，比如把青蛙跳井问题的 10 米，替换成了 100 米。

星火给我的答案，却依旧还是 10 米的计算过程。

实际上，星火并不是解不来题目。当我反问它：青蛙掉进的是 100 米的井，它能立刻给我 100 米的正确计算过程。。

为什么用问题模板问的时候，它似乎没有转过弯来呢？

除开这一点，星火在计算方面的表现，确实让人比较惊艳的。第二项测验，我觉得可以给一个四星半的高分。

前面试了两个大模型的弱项，为了不欺负人，咱们来点大语言模型擅长的文本内容。

而且，我特地找了一道有中文特色的文本题，把四大名著糅合了一下。

提问：假如孙悟空生活在红楼梦大观园里，会发生什么故事？

一开始，星火给了我五个方向，单从这 5 个方向来说，虽然没啥事实错误，但有些不太符合人设。

比如第三个方向，说孙悟空要保护贾母不受欺负，这就不符合贾母的设定了。

后面，我要求星火扩写一下方向，它的表现也比较中规中矩。

让星火挑选了第 5 个方向扩写，虽然生成结果符合题目的要求，但是通篇顺下来，文字比较干涩，情节更是口水和模板化，有点小学生写作文的感觉。。

文本方面的表现，说实话最多只能给到两星，拿个保底分。

三项测验下来，成绩都还算不错，看看这场试验的最后一题——代码能力，星火能不能继续稳住。

但是，有些遗憾的是，即便是最简单代码，星火居然没法写出来。

我要求做一个页面，页面中间有一个按钮。当在鼠标移动到按钮上面时，按钮会放大一倍。

但是，星火做出来的按钮，别说放大一倍，甚至连放大效果都没有。

讯飞AI大模型“领跑国内”？做数学题堪比GPT-4！

它只是暴力地把长度和宽度，设置为了 50 像素。

跟前面几项测试比起来，代码能力属实是拉了。

讯飞AI大模型“领跑国内”？做数学题堪比GPT-4！

但总的来说，四轮测试下来，除了代码水平实在有点垃圾，其他三项，都能够拿到 2 星及以上的成绩。特别是做数学题，给我一种过于强大，可以和 GPT-4 掰掰手腕的感觉。

如果星火早几个月发布，肯定能够惊艳到我们。

但大模型的进化速度一向不能以常理来考虑，所以越晚发布，大家对大模型的期待也就越高。

后来者不真拿两把刷子出来，没点革命性的变化，很难掀起大水花了。

而且，这条路后发者们能不能赶上趟还真不好说。

就像李彦宏说过观点：不要重复造轮子，AI 的十倍机会指不定在哪儿呢。

责任编辑：上方文Q

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#科大讯飞 #人工智能 #模型 #星火认知大模型

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波