正文内容 评论(0)
大模型,它又双叒来了。今年上半年,那波大模型 1.0 狂轰滥炸之后。随着时间的推移,各家打磨的下一代大模型,最近开始慢慢问世了。
这不,前两天文心一言 4.0 才发。今天云栖大会上,通义千问 2.0 就马上跟进,还上了个 APP。
最重要的是,这次通义 2.0 直接开放给全社会体验。点进通义千问,就能直接用上最新版。
这点还是挺有诚意,有兴趣的差友们,都可以亲自上手试试了 ~ 不过,按照咱们传统,世超还是会先带大家简单感受一下,全新升级的 2.0 有啥不同。也方便大家上手时,有个大致的体验方向。
这回的通义 2.0,说是已经超过 ChatGPT 3.5,缩短了和 GPT-4 的差距。
但是,世超一上手,就觉得稍微有点失望,因为这个2.0 版依旧不支持联网。不过虽然不具备联网能力,但世超试着问了一些热梗。
比如 “ 哪李贵了 ”、“ 这是一个 lonely 的问题 ”,它居然全都能够读懂。
这些回答不靠联网,纯靠手动更新数据库。只能说,确实挺努力的。但不管更新多快,我们都没法当联网 AI 测试了。
只能从基本能力入手,分别是语义理解、逻辑、多模态能力、文本生成、代码这五个方面,稍微探探底子咋样。首先,依照国际惯例,来点喜闻乐见的弱智吧问题。
世超一来就问道,连 GPT-4 都傻眼的题目。问:这世上真的有龙,我就在某地被一条龙服务过。上回, GPT-4 就是被这两条龙给绕晕了,给我编了一堆虚构的成语来历。
结果让人有点意外,通义居然能完美应对。能完全理解两个龙的区别是啥,也能明白 “ 一条龙 ” 服务是啥意思。开局第一问,通义这小子应对的还不错。
不过,为了防止通义会不会有备而来,偷偷训练了,世超又去弱智吧上了点新货。
问:为什么抄袭永远都是今人抄袭古人,没有古人抄袭今人。
这回通义就有点应付不来了。它结论是对的,因为时间顺序,古人当然不能抄今人。
但是,仔细看就会发现,后面还是说错了一句。它说,这并不是说古人就不会借鉴今人。估计通义本来是想正反面论证,显得更客观,结果就是反而暴露了逻辑马脚。
其实世超试过这么多中文语义题,没有哪个大模型是都能做对的。你多问几题,换换角度,总是会做错几道。比如问:小偷偷偷偷东西,什么意思?
通义语义解释为小偷偷取东西,是没啥问题的。但是前半句又说句子里有 3 个偷,说这是中文绕口令,就有些问题了。
不过,从结果来看,三道题算是对了 2.5 道,通义的中文语义理解算是不错的。
好了,让咱们测试继续。下题还是从中文下手,问点中文语境下比较难的文本生成题。以前每次都测写小作文或者故事,这次整点花活。
让它用诸葛亮的语气,写首 rap 听听。这一题,通义答得就有点意思了。Rap 词里又是孔明,又是卧龙;又是静坐军帐、轻抚瑶琴,又是小试牛刀的。既符合诸葛亮的人物属性,又语言活泼。唯一美中不足就是没押上韵。
不过,世超进一步考验它的发散思维,又有点表现不行了。
让它给我编个马斯克和孔子的对话。然后,就看到孔子嘴里说出了 “ 人工智能 ” 四个字。。其他语句,也不太符合人物性格。
从前面两轮测试看下来,通义 2.0 的中文水平是能听能写,但还没有到能自如应对。发挥不太稳,有时能对,有时又会犯傻。
其实大模型都有这样的毛病,咱们到底能不能把它应用起来,靠的是另一个东西——学习能力。
就比如让大模型直接做一个直播策划,往往出来的内容都是不够成熟的。这个时候,就看它们会不会学了。当你甩一些参考案例给它,它们能够理解教程的意思,并模仿出来,这才是最重要的。
这点,世超觉得通义做的是不错的,大家直接看案例就行。世超让它做个电动牙刷的直播流程。并提前丢了一个蜜雪冰城的参考,引导了一下。
立马就学会了,并甩了一份非常详细的直播流程。开场、留客、锁客学的一套一套的。。中文理解、学习和文本生成都相当在线。
到这一步,中文能力测试算暂时告一段落了。下面看看大模型的究极弱项——数学逻辑题和代码,是否有提高。
当年考倒过无数大模型的 “ 鸡兔同笼 ” 、 “ 青蛙跳井 ” 等等简单的数学题,通义应对起来是没问题了。就算稍微给题目变一下形,也是分步解答,轻松驾驭。
但也是跟很多大模型一样的毛病,题目一旦难起来,到个初高中水平,就傻眼了。问它:任取三个长度小于 1 的线段,能组成一个三角形的概率为?
它和我说, 0 个交点组不成三角形, 1 个和 3 个交点组得成。。。我去,这么简单的解题思路,我怎么没想到呢?
以前有差友问说,大模型能不能用来改试卷。如果是数学老师,那世超建议还是三思。。通义确实是进步了,不过只进步到了小升初水平。数学题这种严格推理的题目,对大模型来说还是一块最难啃的骨头。
不过,在代码方面,世超倒是没有把通义问倒,它应答自如。甩了一堆要求,让它做一个非常简洁的差评双十一大促页面。
人家三下五除二就做完了,效果还是非常符合差评的审美的,需要预留的位置也都做了。虽然可能为了严格执行我对于页面简洁的要求,所以导致看起来有点过于明了了。
测试到这里,还没有结束。除了基础能力的提高之外,通义还增加了图片和文档解析两个新功能。其实像图片上传功能,是很多家的重点攻克对象, GPT-4 后续也主要是在这一块发力了。
不过,世超试下来,通义目前的图片解析能力,还是有点弱的。基础图片识别,是没啥问题的。比如丢个马斯克给他,问它这哪位。它能一眼认出,还顺道给你科普上两句。
但是,如果加点抽象互联网难度,比如说世超给了一张自己桌子上的玩偶,让它给我分析分析。
它虽然能认出了这是 “ 小鸡 ”,还有打篮球这两个元素。但不太理解图片里的梗,还坚持不懈地胡诌了一段 “ 灌篮小鸡 ” 梗的来历。。
我们的伍佰老师,更是轻而易举地把通义耍得团团转。给了一张 “ 随 520 ” 的梗图,里面是一张伍佰老师的靓照和一张 20 元人民币。
结果,通义不光读不懂什么梗,连图片里有多少钱也数不明白了。
图片识别能力更被彻底地干垮了,指着伍佰说,这是吴彦祖。。。
不仅图片上传还差点意思,后面世超试了试文档功能,也轻松把通义考倒了。世超甩了一篇电动牙刷的行业报告给它,问了句电动牙刷行业的发展痛点是啥。通义嘎嘎一顿总结,各种分点罗列,系统分析。看起来答的很努力,实际答案全错了。
原因很简单,这里世超特地挖了个坑,预防大模型会胡说八道。
所以,给的文档里只有目录,没有内容。通义这些分析是不错,可惜全是胡编的,跟我的参考资料没半点关系。。
几轮测试结束,通义同学的成绩是一目了然了。
虽然整体来没有特别亮眼的强悍更新,但也算稳扎稳打,基本能力提高得更扎实,学习能力也一直在线。但其中,图片和文档俩能力,还有挺大的提升空间的。
其实,比起通义千问,世超觉得自己闲逛时发现的产品,更有意思。阿里通义官网里,还有七大产品方向,比如代码助手、客服等等。虽然大部分还是内测,都试用不了。不过,世超了一下开放的通义智文,文档体验比通义千问要好不少。
这个产品是专门用来解读文档的,你不仅可以丢长篇的电子书,也可以甩各种文章链接给它。
世超试着把前面挖坑的行业目录,输入进去。通义智文就没有中招。不仅明确指出里面没提到,回答还标注出,数据来源于文章里的那几句。这点设计的就挺好,避免了胡言乱语。
比起通义千问本身,世超反而更期待这些专项训练的应用大模型。大部分工种,只用得到通识大模型一两个功能。像世超这种码字的,需要的就是文本分析和生成。
更针对性的训练,其实更有助于提高大模型的实用性。不仅是从能力方面考虑,其实现在挺多大模型都到了一个平台期,很难有极大的突破。从这些小点入手,或许会成为一个更好的解题思路。