位置: IT常识 - 正文

阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼(阿里通义千问官网)

编辑:rootadmin
阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼 各个大模型的研究测试传送门

推荐整理分享阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼(阿里通义千问官网),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:阿里通义千问APP,阿里通义千问内测,阿里通义千问APP,阿里通义千问官网首页,阿里通义千问官网,通义千问,阿里通义千问APP,阿里通义千问APP,内容如对您有帮助,希望把文章链接给更多的朋友!

​阿里通义千问传送门:

https://tongyi.aliyun.com/chat

百度文心一言传送门:

https://yiyan.baidu.com/

ChatGPT传送门(免墙,可直接注册测试):

https://wowchat.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

引言

这几天风闻阿里的AI大模型要发布,我刷了这把老脸,成功成为了第一批吃到螃蟹的人!

测试界面长这样:

没想到的是,仅仅玩了不到一小时,我的认知就发生了改变。

在测试阿里通义千问模型之前,我觉得国内的大模型赛道在一段时间内应该是百度文心一言一枝独秀,其他公司要赶超,会有不小的压力。但现在来看,我错了。

直接说整体结论:

阿里通义千问会成为百度文心一言的强有力竞争对手。

生成式大模型的评测要比传统的NLP任务复杂一些,目前这方面依然是以人工评测GSB(Good/Same/Bad)为主。

即,选取一个基线模型,给待评测模型和基线模型输入相同的问题,人工评测两个模型的回答质量,如果待评测模型表现更好,则记为G;如果基线模型表现更好,则记为B;如果表现差不多,记为S。最后统计G:S:B的比例,来判断待评测模型是否比基线模型更优秀。

当然,也有工作用GPT-4去做评测的,这种方式虽然省力,但显然非常有偏。

为了给大家直观的体现对比结果,笔者从15个维度出发设置题目,将阿里通义千问与百度文心一言进行GSB评比,来全面考察模型的基础语言理解、复杂指令理解、基础文本生成、复杂内容生成、常识推理、数学推理、反事实推理、法律伦理意识、中国文学知识、跨语言能力和代码能力等。

设置的题目包括:

事实性问答科普文写作小红书文案写作项目计划撰写古文理解爆炒钢筋混凝土代码理解推销狂魔如何实现996?数字排序对对联数值计算推理解题跨语言能力弱智吧混战互啄一波

来,先让你们来一个“菜鸡互啄”!

百度:

阿里:

百度回避了用户的问题,阿里选择了勇往直前。

本题纯娱乐,不作为评测题目

事实性问答

阿里:

百度:

这一轮pk,我本以为百度要赢了,结果他最后补了句“而羊和西红柿则是蔬菜”。。。

科普文写作

阿里:

百度:

阿里丢失了写作风格信息,百度完胜!

小红书文案写作

阿里:

百度:

无论是内容丰富度、emoji插入还是小红书风格的把握,阿里明显更胜一筹,阿里完胜!

项目计划撰写

阿里:

百度:

双方都没有达到理想态,都没有掌握“一个季度包含3个月”的常识信息。不过从表格信息的完整度和信息的丰富度上来说,阿里更胜一筹。

来看一下GPT-4的回答(测试站链接):

妥妥的理想态。。。

古文理解

阿里:

百度:

百度完胜!

爆炒钢筋混凝土

这一题考察模型的常识能力和反事实推理能力。

阿里:

百度:

阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼(阿里通义千问官网)

你俩都很刚。。不过阿里提供的步骤更加详(劲)细(爆)。本题算打平吧。

来,又到了搬出GPT-4的时刻:

代码理解

阿里:

百度:

百度前面写的好好的,最后来了句“目标是达到0.5的准确率”是什么鬼。。这貌似不是百度第一次“死于话多”了。本题阿里胜!

推销狂魔

阿里:

百度:

说真的,我看了你俩的推销话术,我是无论如何不可能花8万块钱买你俩的课的。。。这局打平!

来看看GPT-4怎么推销:

好家伙,分期付款都给我安排上了??GPT-4这么懂行的吗?好,我买了。。。

如何实现996?

阿里:

百度:

可以,双方的AI模型都是遵纪守法的好模型,本局打平!

数字排序

阿里:

百度:

虽然你们都写对了代码,但。。。我没让你们写代码啊T_T

而且你们模拟代码的输出还都给错了,尤其百度,你这个输出结果是什么鬼。。

又到了GPT-4时刻:

GPT-4:颤抖吧,菜鸡们!

对对联

阿里:

百度:

好吧,既然你们这么默契,那建议你们在一起。。。

数值计算

阿里:

百度:

计算器:

阿里胜!

推理解题

阿里:

百度:

百度胜!

跨语言能力

阿里:

百度:

明显阿里的模型把握住了“通俗讲解”的用户诉求,而不是简单翻译。本局阿里胜!

弱智吧混战

阿里:

百度:

好了,你俩果然都打不赢我们弱智人类,认输吧,AI!

结论

通过上面15个维度的评价,我们统计了阿里相比百度的Good:Same:Bad的比例如下:

G:S:B=5:7:3

整体上阿里通义千问大模型比百度文心一言模型略强一丢,这也是文首笔者说“刷新认知”的原因。笔者本以为百度文心一言应该会远远甩开国内其他竞争对手,但目前来看,像阿里这样的强力竞争者确实不容小觑。

很早之前,笔者写过一篇文章分析过阿里做大模型的优势,今天做完这次测试后笔者更加确信了这一点——大模型的竞争是云+AI的全方位竞争,而不是一个单一的算法问题。阿里在打造M6等万亿乃至十万亿参数大模型的过程中,积累下来了深厚、先进的算力基础设施。因此,虽然阿里通义千问大模型的起步比文心一言模型要晚,但成长速度实在惊人,我觉得这很大一部分就来自于云设施这方面的技术和基础设施沉淀。

但,从上面的测评中,我们也能肉眼可见国内这两家巨头与GPT-4的差距。我们需要承认差距,然后奋力追赶。相信国产大模型与OpenAI大模型同台叫板的那一天不会太远!

 各个大模型的研究测试传送门

​阿里通义千问传送门:

https://tongyi.aliyun.com/chat

百度文心一言传送门:

https://yiyan.baidu.com/

ChatGPT传送门(免墙,可直接注册测试):

https://wowchat.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

本文链接地址:https://www.jiuchutong.com/zhishi/298979.html 转载请保留说明!

上一篇:首个ChatGPT开发的应用上线;ChatMind思维导图工具;中文提示词大全;Copilot平替 | ShowMeAI日报

下一篇:Redis源码---整体架构(redis zset源码)

  • 个人出售普通住宅应当缴纳哪些税
  • 递延所得税负债计算公式
  • 小规模不动产租赁税率5%
  • 火车票全额抵减增值税可以吗
  • 纯外贸出口企业出售固定
  • 周转材料登三栏式明细账吗
  • 个税填报后怎么撤销申报
  • 增值税纳税申报表附列资料(二)
  • 固定资产减少当月
  • 哪些固定资产不需要计提折旧
  • 投入的资金计入什么科目
  • 收到红字发票会计处理
  • 即征即退的增值税需要缴纳附加税吗
  • 租赁房产不开租房发票
  • 现金支付和个人自费
  • 中药材收购需要纳税吗
  • 辅助核算的内容
  • 电脑不支持windows 11
  • 设备加速折旧
  • 其他应付款不用付了会计分录
  • 公司车辆报废收入怎么入账
  • windows问题报告桌面一直闪
  • win11不显示桌面,但是有文件夹打开的标志是怎么回事
  • 产品试用装怎么做会计分录
  • 小黑马下载
  • 安保服务差额征税如何开票
  • 固定资产一次性扣除后第二年账务处理
  • wirecut.exe
  • beservice是什么进程
  • 委托代销商品发票是谁开给客户
  • 我国关税税则设有
  • 工会经费零申报怎么填
  • 固定资产清理主要核算什么
  • rgb to hex
  • 大学毕业后送快递
  • 手把手教你用荣耀手机
  • 什么是微前端
  • linux在查找zip里的文件
  • 其他非流动资产是会计科目吗
  • 发票作废冲红怎么做账
  • 长期待摊费用是什么科目
  • 地税代开的发票怎么计提税款?
  • python中input转换
  • java 代码简洁
  • mongodb视频教程
  • sql防御
  • 销售费用和管理费用占比多少合理
  • 盈余公积和资本溢价
  • SQL SERVER 2008 R2 重建索引的方法
  • 货物退回并补货什么意思
  • 环评费用如何进项抵扣
  • 汇算清缴里的账户是什么
  • 外贸常用的付款方式有哪些
  • 一次性医疗补助金怎么计算
  • 取得股票期权的个人所得税问题
  • 预存电费和后付费哪个好
  • 房屋租赁公司装修费会计分录
  • win7登录设置
  • 哪个是win8.1更新win10的补丁
  • Windows Server 2008如何改动服务器名称与管理员密码?
  • hyper-v是啥
  • window7发布
  • 安装linux出现grub的原因
  • Windows XP Vista 2006 简体中文版下载
  • win10 windows设置
  • javascript标准
  • Extjs4 关于Store的一些操作(加载/回调/添加)
  • javascript提交数据
  • .net 迭代器
  • javascript自动化
  • nodejs微信公众号开发
  • js与jquery的关系
  • android事件响应和处理机制
  • javascript怎么学好
  • jquery中on
  • 江苏地税个税申报时间表
  • 混合销售定义是什么意思
  • 教育培训行业的发展
  • 改革的财税制度是什么
  • 西安医疗保险官网
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设