位置: IT常识 - 正文

阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼(阿里通义千问官网)

编辑:rootadmin
阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼 各个大模型的研究测试传送门

推荐整理分享阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼(阿里通义千问官网),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:阿里通义千问APP,阿里通义千问内测,阿里通义千问APP,阿里通义千问官网首页,阿里通义千问官网,通义千问,阿里通义千问APP,阿里通义千问APP,内容如对您有帮助,希望把文章链接给更多的朋友!

​阿里通义千问传送门:

https://tongyi.aliyun.com/chat

百度文心一言传送门:

https://yiyan.baidu.com/

ChatGPT传送门(免墙,可直接注册测试):

https://wowchat.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

引言

这几天风闻阿里的AI大模型要发布,我刷了这把老脸,成功成为了第一批吃到螃蟹的人!

测试界面长这样:

没想到的是,仅仅玩了不到一小时,我的认知就发生了改变。

在测试阿里通义千问模型之前,我觉得国内的大模型赛道在一段时间内应该是百度文心一言一枝独秀,其他公司要赶超,会有不小的压力。但现在来看,我错了。

直接说整体结论:

阿里通义千问会成为百度文心一言的强有力竞争对手。

生成式大模型的评测要比传统的NLP任务复杂一些,目前这方面依然是以人工评测GSB(Good/Same/Bad)为主。

即,选取一个基线模型,给待评测模型和基线模型输入相同的问题,人工评测两个模型的回答质量,如果待评测模型表现更好,则记为G;如果基线模型表现更好,则记为B;如果表现差不多,记为S。最后统计G:S:B的比例,来判断待评测模型是否比基线模型更优秀。

当然,也有工作用GPT-4去做评测的,这种方式虽然省力,但显然非常有偏。

为了给大家直观的体现对比结果,笔者从15个维度出发设置题目,将阿里通义千问与百度文心一言进行GSB评比,来全面考察模型的基础语言理解、复杂指令理解、基础文本生成、复杂内容生成、常识推理、数学推理、反事实推理、法律伦理意识、中国文学知识、跨语言能力和代码能力等。

设置的题目包括:

事实性问答科普文写作小红书文案写作项目计划撰写古文理解爆炒钢筋混凝土代码理解推销狂魔如何实现996?数字排序对对联数值计算推理解题跨语言能力弱智吧混战互啄一波

来,先让你们来一个“菜鸡互啄”!

百度:

阿里:

百度回避了用户的问题,阿里选择了勇往直前。

本题纯娱乐,不作为评测题目

事实性问答

阿里:

百度:

这一轮pk,我本以为百度要赢了,结果他最后补了句“而羊和西红柿则是蔬菜”。。。

科普文写作

阿里:

百度:

阿里丢失了写作风格信息,百度完胜!

小红书文案写作

阿里:

百度:

无论是内容丰富度、emoji插入还是小红书风格的把握,阿里明显更胜一筹,阿里完胜!

项目计划撰写

阿里:

百度:

双方都没有达到理想态,都没有掌握“一个季度包含3个月”的常识信息。不过从表格信息的完整度和信息的丰富度上来说,阿里更胜一筹。

来看一下GPT-4的回答(测试站链接):

妥妥的理想态。。。

古文理解

阿里:

百度:

百度完胜!

爆炒钢筋混凝土

这一题考察模型的常识能力和反事实推理能力。

阿里:

百度:

阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼(阿里通义千问官网)

你俩都很刚。。不过阿里提供的步骤更加详(劲)细(爆)。本题算打平吧。

来,又到了搬出GPT-4的时刻:

代码理解

阿里:

百度:

百度前面写的好好的,最后来了句“目标是达到0.5的准确率”是什么鬼。。这貌似不是百度第一次“死于话多”了。本题阿里胜!

推销狂魔

阿里:

百度:

说真的,我看了你俩的推销话术,我是无论如何不可能花8万块钱买你俩的课的。。。这局打平!

来看看GPT-4怎么推销:

好家伙,分期付款都给我安排上了??GPT-4这么懂行的吗?好,我买了。。。

如何实现996?

阿里:

百度:

可以,双方的AI模型都是遵纪守法的好模型,本局打平!

数字排序

阿里:

百度:

虽然你们都写对了代码,但。。。我没让你们写代码啊T_T

而且你们模拟代码的输出还都给错了,尤其百度,你这个输出结果是什么鬼。。

又到了GPT-4时刻:

GPT-4:颤抖吧,菜鸡们!

对对联

阿里:

百度:

好吧,既然你们这么默契,那建议你们在一起。。。

数值计算

阿里:

百度:

计算器:

阿里胜!

推理解题

阿里:

百度:

百度胜!

跨语言能力

阿里:

百度:

明显阿里的模型把握住了“通俗讲解”的用户诉求,而不是简单翻译。本局阿里胜!

弱智吧混战

阿里:

百度:

好了,你俩果然都打不赢我们弱智人类,认输吧,AI!

结论

通过上面15个维度的评价,我们统计了阿里相比百度的Good:Same:Bad的比例如下:

G:S:B=5:7:3

整体上阿里通义千问大模型比百度文心一言模型略强一丢,这也是文首笔者说“刷新认知”的原因。笔者本以为百度文心一言应该会远远甩开国内其他竞争对手,但目前来看,像阿里这样的强力竞争者确实不容小觑。

很早之前,笔者写过一篇文章分析过阿里做大模型的优势,今天做完这次测试后笔者更加确信了这一点——大模型的竞争是云+AI的全方位竞争,而不是一个单一的算法问题。阿里在打造M6等万亿乃至十万亿参数大模型的过程中,积累下来了深厚、先进的算力基础设施。因此,虽然阿里通义千问大模型的起步比文心一言模型要晚,但成长速度实在惊人,我觉得这很大一部分就来自于云设施这方面的技术和基础设施沉淀。

但,从上面的测评中,我们也能肉眼可见国内这两家巨头与GPT-4的差距。我们需要承认差距,然后奋力追赶。相信国产大模型与OpenAI大模型同台叫板的那一天不会太远!

 各个大模型的研究测试传送门

​阿里通义千问传送门:

https://tongyi.aliyun.com/chat

百度文心一言传送门:

https://yiyan.baidu.com/

ChatGPT传送门(免墙,可直接注册测试):

https://wowchat.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

本文链接地址:https://www.jiuchutong.com/zhishi/298979.html 转载请保留说明!

上一篇:首个ChatGPT开发的应用上线;ChatMind思维导图工具;中文提示词大全;Copilot平替 | ShowMeAI日报

下一篇:Redis源码---整体架构(redis zset源码)

  • 如何设置ppt中动画出现的先后顺序(如何设置ppt中动画的顺序)

    如何设置ppt中动画出现的先后顺序(如何设置ppt中动画的顺序)

  • wps序号怎么自动填充排序(wps序号怎么自动递增不了)

    wps序号怎么自动填充排序(wps序号怎么自动递增不了)

  • 京东自营过了7天还能退货吗(京东自营过了7天不能退货怎么办)

    京东自营过了7天还能退货吗(京东自营过了7天不能退货怎么办)

  • 微信动态背景图怎么弄全屏(微信动态背景图视频)

    微信动态背景图怎么弄全屏(微信动态背景图视频)

  • 爱奇艺里的骑士卡有什么用(嗯爱奇艺的)

    爱奇艺里的骑士卡有什么用(嗯爱奇艺的)

  • 微信转账需要对方收吗(微信转账需要对方收款吗)

    微信转账需要对方收吗(微信转账需要对方收款吗)

  • 惠普墨盒怎么取出来(惠普墨盒怎么取芯片)

    惠普墨盒怎么取出来(惠普墨盒怎么取芯片)

  • 拼多多注销账号后还是新用户吗(拼多多注销账号后订单还在吗)

    拼多多注销账号后还是新用户吗(拼多多注销账号后订单还在吗)

  • 三星s10+微信要打开才能收到新消息(三星s20 微信)

    三星s10+微信要打开才能收到新消息(三星s20 微信)

  • 电脑网络被禁用了怎么打开(电脑无法连接wifi网络是怎么回事)

    电脑网络被禁用了怎么打开(电脑无法连接wifi网络是怎么回事)

  • 快手粉丝团一共多少级(快手粉丝团一共有几级)

    快手粉丝团一共多少级(快手粉丝团一共有几级)

  • 腾讯大王卡抖音免流吗(腾讯大王卡抖音是不是免流量的)

    腾讯大王卡抖音免流吗(腾讯大王卡抖音是不是免流量的)

  • iphone合约机是什么意思(苹果合约机是什么意思?是正规的苹果手机吗?-zol问答)

    iphone合约机是什么意思(苹果合约机是什么意思?是正规的苹果手机吗?-zol问答)

  • iphone公开版是什么意思(公开版iphone是什么意思)

    iphone公开版是什么意思(公开版iphone是什么意思)

  • 华为p30pro的特殊功能(华为p30pro特殊颜色)

    华为p30pro的特殊功能(华为p30pro特殊颜色)

  • 华为nova耳机设置教程(华为nova耳机设置在哪开启)

    华为nova耳机设置教程(华为nova耳机设置在哪开启)

  • 滴滴怎么设置接单多(滴滴怎么设置接单距离)

    滴滴怎么设置接单多(滴滴怎么设置接单距离)

  • 小米音箱可以不插电吗(小米音箱可以不插电使用吗)

    小米音箱可以不插电吗(小米音箱可以不插电使用吗)

  • 手机被黑了怎么办(手机被黑了怎么查对方)

    手机被黑了怎么办(手机被黑了怎么查对方)

  • 淘宝怎么做数据化运营(淘宝怎么做数据分析)

    淘宝怎么做数据化运营(淘宝怎么做数据分析)

  • 苹果x卡通人物在哪里(iphone 卡通人物)

    苹果x卡通人物在哪里(iphone 卡通人物)

  • 快手时光机怎么找不到(快手有时光机这个功能吗)

    快手时光机怎么找不到(快手有时光机这个功能吗)

  • 电脑的aero开启教程(电脑启用aero)

    电脑的aero开启教程(电脑启用aero)

  • so-vits-svc3.0 中文详细安装、训练、推理使用教程(sovies)

    so-vits-svc3.0 中文详细安装、训练、推理使用教程(sovies)

  • 广州二手房交易契税
  • 小规模纳税人月收入多少免征增值税
  • 计提的增值税
  • 增值税退税如何做账
  • 国有股权无偿划转协议
  • 异地预缴税款不交可以吗
  • 应付账款暂估款的会计分录
  • 咨询公司小规模纳税人怎么界定
  • 增值税税率调整为9%
  • 员工预支工资账务处理
  • 广告公司如何开发快消客户
  • 微商怎么收税
  • 行政事业单位房产税免征文件
  • 收到发票未付款可以抵扣吗
  • 销售货物没有开票如何处理
  • 个税返还奖励财务人员申报个税
  • 设备安装增值税适用税率
  • 小规模的企业
  • 无产权的建筑出售怎么办
  • 租金小规模开票税率
  • 联营扣点怎么核算保本费用
  • 增值税计算方法有哪些
  • 破产清算重整和解
  • 一般纳税人收到专票怎么做分录
  • 关于防暑降温福利国家有哪些政策规定?
  • 大巴车票抵扣税率
  • 库存现金的收支账务处理
  • 修改插入点闪烁光标的宽度
  • win7系统不可用怎么办
  • pull-hi
  • 购买土地前期费用怎么入账
  • PHP:Memcached::getMultiByKey()的用法_Memcached类
  • 增值税专用发票怎么开
  • 没收逾期未收回的包装物押金
  • 房屋租金应缴纳多少
  • 投资收益结转到哪个科目
  • 工费经费的计税依据要扣除含税部分吗
  • 前端上传文件夹怎么操作
  • 获取谷歌浏览器cookie
  • vue中的组件
  • 微信支付php代码
  • 企业微信支付年限怎么看
  • 处置抵债资产的账务处理
  • 充话费如何开公司发票
  • php中定义常量的函数是什么
  • mysql数据库死锁产生的原因及解决方案
  • 农副产品免税了还需要缴纳个人所得税吗
  • 印花税怎么计算公式
  • 合并资产负债表图片
  • sql行列转换结果保存为新表
  • sql函数判断一个值是否是数字
  • 土地使用权被政府收回要交个税吗
  • 路桥费税率是几个点
  • 收购少数股东权益是利好吗
  • 投资性房地产出租收入计入什么科目
  • 其他应付款货方余额表示什么
  • 因员工过失造成的工伤用不用赔
  • 转出未交增值税借方余额怎么处理
  • 公司租赁办公场所,没发票怎么办
  • 借款利息应计入
  • 公司购买银行理财产品收益交什么税
  • 新成立的公司开什么银行账户
  • 培训费开票属于劳务费吗
  • 信用代码证过期了6年怎么办理
  • 企业和职工之间的财务关系属于
  • mysql查询条件不区分大小写
  • mysql改造
  • windows录音机录音文件格式
  • MS DTC 事务管理器无法启动的解决方案
  • 微软宣布将AI引入Office套件
  • windows+ctrl+m
  • linux配置ip地址文件
  • win10鼠标怎么换
  • node.js的express
  • JavaScript驾驭网页-CSS与DOM
  • JavaScript中setAttribute用法介绍
  • 占位符设置
  • 广东电子税务局手机版
  • 上海交电费户号8位数
  • 个税完税证明在电子税务局哪里打印
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设