位置: IT常识 - 正文

OpenAI GPT-3模型详解(gpt3 模型大小)

编辑:rootadmin
OpenAI GPT-3模型详解 OpenAI GPT-3模型详解

推荐整理分享OpenAI GPT-3模型详解(gpt3 模型大小),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:gpt3介绍,gpt-3开源,gpt-3开源,gpt3模型结构,gpt3模型结构,gpt3模型数据集,gpt3 模型大小,gpt3 模型大小,内容如对您有帮助,希望把文章链接给更多的朋友!

针对文本生成和代码生成这两大类场景,OpenAPI分别提供了GPT-3和Codex模型,

模型描述GPT-3一组能够理解和生成自然语言的模型Codex一组可以理解和生成代码的模型,包括将自然语言转换为代码

本文将为大家详细介绍这两个模型。

文章目录模型概述GPT-3DavinciCurieBabbageAdaCodexAPI调用Python库Node.js库参数说明总结模型概述GPT-3

GPT-3模型可以理解并生成自然语言。OpenAI根据任务场景和功能强度提供了四种可选子模型。其中Davinci g功能最强大,而Ada 响应速度最快。

模型名称描述最大tokens训练数据text-davinci-003最强大的GPT-3模型。具有更高的输出质量、更长的输出内容和更好的语言理解能力。还支持文本插入功能。4,000 tokens截至2021年6月text-curie-001功能强大,但比Davinci速度更快,价格也更便宜。2,048 tokens截至2019年10月text-babbage-001能够完成简单任务,速度快,成本低。2,048 tokens截至2019年10月text-ada-001能够完成非常简单的任务,通常是GPT-3系列中速度最快的,成本最低的。2,048 tokens截至2019年10月

尽管通常来讲Davinci最强大,但其他型号的模型在某些特定场景和任务下,具有明显的速度或成本优势。例如,Curie可以执行许多与Davinci相同的任务,但速度更快,成本仅为Davinci的1/10。

建议在实验时使用Davinci,因为它产生的结果最好。一旦实验完成,建议尝试一下其他模型的效果,看看是否能以更低的延迟或成本获得同样或近似的效果。同时还可以通过在特定任务上对其他模型进行微调来提高它们的性能。

Davinci

Davinci是GPT-3系列中最强大的模型,可以在很少指引的情况下完成其他模型能完成的任何任务。对于需要大量理解内容的应用,如针对特定受众的摘要生成和创造性内容生成,Davinci的产生效果最佳好。当然,这些优势需要更多的计算资源,因此Davinci每次API调用的成本更高,而且速度也不如其他模型。

Davinci的另一个亮点是理解文本的意图。Davinci非常擅长解决各种逻辑问题,并解释其中角色的动机。Davinci已经能够解决一些涉及因果关系的最具挑战性的人工智能问题。

擅长领域:复杂意图理解、因果关系发现及理解、针对性摘要总结

Curie

Curie也非常强大,同时速度也非常快。虽然Davinci在分析复杂文本时更具优势,但Curie在情感分类和总结摘要等许多细致任务上表现出色。Curie还非常擅长回答问题,因此非常适合作通用服务聊天机器人。

擅长领域:翻译、摘要、复杂分类、文本情感

Babbage

Babbage可以执行分类等简单任务。当涉及到语义搜索时,它也可以很好地对文档与搜索查询的匹配程度进行排序。

擅长领域:文本分类、语义搜索分类

Ada

Ada通常是速度最快的模型,可以执行解析文本、地址更正和粗放的分类任务。可以通过提供更多上下文来提升Ada的表现。

擅长:文本解析、简单分类、地址更正、关键字提取

OpenAI GPT-3模型详解(gpt3 模型大小)

⚠注意:高级模型都能完成低级模型能完成的任务,例如Ada能完成的工作,Curie和Davinci都能完成。

OpenAI模型是非确定性的,这意味着相同的输入可以产生不同的输出。将temperature 设置为0将使输出大部分具有确定性,但仍可能存在少量可变性。

Codex

Codex模型是GPT-3模型的派生模型,可以理解和生成代码。训练数据包含自然语言和来自GitHub的数十亿行公共代码。

Codex最擅长Python,并精通十几种语言,包括JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、SQL,甚至Shell。

Open AI目前提供2种子模型:

模型名称描述最大请求训练数据code-davinci-002最强大的Codex模型。特别擅长将自然语言转译成代码。除了完成代码外,还支持在代码补全。8,000 tokens截至2021年6月code-cushman-001几乎与Davinci Codex一样强大,但速度稍快。这种速度优势可使其更适合于实时应用。2,048 tokens

Codex目前尚处在公测阶段。公测期间免费调用,但是速度会受限制。推荐直接用最强的code-davinci-002。

API调用

OpenAI API调用非常简单,官方提供Python和Node.js库。

Python库

Python库可以通过下面命令安装:

$ pip install openai

安装后即可在代码中通过导入openai库来调用各功能接口

import openaiopenai.api_key = "YOUR_API_KEY"response = openai.Completion.create( model="text-davinci-003", prompt="Hello", temperature=0, max_tokens=16)

这里需要注意的是:调用接口需要先绑定OpenAI API Key。该API Key可以在OpenAI后台申请,点击右上角头像,在弹出菜单中点击”View API keys“。在API Keys管理界面可以创建或删除API Keys。

Node.js库

Node.js库的安装和使用步骤与Python库类似,在项目中运行

$ npm install openai

即可向项目中安装并添加openai库。安装完成后,即可在代码中调用

const { Configuration, OpenAIApi } = require("openai");const configuration = new Configuration({ apiKey: 'YOUR_API_KEY',});const openai = new OpenAIApi(configuration);const response = await openai.createCompletion({ model: "text-davinci-003", prompt: "Hello", temperature: 0, max_tokens: 16,});

社区提供了其他所有主流编程语言的库,大家可以根据自己使用的语言,在这里查找。

参数说明

用API的一大好处是,API提供了众多参数,可以让我们控制输出效果。下面是GPT-3和Codex模型支持的参数:

参数名类型默认值说明modelstring模型名称(详见模型综述)promptstring输入的提示suffixstringnull文本生成后在文末插入的后缀max_tokensint16文本生成时要生成的最大token数。提示的token数加上max_tokens不能超过模型的上下文长度。大多数模型的上下文长度为2048个token(最新模型支持4096 tokens)temperaturefloat1采样温度。值越高意味着模型承担的风险越大。对于需要创意的场景,可以尝试0.9,对于答案明确的场景,建议用0(argmax采样)建议不要与top_p同时改变。详见《ChatGPT模型采样算法详解》top_pfloat1核采样(温度采样的另一种方式),其中模型考虑具有top_p概率质量的token的结果。因此,0.1意味着只考虑包含最高10%概率质量的token建议不要与temperature同时改变。详见《ChatGPT模型采样算法详解》nint1每个提示要生成多少个答案streambooleanfalse是否返回流传输进度。如果设置,token将在可用时以纯数据服务器端推送事件发送,流以data:[DONE]消息终止。logprobsintnul如果传值(最大值5)则表示包括logprobs个最可能的token以及所选令牌的对数概率。例如,如果logprobs为5,则API将返回包含5个最可能Token的列表。echobooleanfalse是否回传提示stopstringnull最多4个序列,遇到stopAPI将停止生成。返回的文本不包含停止序列。presence_penaltyfloat0数值介于-2.0和2.0之间。正值将根据到目前为止新token是否出现在文本中来惩罚新token,从而增加模型谈论新主题的可能性。详见 《ChatGPT模型中的惩罚机制》frequency_penaltyfloat0数值介于-2.0和2.0之间。正值根据文本中新token已经出现的频率惩罚新token,从而降低模型逐字重复同一行的可能性。详见 《ChatGPT模型中的惩罚机制》best_ofint1在服务端生成best_of个完成,并返回“最佳”(每个token的log概率最高的一条)。结果无法流式传输。与n一起使用时,best_of控制候选回应的数量,n指定要返回的数量–best_of必须大于等于n。⚠注意:由于此参数生成许多回应,因此会快速消耗token配额。小心使用并确保对max_tokens和stop进行了合理的设置。logit_biasmapnull修改回应种出现指定token的可能性。接受一个json对象,该对象将token(由GPT tokenizer的token ID指定)映射到-100到100之间的相关偏差值。可以用 tokenizer tool 将文本转换成token ID。在数学上,在采样之前,将偏差添加到模型生成的逻辑中。每个模型的确切效果会有所不同,但介于-1和1之间的值应该会降低或增加选择的可能性;像-100或100这样的值应该会导致相关token的禁用或必现。例如,可以传递{"50256": -100}以防止生成`<userstringnull代表终端用户的唯一标识符,OpenAI用来监控和检测滥用。

理解上述参数对文本生成任务的影响至关重要。其中最重要的一组参数是temperature、top_p、presence_penalty、frequency_penalty,详见《ChatGPT模型采样算法详解》 和 《ChatGPT模型中的惩罚机制》

总结

虽然GPT-3模型没有ChatGPT强大,但使用API有如下好处:

优点

无需注册、直接使用有参数可以控制输出比ChatGPT稳定速度比ChatGPT快一点可以整合到其他系统中

缺点

生成质量不如ChatGPT有限的上下文支持会产生费用
本文链接地址:https://www.jiuchutong.com/zhishi/300351.html 转载请保留说明!

上一篇:Pytorch深度学习实战3-5:详解计算图与自动微分机(附实例)

下一篇:【Spring Boot】SpringBoot设计了哪些可拓展的机制?(spring boot s)

  • 荣耀30s支持深色模式吗(荣耀30有深色模式吗)

    荣耀30s支持深色模式吗(荣耀30有深色模式吗)

  • 苹果耳机充电盒充不进电(苹果耳机充电盒掉了怎么找回)

    苹果耳机充电盒充不进电(苹果耳机充电盒掉了怎么找回)

  • 钉钉怎么查看被移出群(钉钉怎么查看被打回的作业)

    钉钉怎么查看被移出群(钉钉怎么查看被打回的作业)

  • 你不是收款方好友,对方添加你为好友后才能发起转账(你不是收款方好友和确认是否是对方好友有什么区别)

    你不是收款方好友,对方添加你为好友后才能发起转账(你不是收款方好友和确认是否是对方好友有什么区别)

  • 抖音怎么换自己照片拍同款(抖音怎么换自己的照片)

    抖音怎么换自己照片拍同款(抖音怎么换自己的照片)

  • oppo互传是什么意思(OPPO互传是什么功能)

    oppo互传是什么意思(OPPO互传是什么功能)

  • 华为手机微信视频没有声音是怎么回事(华为手机微信视频可以美颜吗)

    华为手机微信视频没有声音是怎么回事(华为手机微信视频可以美颜吗)

  • 华为nova5插上耳机怎么还是外放呢(华为nova5插上耳机没反应)

    华为nova5插上耳机怎么还是外放呢(华为nova5插上耳机没反应)

  • 电脑竖屏按什么键调整(电脑竖屏按什么键关闭)

    电脑竖屏按什么键调整(电脑竖屏按什么键关闭)

  • zip压缩包可以删除吗(zip压缩包能删除吗)

    zip压缩包可以删除吗(zip压缩包能删除吗)

  • 小米抖音看完整版怎么看(小米手机抖音为什么看不到完整版)

    小米抖音看完整版怎么看(小米手机抖音为什么看不到完整版)

  • vivo手机sos一键求救(vivox20手机sos一键求救)

    vivo手机sos一键求救(vivox20手机sos一键求救)

  • 手机桌面悬浮球怎么取消(手机桌面悬浮球下载)

    手机桌面悬浮球怎么取消(手机桌面悬浮球下载)

  • 华为恢复微信撤回消息(华为恢复自己微信撤回的消息)

    华为恢复微信撤回消息(华为恢复自己微信撤回的消息)

  • 滴滴紧急联系人什么时候收到短信(滴滴紧急联系人几点之后会发短信)

    滴滴紧急联系人什么时候收到短信(滴滴紧急联系人几点之后会发短信)

  • 淘宝怎么取消菜鸟驿站代收服务(淘宝怎么取消菜鸟裹裹绑定)

    淘宝怎么取消菜鸟驿站代收服务(淘宝怎么取消菜鸟裹裹绑定)

  • 苹果11怎么拍照(苹果11怎么拍照显示拍摄时间)

    苹果11怎么拍照(苹果11怎么拍照显示拍摄时间)

  • vivo手机运行内存怎么清理(vivo手机运行内存12+8是什么意思)

    vivo手机运行内存怎么清理(vivo手机运行内存12+8是什么意思)

  • 小度二维码怎么找(小度二维码怎么扫不出来)

    小度二维码怎么找(小度二维码怎么扫不出来)

  • 华为p30听筒在哪里(华为p30听筒在哪里设置)

    华为p30听筒在哪里(华为p30听筒在哪里设置)

  • 苹果8plus支持5g网络吗(苹果8plus支持5g卡吗)

    苹果8plus支持5g网络吗(苹果8plus支持5g卡吗)

  • 其他负债是流动负债还是非流动负债
  • 带薪休假会计
  • 待转销项税额是几级科目
  • 为什么征收增值税体现了量益原则
  • 户外公司招牌
  • 可供出售金融资产和长期股权投资
  • 房地产企业还有未来吗
  • 税法关于发票丢失的
  • 加油站的成品油许可证变更过后有什么风险
  • 福利费结转以后年度
  • 材料的销售成本计算公式
  • 利润表中的上期金额怎么填?
  • 税目与应纳税额的关系
  • 增值税只有销项没有进项怎么做账
  • 2021年新疆果业灰枣销售情况
  • 文化事业建设费减免政策
  • 增值税附加税什么情况交
  • 二手店铺转让手续流程
  • 新契税法还有优惠吗?
  • 怎么防止接受虚开增值税发票?
  • 企业的免税收入用于支出所形成的费用或财产
  • 买方投资公司
  • 车辆保险抵扣会计分录
  • 财产清查的会计分录
  • 设备维修费增值税
  • 固定资产更新改造支出计入什么科目
  • 退休返聘人员如何辞职
  • 销售产品取得收入4500万元
  • php socket select
  • php 操作mysql
  • 固定资产置换存货的账务处理
  • STP详解
  • yolov1网络结构图详解
  • 存货出入库的账务处理
  • 库存现金日记账的登记依据
  • 河马是站在睡觉吗
  • thinkphp assign函数
  • 会计期初余额和期末余额计算公式
  • 百度文心一言对未来商业的影响
  • 增值税专用发票抵扣期限
  • 退回发票金额是什么意思
  • 织梦系统基本参数
  • 织梦使用教程
  • 酒店行业销售费用占比
  • Centos安装ntfs-3g
  • 进出口货物收发货人报关注册登记证书
  • 加计扣除的会计要素
  • 多计提的费用可以记收入吗会计分录
  • 母公司与子公司的法律关系
  • 被选为工会代表
  • 劳务派遣公司主营业务成本是什么
  • 以前年度财务费用漏记
  • 社保金的滞纳金个人承担吗?
  • 固定资产折旧成本票据类型
  • 酒店会计的账务处理
  • 单位买另一单位的保险
  • 研发费用范围不包括
  • 账户验证费会计分录
  • 购买固定资产是应付账款还是其他应付款
  • 现金日记账怎么划线
  • 企业备用金怎么做账
  • centos6.9关闭防火墙命令
  • window10右击
  • 搜狗网络
  • windows搭建radius
  • win10声卡驱动正常但没声音怎么解决
  • 局域网win7 64位旗舰版共享打印机状态错误0x0000000a的详细图文解决方法
  • javascript的基本语句
  • unity3d跑酷游戏推荐
  • opengl纹理错误变成条纹
  • 批处理中的感叹号
  • android DefaultHttpClient设置setCookieStore
  • js的判断类型
  • javascript面向对象精要
  • android 数据库
  • 利息发票可以抵扣进项税额吗
  • 税务数据清理变态
  • 内蒙古国地税联合办税服务厅
  • 泉州国税局网站首页
  • 眉山市两会2021
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设