位置: IT常识 - 正文

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

编辑:rootadmin
【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)

推荐整理分享【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys),希望有所帮助,仅作参考,欢迎阅读内容。

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

文章相关热门搜索词:transformers!,transformer toys,transforms.totensor,transformer toys,transformers game download,transformer toys,transforms.totensor,transformers toys,内容如对您有帮助,希望把文章链接给更多的朋友!

tranformers中的模型在使用之前需要进行分词和编码,每个模型都会自带分词器(tokenizer),熟悉分词器的使用将会提高模型构建的效率。 string tokens ids 三者转换

string → tokens tokenize(text: str, **kwargs)tokens → string convert_tokens_to_string(tokens: List[token])tokens → ids convert_tokens_to_ids(tokens: List[token])ids → tokens convert_ids_to_tokens(ids: int or List[int], skip_special_tokens=False)string → ids encode(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, return_tensors=None) text:str, List[str], List[int]. text_pair: str, List[str], List[int] add_special_tokens: bool.是否添加特殊token([CLS]、[SEP]) max_length: int, None. padding: bool. padding取True or 'longest"时, padding至batch中最长的句子长度; padding取’max_length’时, padding至max_length; padding取False or ‘do_not_pad’ (default), 不padding. truncation: bool, str。只对输入为 sequence pair 有效。truncation取True or 'longest_first’时, token by token 的截断,哪一句长,截断哪一句的最后一个 token,相同长度就第二句。截至总token数等于 max_length; truncation取’only_first’时只截第一句,至总token数等于 max_length; truncation取’only_second’时只截第二句,至总token数等于 max_length;truncation取False or ‘do_not_truncate’ (default)。 return_tensors: str, None。‘tf’, ‘pt’ or ‘np’ 分布表示不同的tensor type.ids → string decode(token_ids: List[int], skip_special_tokens=False, clean_up_tokenization_spaces=True)encode_plus: encode_plus(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, stride=0, is_pretokenized=False, pad_to_multiple_of=None, return_tensors=None, return_token_type_ids=None, return_attention_mask=None, return_overflowing_tokens=False, return_special_tokens_mask=False, return_offsets_mapping=False, return_length=False)batch_encode_plus: 输入为 encode 输入的 batch,其它参数相同。注意,plus 是返回一个字典。batch_decode: 输入是batch.#这里以bert模型为例,使用上述提到的函数from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('bert-base-uncased')text = "It's a nice day today!"#tokenize,#仅用于分词seg_words = tokenizer.tokenize(text) print("tokenize分词结果:\n",seg_words)#convert_tokens_to_ids,将token转化成id,在分词之后。#convert_ids_to_tokens,将id转化成token,通常用于模型预测出结果,查看时使用。seg_word_id = tokenizer.convert_tokens_to_ids(seg_words) print("tokenize Id:\n",seg_word_id)#encode,进行分词和token转换,encode=tokenize+convert_tokens_to_idsencode_text = tokenizer.encode(text)print("encode结果:\n",encode_text)#encode_plus,在encode的基础之上生成input_ids、token_type_ids、attention_maskencode_plus_text = tokenizer.encode_plus(text)print("encode_plus结果:\n",encode_plus_text)#batch_encode_plus,在encode_plus的基础之上,能够批量梳理文本。batch_encode_plus_text = tokenizer.batch_encode_plus([text,text])print("batch_encode_plus结果:\n",batch_encode_plus_text)

本文链接地址:https://www.jiuchutong.com/zhishi/275914.html 转载请保留说明!

上一篇:windows11扩展卷灰色解决方法(电脑扩展卷是灰色的的怎么办)

下一篇:Windows11预览体验计划无法选择渠道怎么办(Windows11预览体验计划空白)

  • 怎么查看微信绑定的银行卡(怎么查看微信绑定的手机号)

    怎么查看微信绑定的银行卡(怎么查看微信绑定的手机号)

  • 微信怎么骑小黄车(微信怎么骑小黄车怎么开通)

    微信怎么骑小黄车(微信怎么骑小黄车怎么开通)

  • 不想接电话怎么设置空号(不想接电话怎么设置停机)

    不想接电话怎么设置空号(不想接电话怎么设置停机)

  • 美团众包单子少怎么办(最近美团众包单子少)

    美团众包单子少怎么办(最近美团众包单子少)

  • wps脚注怎么设置圈1(wps脚注怎么设置成圆圈里加数字)

    wps脚注怎么设置圈1(wps脚注怎么设置成圆圈里加数字)

  • 华为畅享10e语音助手怎么唤醒(华为畅享10e语音唤醒)

    华为畅享10e语音助手怎么唤醒(华为畅享10e语音唤醒)

  • 全景声和5.1声道有什么区别(全景声和5.1声道哪个好听)

    全景声和5.1声道有什么区别(全景声和5.1声道哪个好听)

  • 苹果11左上角返回触摸不灵(苹果11左上角返回键不好用)

    苹果11左上角返回触摸不灵(苹果11左上角返回键不好用)

  • 继电器输出和晶体管输出的区别(继电器输出和晶体管输出和晶闸管的区别)

    继电器输出和晶体管输出的区别(继电器输出和晶体管输出和晶闸管的区别)

  • 耳塞式耳机怎么戴(耳塞式耳机怎么佩戴)

    耳塞式耳机怎么戴(耳塞式耳机怎么佩戴)

  • 优酷的网址是多少(优酷 网址)

    优酷的网址是多少(优酷 网址)

  • 笔记本磁盘占用率高怎么办(笔记本磁盘占用百分百)

    笔记本磁盘占用率高怎么办(笔记本磁盘占用百分百)

  • 拼多多低价引流会被降权吗(拼多多低价引流能举报吗)

    拼多多低价引流会被降权吗(拼多多低价引流能举报吗)

  • 苹果7p电源键失灵怎么开机(苹果7p电源键失灵怎么办)

    苹果7p电源键失灵怎么开机(苹果7p电源键失灵怎么办)

  • rm文件用什么软件打开(rm的文件用什么播放器)

    rm文件用什么软件打开(rm的文件用什么播放器)

  • qq看点怎么彻底关掉(qq看点怎么彻底删除)

    qq看点怎么彻底关掉(qq看点怎么彻底删除)

  • vivo手机老是自动重启(vivo手机老是自动弹出广告)

    vivo手机老是自动重启(vivo手机老是自动弹出广告)

  • 中国移动怎么开通5g(中国移动怎么开发票)

    中国移动怎么开通5g(中国移动怎么开发票)

  • 怎么用word生成二维码(怎么用word生成页码)

    怎么用word生成二维码(怎么用word生成页码)

  • 如何把qq录音发到微信(qq录音如何发送给qq好友)

    如何把qq录音发到微信(qq录音如何发送给qq好友)

  • 苹果手机丢了怎么锁死(苹果手机丢了怎么锁定不让别人用)

    苹果手机丢了怎么锁死(苹果手机丢了怎么锁定不让别人用)

  • 荣耀3手环怎么样关机(荣耀3手环怎么恢复出厂设置)

    荣耀3手环怎么样关机(荣耀3手环怎么恢复出厂设置)

  • 手机上的照片怎么打印出来(手机上的照片怎么同步到ipad上)

    手机上的照片怎么打印出来(手机上的照片怎么同步到ipad上)

  • 苹果手机换卡打不出电话(苹果手机换卡打电话)

    苹果手机换卡打不出电话(苹果手机换卡打电话)

  • 苹果手机下载的音乐文件在哪里(苹果手机下载的app图标隐藏了怎么弄出来)

    苹果手机下载的音乐文件在哪里(苹果手机下载的app图标隐藏了怎么弄出来)

  • 优活手环怎么设置中文(优活手环怎么设置天气)

    优活手环怎么设置中文(优活手环怎么设置天气)

  • 怎么看苹果自动扣费的项目(怎么看苹果自动扣费的是什么项目)

    怎么看苹果自动扣费的项目(怎么看苹果自动扣费的是什么项目)

  • 小米运动如何判断睡眠(小米运动怎么看其他人体重)

    小米运动如何判断睡眠(小米运动怎么看其他人体重)

  • qq被永久冻结怎么办(QQ被永久冻结怎么解开)

    qq被永久冻结怎么办(QQ被永久冻结怎么解开)

  • js中几种循环的退出方式(js循环有哪些)

    js中几种循环的退出方式(js循环有哪些)

  • 取得投资款属于什么过程
  • 减免的企业所得税计入什么科目
  • 增值税出口退税计入什么科目
  • 广告费和业务宣传费的区别是什么
  • 小规模企业税务登记流程
  • 小规模纳税人做账要做增值税吗
  • 个体户超过定额怎么纳税申报
  • 电子税务局怎么添加财务负责人
  • 车间职工报销医药费能使用现金吗
  • 五险一金计提缴纳分录
  • 免税项目怎么做账
  • 预收购货单位货款
  • 怎么认证财付通
  • 开专票红冲是不是双方都要开信息表
  • 现金流量表年报期末现金余额
  • 购买材料自用不退款
  • 增值税发票本月没用完可以下月用吗
  • 免税农产品转出进项税税率
  • 汇算清缴所得税退回做账
  • 总公司业务分公司开票是虚开吗
  • 开了增值税专用发票对方不付款可以申请冻结对方公帐嘛
  • 中方人员取得的工资、薪金所得,征收个人所得税有特别规定吗?
  • 附加税费计提表
  • 普票红冲后原件没有了怎么办
  • 四种存款账户的定义
  • 企业补充流动资金具体用途
  • 公司法人名下的车辆算公司的车辆吗
  • 在windows7提供了一种什么技术
  • 电脑bios错误怎么办
  • 支付服务器年租什么意思
  • 递延所得税当期要交吗
  • PHP:mcrypt_enc_get_iv_size()的用法_Mcrypt函数
  • 代理金融业务
  • vue相关
  • php单独运行
  • 部署fabric
  • grub-install --target
  • 小微企业开通社保
  • lvs命令
  • 外贸企业上年的税收
  • 应收账款出售给银行账务处理
  • mongodb导入数据三种方式
  • sqlserver数据库锁表如何解锁
  • 购买的烟酒怎么入账
  • 企业交房租没有发票能充费用吗
  • 事业单位人员收受财物
  • 月中入职算一个月吗
  • mysql使用工具
  • 商品流通企业流程图
  • 养猪死亡
  • 费用支出要求
  • 在创业板上市公司首次公开发行股票的条件
  • 每月工资不一样怎么算误工费呢
  • 外贸出口企业如何申报增值税
  • 外部审计的构成
  • 汽车折旧年限与折旧率
  • 先收款次月发票怎么做账
  • 返还垫付征地款
  • 忘记报关可以补报吗
  • 企业对处于不同位置的产品或服务制定不同的价格
  • 微软6月24号
  • 注册表干嘛用
  • 取消windows 7的自动关机如何设置
  • debian glibc
  • mac可以远程连接windows吗
  • 随机产生10个数
  • linux编译安装php扩展命令
  • mac启动快捷键
  • 怎么设置电脑开机启动项
  • win8 怎么样
  • cocos3d-x
  • cocos roadmap
  • bat运行完后不退出
  • perl 计算
  • 批处理杀死进程
  • Node.js中的包管理工具是什么
  • js模块化和组件化
  • 三消游戏在线
  • pythone爬虫
  • jquery validator
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设