位置: IT常识 - 正文

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

编辑:rootadmin
tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异  一、tokenizer.encode和tokenizer.tokeninze

推荐整理分享tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

tokenizer.tokenize :先分词,再转成id,直接输出tensor

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

tokenizer.encode :直接输出id,需要转换为tensor

sentence = "Hello, my son is cuting."input_ids_method1 = torch.tensor(tokenizer.encode(sentence,add_special_tokens=True)) # tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012, 102])input_token2 = tokenizer.tokenize(sentence)# ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)# tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])# 并没有开头和结尾的标记:[cls]、[sep]二、tokenizer.encode和tokenizer.encode_plus的区别

普通编码 tokenizer.encode()、增强编码 tokenizer.encode_plus()

tokenizer.encode_plus() 的编码方式比tokenizer.encode()在文本分类上的编码方式要好,在中文分类数据集上会有1个点左右的差别

1、tokenizer.encode仅返回input_ids

2、 tokenizer.encode_plus返回所有的编码信息,具体如下:

’input_ids:是单词在词典中的编码‘token_type_ids’:区分两个句子的编码(上句全为0,下句全为1)‘attention_mask’:指定对哪些词进行self-Attention操作# 编码错配! encode_plus 的编码方式比encode在文本分类上的编码方式要好import torch from transformers import BertTokenizermodel_name =" bert-base-uncase"tokenizer = BertTokenizener.from_pretrained(model_name)sentence= "hello,myson"-----------------------print(tokenizer.encode(sentence))[101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]当tokenizer.encode函数中的add_special_tokens设置为False时,同样不会出现开头和结尾标记:[cls], [sep]-----------------------print(tokenizer.encode_plus(sentence)){'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
本文链接地址:https://www.jiuchutong.com/zhishi/300685.html 转载请保留说明!

上一篇:【创作赢红包】项目信息分析表

下一篇:【Vue 快速入门系列】Vue数据实现本地存储、自定义事件绑定、全局事件总线、$nextTick的使用(vue快速入门与实战开发)

  • 赞助支出和广告支出的区别
  • 个体工商户开普票流程
  • 外贸企业出口货物
  • 终止销售关系怎么处理
  • 出口退税申报无电子信息
  • 施工单位购买材料与设计不符
  • 项目现金流量的构成
  • 企业所得税费用税率
  • 教育费附加减免政策
  • 工会经费购买发的东西要算个税吗?
  • 分公司税务是独立核算还是非独立
  • 预缴企业所得税税率
  • 个体户需要缴纳残疾人保障金吗
  • 城市建设维护税是什么意思
  • 职工报销差旅费会计科目
  • 购物发票的税是由谁承担
  • 销售废旧物资账务处理
  • 河北省东光县是哪个城市
  • 发票税额小数点后面没打印上能用吗
  • 序列号不可用怎么办
  • 代收房租费
  • 小规模纳税人如何转一般纳税人
  • 安置残疾人员加计扣除
  • 生产企业销售给其他单位的生产工具
  • 周转材料属于什么会计分录
  • 固定资产未开发票怎么入账
  • 财务费用冲销怎样做分录
  • 对公账户是否有银行卡号
  • 广告公司收到广告发票如何入账
  • ppap是什么意思中文
  • 增值税专用发票的税率是多少啊
  • 商品流通企业会计科目表
  • 短期借款利息计算
  • php编程基础与案例开发
  • 没报关的货物还需要开发票嘛
  • 支付宝小程序跳回app
  • 怎么安装vue2.0
  • npm无法将npm项识别为
  • ninja命令使用
  • 发行债券支付的费用要减吗
  • 销项税太多
  • 房地产转让条例最新
  • 什么不计入税金及附加
  • vue动态修改scss变量
  • 预收账款可以通过什么科目核算
  • 个人所得缴税租金怎么算
  • 不入库存商品直接走成本会怎样
  • MySQL中使用FREDATED引擎实现跨数据库服务器、跨实例访问
  • 房产公司结转成本的会计分录
  • 公司从异地迁移到本地怎么向当地政府写申请
  • 出口退税分类管理三类企业
  • 成本核算的会计账户
  • 房地产储备土地排名
  • 年金现值和年金终值的例题
  • 在建工程预付款授信
  • 金税盘技术维护费可以抵扣吗
  • 关联交易定价方法包括
  • 阿里云 mybase
  • win8 无线网络连不上
  • centos lftp
  • 如何用u盘装系统盘
  • linux ./ 命令
  • windows怎么右键
  • win10预览版绿屏重启解决
  • three.js菜鸟教程
  • excel文档权限设置
  • android 界面滑动
  • firefox document
  • 用css制作网页的步骤
  • unity2019texture
  • ajax成功不走success
  • unityshader
  • python中zip函数的用法
  • 怎样编?
  • js全局变量怎么定义
  • 下拉列表框模糊匹配
  • jquery限制字符长度
  • 污水处理费收入
  • 在进口环节海关代征的税种有
  • 诺诺网电子发票下载到手机
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设