位置: IT常识 - 正文

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

编辑:rootadmin
tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异  一、tokenizer.encode和tokenizer.tokeninze

推荐整理分享tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

tokenizer.tokenize :先分词,再转成id,直接输出tensor

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

tokenizer.encode :直接输出id,需要转换为tensor

sentence = "Hello, my son is cuting."input_ids_method1 = torch.tensor(tokenizer.encode(sentence,add_special_tokens=True)) # tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012, 102])input_token2 = tokenizer.tokenize(sentence)# ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)# tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])# 并没有开头和结尾的标记:[cls]、[sep]二、tokenizer.encode和tokenizer.encode_plus的区别

普通编码 tokenizer.encode()、增强编码 tokenizer.encode_plus()

tokenizer.encode_plus() 的编码方式比tokenizer.encode()在文本分类上的编码方式要好,在中文分类数据集上会有1个点左右的差别

1、tokenizer.encode仅返回input_ids

2、 tokenizer.encode_plus返回所有的编码信息,具体如下:

’input_ids:是单词在词典中的编码‘token_type_ids’:区分两个句子的编码(上句全为0,下句全为1)‘attention_mask’:指定对哪些词进行self-Attention操作# 编码错配! encode_plus 的编码方式比encode在文本分类上的编码方式要好import torch from transformers import BertTokenizermodel_name =" bert-base-uncase"tokenizer = BertTokenizener.from_pretrained(model_name)sentence= "hello,myson"-----------------------print(tokenizer.encode(sentence))[101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]当tokenizer.encode函数中的add_special_tokens设置为False时,同样不会出现开头和结尾标记:[cls], [sep]-----------------------print(tokenizer.encode_plus(sentence)){'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
本文链接地址:https://www.jiuchutong.com/zhishi/300685.html 转载请保留说明!

上一篇:【创作赢红包】项目信息分析表

下一篇:【Vue 快速入门系列】Vue数据实现本地存储、自定义事件绑定、全局事件总线、$nextTick的使用(vue快速入门与实战开发)

  • 放弃退税理由是什么
  • 利率 税率
  • 已交税金是什么类
  • 个人社保信息变更
  • 开民工工资专户
  • 开户以后不用要钱吗
  • 小型微利企业申请
  • 债务重组损益的计算公式
  • 将外购的货物赠送给儿童福利院,进项税
  • 动漫产业增值税优惠政策
  • 公司购买东西怎么做分录
  • 未报税会怎么样
  • 补去年的税款怎么做账
  • 花生油 增值税
  • 加盟费怎么算的
  • 汇算清缴已退税的还可以作废吗
  • 最新土地增值税实施细则
  • 外国常驻代表机构经费支出
  • 代账代税与自行核算申报应从哪几个角度考虑
  • 1697509029
  • 税负率一般控制在多少合适
  • 当月的销项税额要转入哪里
  • 工商年报中生育保险本期实际缴费金额
  • 代开的发票没有人名行不行?
  • awk命令怎么用
  • 申请开立临时存款账户
  • win7电脑开启麦克风权限设置
  • PHP:iconv_substr()的用法_iconv函数
  • 银行借款利息支出计入什么科目
  • 用交易所转付货款怎么转
  • 申报表30栏一直不填写会怎么样
  • uniapp开发常用案例
  • 训练集验证集和测试集
  • vue前端项目实战
  • 联营单位投入的资金属于资产吗
  • mysql 临键锁
  • 合作社计提工资
  • 公司注册完成以后需要做哪些事情
  • 外贸出口退税进项发票有多家供应商怎么匹配
  • 预计负债初始计量的最佳估计数的确定是会计估计变更吗
  • 减免税款的会计分录当月做吗
  • 专票没有抵扣联可以作废吗
  • 采购人员费用计入什么科目
  • 小规模纳税人申报纳税详细流程
  • 预收账款是负债增加还是减少
  • 减免城建税的会计分录
  • 股权转让对价款如何计算
  • 建筑业异地预交税款最新规定
  • 收到土地使用权计入什么科目
  • 哪些个体户要报残保金
  • 销项税额是专票和普票之和
  • 流动比率多少合理
  • mysql 高效分页
  • mysql怎么把列变成行
  • win7系统怎么运行xp系统的软件
  • 手工设置源泉设计
  • ubuntu装完后重启找不到操作系统
  • win8换win10系统步骤
  • linux设置网络ip地址
  • mblme是什么进程
  • windows 8怎么样
  • linux怎么使用
  • win10系统找不到无线网络连接
  • opengl详解
  • img引入图片
  • 跨域资源共享漏洞怎么修复
  • unity mode
  • Node.js中的http请求客户端示例(request client)
  • django documentation
  • javascript主要学什么
  • unity she
  • 安卓通用代码
  • 快速学会java
  • python flask
  • 医保可以异地交嘛
  • 怎么查询企业的联系方式
  • 湖北税票真伪查询
  • 临时税务登记有效期怎么填
  • 朝阳区第六税务所
  • 大疆小白控和普通控哪个信号好
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设