位置: IT常识 - 正文

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

编辑:rootadmin
tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异  一、tokenizer.encode和tokenizer.tokeninze

推荐整理分享tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

tokenizer.tokenize :先分词,再转成id,直接输出tensor

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

tokenizer.encode :直接输出id,需要转换为tensor

sentence = "Hello, my son is cuting."input_ids_method1 = torch.tensor(tokenizer.encode(sentence,add_special_tokens=True)) # tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012, 102])input_token2 = tokenizer.tokenize(sentence)# ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)# tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])# 并没有开头和结尾的标记:[cls]、[sep]二、tokenizer.encode和tokenizer.encode_plus的区别

普通编码 tokenizer.encode()、增强编码 tokenizer.encode_plus()

tokenizer.encode_plus() 的编码方式比tokenizer.encode()在文本分类上的编码方式要好,在中文分类数据集上会有1个点左右的差别

1、tokenizer.encode仅返回input_ids

2、 tokenizer.encode_plus返回所有的编码信息,具体如下:

’input_ids:是单词在词典中的编码‘token_type_ids’:区分两个句子的编码(上句全为0,下句全为1)‘attention_mask’:指定对哪些词进行self-Attention操作# 编码错配! encode_plus 的编码方式比encode在文本分类上的编码方式要好import torch from transformers import BertTokenizermodel_name =" bert-base-uncase"tokenizer = BertTokenizener.from_pretrained(model_name)sentence= "hello,myson"-----------------------print(tokenizer.encode(sentence))[101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]当tokenizer.encode函数中的add_special_tokens设置为False时,同样不会出现开头和结尾标记:[cls], [sep]-----------------------print(tokenizer.encode_plus(sentence)){'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
本文链接地址:https://www.jiuchutong.com/zhishi/300685.html 转载请保留说明!

上一篇:【创作赢红包】项目信息分析表

下一篇:【Vue 快速入门系列】Vue数据实现本地存储、自定义事件绑定、全局事件总线、$nextTick的使用(vue快速入门与实战开发)

  • 全额抵扣的发票怎么申报增值税
  • 一般纳税人转小规模最新政策2022
  • 如何在金蝶算季度利润表发生额
  • 视同销售但未收到钱怎么做账
  • 增值税进项税额计算公式
  • 单位搬迁员工怎么办
  • 怎么看医疗报销单
  • 材料成本差异结转借贷方向
  • 金融负债
  • 废物处置费如何做分录?
  • 多计提的销售费用冲销
  • 长期待摊费用新规定
  • 个人投资借款长期不还要缴纳个人所得税吗?
  • 年终奖金怎么发放
  • 增值税发票收款人复核人空白可以吗
  • 二手房房产税税率
  • 公司与银行签订的远期合约汇率是什么
  • 研发支出与开发成本的区别
  • 电话充值卡如何变现
  • 装修改造空调尾板多少钱
  • 消费税如何避税计算
  • 增值税谁来付
  • 收到融资租赁利息专票进项税额要转出吗
  • 房地产企业收到的首付款要交税吗
  • 华为手机屏幕旋转设置
  • 合同资产和合同负债属于什么科目
  • mac 10.11系统
  • 试乘试驾车好不好
  • 客户申请退款商家拒绝退货退款会有什么效果
  • vite首次打开界面加载慢问题/解决
  • Javascript Object和Map之间的转换
  • php内核剖析
  • 退回的企业所得税怎么做账
  • 旅游企业税务筹划
  • php上传图片到数据库完整代码
  • 利息收入如何会计分录
  • 快递行业一般纳税人税率是多少
  • 微软和梅赛德斯奔驰宣布合作
  • 收到待报解预算收入怎么做分录
  • 律师事务所要交残保金吗
  • 航天税盘服务费全额抵扣报税流程
  • 员工为公司垫付的钱会计分录
  • 开发日志模板
  • 盈余公积企业所得税税率
  • sqlserver编程
  • 现金账怎么登记
  • 其它应付款的审计内容
  • 赔偿给客户的产品交增值税吗
  • 固定资产属于净资产指的是什么
  • 出差在火车上算上班吗
  • 应交税费应交增值税进项税额在借方
  • 服务行业收入会增加吗
  • 用于研发购买的材料进项税额
  • 加班餐费报销计入什么费用
  • 购进货物用于集体福利会计分录
  • 会务费可以抵扣进项税额吗
  • 冲销以前年度多计提的折旧
  • 在途物资入库怎么记账
  • 总分类账建账顺序
  • 会计入门技巧
  • sql2005生成脚本
  • xp不能安装win8
  • 503 service unavailable错误说明
  • freebsd 安装
  • ubuntu装完后重启找不到操作系统
  • centos7打开
  • 设置使用资源管理器查看文件时,显示已知文件的扩展名
  • win10系统怎么管理开机启动项
  • mac局域网控制windows
  • win7系统电脑开机黑屏
  • win10周年纪念版
  • js实现下拉框联动
  • python入门后学什么
  • node js打包exe
  • js中的类是什么
  • 诺诺开票软件怎么领用发票
  • 税务局冬季作息时间
  • 长春国税局科员工资是多少
  • 发票代码如何查真伪
  • 税务局的局长是什么级别
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设