位置: IT常识 - 正文

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

编辑:rootadmin
tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异  一、tokenizer.encode和tokenizer.tokeninze

推荐整理分享tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

tokenizer.tokenize :先分词,再转成id,直接输出tensor

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

tokenizer.encode :直接输出id,需要转换为tensor

sentence = "Hello, my son is cuting."input_ids_method1 = torch.tensor(tokenizer.encode(sentence,add_special_tokens=True)) # tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012, 102])input_token2 = tokenizer.tokenize(sentence)# ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)# tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])# 并没有开头和结尾的标记:[cls]、[sep]二、tokenizer.encode和tokenizer.encode_plus的区别

普通编码 tokenizer.encode()、增强编码 tokenizer.encode_plus()

tokenizer.encode_plus() 的编码方式比tokenizer.encode()在文本分类上的编码方式要好,在中文分类数据集上会有1个点左右的差别

1、tokenizer.encode仅返回input_ids

2、 tokenizer.encode_plus返回所有的编码信息,具体如下:

’input_ids:是单词在词典中的编码‘token_type_ids’:区分两个句子的编码(上句全为0,下句全为1)‘attention_mask’:指定对哪些词进行self-Attention操作# 编码错配! encode_plus 的编码方式比encode在文本分类上的编码方式要好import torch from transformers import BertTokenizermodel_name =" bert-base-uncase"tokenizer = BertTokenizener.from_pretrained(model_name)sentence= "hello,myson"-----------------------print(tokenizer.encode(sentence))[101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]当tokenizer.encode函数中的add_special_tokens设置为False时,同样不会出现开头和结尾标记:[cls], [sep]-----------------------print(tokenizer.encode_plus(sentence)){'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
本文链接地址:https://www.jiuchutong.com/zhishi/300685.html 转载请保留说明!

上一篇:【创作赢红包】项目信息分析表

下一篇:【Vue 快速入门系列】Vue数据实现本地存储、自定义事件绑定、全局事件总线、$nextTick的使用(vue快速入门与实战开发)

  • 公允价值变动借方是增加还是减少
  • 借方是收入还是支出 正负号
  • 优惠政策所得税计算
  • 公司三年零申报后注销
  • 代采账务处理
  • 生产事故造成怎么样赔付
  • 税控服务费能抵扣吗
  • 办理会员卡套路消费
  • 异地上班员工报销路费
  • 应付职工薪酬的账务处理
  • 银行本票通俗
  • 设备维保费税率怎么算
  • 有2处收入要交个税,自己如何去交个税
  • 卖桶装水税率
  • 增值税出口退税计算
  • 房地产停车场属于公共配套设施吗
  • 核定征收分几种
  • 工商年度报表怎么打印出来
  • 哪些工资薪酬可以进行税前扣除?
  • 支付给外单位的押金是其他应收款吗
  • 如何网签三方协议合同
  • 外贸出口换汇成本怎么计算
  • sbsetup.exe - sbsetup是什么进程 有什么用
  • 注销公司如何注销
  • 产品工人工资会扣税吗
  • 发票已到货未到会计处理
  • 出差预借差旅费属于什么科目
  • 前端项目中遇到的问题,如何解决
  • php与js交互
  • 坏账损失税务处理
  • 先预付货款,货到了怎么做账
  • python编程爱心形状
  • defaultpool
  • 微信小程序基于什么技术
  • php不执行
  • 什么是行政规费和税费
  • 分公司在外地,企业怎么交税
  • 跨年的发票可以退税吗
  • MySQL中UPDATE与DELETE语句的使用教程
  • php如何判断是移动还是pc
  • 经营性应付项目的增加为什么调减
  • 企业所得税是指利润的税吗
  • db2比较大小
  • 如何判断有无运费险
  • 办公楼出租如何交税
  • 计划成本法存货会计分录
  • 库存商品过期报废的会计分录是什么
  • 建筑企业结转成本能不能不分人材机
  • 企业职工福利费支出包括哪些内容
  • 专用发票怎么网上申领
  • 普通发票如何作废操作流程
  • 员工借支备用金属于现金流量的哪类
  • 财务费用怎么计入现金流量表
  • fedora系统怎么设置停电关机
  • ubuntu16.04命令行配置静态ip
  • linux在服务器领域的应用状况
  • windows modules installer worker
  • linux vim
  • centos怎么查看服务器配置
  • reg.exe是什么东西?
  • windowsxp的安装方法
  • winxp如何将桌面文件默认到d盘
  • win8系统怎么设置共享局域网
  • win7系统检测
  • javascript 语言精粹(修订版)
  • react service worker
  • nodejs实战教程
  • listview安卓
  • python和r语言区别
  • cocos2dx quicxk 3.3 导入Json文件布局 UI
  • Windows10下安装fastdfs
  • 安卓瀑布流
  • Python的内置字典数据类型为___
  • python迭代器iter
  • 工程咨询服务税需要每月缴纳吗
  • 广东税务查询系统
  • 进口设备如何交税
  • 山东省国税网
  • 广东省电子税务局app下载官网
  • 2019年汽车购置税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设