位置: IT常识 - 正文

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

编辑:rootadmin
tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异  一、tokenizer.encode和tokenizer.tokeninze

推荐整理分享tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

tokenizer.tokenize :先分词,再转成id,直接输出tensor

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

tokenizer.encode :直接输出id,需要转换为tensor

sentence = "Hello, my son is cuting."input_ids_method1 = torch.tensor(tokenizer.encode(sentence,add_special_tokens=True)) # tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012, 102])input_token2 = tokenizer.tokenize(sentence)# ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)# tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])# 并没有开头和结尾的标记:[cls]、[sep]二、tokenizer.encode和tokenizer.encode_plus的区别

普通编码 tokenizer.encode()、增强编码 tokenizer.encode_plus()

tokenizer.encode_plus() 的编码方式比tokenizer.encode()在文本分类上的编码方式要好,在中文分类数据集上会有1个点左右的差别

1、tokenizer.encode仅返回input_ids

2、 tokenizer.encode_plus返回所有的编码信息,具体如下:

’input_ids:是单词在词典中的编码‘token_type_ids’:区分两个句子的编码(上句全为0,下句全为1)‘attention_mask’:指定对哪些词进行self-Attention操作# 编码错配! encode_plus 的编码方式比encode在文本分类上的编码方式要好import torch from transformers import BertTokenizermodel_name =" bert-base-uncase"tokenizer = BertTokenizener.from_pretrained(model_name)sentence= "hello,myson"-----------------------print(tokenizer.encode(sentence))[101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]当tokenizer.encode函数中的add_special_tokens设置为False时,同样不会出现开头和结尾标记:[cls], [sep]-----------------------print(tokenizer.encode_plus(sentence)){'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
本文链接地址:https://www.jiuchutong.com/zhishi/300685.html 转载请保留说明!

上一篇:【创作赢红包】项目信息分析表

下一篇:【Vue 快速入门系列】Vue数据实现本地存储、自定义事件绑定、全局事件总线、$nextTick的使用(vue快速入门与实战开发)

  • 建筑企业如何预交增值税
  • 税务会计账务处理
  • 金税盘系统维护注册码
  • 如何查询开出的全电发票
  • 股东转让股权公司如何做账
  • 人力资源公司代招的岗位可以去吗
  • 附加税预缴分录
  • 准予扣除的职工福利费
  • 固定资产原价的结余额
  • 装修公司帮客户套现装修贷违法吗
  • 调表不调账最后会有什么问题
  • 城建税教育费附加税率怎么计算
  • 事业编年底
  • 哪些政府补助可以做收入
  • 节假日加班工资是平时的几倍?
  • 办公费支出属于资产项目吗
  • 开了发票一定要确认收入吗
  • 发票不验旧可以领取新的吗
  • 上月暂估本月怎么冲销
  • 法定代表人的个人债务会执行公司财产么
  • 职工福利费计提标准是多少
  • 小规模纳税人主要缴纳
  • php laravel教程
  • 中投公司投资的股票
  • win11电脑屏幕倒过来了怎么办
  • 耕地占用补贴标准
  • 商品购进核算
  • 换股的具体方式是什么
  • 高温费做账
  • c#openxml
  • 补缴税款后还能退税吗
  • js快速入门教程
  • php依赖注入的三种方式
  • 独立的分公司可以注册吗
  • phpcms怎么用
  • 包工的人工费可以算工程款
  • 购货方享受现金流量吗
  • 2022年最新苹果平板电脑
  • 织梦程序
  • 员工持股平台合伙企业如何设立
  • 财务预算资产负债表如何编制
  • 个体户怎么计算养老金
  • 租赁厂房对方不租怎么办
  • 专利技术转让损失会计分录
  • 视同销售的增值税是如何计算?
  • 本月收入未开票会计分录
  • 公司注册资金抽走违法吗
  • 融资租赁与按揭的区别
  • 其他收益和其他综合收益区别
  • 公司注销流程是哪些
  • 空调抵扣进项税
  • 个人开具的收据能税前扣除吗
  • 包工包料工程如何计税
  • 个人向公司账户存现金
  • 销售折让的会计分录
  • mysql5.5安装配置教程
  • ubuntu设置关闭按钮在右侧
  • window 启动
  • windows xp隐藏文件夹
  • 如何解除系统默认
  • win7系统搜索不到自己家wi-fi
  • linux使用zsh
  • windows8图片
  • jquery动态添加
  • shell脚本实现文件移动、复制等操作
  • python的nltk
  • perl的chomp
  • opengl安装教程
  • javascript总结
  • node.js入门教程
  • 安卓开源好处
  • js运行时错误
  • js对象用法
  • javascript基础书
  • node.js 的适用场景?
  • Unite Beijing 2015大型活动
  • ASP小贴士/ASP Tips javascript tips可以当桌面
  • python日志文件
  • python文件遍历
  • 地方税务机关税率是多少
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设