位置: IT常识 - 正文

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

编辑:rootadmin
tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异  一、tokenizer.encode和tokenizer.tokeninze

推荐整理分享tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

tokenizer.tokenize :先分词,再转成id,直接输出tensor

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

tokenizer.encode :直接输出id,需要转换为tensor

sentence = "Hello, my son is cuting."input_ids_method1 = torch.tensor(tokenizer.encode(sentence,add_special_tokens=True)) # tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012, 102])input_token2 = tokenizer.tokenize(sentence)# ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)# tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])# 并没有开头和结尾的标记:[cls]、[sep]二、tokenizer.encode和tokenizer.encode_plus的区别

普通编码 tokenizer.encode()、增强编码 tokenizer.encode_plus()

tokenizer.encode_plus() 的编码方式比tokenizer.encode()在文本分类上的编码方式要好,在中文分类数据集上会有1个点左右的差别

1、tokenizer.encode仅返回input_ids

2、 tokenizer.encode_plus返回所有的编码信息,具体如下:

’input_ids:是单词在词典中的编码‘token_type_ids’:区分两个句子的编码(上句全为0,下句全为1)‘attention_mask’:指定对哪些词进行self-Attention操作# 编码错配! encode_plus 的编码方式比encode在文本分类上的编码方式要好import torch from transformers import BertTokenizermodel_name =" bert-base-uncase"tokenizer = BertTokenizener.from_pretrained(model_name)sentence= "hello,myson"-----------------------print(tokenizer.encode(sentence))[101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]当tokenizer.encode函数中的add_special_tokens设置为False时,同样不会出现开头和结尾标记:[cls], [sep]-----------------------print(tokenizer.encode_plus(sentence)){'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
本文链接地址:https://www.jiuchutong.com/zhishi/300685.html 转载请保留说明!

上一篇:【创作赢红包】项目信息分析表

下一篇:【Vue 快速入门系列】Vue数据实现本地存储、自定义事件绑定、全局事件总线、$nextTick的使用(vue快速入门与实战开发)

  • 个税系统更正申报可以更正几次
  • 消费税应该怎么缴纳
  • 代开运输发票会不会造成重复征税
  • 以前年度调整损益借方表示什么
  • 个体工商户个税怎么申报
  • 返岗补贴怎么办理
  • 公司收到劳务发票
  • 进项抵扣的金额怎么算
  • 销售补差怎么做分析
  • 转让房产收取的增值税
  • 小规模纳税人如何转一般纳税人
  • 缴纳个税和社保
  • 房屋租赁合同印花税计税依据
  • 销售收入冲红如何入账
  • 合伙企业工资薪金申报
  • 新成立公司没有财务报表情况说明
  • 试分析营改增的重大意义
  • 土地转让收入怎么交所得税?
  • 车辆增值税抵扣到什么时候结束
  • 普通发票需要做分录吗?
  • 预提费用 增值税
  • 代增值税专用发票网上申请
  • 已认证的发票对账怎么办
  • 油卡充值属于什么行业
  • 调减管理费用如何调整本年利润
  • 进口技术服务需要向海关备案吗
  • 电子税务局怎么查看已开发票
  • 是否所有监控设备都录像
  • 出口发票上的汇率按哪个开?
  • 在建工程会计科目
  • 小规模纳税人确认收入时要确认税吗
  • c盘扩展卷是灰色的,有空间
  • 修改插入点闪烁光标的宽度
  • 业务招待费和福利费不能抵扣增值税吗
  • 出库单可以补吗
  • 会计实务中计提是什么意思
  • 与资产相关的政府补助所得税处理
  • 解决的英文
  • node.js如何安装
  • php培训得花多少钱
  • 预收账款和应收账款的转换
  • framework在哪里打开
  • 坏账准备备案申请资料
  • 销售鸡蛋免增值税吗
  • 核定征收的收入
  • python如何运行
  • sql实例命名规则
  • 如何分析现金利润情况
  • 赔偿的费用
  • 销售赠品入什么科目
  • mysql出现箭头
  • 净利润和盈余公式的关系
  • 成本核算分摊方法总结
  • 债券投资属于什么
  • 收到上年度所得税退税款会计分录怎么写
  • 工业企业分为哪几类
  • 员工预支钱要写什么单据
  • 年末计提企业所得税的依据
  • 未使用固定资产有哪些
  • 记账凭证是不是转账凭证
  • 收购一家公司需要多少股份
  • 生产成本工时怎么算
  • CentOs7.x安装Mysql的详细教程
  • vc6_cn_full.exe
  • 内存不够用如何升级系统
  • win7系统360浏览器自启动怎么关闭
  • linux 如何
  • ext.grid.gridpanel
  • 可以自己做手写的软件
  • nodejs利用http模块实现银行卡所属银行查询和骚扰电话验证示例
  • c++ nops
  • python爬虫框架 path
  • android蓝牙连接过程
  • python3 django教程
  • js显示word
  • 在javascript中用下面哪个关键词来定义变量
  • 苏州昆山税务局电话号码
  • 朝阳区地方税务局电话
  • 上海市税务局发票怎么开
  • 税务局宣传报道
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设