位置: IT常识 - 正文

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

编辑:rootadmin
tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异  一、tokenizer.encode和tokenizer.tokeninze

推荐整理分享tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

tokenizer.tokenize :先分词,再转成id,直接输出tensor

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

tokenizer.encode :直接输出id,需要转换为tensor

sentence = "Hello, my son is cuting."input_ids_method1 = torch.tensor(tokenizer.encode(sentence,add_special_tokens=True)) # tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012, 102])input_token2 = tokenizer.tokenize(sentence)# ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)# tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])# 并没有开头和结尾的标记:[cls]、[sep]二、tokenizer.encode和tokenizer.encode_plus的区别

普通编码 tokenizer.encode()、增强编码 tokenizer.encode_plus()

tokenizer.encode_plus() 的编码方式比tokenizer.encode()在文本分类上的编码方式要好,在中文分类数据集上会有1个点左右的差别

1、tokenizer.encode仅返回input_ids

2、 tokenizer.encode_plus返回所有的编码信息,具体如下:

’input_ids:是单词在词典中的编码‘token_type_ids’:区分两个句子的编码(上句全为0,下句全为1)‘attention_mask’:指定对哪些词进行self-Attention操作# 编码错配! encode_plus 的编码方式比encode在文本分类上的编码方式要好import torch from transformers import BertTokenizermodel_name =" bert-base-uncase"tokenizer = BertTokenizener.from_pretrained(model_name)sentence= "hello,myson"-----------------------print(tokenizer.encode(sentence))[101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]当tokenizer.encode函数中的add_special_tokens设置为False时,同样不会出现开头和结尾标记:[cls], [sep]-----------------------print(tokenizer.encode_plus(sentence)){'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
本文链接地址:https://www.jiuchutong.com/zhishi/300685.html 转载请保留说明!

上一篇:【创作赢红包】项目信息分析表

下一篇:【Vue 快速入门系列】Vue数据实现本地存储、自定义事件绑定、全局事件总线、$nextTick的使用(vue快速入门与实战开发)

  • 新浪邮箱有实名认证吗(新浪邮箱实名认证解除)

  • 魅族17屏幕尺寸是多少(魅族17屏幕多大)

  • 微信支付密码如何修改(微信支付密码如何改成指纹密码)

  • 微信有绿码吗(微信上的绿码可以出行嘛)

  • 苹果11怎么设置防窥(苹果11怎么设置双卡双待)

  • 华为平板寿命一般几年(华为平板能用多少年)

  • win10初始化电脑会怎样(win10初始化电脑云下载和本地)

  • 商品已下架了怎么退款(商品已下架怎么申请售后)

  • 个人可以上阿里巴巴买东西吗(个人可以做阿里巴巴吗)

  • 电话是空号是不是已经注销了(电话是空号是不是不用缴费了)

  • 手机内屏出现紫色扩散(手机内屏出现紫色扩散怎么办)

  • 幸运字符为什么会掉(幸运字符为什么发消息不加)

  • oppoa11的语音助手不能用语音直接唤醒吗(oppoa11语音助手怎么打开)

  • iphone11单手模式怎么开(苹果11 单手模式)

  • 多媒体操作系统包括(多媒体操作系统的特点)

  • word16k纸张怎么设置(word2016纸张)

  • 京东我的预约怎么取消(京东我的预约怎么抢比较快)

  • 三星 s10是双卡单通吗(三星s10是双卡还是单卡)

  • 苹果手机藏文输入法怎么启用(苹果手机藏文输入法怎么打)

  • 淘宝怎么关闭可能认识的人(淘宝怎么关闭可疑订单)

  • win10开机壁纸存储位置(windows10开机壁纸怎么保存)

  • 荣耀v10怎么升级9.1(荣耀v10怎么升级系统)

  • 小米手机怎么查使用时间(小米手机怎么查看激活日期)

  • 为什么刷宝不可以提现(刷宝为什么不能签到了)

  • 被移出群聊怎么恢复(被移出群聊怎么看群还在不在)

  • 腾讯新闻里的视频怎么下载(腾讯新闻里的视频为啥没声音)

  • 下载的安装包为什么安装不上(下载的安装包为什么是文档)

  • Mac怎么分区加密?Mac磁盘分区加密设置教程(mac怎么分区硬盘分区)

  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设 电脑维修 湖南楚通运网络