位置: IT常识 - 正文

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

编辑:rootadmin
tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异  一、tokenizer.encode和tokenizer.tokeninze

推荐整理分享tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

tokenizer.tokenize :先分词,再转成id,直接输出tensor

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

tokenizer.encode :直接输出id,需要转换为tensor

sentence = "Hello, my son is cuting."input_ids_method1 = torch.tensor(tokenizer.encode(sentence,add_special_tokens=True)) # tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012, 102])input_token2 = tokenizer.tokenize(sentence)# ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)# tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])# 并没有开头和结尾的标记:[cls]、[sep]二、tokenizer.encode和tokenizer.encode_plus的区别

普通编码 tokenizer.encode()、增强编码 tokenizer.encode_plus()

tokenizer.encode_plus() 的编码方式比tokenizer.encode()在文本分类上的编码方式要好,在中文分类数据集上会有1个点左右的差别

1、tokenizer.encode仅返回input_ids

2、 tokenizer.encode_plus返回所有的编码信息,具体如下:

’input_ids:是单词在词典中的编码‘token_type_ids’:区分两个句子的编码(上句全为0,下句全为1)‘attention_mask’:指定对哪些词进行self-Attention操作# 编码错配! encode_plus 的编码方式比encode在文本分类上的编码方式要好import torch from transformers import BertTokenizermodel_name =" bert-base-uncase"tokenizer = BertTokenizener.from_pretrained(model_name)sentence= "hello,myson"-----------------------print(tokenizer.encode(sentence))[101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]当tokenizer.encode函数中的add_special_tokens设置为False时,同样不会出现开头和结尾标记:[cls], [sep]-----------------------print(tokenizer.encode_plus(sentence)){'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
本文链接地址:https://www.jiuchutong.com/zhishi/300685.html 转载请保留说明!

上一篇:【创作赢红包】项目信息分析表

下一篇:【Vue 快速入门系列】Vue数据实现本地存储、自定义事件绑定、全局事件总线、$nextTick的使用(vue快速入门与实战开发)

  • 《区域全面经济伙伴关系协定》对印尼正式生效

    《区域全面经济伙伴关系协定》对印尼正式生效

  • 怎么才能做好微博营销?(怎么才能做好微信小程序)

    怎么才能做好微博营销?(怎么才能做好微信小程序)

  • 微信转账支付宝怎么操作(微信转账支付宝无银行卡)

    微信转账支付宝怎么操作(微信转账支付宝无银行卡)

  • 华为手机怎么屏幕录制(华为手机怎么屏幕变成黑白色了)

    华为手机怎么屏幕录制(华为手机怎么屏幕变成黑白色了)

  • 抖音蓝v到底有没有效果(抖音蓝v能干什么)

    抖音蓝v到底有没有效果(抖音蓝v能干什么)

  • 微信服务器保留几年记录(微信服务器保留几年聊天记录)

    微信服务器保留几年记录(微信服务器保留几年聊天记录)

  • 华为手机充电绿色气泡(华为手机充电绿色灯怎么关闭)

    华为手机充电绿色气泡(华为手机充电绿色灯怎么关闭)

  • nova5pro取卡针插哪(华为nova5pro取卡的针孔是哪个)

    nova5pro取卡针插哪(华为nova5pro取卡的针孔是哪个)

  • 斗鱼荧光棒能攒起来吗(斗鱼荧光棒多少钱人民币)

    斗鱼荧光棒能攒起来吗(斗鱼荧光棒多少钱人民币)

  • 密码加密的几种方式(密码加密种类)

    密码加密的几种方式(密码加密种类)

  • 已连接开放网络是什么意思(已连接开放网络点击管理)

    已连接开放网络是什么意思(已连接开放网络点击管理)

  • 信息旁边有个月亮是什么意思(信息旁边有个月亮)

    信息旁边有个月亮是什么意思(信息旁边有个月亮)

  • 手机不烫一直显示温度过高(手机不热但是出现温度过高怎么回事)

    手机不烫一直显示温度过高(手机不热但是出现温度过高怎么回事)

  • 192.168.1.1为什么进不去(192.168.1.1为什么登不上)

    192.168.1.1为什么进不去(192.168.1.1为什么登不上)

  • 朋友经常说xp什么意思(朋友说是什么意思)

    朋友经常说xp什么意思(朋友说是什么意思)

  • 键盘打油是什么意思(键盘打油是什么感觉)

    键盘打油是什么意思(键盘打油是什么感觉)

  • 不是原装的线会把手机充坏吗(不是原装的线充电好吗)

    不是原装的线会把手机充坏吗(不是原装的线充电好吗)

  • 抖音里面的年龄计算器怎么玩(抖音里面的年龄怎么看)

    抖音里面的年龄计算器怎么玩(抖音里面的年龄怎么看)

  • 小米无线耳机怎么串联(小米无线耳机怎么调声音大小)

    小米无线耳机怎么串联(小米无线耳机怎么调声音大小)

  • 黑鲨2支持无线充电吗(黑鲨支持无线充电功能吗)

    黑鲨2支持无线充电吗(黑鲨支持无线充电功能吗)

  • 华为手机位置信息什么意思(华为手机位置信息设置)

    华为手机位置信息什么意思(华为手机位置信息设置)

  • 探探怎么找人(探探怎么找人聊天)

    探探怎么找人(探探怎么找人聊天)

  • realmex使用技巧(realmex手机)

    realmex使用技巧(realmex手机)

  • oppor17屏幕分辨率在哪里设置(oppor17pro分辨率)

    oppor17屏幕分辨率在哪里设置(oppor17pro分辨率)

  • Win11任务栏设置打开闪退怎么办?Win11任务栏设置打开闪退解决方法(如何设置电脑任务栏显示)

    Win11任务栏设置打开闪退怎么办?Win11任务栏设置打开闪退解决方法(如何设置电脑任务栏显示)

  • Vue表单数据修改与删除(vue修改表格数据)

    Vue表单数据修改与删除(vue修改表格数据)

  • 转让金融商品应交增值税计入
  • 什么公司可以开普票
  • 小规模开票软件怎么下载
  • 收客户款现金折让发票怎么处理
  • 向香港公司支付服务费税率
  • 公司简易注销需要清算吗
  • 应收退货成本会计科目代码
  • 长期股权投资的账面价值怎么计算
  • 丢失支票补救措施
  • 施工企业预算怎么编制
  • 付了电费当月没有收到发票
  • 加工原因造成的废品损失
  • 未收到发票暂估入库的进项税额可以暂估进原料成本吗
  • 投资性房地产房租计入什么会计科目
  • 土地使用权出让和划拨有什么区别
  • 增值税17%和13%有什么区别
  • 请问哪些福利费不用交税
  • 企业筹办期多久
  • 抄报是不是在申报之后才能成功?
  • 税盘减免会计分录
  • 小规模需要交所得税吗
  • 飞鱼星路由器信号有点差怎么办
  • 基建期增值税如何抵扣
  • 华为mate50pro怎么读
  • 苹果官网iPhone12
  • PHP:xml_set_character_data_handler()的用法_XML解析器函数
  • 发票已经认证,发现错误了要怎么处理
  • 供热企业收取采暖费标准
  • 是谁唤醒你
  • 劳务佣金合法吗?
  • CodeIgniter针对数据库的连接、配置及使用方法
  • 固定资产一览表
  • yii2权威指南
  • php读取文件的一部分
  • 关于企业财务会计的说法正确的是
  • yolo改进方法
  • 发票密码区如何调整
  • html/css/javascript标准教程
  • 100多年前程序员
  • 预付采购材料款60000元
  • 预先支付的房租
  • 冷饮成本价
  • 工资计提未发放,调增还是调减
  • 科目汇总表一张不够怎么写下一页
  • 个人所得税要缴纳一万多怎么办
  • 经营性投资范畴
  • 职工薪酬包括哪些应如何计算
  • 坏账准备的核销的分录怎么做
  • 原材料贷方余额怎么转成本
  • 公司送礼怎么记账
  • 取得普通发票怎么做账
  • 代账公司帮客户开发票
  • 记账凭证必须具备的基本内容
  • 应付票据和应付债券的区别
  • 工伤 保险赔付
  • sql数据库监控工具
  • 在docker中使用service命令
  • win7 组织
  • win8怎么打开系统设置
  • wp8.1怎么升级wp10
  • window msconfig
  • macbook系统快捷键
  • mac系统如何安装双系统
  • win10在哪里更改用户名
  • win7 win10 win8
  • cocos2dx schedule
  • cocos2d rpg
  • 搞定immutable.js详细说明
  • 使用jquery实现的项目
  • json与对象的区别
  • python3 xlrd
  • python怎么写一个类
  • python的设置
  • js和jquery混合使用
  • python for windows
  • jquery获取元素的父元素
  • jquery数据类型
  • 商铺土地增值税预缴税率是多少
  • 公司变更税务局
  • 国家税务贵州省税务局
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设