位置: IT常识 - 正文

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

编辑:rootadmin
tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异  一、tokenizer.encode和tokenizer.tokeninze

推荐整理分享tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

tokenizer.tokenize :先分词,再转成id,直接输出tensor

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

tokenizer.encode :直接输出id,需要转换为tensor

sentence = "Hello, my son is cuting."input_ids_method1 = torch.tensor(tokenizer.encode(sentence,add_special_tokens=True)) # tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012, 102])input_token2 = tokenizer.tokenize(sentence)# ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)# tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])# 并没有开头和结尾的标记:[cls]、[sep]二、tokenizer.encode和tokenizer.encode_plus的区别

普通编码 tokenizer.encode()、增强编码 tokenizer.encode_plus()

tokenizer.encode_plus() 的编码方式比tokenizer.encode()在文本分类上的编码方式要好,在中文分类数据集上会有1个点左右的差别

1、tokenizer.encode仅返回input_ids

2、 tokenizer.encode_plus返回所有的编码信息,具体如下:

’input_ids:是单词在词典中的编码‘token_type_ids’:区分两个句子的编码(上句全为0,下句全为1)‘attention_mask’:指定对哪些词进行self-Attention操作# 编码错配! encode_plus 的编码方式比encode在文本分类上的编码方式要好import torch from transformers import BertTokenizermodel_name =" bert-base-uncase"tokenizer = BertTokenizener.from_pretrained(model_name)sentence= "hello,myson"-----------------------print(tokenizer.encode(sentence))[101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]当tokenizer.encode函数中的add_special_tokens设置为False时,同样不会出现开头和结尾标记:[cls], [sep]-----------------------print(tokenizer.encode_plus(sentence)){'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
本文链接地址:https://www.jiuchutong.com/zhishi/300685.html 转载请保留说明!

上一篇:【创作赢红包】项目信息分析表

下一篇:【Vue 快速入门系列】Vue数据实现本地存储、自定义事件绑定、全局事件总线、$nextTick的使用(vue快速入门与实战开发)

  • 荣耀30pro支持freebuds3骨声纹的吗(荣耀30PRO支持北斗导航功能)

    荣耀30pro支持freebuds3骨声纹的吗(荣耀30PRO支持北斗导航功能)

  • 手机里的data能不能删除(手机data文件用什么打开)

    手机里的data能不能删除(手机data文件用什么打开)

  • 华为手机照片如何永久删除(华为手机照片如何添加日期水印)

    华为手机照片如何永久删除(华为手机照片如何添加日期水印)

  • 滴滴长途单有空返费吗(滴滴接长途单空回怎么办)

    滴滴长途单有空返费吗(滴滴接长途单空回怎么办)

  • 台式电脑能搜到网络但连不上怎么办(台式电脑能搜到别人的搜不到自家的)

    台式电脑能搜到网络但连不上怎么办(台式电脑能搜到别人的搜不到自家的)

  • 怎样解决空调上热下冷(怎样解决空调上的h1)

    怎样解决空调上热下冷(怎样解决空调上的h1)

  • 荣耀9x系统什么时候更新10(荣耀9x新系统怎么样)

    荣耀9x系统什么时候更新10(荣耀9x新系统怎么样)

  • ipad摔弯了用书压能还原吗(ipadair3摔弯了)

    ipad摔弯了用书压能还原吗(ipadair3摔弯了)

  • 苹果13.51系统更新了什么(iphone13系统更新)

    苹果13.51系统更新了什么(iphone13系统更新)

  • 宽带和带宽的区别(宽带和带宽的区别在哪里)

    宽带和带宽的区别(宽带和带宽的区别在哪里)

  • 小米专注模式怎么强行退出(小米专注模式怎么添加到桌面)

    小米专注模式怎么强行退出(小米专注模式怎么添加到桌面)

  • 手机充电不充满会伤电池吗(手机充电不充满会损电池吗)

    手机充电不充满会伤电池吗(手机充电不充满会损电池吗)

  • 苹果型号g开头是什么版本(苹果型号g开头是什么)

    苹果型号g开头是什么版本(苹果型号g开头是什么)

  • 抖音合拍怎么放照片(抖音合拍怎么放照片和自己的声音)

    抖音合拍怎么放照片(抖音合拍怎么放照片和自己的声音)

  • newtv是腾讯的吗(腾讯的tv叫什么)

    newtv是腾讯的吗(腾讯的tv叫什么)

  • 为什么b站缓存被禁止(为什么b站缓存不了哈利波特)

    为什么b站缓存被禁止(为什么b站缓存不了哈利波特)

  • 路由器internet灯不亮(路由器internet灯一直亮)

    路由器internet灯不亮(路由器internet灯一直亮)

  • 12306官网43003操作失败是什么意思(12306.cn)

    12306官网43003操作失败是什么意思(12306.cn)

  • iphonexsmax运行内存多大(iphonexsmax运行内存多大?)

    iphonexsmax运行内存多大(iphonexsmax运行内存多大?)

  • 微信表情两行变一行了(微信表情包变成两行)

    微信表情两行变一行了(微信表情包变成两行)

  • 苹果x替换外貌啥意思(苹果x替换面容在哪里)

    苹果x替换外貌啥意思(苹果x替换面容在哪里)

  • 奥维互动地图怎么导航(奥维互动地图怎么输入坐标找位置)

    奥维互动地图怎么导航(奥维互动地图怎么输入坐标找位置)

  • 拼多多通知怎么设置(拼多多通知怎么关)

    拼多多通知怎么设置(拼多多通知怎么关)

  • 苹果手机微信怎么解绑手机号(苹果手机微信怎么双开)

    苹果手机微信怎么解绑手机号(苹果手机微信怎么双开)

  • 小红书快递查询(小红书快递查询怎么查)

    小红书快递查询(小红书快递查询怎么查)

  • Echarts 饼图基本用法(echarts饼图参数配置)

    Echarts 饼图基本用法(echarts饼图参数配置)

  • python机器人编程——差速机器人小车的控制,控制模型、轨迹跟踪,轨迹规划、自动泊车(上)(python机器人编程控制)

    python机器人编程——差速机器人小车的控制,控制模型、轨迹跟踪,轨迹规划、自动泊车(上)(python机器人编程控制)

  • 什么发票可以抵扣增值税
  • 燃气费的账务处理
  • 开现代服务发票有什么要求吗
  • 交易性金融资产和其他权益工具投资的区别
  • 车辆购置税完税证明二维码用什么扫
  • 购买基金会计分录怎么填
  • 企业清理固定资产所得税汇算是需要调整吗
  • 营改增试点纳税人提供有形动产租赁服务,税率为
  • 税控服务费的账务处理
  • 公司能否投资非盈利组织?如何做账
  • 销售包装物的会计处理
  • 会计报表的附表包括哪些
  • 合伙企业可以弥补以前年度亏损吗
  • 国债利息纳税调增还是减
  • 以前年度损益调整怎么用
  • 帐外资产 如何记账
  • 法人转钱进公账可以吗
  • 公司购买进口产成品关税会计分录怎么做?
  • 贴息收据税前扣除是什么
  • linux的进程类型
  • 电脑开wifi给手机用好吗
  • windows10如何清理c盘垃圾
  • 增值税发票的进项和出项要一致吗
  • 社保多交怎么办理
  • 非限定性净资产相当于哪个科目
  • vue print nb 教程
  • 向职工集资计入收入吗
  • 认缴注册是什么意思
  • .msc是什么意思
  • 销售自己2008年1月购入并作为
  • 阿里php面试题
  • echarts简介
  • php504错误
  • 登录页面的实现方式
  • uniapp 开发安卓app怎么打包迭代版本
  • react roter
  • 从零开始文章
  • c++简易游戏
  • 游戏的系统架构
  • 即征即退先征后返属于政府补助吗
  • lspv命令详解
  • 农民工的劳务报酬个人所得税怎么那么高
  • 微擎框架下载
  • 帝国cms吧
  • 商业承兑汇票在网银上怎么查询
  • 异地托收承付结算ppt
  • 税费计提多了怎么冲减
  • 累计折旧会影响净残值吗
  • sqlServer查询当前ip地址
  • MySQL/Postgrsql 详细讲解如何用ODBC接口访问MySQL指南
  • 工业设备种类
  • 购买商标权需要缴税吗
  • 计提社保和工资一起怎么做账
  • 工地加油
  • 发票 发票专用章
  • 原始凭证丢了判刑吗
  • 创建mysql表sql语句
  • sql中的join
  • MySQL数据库同时查询更新同一张表的方法
  • mysql内存占用一直增高不释放
  • xp系统删除密码
  • fedora设置
  • win10笔记本不显示桌面
  • centos设置永不待机
  • win7更新8007000e
  • win10升级win1
  • android ndk cmake
  • linux什么是二进制文件
  • linux生成文件
  • 不用js多浏览器能用吗
  • Node.js中的construct构造函数
  • 批处理 !!
  • 批处理检查输入文本是否为字母或数字
  • JavaScript中的case
  • node.js怎么用
  • unity-x
  • python3新增特性
  • 美国海关税收起征点
  • 国家税务总局39号文
  • 广州市公安局分局待遇
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设