位置: IT常识 - 正文

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

编辑:rootadmin
【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)

推荐整理分享【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys),希望有所帮助,仅作参考,欢迎阅读内容。

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

文章相关热门搜索词:transformers!,transformer toys,transforms.totensor,transformer toys,transformers game download,transformer toys,transforms.totensor,transformers toys,内容如对您有帮助,希望把文章链接给更多的朋友!

tranformers中的模型在使用之前需要进行分词和编码,每个模型都会自带分词器(tokenizer),熟悉分词器的使用将会提高模型构建的效率。 string tokens ids 三者转换

string → tokens tokenize(text: str, **kwargs)tokens → string convert_tokens_to_string(tokens: List[token])tokens → ids convert_tokens_to_ids(tokens: List[token])ids → tokens convert_ids_to_tokens(ids: int or List[int], skip_special_tokens=False)string → ids encode(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, return_tensors=None) text:str, List[str], List[int]. text_pair: str, List[str], List[int] add_special_tokens: bool.是否添加特殊token([CLS]、[SEP]) max_length: int, None. padding: bool. padding取True or 'longest"时, padding至batch中最长的句子长度; padding取’max_length’时, padding至max_length; padding取False or ‘do_not_pad’ (default), 不padding. truncation: bool, str。只对输入为 sequence pair 有效。truncation取True or 'longest_first’时, token by token 的截断,哪一句长,截断哪一句的最后一个 token,相同长度就第二句。截至总token数等于 max_length; truncation取’only_first’时只截第一句,至总token数等于 max_length; truncation取’only_second’时只截第二句,至总token数等于 max_length;truncation取False or ‘do_not_truncate’ (default)。 return_tensors: str, None。‘tf’, ‘pt’ or ‘np’ 分布表示不同的tensor type.ids → string decode(token_ids: List[int], skip_special_tokens=False, clean_up_tokenization_spaces=True)encode_plus: encode_plus(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, stride=0, is_pretokenized=False, pad_to_multiple_of=None, return_tensors=None, return_token_type_ids=None, return_attention_mask=None, return_overflowing_tokens=False, return_special_tokens_mask=False, return_offsets_mapping=False, return_length=False)batch_encode_plus: 输入为 encode 输入的 batch,其它参数相同。注意,plus 是返回一个字典。batch_decode: 输入是batch.#这里以bert模型为例,使用上述提到的函数from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('bert-base-uncased')text = "It's a nice day today!"#tokenize,#仅用于分词seg_words = tokenizer.tokenize(text) print("tokenize分词结果:\n",seg_words)#convert_tokens_to_ids,将token转化成id,在分词之后。#convert_ids_to_tokens,将id转化成token,通常用于模型预测出结果,查看时使用。seg_word_id = tokenizer.convert_tokens_to_ids(seg_words) print("tokenize Id:\n",seg_word_id)#encode,进行分词和token转换,encode=tokenize+convert_tokens_to_idsencode_text = tokenizer.encode(text)print("encode结果:\n",encode_text)#encode_plus,在encode的基础之上生成input_ids、token_type_ids、attention_maskencode_plus_text = tokenizer.encode_plus(text)print("encode_plus结果:\n",encode_plus_text)#batch_encode_plus,在encode_plus的基础之上,能够批量梳理文本。batch_encode_plus_text = tokenizer.batch_encode_plus([text,text])print("batch_encode_plus结果:\n",batch_encode_plus_text)

本文链接地址:https://www.jiuchutong.com/zhishi/275914.html 转载请保留说明!

上一篇:windows11扩展卷灰色解决方法(电脑扩展卷是灰色的的怎么办)

下一篇:Windows11预览体验计划无法选择渠道怎么办(Windows11预览体验计划空白)

  • 微信朋友圈广告评论是自动评论的吗(微信朋友圈广告怎么关闭不了)

    微信朋友圈广告评论是自动评论的吗(微信朋友圈广告怎么关闭不了)

  • 光猫无信号灯闪烁红灯是怎么回事(光猫无信号灯闪烁)

    光猫无信号灯闪烁红灯是怎么回事(光猫无信号灯闪烁)

  • 淘宝性别能随便改吗(在淘宝上改了性别,别人验的出来吗)

    淘宝性别能随便改吗(在淘宝上改了性别,别人验的出来吗)

  • CCD的成像是利用(ccd相机成像原理结构框图)

    CCD的成像是利用(ccd相机成像原理结构框图)

  • 发错微信撤不回怎么办(发错微信撤不回退群管用吗)

    发错微信撤不回怎么办(发错微信撤不回退群管用吗)

  • 苹果手机显示无法安装(苹果手机显示无效SIM卡是什么意思)

    苹果手机显示无法安装(苹果手机显示无效SIM卡是什么意思)

  • 小米mi5c支持联通吗(小米5支持蓝牙吗?)

    小米mi5c支持联通吗(小米5支持蓝牙吗?)

  • qq消息栏背景怎么设置(qq消息页面背景图怎么设置)

    qq消息栏背景怎么设置(qq消息页面背景图怎么设置)

  • 微信文件撤回时间变长了(微信文件撤回时间期限)

    微信文件撤回时间变长了(微信文件撤回时间期限)

  • 怎么提高淘宝店铺访客量和流量(怎么提高淘宝店铺转化率)

    怎么提高淘宝店铺访客量和流量(怎么提高淘宝店铺转化率)

  • qq邮件被拒收会提示吗(qq邮箱拒收后对方有什么提示)

    qq邮件被拒收会提示吗(qq邮箱拒收后对方有什么提示)

  • 分布式数据存储是什么意思(是google的分布式数据存储)

    分布式数据存储是什么意思(是google的分布式数据存储)

  • oppo手机黑名单在哪个里面找(oppo手机黑名单怎么移出来)

    oppo手机黑名单在哪个里面找(oppo手机黑名单怎么移出来)

  • 苹果手机要开扬声器才有声音(苹果手机开扬声器才有声音怎么回事)

    苹果手机要开扬声器才有声音(苹果手机开扬声器才有声音怎么回事)

  • 怎么把软件移到sd卡oppo(怎么把软件移到d盘)

    怎么把软件移到sd卡oppo(怎么把软件移到d盘)

  • ps发散光线怎么做(ps如何做散发的光线)

    ps发散光线怎么做(ps如何做散发的光线)

  • 手机如何将繁体字换成简体(手机如何将繁体字转化为简体字)

    手机如何将繁体字换成简体(手机如何将繁体字转化为简体字)

  • 苹果手机x长曝光在哪里设置(苹果手机长曝光拍照怎么用)

    苹果手机x长曝光在哪里设置(苹果手机长曝光拍照怎么用)

  • iphone8怎么返回上一级(iphone8怎么返回主屏幕)

    iphone8怎么返回上一级(iphone8怎么返回主屏幕)

  • 抖音一直闪退怎么办(抖音一直闪退怎么回事)

    抖音一直闪退怎么办(抖音一直闪退怎么回事)

  • 文档间距怎么缩小(word文档间距缩小)

    文档间距怎么缩小(word文档间距缩小)

  • cad双击文字不能修改(cad双击文字不能打字)

    cad双击文字不能修改(cad双击文字不能打字)

  • 滴滴连接推送失败(滴滴车主打开后连接不到网络)

    滴滴连接推送失败(滴滴车主打开后连接不到网络)

  • 计提房产税和土地税
  • 法人和办税人
  • 合并资产负债表和合并利润表的区别
  • 小规模纳税人税额怎么做分录
  • 房地产土地使用税已售面积如何减
  • 非货币性资产交换的记忆口诀
  • 海关缴款书认证不符
  • 公司员工体检计入什么科目
  • 离职补偿金需要交工会经费吗
  • 2021装修法律
  • 企业所得税预缴计算方法
  • 一般纳税人附加税减免
  • 期末未分配利润大于期初未分配利润+期末净利润
  • 营业外收入可以在借方吗
  • 研发过程中材料费计入
  • 计提汽车折旧会计分录
  • 股东个人财产转让流程
  • win11不能用u盘
  • 租赁公司经营项目
  • johnny kim宇航员
  • 提取的盈余公积是所有者权益吗
  • 补税的分录
  • php php.ini
  • ssm框架集成
  • 员工报销的话费要缴纳个税吗?
  • vue入门
  • 公司一年没有业务
  • 年度报表资产总额平均值怎么算
  • 水果发票税率是几个点
  • 装修及室内设计学什么
  • 工会经费计算表
  • 己经认证的发票怎么作废
  • 本期转让不动产的销售额是什么意思
  • 实收资本印花税税率
  • 个税申报汇算清缴流程
  • Mysql存储过程中的如何遍历一个查询结果集
  • 分组计数什么意思
  • 购进交通运输设备怎么做账
  • 个人抬头的发票可以入账吗
  • 关于sql的问题
  • 短期借款可以用于在建工程吗
  • 注销退税后又补税了
  • 小规模纳税人减按1%政策
  • 住宿费专票可以抵扣进项税吗税率多少
  • 农场有多少只鸡
  • 用于集体福利的进项税额怎么处理
  • 预收款不开票怎么处理
  • 对方多开发票怎么处理?
  • 暂估入库冲回与退回区别
  • 出口退税退的是哪些税
  • 房租给托管公司
  • 过户前交了契税能退吗
  • 加计抵减四项服务是什么?
  • 外地预缴需要缴纳印花税吗
  • freebsd常用命令
  • ubuntu启动菜单 哪个键
  • fedora7
  • w10预览版21343下载
  • 1sass.exe是什么程序
  • 苹果MAC电脑如何设置开机密码
  • 打开linux系统
  • 简单3招 让win10资源管理变得更方便简洁
  • zmweb.exe是什么进程
  • win8 更新
  • win7电脑弹窗多怎么解决
  • win10电脑提示
  • linux如何安装软件教程
  • bootstrap下拉框设置默认值
  • js中事件的三要素
  • js 位置
  • node.js怎么用
  • js effect
  • Unity3d C# HttpWebRequest 异步下载文件
  • Javascript字符串对象函数
  • js 工作流
  • jquery.data
  • 税务上征信
  • 武汉税务证怎么网上申请
  • 酒店不给住怎么办
  • 车辆完税证明有啥用
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设