位置: IT常识 - 正文

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

编辑:rootadmin
【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)

推荐整理分享【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys),希望有所帮助,仅作参考,欢迎阅读内容。

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

文章相关热门搜索词:transformers!,transformer toys,transforms.totensor,transformer toys,transformers game download,transformer toys,transforms.totensor,transformers toys,内容如对您有帮助,希望把文章链接给更多的朋友!

tranformers中的模型在使用之前需要进行分词和编码,每个模型都会自带分词器(tokenizer),熟悉分词器的使用将会提高模型构建的效率。 string tokens ids 三者转换

string → tokens tokenize(text: str, **kwargs)tokens → string convert_tokens_to_string(tokens: List[token])tokens → ids convert_tokens_to_ids(tokens: List[token])ids → tokens convert_ids_to_tokens(ids: int or List[int], skip_special_tokens=False)string → ids encode(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, return_tensors=None) text:str, List[str], List[int]. text_pair: str, List[str], List[int] add_special_tokens: bool.是否添加特殊token([CLS]、[SEP]) max_length: int, None. padding: bool. padding取True or 'longest"时, padding至batch中最长的句子长度; padding取’max_length’时, padding至max_length; padding取False or ‘do_not_pad’ (default), 不padding. truncation: bool, str。只对输入为 sequence pair 有效。truncation取True or 'longest_first’时, token by token 的截断,哪一句长,截断哪一句的最后一个 token,相同长度就第二句。截至总token数等于 max_length; truncation取’only_first’时只截第一句,至总token数等于 max_length; truncation取’only_second’时只截第二句,至总token数等于 max_length;truncation取False or ‘do_not_truncate’ (default)。 return_tensors: str, None。‘tf’, ‘pt’ or ‘np’ 分布表示不同的tensor type.ids → string decode(token_ids: List[int], skip_special_tokens=False, clean_up_tokenization_spaces=True)encode_plus: encode_plus(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, stride=0, is_pretokenized=False, pad_to_multiple_of=None, return_tensors=None, return_token_type_ids=None, return_attention_mask=None, return_overflowing_tokens=False, return_special_tokens_mask=False, return_offsets_mapping=False, return_length=False)batch_encode_plus: 输入为 encode 输入的 batch,其它参数相同。注意,plus 是返回一个字典。batch_decode: 输入是batch.#这里以bert模型为例,使用上述提到的函数from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('bert-base-uncased')text = "It's a nice day today!"#tokenize,#仅用于分词seg_words = tokenizer.tokenize(text) print("tokenize分词结果:\n",seg_words)#convert_tokens_to_ids,将token转化成id,在分词之后。#convert_ids_to_tokens,将id转化成token,通常用于模型预测出结果,查看时使用。seg_word_id = tokenizer.convert_tokens_to_ids(seg_words) print("tokenize Id:\n",seg_word_id)#encode,进行分词和token转换,encode=tokenize+convert_tokens_to_idsencode_text = tokenizer.encode(text)print("encode结果:\n",encode_text)#encode_plus,在encode的基础之上生成input_ids、token_type_ids、attention_maskencode_plus_text = tokenizer.encode_plus(text)print("encode_plus结果:\n",encode_plus_text)#batch_encode_plus,在encode_plus的基础之上,能够批量梳理文本。batch_encode_plus_text = tokenizer.batch_encode_plus([text,text])print("batch_encode_plus结果:\n",batch_encode_plus_text)

本文链接地址:https://www.jiuchutong.com/zhishi/275914.html 转载请保留说明!

上一篇:windows11扩展卷灰色解决方法(电脑扩展卷是灰色的的怎么办)

下一篇:Windows11预览体验计划无法选择渠道怎么办(Windows11预览体验计划空白)

  • 不能抵扣的进项抵扣了
  • 企业购买产品
  • 资产减值损失影响利润吗
  • 汽车申请报废了交强险能退吗
  • 深圳增值税普通发票查询真伪
  • 合同负债属于负债吗
  • 固定资产二级科目取消原因
  • 水利基金应税项和减除项
  • 利息费用和利息支出的区别计算公式
  • 转让土地使用权属于销售无形资产吗
  • 股息红利需要企业交税吗
  • 新房购置税怎么算2022
  • 财务费用利息收入借方为负数是什么意思
  • 公司活动发言稿范文
  • 房产税城镇土地使用税申报流程
  • 个人遗失的定义
  • 失控进项发票转出 补税做账
  • 水利建设基金有优惠政策吗
  • 车辆租赁费可以开专票吗
  • 水利建设专项收入税率
  • 个体工商户投资者减除费用
  • 异常增值税扣税凭证
  • 写着个人的发票能下账吗
  • 委托加工费的增值税计入成本吗
  • 上个月开的发票退回怎么处理?
  • 企业技术开发的原则
  • 如何自定义win10开机音乐
  • 小米无线路由器internet黄灯
  • win10待机唤醒黑屏死机
  • 汽车空调不制冷的原因有六种
  • 存货周转率公式怎么算
  • macOS Big Sur 11.1 RC预览版(20C69)正式更新
  • antd 级联多选
  • NJeeves.exe - NJeeves进程文件是什么意思 有什么用
  • 远期外汇交易会有风险吗
  • 如何办理车辆购置证变更手续
  • 企业股权投资收益缴纳什么税
  • php写一个简单的单例模式
  • 交强险必须交车船税一年多少钱
  • php解析接口
  • vue err
  • wordpress安装包
  • php自动加载函数
  • thinkphp框架怎么用
  • 什么情况可以行政拘留不予执行
  • 企业税金及附加包括什么
  • 银行转账支付中是什么状态
  • 公司成立怎么说
  • SQLServer 2008 CDC功能实现数据变更捕获脚本
  • 外贸公司出口退税流程
  • 工资的内容包括很多项
  • 苗圃的账务处理
  • 收到赠送的样品附件
  • 企业销售退回的论文
  • 错帐的查找方法
  • 新会计准则关于贷款损失准备
  • mysql Sort aborted: Out of sort memory, consider increasing server sort buffer size的解决方法
  • ms sql mysql
  • mysql隐式类型转换规则
  • windows7开机黑屏安全模式也进不去
  • 系统的虚拟内存可以清理吗
  • ubuntu20桌面
  • centos权限不够怎么办
  • centos 6.6安装教程
  • win8显示隐藏文件夹
  • win10系统窗口贴靠操作的快捷键
  • 微信小程序实现人脸识别
  • jquery实现select选择框内容左右移动代码分享
  • java物流管理系统
  • jquery插件是干什么的
  • linux shell脚本编程入门
  • unity进度条控制动画进度
  • python 转义字符处理
  • js设置页面大小
  • 简单的智能家居
  • django批量上传图片
  • js几种类型
  • fragment生命周期图
  • 北京12366纳税服务平台
  • 深圳2021纳税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设