位置: IT常识 - 正文

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

发布时间:2023-12-17
【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)

推荐整理分享【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys),希望有所帮助,仅作参考,欢迎阅读内容。

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

文章相关热门搜索词:transformers!,transformer toys,transforms.totensor,transformer toys,transformers game download,transformer toys,transforms.totensor,transformers toys,内容如对您有帮助,希望把文章链接给更多的朋友!

tranformers中的模型在使用之前需要进行分词和编码,每个模型都会自带分词器(tokenizer),熟悉分词器的使用将会提高模型构建的效率。 string tokens ids 三者转换

string → tokens tokenize(text: str, **kwargs)tokens → string convert_tokens_to_string(tokens: List[token])tokens → ids convert_tokens_to_ids(tokens: List[token])ids → tokens convert_ids_to_tokens(ids: int or List[int], skip_special_tokens=False)string → ids encode(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, return_tensors=None) text:str, List[str], List[int]. text_pair: str, List[str], List[int] add_special_tokens: bool.是否添加特殊token([CLS]、[SEP]) max_length: int, None. padding: bool. padding取True or 'longest"时, padding至batch中最长的句子长度; padding取’max_length’时, padding至max_length; padding取False or ‘do_not_pad’ (default), 不padding. truncation: bool, str。只对输入为 sequence pair 有效。truncation取True or 'longest_first’时, token by token 的截断,哪一句长,截断哪一句的最后一个 token,相同长度就第二句。截至总token数等于 max_length; truncation取’only_first’时只截第一句,至总token数等于 max_length; truncation取’only_second’时只截第二句,至总token数等于 max_length;truncation取False or ‘do_not_truncate’ (default)。 return_tensors: str, None。‘tf’, ‘pt’ or ‘np’ 分布表示不同的tensor type.ids → string decode(token_ids: List[int], skip_special_tokens=False, clean_up_tokenization_spaces=True)encode_plus: encode_plus(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, stride=0, is_pretokenized=False, pad_to_multiple_of=None, return_tensors=None, return_token_type_ids=None, return_attention_mask=None, return_overflowing_tokens=False, return_special_tokens_mask=False, return_offsets_mapping=False, return_length=False)batch_encode_plus: 输入为 encode 输入的 batch,其它参数相同。注意,plus 是返回一个字典。batch_decode: 输入是batch.#这里以bert模型为例,使用上述提到的函数from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('bert-base-uncased')text = "It's a nice day today!"#tokenize,#仅用于分词seg_words = tokenizer.tokenize(text) print("tokenize分词结果:\n",seg_words)#convert_tokens_to_ids,将token转化成id,在分词之后。#convert_ids_to_tokens,将id转化成token,通常用于模型预测出结果,查看时使用。seg_word_id = tokenizer.convert_tokens_to_ids(seg_words) print("tokenize Id:\n",seg_word_id)#encode,进行分词和token转换,encode=tokenize+convert_tokens_to_idsencode_text = tokenizer.encode(text)print("encode结果:\n",encode_text)#encode_plus,在encode的基础之上生成input_ids、token_type_ids、attention_maskencode_plus_text = tokenizer.encode_plus(text)print("encode_plus结果:\n",encode_plus_text)#batch_encode_plus,在encode_plus的基础之上,能够批量梳理文本。batch_encode_plus_text = tokenizer.batch_encode_plus([text,text])print("batch_encode_plus结果:\n",batch_encode_plus_text)

本文链接地址:https://www.jiuchutong.com/zhishi/275914.html 转载请保留说明!

上一篇:windows11扩展卷灰色解决方法(电脑扩展卷是灰色的的怎么办)

下一篇:Windows11预览体验计划无法选择渠道怎么办(Windows11预览体验计划空白)

  • 表格怎么让日期自动顺序排(表格怎么让日期每天自动更新)

    表格怎么让日期自动顺序排(表格怎么让日期每天自动更新)

  • 抖音哪里可以看访客记录(抖音哪里可以看注册时间)

    抖音哪里可以看访客记录(抖音哪里可以看注册时间)

  • 苹果正方形的按钮在哪(苹果正方形的按钮怎么关闭)

    苹果正方形的按钮在哪(苹果正方形的按钮怎么关闭)

  • 苹果xr经常死机怎么回事(苹果xr老死机什么原因)

    苹果xr经常死机怎么回事(苹果xr老死机什么原因)

  • 华为手机调返回键模式怎么调(华为手机调返回键怎么调)

    华为手机调返回键模式怎么调(华为手机调返回键怎么调)

  • 华为mate30pro的hd怎么关闭(华为mate30pro的Histen音效无法选择耳机)

    华为mate30pro的hd怎么关闭(华为mate30pro的Histen音效无法选择耳机)

  • 共享屏幕还能看到人吗(共享屏幕会被发现吗)

    共享屏幕还能看到人吗(共享屏幕会被发现吗)

  • 机顶盒有必要装吗(机顶盒现在有必要买吗)

    机顶盒有必要装吗(机顶盒现在有必要买吗)

  • rtf和word有什么区别(doc和rtf的区别)

    rtf和word有什么区别(doc和rtf的区别)

  • 华为子公司都有哪些(华为子公司有多少家)

    华为子公司都有哪些(华为子公司有多少家)

  • 手机无法连接电脑是什么原因(手机无法连接电话网络怎么回事)

    手机无法连接电脑是什么原因(手机无法连接电话网络怎么回事)

  • 苹果原装充电器是多少w(苹果原装充电器哪个好 图拉斯)

    苹果原装充电器是多少w(苹果原装充电器哪个好 图拉斯)

  • 华为来电视频怎么弄的(华为来电视频怎么不显示)

    华为来电视频怎么弄的(华为来电视频怎么不显示)

  • psp怎么恢复出厂设置(psp恢复初始设定)

    psp怎么恢复出厂设置(psp恢复初始设定)

  • 发布的抖音怎么删除(发布的抖音怎么修改文案)

    发布的抖音怎么删除(发布的抖音怎么修改文案)

  • 完整的计算机系统包括(完整的计算机系统包括软件系统和什么系统)

    完整的计算机系统包括(完整的计算机系统包括软件系统和什么系统)

  • 怎样解除微信自动扣款(怎样解除微信自动扣费业务服务)

    怎样解除微信自动扣款(怎样解除微信自动扣费业务服务)

  • 一加7怎么显示网速(一加7怎么显示运行内存)

    一加7怎么显示网速(一加7怎么显示运行内存)

  • 电脑显卡插在哪个位置(电脑显卡插哪个卡槽)

    电脑显卡插在哪个位置(电脑显卡插哪个卡槽)

  • 本地连接未识别网络怎么弄(本地连接未识别的网络无法上网)

    本地连接未识别网络怎么弄(本地连接未识别的网络无法上网)

  • 微信号被投诉举报封号了怎么办(微信账号被投诉后会出现什么样的反应)

    微信号被投诉举报封号了怎么办(微信账号被投诉后会出现什么样的反应)

  • iphone11什么时候可以激活(iphone11什么时候下架的)

    iphone11什么时候可以激活(iphone11什么时候下架的)

  • 电话薄如何导入卡上(电话薄如何导入手机里)

    电话薄如何导入卡上(电话薄如何导入手机里)

  • 小米手环3和nfc版区别(小米手环3和4的区别)

    小米手环3和nfc版区别(小米手环3和4的区别)

  • ppt怎么制作动画小人(ppt怎么制作动画路径)

    ppt怎么制作动画小人(ppt怎么制作动画路径)

  • 怎么刷门禁卡(oppo手机怎么刷门禁卡)

    怎么刷门禁卡(oppo手机怎么刷门禁卡)

  • CSS给元素添加边框(样式、颜色、宽度)(css给div加边框)

    CSS给元素添加边框(样式、颜色、宽度)(css给div加边框)

  • phpcms选择utf8还是gpk(phpcms使用教程)

    phpcms选择utf8还是gpk(phpcms使用教程)

  • 自然人税收管理系统残疾人申报
  • 节能服务公司可以做什么
  • 劳务费增值税专用发票税率是多少
  • 支付职工医疗保险怎么查
  • 企业对公账户钱怎么取出来
  • 自产和外购的视频区别
  • 利润表的营业成本包括哪些
  • 增值税退税比例怎么算
  • 哪个税种不需要认定就能在电子税务局申报
  • 支票取现的用途
  • 应收账款无法收回会计分录
  • 在建工程过程中取得收入怎么入账
  • 土地出让金抵减销项税如何申报
  • 房屋维修基金怎么入帐
  • 搬运费计入
  • 发票认证后1年还能用吗
  • 小规模纳税人转成一般纳税人条件
  • 有代扣个税的是什么人
  • 税务局查账征收转为核定征收之程序
  • 增值税专票盖章盖在哪里
  • 应纳税所得额和应纳税额的区别
  • 企业生产总值怎么算出来的
  • 待处理流动资产损失属于什么科目
  • 企业收到供货单位提供的材料
  • 生产设备投资入股增值税
  • 收到工会经费返还属于现金流量表哪
  • windows10如何重置密码
  • 联想lenovo ideapad 320-15AST
  • 什么是电力市场
  • 劳务发票税率是多少
  • 已认证的发票退税怎么退
  • 有限公司股权怎么划分
  • 股东分红怎么处理
  • “linux系统”
  • 失控发票的企业如何处理
  • vue获取本地文件生成流
  • 房贷贷款利息计算
  • excel2019冻结
  • wrme.exe是什么
  • php nl2br
  • 银行发行债券要求
  • 请问酒厂销售酒怎么样?
  • bert multihead
  • 维多利亚国家艺术馆
  • redux reducer使用教程
  • seaborn库的特点
  • 蓝桥杯2021出结果
  • uniapp h5路由模式
  • 当月勾选认证可以在下月抵扣吗
  • 增值税为什么不能在税前扣除
  • 辞退员工福利
  • 安全宣传标牌
  • 转让旧固定资产怎么处理
  • 销售额多少需要纳税
  • 无偿借贷什么意思
  • 公对公打款发票
  • 公司给非本单位的个人转账有风险怎么平账
  • 筹建期的收入要交企业所得税吗
  • 其他单位无偿过账合法吗
  • 工程安装公司注册条件
  • 总资产利润率一般为多少
  • 租写字楼可以办个体户吗
  • 会计科目费用类
  • 账簿设制的一般程序
  • window系统大全
  • win7系统ctfmon在哪个文件夹
  • centos7找不到服务器
  • linux单个文件夹文件数量
  • ie11打不开闪退解决办法win 7
  • linux查找文件语句
  • pe,翻译
  • Android OpenGL ES(六)----进入三维在代码中创建投影矩阵和旋转矩阵
  • JavaScript中数组长度的属性
  • 批处理列出文件名
  • shell语言的特点
  • python用什么编辑
  • 江苏省国家税务局总局官网
  • 沈阳地方税务局原局长
  • 河南电子税务局官网入口
  • 山东省国税局领导分工
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号