位置: IT常识 - 正文

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

编辑:rootadmin
【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)

推荐整理分享【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys),希望有所帮助,仅作参考,欢迎阅读内容。

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

文章相关热门搜索词:transformers!,transformer toys,transforms.totensor,transformer toys,transformers game download,transformer toys,transforms.totensor,transformers toys,内容如对您有帮助,希望把文章链接给更多的朋友!

tranformers中的模型在使用之前需要进行分词和编码,每个模型都会自带分词器(tokenizer),熟悉分词器的使用将会提高模型构建的效率。 string tokens ids 三者转换

string → tokens tokenize(text: str, **kwargs)tokens → string convert_tokens_to_string(tokens: List[token])tokens → ids convert_tokens_to_ids(tokens: List[token])ids → tokens convert_ids_to_tokens(ids: int or List[int], skip_special_tokens=False)string → ids encode(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, return_tensors=None) text:str, List[str], List[int]. text_pair: str, List[str], List[int] add_special_tokens: bool.是否添加特殊token([CLS]、[SEP]) max_length: int, None. padding: bool. padding取True or 'longest"时, padding至batch中最长的句子长度; padding取’max_length’时, padding至max_length; padding取False or ‘do_not_pad’ (default), 不padding. truncation: bool, str。只对输入为 sequence pair 有效。truncation取True or 'longest_first’时, token by token 的截断,哪一句长,截断哪一句的最后一个 token,相同长度就第二句。截至总token数等于 max_length; truncation取’only_first’时只截第一句,至总token数等于 max_length; truncation取’only_second’时只截第二句,至总token数等于 max_length;truncation取False or ‘do_not_truncate’ (default)。 return_tensors: str, None。‘tf’, ‘pt’ or ‘np’ 分布表示不同的tensor type.ids → string decode(token_ids: List[int], skip_special_tokens=False, clean_up_tokenization_spaces=True)encode_plus: encode_plus(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, stride=0, is_pretokenized=False, pad_to_multiple_of=None, return_tensors=None, return_token_type_ids=None, return_attention_mask=None, return_overflowing_tokens=False, return_special_tokens_mask=False, return_offsets_mapping=False, return_length=False)batch_encode_plus: 输入为 encode 输入的 batch,其它参数相同。注意,plus 是返回一个字典。batch_decode: 输入是batch.#这里以bert模型为例,使用上述提到的函数from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('bert-base-uncased')text = "It's a nice day today!"#tokenize,#仅用于分词seg_words = tokenizer.tokenize(text) print("tokenize分词结果:\n",seg_words)#convert_tokens_to_ids,将token转化成id,在分词之后。#convert_ids_to_tokens,将id转化成token,通常用于模型预测出结果,查看时使用。seg_word_id = tokenizer.convert_tokens_to_ids(seg_words) print("tokenize Id:\n",seg_word_id)#encode,进行分词和token转换,encode=tokenize+convert_tokens_to_idsencode_text = tokenizer.encode(text)print("encode结果:\n",encode_text)#encode_plus,在encode的基础之上生成input_ids、token_type_ids、attention_maskencode_plus_text = tokenizer.encode_plus(text)print("encode_plus结果:\n",encode_plus_text)#batch_encode_plus,在encode_plus的基础之上,能够批量梳理文本。batch_encode_plus_text = tokenizer.batch_encode_plus([text,text])print("batch_encode_plus结果:\n",batch_encode_plus_text)

本文链接地址:https://www.jiuchutong.com/zhishi/275914.html 转载请保留说明!

上一篇:windows11扩展卷灰色解决方法(电脑扩展卷是灰色的的怎么办)

下一篇:Windows11预览体验计划无法选择渠道怎么办(Windows11预览体验计划空白)

  • 华为鸿蒙os6月2日直播回放入口(鸿蒙os6月2日知乎)

    华为鸿蒙os6月2日直播回放入口(鸿蒙os6月2日知乎)

  • cpu温度过高怎么办电脑自动关机(cpu温度过高怎么办)(CPU温度过高怎么降温)

    cpu温度过高怎么办电脑自动关机(cpu温度过高怎么办)(CPU温度过高怎么降温)

  • vivo如何设置滚动字幕(vivo手机怎样设置滚屏)

    vivo如何设置滚动字幕(vivo手机怎样设置滚屏)

  • 移动硬盘不支持分区是什么意思(移动硬盘不支持win10系统)

    移动硬盘不支持分区是什么意思(移动硬盘不支持win10系统)

  • 笔记本冒号怎么打出来(笔记本冒号怎么用键盘打出来)

    笔记本冒号怎么打出来(笔记本冒号怎么用键盘打出来)

  • 快手商家认证的钱可以退吗(快手商家认证有没有用)

    快手商家认证的钱可以退吗(快手商家认证有没有用)

  • 亲情号代付需要对方确认吗(亲情号代付需要密码吗)

    亲情号代付需要对方确认吗(亲情号代付需要密码吗)

  • 注销快手条件三不通过(注销快手不需要等七天的办法)

    注销快手条件三不通过(注销快手不需要等七天的办法)

  • 触控id密码是多少位(触控id密码是锁屏密码吗)

    触控id密码是多少位(触控id密码是锁屏密码吗)

  • 什么软件能把视频拼接在一起(什么软件能把视频清晰度提高)

    什么软件能把视频拼接在一起(什么软件能把视频清晰度提高)

  • 华为30s怎么截屏(华为30s截屏怎么截)

    华为30s怎么截屏(华为30s截屏怎么截)

  • 出厂设置后照片还在吗(出厂设置后照片恢复)

    出厂设置后照片还在吗(出厂设置后照片恢复)

  • 苹果手机删除的短信可以恢复吗(苹果手机删除的照片还能找到吗)

    苹果手机删除的短信可以恢复吗(苹果手机删除的照片还能找到吗)

  • ppt如何设置16:9模式(PPT如何设置倒计时)

    ppt如何设置16:9模式(PPT如何设置倒计时)

  • 中国联通hd图标什么意思(中国联通hd图标图片)

    中国联通hd图标什么意思(中国联通hd图标图片)

  • 平板电脑能插u盘吗(华为平板电脑能插u盘吗)

    平板电脑能插u盘吗(华为平板电脑能插u盘吗)

  • 苹果11暗黑模式怎么设置(苹果11暗黑模式有什么用)

    苹果11暗黑模式怎么设置(苹果11暗黑模式有什么用)

  • 淘宝直播怎么改名字(淘宝直播怎么改预告时间)

    淘宝直播怎么改名字(淘宝直播怎么改预告时间)

  • iphone11max是双卡吗(iPhone11max是双卡吗)

    iphone11max是双卡吗(iPhone11max是双卡吗)

  • 长城386微机中的386指的是什么(长城 c3296)

    长城386微机中的386指的是什么(长城 c3296)

  • sbc什么意思(蓝牙音响sbc什么意思)

    sbc什么意思(蓝牙音响sbc什么意思)

  • 怎么清理airpods(怎么清理airpods里面的耳屎)

    怎么清理airpods(怎么清理airpods里面的耳屎)

  • 华为mate20pro和华为p30pro对比(华为mate20pro和华为mate50pro对比)

    华为mate20pro和华为p30pro对比(华为mate20pro和华为mate50pro对比)

  • 房地产增值税预缴规定
  • 增值税专用发票可以开电子发票吗
  • 租赁合同印花税双方都要交吗
  • 计提个税会计分录怎么做小规模
  • 房地产收入成本确认
  • 销售免税产品要计算销项税吗
  • t3用友软件怎么设置三级科目
  • 增值税加计扣除账务处理
  • 租赁房屋到期装修费怎么办?
  • 房地产公司的利润怎么分析
  • 审计核减理由
  • 票据和结算凭证上的签章
  • 小规模纳税人按月申报还是按季申报
  • 增值税销项税抵扣不完能退给企业吗?
  • 递延收益的所得税影响
  • 报税没有申报现金流量表
  • 公车私用情形有哪些
  • 主营业务收入怎么结转
  • 固定资产原值减预计净残值等于什么
  • 土地使用权出让金收费标准
  • 怎么计算房产税率
  • 失控发票一定要盖章吗
  • sysprep.exe是什么
  • 租赁合同法律风险
  • windows7怎么操作
  • window102020年最新版本
  • 客户申请退款商家拒绝退货退款会有什么效果
  • aliapp.exe是什么意思
  • php判断字符串长度的方法
  • 来料加工怎么核算成本
  • 冲回暂估分录
  • php实现多条件查询
  • php面向对象的三大特性
  • 商业连锁企业有哪些
  • vue通过url访问单个页面
  • api接口使用方法
  • 我的十年怎么写
  • 一个残疾证一年单位免多少税2023
  • 管家婆软件如何做账
  • java中的gui是什么
  • 外贸企业出口退税申报流程
  • 跨境电商小规模运营负责那些工作
  • 增值税退税流程怎么操作
  • 企业的主要经营指标有哪些
  • 企业累计预扣个税是什么
  • 固定资产报废该怎么处理
  • 前期费用怎么计算
  • sql server使用sql server身份登录
  • 多处取得工资薪金
  • 公司的零星开支怎么做账
  • 损益类科目有哪些借贷方向
  • 差旅费会计科目怎么做
  • 实际缴纳的税金比应交的多的部分记入什么科目
  • 资本公积的主要用途是什么?
  • 收到代理服务费怎么做分录呢
  • 生产成本福利费如何分摊
  • 发票怎么保管不会坏
  • 收到的赔款罚款怎么做账
  • 工程类企业存货包括哪些
  • 残保金减免优惠政策2023最新
  • mysql数据库详解
  • netdrive mac
  • windows8出现蓝屏
  • w10点击没反应
  • linux开启samba服务
  • win10屏幕图片
  • win8玩游戏
  • wow血条插件
  • css透明属性详解怎么写
  • n归档是什么软件
  • shell随机
  • unity如何成一组
  • jquery实现自动轮播
  • input checked选择
  • 个人所得税申诉有什么后果
  • 国考什么时候开始备考比较好
  • 为什么登录不了福建社保网站
  • 企业代缴房产税可以入账吗
  • 深圳土地增值税清算规程
  • 福建生育登记证明电子版在哪查
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设