位置: IT常识 - 正文

基于 transformers 的 generate() 方法实现多样化文本生成:参数含义和算法原理解读(基于transformers的nlp入门 pdf)

编辑:rootadmin
基于 transformers 的 generate() 方法实现多样化文本生成:参数含义和算法原理解读 一、前言

推荐整理分享基于 transformers 的 generate() 方法实现多样化文本生成:参数含义和算法原理解读(基于transformers的nlp入门 pdf),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:基于FOB镜检查的吸入性AIS分级系统,基于专业性的家校双向互动,需要家长的学校教育参与,基于核心素养下的大单元教学设计,基于transformers的nlp入门 pdf,基于网页的客服系统,基于核心素养下的大单元教学设计,基于transformers的nlp入门 pdf,基于是什么意思,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在做文本生成,用到huggingface transformers库的文本生成 generate() 函数,是 GenerationMixin 类的实现(class transformers.generation_utils.GenerationMixin),是自回归文本生成预训练模型相关参数的集大成者。因此本文解读一下这些参数的含义以及常用的 Greedy Search、Beam Search、Sampling(Temperature、Top-k、Top-p)等各个算法的原理。

这个类对外提供的方法是 generate(),通过调参能完成以下事情:

greedy decoding:当 num_beams=1 而且 do_sample=False 时,调用 greedy_search()方法,每个step生成条件概率最高的词,因此生成单条文本。multinomial sampling:当 num_beams=1 且 do_sample=True 时,调用 sample() 方法,对词表做一个采样,而不是选条件概率最高的词,增加多样性。beam-search decoding:当 num_beams>1 且 do_sample=False 时,调用 beam_search() 方法,做一个 num_beams 的柱搜索,每次都是贪婪选择top N个柱。beam-search multinomial sampling:当 num_beams>1 且 do_sample=True 时,调用 beam_sample() 方法,相当于每次不再是贪婪选择top N个柱,而是加了一些采样。diverse beam-search decoding:当 num_beams>1 且 num_beam_groups>1 时,调用 group_beam_search() 方法。constrained beam-search decoding:当 constraints!=None 或者 force_words_ids!=None,实现可控文本生成。二、各输入参数含义

接下来分别看看各个输入参数(源代码):

我觉得对文本生成质量最有用的几个参数有:max_length、min_length、do_sample、top_k、top_p、repetition_penalty。接下来选择性地记录各个参数的含义。

inputs (torch.Tensor of varying shape depending on the modality, optional) — The sequence used as a prompt for the generation or as model inputs to the encoder. If None the method initializes it with bos_token_id and a batch size of 1. For decoder-only models inputs should of in the format of input_ids. For encoder-decoder models inputs can represent any of input_ids, input_values, input_features, or pixel_values.

inputs:输入prompt。如果为空,则用batch size为1的 bos_token_id 初始化。对于只有decoder的模型(GPT系列),输入需要是 input_ids;对于 encoder-decoder模型(BART、T5等),输入更多样化。

max_length (int, optional, defaults to model.config.max_length) — The maximum length of the sequence to be generated.

max_length:生成序列的最大长度。

min_length (int, optional, defaults to 10) — The minimum length of the sequence to be generated.

min_length:生成序列的最短长度,默认是10。

do_sample (bool, optional, defaults to False) — Whether or not to use sampling ; use greedy decoding otherwise.

do_sample:是否开启采样,默认是 False,即贪婪找最大条件概率的词。

early_stopping (bool, optional, defaults to False) — Whether to stop the beam search when at least num_beams sentences are finished per batch or not.

early_stopping:是否在至少生成 num_beams 个句子后停止 beam search,默认是False。

num_beams (int, optional, defaults to 1) — Number of beams for beam search. 1 means no beam search.

num_beams:默认是1,也就是不进行 beam search。

temperature (float, optional, defaults to 1.0) — The value used to module the next token probabilities.

默认是1.0,温度越低(小于1),softmax输出的贫富差距越大;温度越高,softmax差距越小。

top_k (int, optional, defaults to 50) — The number of highest probability vocabulary tokens to keep for top-k-filtering.

top_k:top-k-filtering 算法保留多少个 最高概率的词 作为候选,默认50。详见下文。

top_p (float, optional, defaults to 1.0) — If set to float < 1, only the most probable tokens with probabilities that add up to top_p or higher are kept for generation.

top_p:已知生成各个词的总概率是1(即默认是1.0)如果top_p小于1,则从高到低累加直到top_p,取这前N个词作为候选。

typical_p (float, optional, defaults to 1.0) — The amount of probability mass from the original distribution to be considered in typical decoding. If set to 1.0 it takes no effect. See this paper for more details.

typical_p:典型采样(不知道能否这样翻译),默认值 1.0 此参数无效,主要思想:不总是从分布高概率区域中选词,而是从信息含量接近预期值typical_p(即接近模型的条件熵)的单词集合中采样。 论文:Typical Decoding for Natural Language Generation

repetition_penalty (float, optional, defaults to 1.0) — The parameter for repetition penalty. 1.0 means no penalty. See this paper for more details.

repetition_penalty:默认是1.0,重复词惩罚。 论文:CTRL: A CONDITIONAL TRANSFORMER LANGUAGE MODEL FOR CONTROLLABLE GENERATION

pad_token_id (int, optional) — The id of the padding token. bos_token_id (int, optional) — The id of the beginning-of-sequence token. eos_token_id (int, optional) — The id of the end-of-sequence token.

pad_token_id / bos_token_id / eos_token_id:填充词<PAD>、起始附<s>、结束符</s> 的id。

length_penalty (float, optional, defaults to 1.0) — Exponential penalty to the length. 1.0 means that the beam score is penalized by the sequence length. 0.0 means no penalty. Set to values < 0.0 in order to encourage the model to generate longer sequences, to a value > 0.0 in order to encourage the model to produce shorter sequences.

length_penalty:长度惩罚,默认是1.0。

length_penalty=1.0:beam search分数会受到生成序列长度的惩罚length_penalty=0.0:无惩罚length_penalty<0.0:鼓励模型生成长句子length_penalty>0.0:鼓励模型生成短句子

no_repeat_ngram_size (int, optional, defaults to 0) — If set to int > 0, all ngrams of that size can only occur once.

no_repeat_ngram_size:用于控制重复词生成,默认是0,如果大于0,则相应N-gram只出现一次

基于 transformers 的 generate() 方法实现多样化文本生成:参数含义和算法原理解读(基于transformers的nlp入门 pdf)

encoder_no_repeat_ngram_size (int, optional, defaults to 0) — If set to int > 0, all ngrams of that size that occur in the encoder_input_ids cannot occur in the decoder_input_ids.

encoder_no_repeat_ngram_size:也是用于控制重复词生成,默认是0,如果大于0,则encoder_input_ids的N-gram不会出现在 decoder_input_ids里。

bad_words_ids(List[List[int]], optional) — List of token ids that are not allowed to be generated. In order to get the token ids of the words that should not appear in the generated text, use tokenizer(bad_words, add_prefix_space=True, add_special_tokens=False).input_ids.

bad_words_ids:禁止生成的词id列表,可用 tokenizer(bad_words, add_prefix_space=True, add_special_tokens=False).input_ids 方法获取ids。

force_words_ids(List[List[int]] or List[List[List[int]]], optional) — List of token ids that must be generated. If given a List[List[int]], this is treated as a simple list of words that must be included, the opposite to bad_words_ids. If given List[List[List[int]]], this triggers a disjunctive constraint, where one can allow different forms of each word.

force_words_ids:跟上面的 bad_words_ids 相反,这个传入必须生成的token id 列表。如果ids格式是 [List[List[int]]],比如 [[1,2],[3,4]],则触发析取约束(Disjunctive Positive Constraint Decoding),大概意思就是可以生成一个单词不同的形式,比如“lonely”、“loneliness”等。 论文:Guided Generation of Cause and Effect

num_return_sequences(int, optional, defaults to 1) — The number of independently computed returned sequences for each element in the batch.

num_return_sequences:每条输入产生多少条输出序列,默认为1。

max_time:多少秒之后停止生成。

attention_mask:默认跟输入 input_ids 的shape一样,0代表mask,1代表不mask,被mask掉的token不参与计算注意力权重。

decoder_start_token_id:encoder-decoder架构的模型有可能解码起始符跟编码器不一样(比如[CLS]、<s>)时可指定一个int值。

num_beam_groups (int, optional, defaults to 1) :beam search的时候为了确保不同beam之间的多样性,可以将这些beam划分成group,详见论文 Diverse Beam Search: Decoding Diverse Solutions from Neural Sequence Models。

diversity_penalty (float, optional, defaults to 0.0):如果在同一个step中某个beam生成的词和其他beam有相同的,那么就减去这个值作为惩罚,仅在 num_beam_groups 启用时这个值才有效。

prefix_allowed_tokens_fn (Callable[[int, torch.Tensor], List[int]], optional):如果提供该函数,就会把beam search每个step限制在允许的token里搜索,否则不做约束。函数有2个输入,分别是 batch_id 和当前步的输入 input_ids,返回一个list,包含下个step允许的token。可用于条件约束生成。详见论文 Autoregressive Entity Retrieval。

output_attentions (bool, optional, defaults to False) :是否返回所有attention层的注意力矩阵值,默认False。

output_hidden_states (bool, optional, defaults to False):是否返回各个层的hidden_states,默认是False。

output_scores (bool, optional, defaults to False):是否返回预测分数。

forced_bos_token_id (int, optional):解码器在生成 decoder_start_token_id 对应token之后指定生成的token id,mBART这种多语言模型会用到,因为这个值一般用来区分target语种。

forced_eos_token_id (int, optional):达到最大长度 max_length 时,强制作为最后生成的token id。

remove_invalid_values (bool, optional):是否删除模型nan(not a number)和inf(正无穷)防止崩溃,但可能会减慢生成速度。

exponential_decay_length_penalty (tuple(int, float), optional):生成一定数量的token之后,施加一个指数增长的长度惩罚,格式为 (start_index, decay_factor),前者表示从开始施加惩罚的索引,后者表示指数衰减因子。

三、函数输出含义

若 return_dict_in_generate=True 或者 config.return_dict_in_generate=True 时返回 ModelOutput 类对象(class transformers.utils.ModelOutput),否则返回 torch.FloatTensor。

四、各解码算法原理简述

本小节主要介绍自回归文本生成的几个最常用的解码方法,包括 Greedy search, Beam search, Top-K sampling 以及 Top-p sampling。自回归生成都是基于以下公式,也就是假设一个单词序列的概率分布等于各单词条件概率乘积。 P(w1:T∣W)=∏t=1TP(wt∣w1:t−1,W) ,with w1:=∅,P(w_{1:T} | W_0 ) = \prod_{t=1}^T P(w_{t} | w_{1: t-1}, W_0) \text{ ,with } w_{1: 0} = \emptyset,P(w1:T​∣W0​)=t=1∏T​P(wt​∣w1:t−1​,W0​) ,with w1:0​=∅,

4.1 Greedy Search

贪婪搜索,每个时间步 ttt 都选概率最高的那个词: wt=argmaxwP(w∣w1:t−1)w_t = argmax_{w}P(w | w_{1:t-1})wt​=argmaxw​P(w∣w1:t−1​) 比如图中,最终生成的序列是 (“The”,“nice”,“woman”)。这种贪婪算法和beam search的共同弊端就是容易生成重复词,小试一下: 此外,贪婪搜索容易忽略掉低概率词后面的高概率词,比如开头那个图里“the dog has”,概率是 0.4*0.9=0.36,比“the nice woman”的 0.5*0.4=0.20 要高,但由于第一轮dog概率比nice低,导致了与图中更优解擦肩而过。beam search 就能解决这个问题。

4.2 Beam Search

beam search每个时间步选择最可能的 Top - num_beams 个词,解决了贪婪搜索擦肩而过的风险。 如图例子,num_beams=2,第一步选了概率最高的序列 the nice(0.5) 和 the dog(0.4),第二步选了概率最高的序列 the dog has(0.4✖️0.9=0.36)和 the nice woman(0.5✖️0.4=0.20)。

注意,beam search虽然比贪婪搜索能找到概率更高的解,但不保证是全局最优解。

小试一下。设置num_beams > 1,early_stopping=True,当指定数量个beam生成结束符就早停。 比刚才好一些了,但还是有重复,可以加上no_repeat_ngram_size=2 禁止模型生成重复的 2-gram。但是需要慎用,因为“喜欢”这个词生成完后面就不能生成了,这就导致“喜欢周杰伦”没了。 此外,还可以通过 num_return_sequences 参数指定返回概率最高的 topN 个序列。 可见生成的这个top5个序列差异不算太大。

关于beam search,有这么三个说法:

如果生成长度是提前可预知,比如摘要、翻译,这种用beam search好;但开放式生成,比如对话,故事生成等,输出长度变化比较大,就不太适合用beam search了。beam search容易重复生成单词。由于通过大量实验才能达到“禁止生成重复n-gram” 和 “允许周期性生成重复n-gram” 的平衡,所以在开放式生成任务上不太好用这种惩罚来控制重复。人类往往说话时不是总选择高概率的词作为下个词,而是经常猝不及防,出其不意,如图对比。所以beam search还是有很大问题的。 4.3 Sampling

采样算法不再拘泥于高概率词,而是根据条件概率分布随机挑选单词,如图,car这种低概率词也有机会被选中作为生成文本。 generate函数中,设置 do_sample=True,并通过 top_k=0 先暂时停用topk采样,来看看实际效果。 可以看到模型有点胡言乱语的感觉…这时候,temperature参数就派上用场了。

4.3.0 Temperature

temperature参数相当于给softmax降降温,让各个词概率差距加大(跟刚才的随机 sample 相比,增加了高概率词的可能性,降低了低概率词的可能性)公式如下: 对比一下:下图是加了 temperature 的。 下图是没加 temperature 的(默认是1.0)。 可以看到:

T越小,趋近于0,概率密度就越集中在高概率词,就更偏向贪婪搜索,更容易产生重复词。T越大,趋近于1,就越趋向原始softmax,随机性就越大。T越大,甚至大于1,采样越随机,概率分布越趋向均匀分布。 小试一下: temperature = 0.7 时: temperature = 0.1 时: 4.3.1 Top-k 采样

Hierarchical Neural Story Generation 提出了 Top-K 采样方法,原理是先找出K个最有可能的单词,然后在这K个单词中计算概率分布,如图(蓝色为各个step的TopK)。GPT2就用了这种采样方法。 可见比之前要好很多,但是存在问题:

top-k 采样的问题就是这个 K 是死的,没法动态调整,这就导致上面例子中,左图 t=1 步骤,概率分布比较平缓,右图 t=2步骤,概率分布比较悬殊上面例子中,给定the后,t=1选的词还算合理,但t=2时,down 和 a 显然都不太适合但也被选到候选集里了

因此,将候选集限制为固定值K个,可能让模型在右图的悬殊分布里生成胡言乱语,也限制了在平缓分布中的一些创造性。所以top-p采样应运而生。

4.3.2 Top-p 采样

Top-p (nucleus) sampling 是 Ari Holtzman et al. (2019) 提出的算法。他是从使得累计概率超过 p 的最小候选集里选择单词,然后算这些单词的概率分布。这样候选单词集的大小就不跟topK似的一成不变了,会随下一个单词的概率分布动态增加和减少。 比如设置 p = 0.92,给定the后,t=1时前面9个词加起来概率为0.94,刚刚超过了0.92,于是前9个词成了候选词;t=2时前面3个词概率加起来已经达到了0.97。

也就是说,当下个单词不太可预测时,那候选就多一些;如果下个单词模型打眼一看就知道是哪些,那候选就少一些。

top_p 是 0-1 之间的值,值越接近1效果越好。 当 p 设置的比较大时,top-p 采样出来的候选词可能巨多,所以可以跟 top-k 结合起来用,避免那些 top-p 选中的概率很低的词,如图设置 top_p 和 top_k。

官方文档:https://huggingface.co/docs/transformers/v4.20.1/en/main_classes/text_generation#transformers.generation_utils.GenerationMixin.generate

参考资料: https://zhuanlan.zhihu.com/p/115076102 https://zhuanlan.zhihu.com/p/453286395 https://huggingface.co/blog/how-to-generate

本文链接地址:https://www.jiuchutong.com/zhishi/297532.html 转载请保留说明!

上一篇:CSS 获取当前可视屏幕高度--使用calc()方法动态计算宽度或者高度(css获取id)

下一篇:clone下来的vue项目出现“An unknown git error occurred”,vue全局挂载axios及配置全局请求和响应拦截,uni-app的全局请求和响应拦截,对请求方法的封装(vue clonedeep)

  • oppoa53是5G手机吗(oppoa53手机最新款5g怎么样)

    oppoa53是5G手机吗(oppoa53手机最新款5g怎么样)

  • vivo手机如何连接蓝牙(vivo手机如何连接空调开关)

    vivo手机如何连接蓝牙(vivo手机如何连接空调开关)

  • 华为5g手机第一次怎么充电(华为5G手机第一批手机什么时候出版的)

    华为5g手机第一次怎么充电(华为5G手机第一批手机什么时候出版的)

  • iphonex喇叭只有一个响(苹果x有一个喇叭没声音)

    iphonex喇叭只有一个响(苹果x有一个喇叭没声音)

  • iphone怎么恢复微信删除的聊天记录(苹果手机如何恢复微信聊天)

    iphone怎么恢复微信删除的聊天记录(苹果手机如何恢复微信聊天)

  • 腾讯视频qq登录闪退怎么回事(腾讯视频qq登录怎么绑定手机号)

    腾讯视频qq登录闪退怎么回事(腾讯视频qq登录怎么绑定手机号)

  • 华为手机手电筒怎么设置(华为手机手电筒亮度怎么调)

    华为手机手电筒怎么设置(华为手机手电筒亮度怎么调)

  • pdf是扫描件吗(图片转成pdf是扫描件吗)

    pdf是扫描件吗(图片转成pdf是扫描件吗)

  • 腾讯视频必须用微信或qq登录吗(腾讯视频必须用极光投屏吗)

    腾讯视频必须用微信或qq登录吗(腾讯视频必须用极光投屏吗)

  • 钉钉直播最小化计入时长吗(钉钉直播最小化会不会计入听课时间)

    钉钉直播最小化计入时长吗(钉钉直播最小化会不会计入听课时间)

  • 腾讯会议为什么没有声音(腾讯会议为什么不能用蓝牙耳机)

    腾讯会议为什么没有声音(腾讯会议为什么不能用蓝牙耳机)

  • 小米9有实况拍照模式吗(小米9相机有没有实况)

    小米9有实况拍照模式吗(小米9相机有没有实况)

  • 网络大数据特点(网络大数据时代的特征是什么)

    网络大数据特点(网络大数据时代的特征是什么)

  • a1691可以用电信卡吗(a1691能用电信卡吗)

    a1691可以用电信卡吗(a1691能用电信卡吗)

  • 手机号只能注册一个微信号吗(手机号只能注册一个抖音号吗)

    手机号只能注册一个微信号吗(手机号只能注册一个抖音号吗)

  • word邮件合并详细教程(word03邮件合并)

    word邮件合并详细教程(word03邮件合并)

  • ios13怎么修复闪退(iphone13出现闪屏现象)

    ios13怎么修复闪退(iphone13出现闪屏现象)

  • 苹果怎么群删短信(苹果电话怎么群删短信)

    苹果怎么群删短信(苹果电话怎么群删短信)

  • 华为cbg是什么业务(华为cbg是什么的英文缩写)

    华为cbg是什么业务(华为cbg是什么的英文缩写)

  • 怎么关注淘宝直播间(怎么关注淘宝直播间个人主播)

    怎么关注淘宝直播间(怎么关注淘宝直播间个人主播)

  • iqooneo支持nfc功能吗(iqooneo有nfc)

    iqooneo支持nfc功能吗(iqooneo有nfc)

  • 号被盗了怎么冻结(号被盗了怎么冻结账号)

    号被盗了怎么冻结(号被盗了怎么冻结账号)

  • 共享单车定位器在哪里(共享单车定位器长什么样)

    共享单车定位器在哪里(共享单车定位器长什么样)

  • 代销商品的手续费税率是多少
  • 存款利息收入需要缴纳所得税吗
  • 专利资本化条件
  • 红字信息表跨月撤销有什么影响吗
  • 商贸公司可以做美容行业吗?
  • 房地产开发企业预缴增值税
  • 视同销售销售额的确定方法
  • 商业银行的下列哪些行为违反了法律规定?给存款大户
  • 销售蔬菜的个体工商怎么开具发票
  • 进行利润分配时必须遵循的原则
  • 企业取得5%的房产增值税发票是否可以抵扣呢?
  • 红字抵扣怎么开
  • 代开专票作废了扣了两次税怎么办?
  • 是否退还投标文件
  • 期货交易所手续费2023
  • 增值税视同销售包括哪些情况?
  • 异地作业人员的个税必须在收入地交吗?
  • 小规模纳税人是小微企业吗
  • 小规模增值税多少个点
  • 国税地税企业所得税划分
  • 新个税法规定的专项扣除包括住房公积金
  • 提现的现金支票是什么
  • 在会计实务中财务报表附注的披露方法不包括
  • 收入负数怎么分录
  • 华为手机怎么删除多余的桌面
  • wifi认证失败怎么办
  • 代收的水电费怎么做账
  • linux查看文件的权限
  • windows11怎么设置默认应用
  • 工资税后补扣是什么意思
  • php二维数组遍历
  • 异地项目不预缴税款可以开票吗
  • 小规模发票一般怎么开
  • 皮肤痒怎么回事
  • php教程 csdn
  • 补缴税款怎么补
  • 提坏账准备的会计分录 2022
  • 研发人员的差旅费可以加计扣除吗
  • php求日期差
  • ping命令详解步骤
  • 工程物资的税率怎么算
  • 微信手续费由谁承担
  • 自建厂房流程
  • 对公账号可以绑定微信提现吗
  • css设置英文词距
  • phpcms v9安装教程
  • java获取resources下文件路径
  • db2udb
  • mongodb安装教程图解
  • 增值税发票红字发票未抵扣怎么开
  • 代收代缴水费收不上来怎么办
  • 货物搬运费会计科目
  • 企业所得税研发费用如何加计扣除?
  • 企业季度所得税申报流程
  • 预付账款可以抵扣增值税么
  • 主要业务活动是什么意思
  • 购进免税农产品进项税额计算
  • 税费不足50
  • 建筑行业怎么确认收入
  • 小企业营业外收入包括
  • 无息的银行承兑汇票
  • 确认主营业务收入分录怎么写
  • 现金支票存根联丢失怎么办
  • 公对私转账有没有手续费
  • 安装windows7之前,应该做好准备工作
  • win7旗舰版如何进入bios
  • w8系统输入法怎么弄出来
  • Win10 Redstone版Build 14251现身 正式版将在7月份发布
  • webpack-loader
  • cocos设置中文
  • javascript相对路径
  • javascript教程
  • shell脚本逐条执行
  • js怎么修改
  • json对象结构中,关键字key必须为什么类型
  • 河北电子税务局新版登录
  • 房地产预缴土增值税
  • 更改国名
  • 地税服务大厅上班时间
  • 什么是免抵税额和免抵退税额
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设