摘要
本发明公开了一种防止变分自动编码器在文本建模中发生后验坍缩的方法。该方法在模型的解码器中设置Path A和Path B两条路径,在Path A中,将文本实例直接输入解码器,而在Path B中,随机将文本实例中一部分词替换为未登录词统一符号后再输入解码器。模型设置Path停止策略,在模型训练初始阶段,Path A和Path B同时存在,当模型趋近于收敛时,取消Path B。同时使用KL权重置零方法,在KL退火过程中随机将KL权重的一部分维度置为0。本发明所述方法通过Path B迫使模型在潜在变量中编码更多关于输入数据的信息,通过Path A和Path停止策略使模型能够充分利用解码器的表示能力,同时避免模型进入存在Path B时的局部最优状态,并通过KL权重置零方法提升潜在变量中的活跃单元个数,最终更好地解决变分自动编码器在文本建模中的后验坍缩问题。
技术关键词
变分自动编码器
文本
梯度下降算法
输入解码器
后验概率分布
控制解码器
变量
编码器参数
标识
重构
超参数
退火方法
数据
策略更新
训练集