论文部分内容阅读
近年来,人机交互领域越来越成为研究的热点,尤其是开放域对话任务。随着网上海量数据的增长以及深度学习技术的发展,基于数据驱动的对话生成得到了广泛关注。现在主流方法是采用一个Sequence-to-Sequence(Seq2Seq)的框架对对话上下文进行编码,随后解码生成对应的回复。但是,这类方法容易出现“安全回复”问题,即生成的回复没有信息量且无意义。
针对此问题,我们从对话的三要素(说话内容、不同人物角色以及对话时的思维方式)出发来分析现有工作的不足以及提出对应的解决思路:一些工作试图提高上下文语义的理解,来提高回复与其的语义一致性,但忽略了开放域对话中多种对话模式(话题之间的转移),这将使得生成的回复过于单一;另外一些工作将人物信息作为模型的附加内容,虽然在一定程度上提高了回复者一致性,但这样的操作无法迁移到其他语料上;现在大部分的工作在Seq2Seq模型的基础上使用机器翻译任务中的注意力机制模拟对话的过程,但这和人类对话时的思考过程不同,动态的注意力计算过程会破坏回复的中心思想。
因此,我们基于以上三方面的考虑,分别提出了神经变分缩放推理网络(NVSRN)、半监督稳态变分网络(SSVN)和动静态注意力变分网络(SdavNet)。其中我们在NVSRN模型中设置了一个神经对话模式推理器,其借用vonMises-Fisher(vMF)分布刻画方向数据优势,来学习对话中话题之间的偏转,同时设计话题缩放机制来预测该转移的程度,进而生成积极主动且更加合理的回复;我们在SSVN模型中引入了一个无监督的个人特征提取器来捕获回复者的语言风格特点,借此在回复生成器中提高回复者一致性;关于模拟人类思考方式,我们设计了一个静动态注意力机制,该机制中的静态注意力负责推理回复的中心思想,动态注意力部分将该中心思想扩展成完整的回复语句。最后实验结果表明,相比于最优的基线模型,提出的三个网络(NVSRN,SSVN和SdavNet)使得多样化指标在Cornell电影数据集上分别提升了14.56%,34.09%和63.72%,进一步验证了基于此三点的改进在开放域对话生成任务上是有效的。
针对此问题,我们从对话的三要素(说话内容、不同人物角色以及对话时的思维方式)出发来分析现有工作的不足以及提出对应的解决思路:一些工作试图提高上下文语义的理解,来提高回复与其的语义一致性,但忽略了开放域对话中多种对话模式(话题之间的转移),这将使得生成的回复过于单一;另外一些工作将人物信息作为模型的附加内容,虽然在一定程度上提高了回复者一致性,但这样的操作无法迁移到其他语料上;现在大部分的工作在Seq2Seq模型的基础上使用机器翻译任务中的注意力机制模拟对话的过程,但这和人类对话时的思考过程不同,动态的注意力计算过程会破坏回复的中心思想。
因此,我们基于以上三方面的考虑,分别提出了神经变分缩放推理网络(NVSRN)、半监督稳态变分网络(SSVN)和动静态注意力变分网络(SdavNet)。其中我们在NVSRN模型中设置了一个神经对话模式推理器,其借用vonMises-Fisher(vMF)分布刻画方向数据优势,来学习对话中话题之间的偏转,同时设计话题缩放机制来预测该转移的程度,进而生成积极主动且更加合理的回复;我们在SSVN模型中引入了一个无监督的个人特征提取器来捕获回复者的语言风格特点,借此在回复生成器中提高回复者一致性;关于模拟人类思考方式,我们设计了一个静动态注意力机制,该机制中的静态注意力负责推理回复的中心思想,动态注意力部分将该中心思想扩展成完整的回复语句。最后实验结果表明,相比于最优的基线模型,提出的三个网络(NVSRN,SSVN和SdavNet)使得多样化指标在Cornell电影数据集上分别提升了14.56%,34.09%和63.72%,进一步验证了基于此三点的改进在开放域对话生成任务上是有效的。