论文部分内容阅读
聊天机器人是自然语言处理领域的一个重要研究方向,旨在让用户能用自然语言的方式与机器进行沟通。基于常见问答对的问答系统,是聊天机器人的一种重要实现方法,通过比较用户的问题与问答对中问题的相似程度,快速地返回一个准确而简洁的答案,其中全面而准确的问答对是问答系统的基础,也是发展瓶颈。在客服领域,大量且真实的人工客服数据为问答系统的使用提供非常合适的应用场景,而且准确且高效的问答系统也为企业节约了客服成本,提高了客服效率。本文以母婴行业的电商客服为背景,主要做了以下几方面的工作:首先,本文针对传统基于常见问答对的问答系统(Frequently Asked Questions,FAQ)框架的不足,在传统FAQ框架的基础,加入意图识别模块,设计了一个新的客服机器人框架。然后,本文针对客服机器人框架中的三个关键技术,关键词自动抽取,意图识别和语义相似度计算,结合本文的实际应用场景,进行了深入的研究。设计了多种关键词特征,利用XGBOOST(eXtreme Gradient Boosting)算法构建了一个关键词自动抽取模型;设计了一个意图分类模板和多种意图识别特征,利用Softmax算法建立一个多分类模型进行意图识别;设计了多种语义相似度特征,基于XGBOOST算法构造语义相似度计算模型。最后,对本文所建立的三种模型进行了实验和评估。本文提出的关键词自动抽取方法相比传统的无监督方法和有监督方法准确率都有大幅提高;意图识别的平均准确率为78.4%;在不同相似性阈值的情况下,基于关键词自动抽取模型的语义相似度计算模型相比基于TF-IDF(Term Frequency–Inverse Document Frequency)的语义相似度计算模型准确率都有提高。将这三种模型用于本文提出的客服机器人框架和传统的FAQ框架,实验结果证明,本文提出的框架比传统的FAQ框架准确率更高。