基于知识图谱的搜索引擎技术研究与应用

来源 :电子科技大学 | 被引量 : 23次 | 上传用户:pyking2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅速普及以及数字信息的爆炸式增长带来了宝贵的信息数据财富,尽管这些数据已经被分门别类,但是从成千上万的类别及其子类中检索有效信息对于搜索引擎也是较大的挑战。传统的搜索引擎通过对互联网中的数据进行全文索引,通过关键词匹配索引的方式进行信息检索并返回给用户相关的链接。这种检索方法不能准确理解用户的需求,同时返回的是相关链接而不是用户需要的信息,用户需要从链接的文档中查找相关的信息。为了改善上述传统搜索引擎的弊端,基于知识的搜索引擎引起了研究者和产业界的广泛关注。其主要思想是通过在互联网中进行数据获取,完成数据到知识的转变形成知识网络并提供信息检索功能。本文研究特定领域内的该类型搜索引擎的搭建相关理论及实现方法,希望通过该搜索引擎能够提供特定领域内的实体查询,即通过深度理解用户需求,从实体库中检索出相关实体返回给用户。围绕搭建领域内基于知识图谱的搜索引擎,研究基础搜索引擎框架,网络爬虫,数据索引,知识抽取,图谱模型等关键技术,主要工作包括:(1)提出一种基于本体库的知识抽取方法。通过领域内的本体库,判断从互联网中抓取的数据是否是领域内相关的实体,并从数据中抽取出实体相关的知识碎片,最后融合知识碎片形成领域内的知识。实验证明,这种方法的知识抽取相比传统的基于规则的抽取方法抽取范围更为确定,抽取的知识也较为准确。(2)提出一种基于Lucene的增量索引方法。通过分析Lucene框架以及Lucene的倒排索引和段合并机制,研究Lucene索引实体数据时性能较差的缺点,提出了通过多级索引文件代替索引库的索引方法,实验证明这种方法能够在一定程度上降低实时更新索引库时的耗时且对于检索请求响应更为敏捷。(3)实现了一个“机器学习”领域内的搜索引擎,用来提供相关实体的检索,其中实体主要包括文献,专家,期刊以及领域内相关概念。该搜索引擎以图谱的形式组织领域内的实体以及实体之间的语义网络,不仅提供了信息检索功能,通时提供了更加智能的结果排序以及相关推荐等功能。
其他文献
目的评价丹蒌片治疗稳定型劳累性心绞痛(痰瘀互结证)有效性和安全性。方法本项试验采用分层区组随机、双盲双模拟、阳性药平行对照、多中心临床研究的方法。将符合慢性稳定型
为了解决现有岩棉生产成丝室运行中所存在的集棉鼓集棉均匀度不理想以及废品率较高这两个主要问题,本研究利用数值模拟方法对成丝室内气固两相流场展开研究,分别采用欧拉方法
了解众筹市场中的出资者行为是提高众筹项目成功率的前提。潜在出资者面对已有筹资信息可能表现出两种截然不同的行为:羊群的从众行为和责任扩散的旁观行为。为了探讨众筹过
在生物教学中通过创设民主、和谐的课堂环境,形成良好的师生关系,利于学生主体作用的发挥。在教学中应强调学生的主体作用,采取热情学习、讨论学习、自主学习等多种学习形式,达到
本文通过干熄焦炉料钟的使用条件和磨损状况,针对料钟材料的堆焊性能进行分析,选择合适的焊接方法、焊接材料,制定出合理的工艺和措施,成功地对干熄焦炉料钟表面进行了堆焊修
本文主要以美国黑核桃做砧木,我国普通优质核桃作为接穗,研究了不同嫁接方法对嫁接效果的影响。基于我国诸多学者对美国黑核桃多年的引种试验和结果探析,通过对山西省有关黑
目的 用火焰原子光谱法快速测定螺旋藻中微量元素。方法 用 5 0 %硝酸溶液加热至沸溶解样品 ,再加入乳化剂聚乙二醇辛基苯基醚 (OP)溶液乳化不溶的油脂而制成浮浊液 ,用火
目的研究苋科空心莲子草[Alternan theraphilox eroid es(Mart.)Griseb]的化学成分。方法有机溶剂提取,运用硅胶柱色谱、Sephadex LH-20凝胶柱色谱等色谱技术分离纯化,利用化
为确保全断面矩形快速掘进机在巷道掘进期间顶、帮支护安全可靠,通过对布尔台矿42108辅运巷支护方案进行顶板稳定性评估,得出受煤层顶板和掘进设备的影响。42108辅运巷在掘进