全文检索系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:dave463
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业规模的不断增加,一个企业内部拥有的文档数量也在不断的增长。由于这些文档的数量较多,并且分布较为分散,这使得企业的业务人员想要获取自己所需要的文档时,会耗费大量的时间和精力。这种情况不但会导致业务人员的工作效率降低,也可能会因为不妥善的管理造成重要文档的丢失,对企业造成十分大的损失。因此设计一套全文检索系统来管理与检索企业中的文档数据具有重要意义。论文首先介绍了课题背景与意义以及论文在实现过程中使用的相关技术,并根据企业的实际业务需求对系统的角色与功能进行分析。根据需求分析结果完成对系统的总体设计、界面设计与数据库设计。最后根据模块化设计思想将系统划分为全文检索、文档管理、文档实时热度排名、系统日志、系统管理六个模块。其中系统管理模块解决对用户信息、部门信息、文档库信息的管理问题。全文检索模块解决用户对文档检索需求。文档段落检索模块可以对上传文档的每个段落进行段落级别检索。文档管理模块帮助用户上传并解析多种类型的文档,并提供修改、删除等功能。文档实时热度排名模块采用实时数据流处理技术实现。首先对用户点击文档行为进行数据埋点,之后进行数据采集,然后通过实时计算得到文档实时点击热度排名。系统日志模块采用日志处理技术将系统日志进行采集,解析,最后可视化的展示。管理员可以通过系统日志功能时刻监控系统的运行、报错、不同用户的访问行为等信息。论文最终完成了对全文检索系统的全部开发工作,系统帮助业务人员管理并检索自己所需要的文档,并为其提供友好的交互页面,提高了业务人员的工作效率。
其他文献
斯宾塞以拉马克主义用进废退的原理来解释生物进化的主要机制.用进废退理念中,适应环境乃是生物进化的关键环节.它蕴含着人类有能力进行某种自我改善的意味,契合了清末黄白种群竞争背景下的社会政治变革思潮.清末所接受的种群进化、竞争论述主要来自斯宾塞,而非达尔文.严复翻译斯宾塞《生物学原理》的片段,创制"体合"一词来描述用进废退的关键环节,以区别于达尔文自然选择理论的"物竞"和"天择",表明了他对斯氏学说的领悟.章太炎用传统语汇"顺天时、就地利"来对译《斯宾塞尔文集》所描述的物种完全适应新环境,提示出在变法时代鼓动
"隐含作者"概念在60年的发展过程中,极大地推动了"不可靠"叙事理论的发展,但也带来了一系列问题.通过反思修辞学派在这一概念上的含混和认知学派在这一概念上的矛盾,分析"隐含作者"概念伦理价值的困境,说明"隐含作者"概念已经完成使命,难以作为继续深入研究的基础."融合作者"是读者、文本和作者"融合"的产物,居于叙事交流的末端而非信息发出的位置.确立作为读者叙事交流成果的"融合作者"概念有利于将读者研究和叙事交流研究推向深入.
在近代中国国家政权建设中,卫生行政始终处于边缘位置,其演变发展不得不借助依附策略,通过附属强势机构才得以创立.国民政府卫生机构负责人利用国际合作和新县制的推行,为卫生行政赢得发展机会.然而,卫生行政的发展受制于国家治理能力和国家医疗卫生水平,由于未能得到足够的财政支持和专业支持,卫生行政成效不佳.整体而言,近代中国卫生行政组织和功能都不完善,是一种碎片化的专业治理.不仅没有形成从中央到地方的卫生垂直管理体系,一直保持着多中心的状态,其结构是分散的、割据式的,而且无论是城市还是乡村,基层都不能为社会大众提供
宗教是古典社会理论家齐美尔在其学术生涯最后20年的研究主题之一,提供了理解齐美尔的现代性理论的独特切入点.从宗教社会学角度来看,齐美尔的宗教研究立足于个体的生命体验、突破了具体的宗教形态,有助于建立一个包容性的分析框架.作者梳理了齐美尔有关宗教作为一种生命形式、宗教情感与社会关系等论述,指出其宗教性概念赋予了信仰者以自主性.通过总结宗教性概念所具有的稳定性、替代性和弥散性等特征,本文讨论了齐美尔理论对当代宗教社会学和中国宗教研究的意义.
鸦片战争后,随着清政府对澳门控制的减弱,葡萄牙开始积极寻求殖民管治澳门.1846至1849年亚马留政府对居澳华人税收制度的确立是澳葡殖民管治政策的重中之重.首先,葡澳政府制定税收方案,明确征税对象为地产、房产和个人所得等,采取"什一税"固定税率,纳税人包括澳门葡人、外国人和华人.其次,设置征税机构,逐步推行向居澳华人征税.先强制收取华人快艇牌照费,以试探居澳华人的纳税态度,随后采取策略加快推进征收华人什一税的进程,费时约三年相继确立对城墙内外华人的税收制度.这段复杂的历史既呈现出清政府与葡萄牙政府在澳门统
概念是建构人类知识大厦的基石."复合单数"是社会科学概念建构的主要方式之一,但目前学术界对这一现象的重视明显不足.概念的复合单数建构体现在将具有复合涵义的争议性概念强制单数化为目标概念的涵义上,复合单数的过程同时是目标概念的地位上升和涵义重塑过程,即目标概念通过复合单数建构而上升为社会的核心概念.与描述性概念和规范性概念的建构方式比较,复合单数在建构方式、动力、主体和时间序列上表现出明显的特性,同时,它也表明了知识建构社会的主要方式.
中文版《马克思恩格斯选集》中将《共产党宣言》的原德文"世界文学"一词新译为"世界的文学",并加以注释,这是一个重要的未被"发现"的马克思主义理论中国化的创新.马克思"世界的文学"以"第一次工业革命"为历史语境;编者注释说明"文学"包括"科学、艺术、哲学、政治等方面的论著",意在解释马克思所说的"精神生产"的整体性.《共产党宣言》发表于1848年,正是"第一次工业革命"的结束时期,综观四次工业革命的进程,正是马克思"世界的文学"揭示了全球化时代精神生产的实质与特性;部分西方理论家批评马克思"世界的文学"是"
情感具有多维性的特点,在生物、神经、认知、文化和结构等不同层面运行.情感社会学奠基者沿着各自路径强调了不同向度.其中,霍克希尔德的情感劳动理论所代表的认知主义建构论影响最为深远.但经验研究对霍氏的理论命题提出了诸多挑战,而这与其将情感视为被社会文化规范所决定的被动客体密切相关.本文提出不能仅仅将情感视为社会效应,还应关注情感的社会动因面向.在情感社会学的早期理论、心理学的基本情感理论以及跨学科的情动转向中,本文挖掘出被霍克希尔德"心灵的整饰"这一意象所遮蔽的反意向主义情感维度:情感的具身性、非意识性、自治
近年来,正交频分复用(Orthogonal frequency division multiplexing,OFDM)技术在许多无线宽带通信系统中得到广泛应用,然而,OFDM技术对频偏的高敏感性导致其在快时变信道中的系统性能大幅衰减;正交时频空(Orthogonal Time Frequency Space,OTFS)技术的提出正是为了解决这一问题,OTFS的创新之处在于其提出了在时延-多普勒域中
任务型多轮对话系统构建方法主要有基于管道(pipeline)方法的和基于端到端(end2end)方法的。传统的基于pipeline方法的模块数量过多,模块之间存在误差传播,难以全局优化。基于end2end的方法则是将模块之间的信息表征为特征向量,解决了误差传播的问题,但是由于缺少对话管理模块的独立控制,导致模型缺少鲁棒性。针对上述两种对话系统存在的问题,本论文提出了一种新的基于pipeline方法